このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220730となっている論文です。

PDF登録状況(公開日: 20220730)

TitleAuthorsAbstract論文公表日・翻訳日
# TCMI:多変量連続分布のための非パラメトリック相互依存性推定器

TCMI: a non-parametric mutual-dependence estimator for multivariate continuous distributions ( http://arxiv.org/abs/2001.11212v3 )

ライセンス: Link先を確認
Benjamin Regler, Matthias Scheffler, Luca M. Ghiringhelli(参考訳) 関連する特徴、すなわち、プロセスやシステムの特性を決定する駆動変数の識別は、多数の変数を持つデータセットの分析において不可欠な部分である。 これらの特徴の関連性を定量化する数学的厳密なアプローチは相互情報である。 相互情報は、利害関係に対する相互依存の観点から特徴の関連性を決定する。 しかし、相互情報は入力確率分布として必要であり、長さやエネルギーなどの物理量のような連続分布から確実に推定することはできない。 本稿では,累積確率分布に基づく連続分布の確率変数に相互情報を拡張した相互依存の関連性の尺度である total cumulative mutual information (tcmi) を提案する。 TCMIは、異なる基数を持つ特徴集合の比較とランク付けを容易にする非パラメトリックで堅牢で決定論的尺度である。 TCMIによって誘導されるランク付けは特徴選択、すなわち興味のある性質と統計的に関連づけられた変数集合の識別を可能にし、データサンプルの数と変数の集合の濃度を考慮に入れている。 本手法は,シミュレーションデータを用いて性能を評価し,類似の多変量依存性尺度と比較し,標準データセット群と材料科学における典型的なシナリオにおける特徴選択法の有効性を実証する。

The identification of relevant features, i.e., the driving variables that determine a process or the properties of a system, is an essential part of the analysis of data sets with a large number of variables. A mathematical rigorous approach to quantifying the relevance of these features is mutual information. Mutual information determines the relevance of features in terms of their joint mutual dependence to the property of interest. However, mutual information requires as input probability distributions, which cannot be reliably estimated from continuous distributions such as physical quantities like lengths or energies. Here, we introduce total cumulative mutual information (TCMI), a measure of the relevance of mutual dependences that extends mutual information to random variables of continuous distribution based on cumulative probability distributions. TCMI is a non-parametric, robust, and deterministic measure that facilitates comparisons and rankings between feature sets with different cardinality. The ranking induced by TCMI allows for feature selection, i.e., the identification of variable sets that are nonlinear statistically related to a property of interest, taking into account the number of data samples as well as the cardinality of the set of variables. We evaluate the performance of our measure with simulated data, compare its performance with similar multivariate-dependence measures, and demonstrate the effectiveness of our feature-selection method on a set of standard data sets and a typical scenario in materials science.
翻訳日:2023-01-05 12:01:47 公開日:2022-07-30
# 深層ニューラルネットワークを用いた微小血液スメア画像からの急性リンパ性白血病のサブタイプの自動検出

Automated Detection of Acute Lymphoblastic Leukemia Subtypes from Microscopic Blood Smear Images using Deep Neural Networks ( http://arxiv.org/abs/2208.08992v1 )

ライセンス: Link先を確認
Md. Taufiqul Haque Khan Tusar, Roban Khan Anik(参考訳) 毎年30万件の新しい白血病が診断され、全がん症例の2.8%を占めており、その頻度は日々上昇している。 最も危険で致命的な白血病は急性リンパ性白血病(all)であり、小児や成人を含むあらゆる年齢層の人々に影響を与える。 本研究では,深層ニューラルネットワーク(dnn)を用いた顕微鏡的血液スメア画像から多形全発芽細胞を自動検出するシステムを提案する。 このシステムは、全細胞の複数のサブタイプを98%の精度で検出できる。 さらに,顕微鏡的血液スメア画像から全てのサブタイプをリアルタイムに診断する遠隔診断ソフトウェアを開発した。

An estimated 300,000 new cases of leukemia are diagnosed each year which is 2.8 percent of all new cancer cases and the prevalence is rising day by day. The most dangerous and deadly type of leukemia is acute lymphoblastic leukemia (ALL), which affects people of all age groups, including children and adults. In this study, we propose an automated system to detect various-shaped ALL blast cells from microscopic blood smears images using Deep Neural Networks (DNN). The system can detect multiple subtypes of ALL cells with an accuracy of 98 percent. Moreover, we have developed a telediagnosis software to provide real-time support to diagnose ALL subtypes from microscopic blood smears images.
翻訳日:2022-08-28 22:27:17 公開日:2022-07-30
# LRIP-Net:リミテッドアングルCT再構成のための低分解能画像優先ネットワーク

LRIP-Net: Low-Resolution Image Prior based Network for Limited-Angle CT Reconstruction ( http://arxiv.org/abs/2208.00207v1 )

ライセンス: Link先を確認
Qifeng Gao, Rui Ding, Linyuan Wang, Bin Xue, Yuping Duan(参考訳) コンピュータ断層撮影の実践的応用では、投影データは限られた角度の範囲内で取得され、走査条件の制限によりノイズによって破損する可能性がある。 ノイズ不完全な投影データにより、逆問題の不備が生じる。 本研究では,低分解能復元問題は高分解能問題よりも高い数値安定性を有することを理論的に検証する。 次に,低分解能画像を用いた新しいCT再構成モデルを提案し,低分解能画像を用いて再現性を向上させる。 より具体的には、ダウンサンプリングプロジェクションデータ上に低分解能再構成問題を構築し、再構成された低分解能画像を元のリミテッドアングルCT問題の先行知識として利用する。 畳み込みニューラルネットワークによって近似された全てのサブプロブレムの交互方向法による制約最小化問題を解く。 数値実験により, この2倍分解能ネットワークは, 雑音の多い限定角再構成問題において, 変分法と一般学習に基づく再構成法の両方に優れることを示した。

In the practical applications of computed tomography imaging, the projection data may be acquired within a limited-angle range and corrupted by noises due to the limitation of scanning conditions. The noisy incomplete projection data results in the ill-posedness of the inverse problems. In this work, we theoretically verify that the low-resolution reconstruction problem has better numerical stability than the high-resolution problem. In what follows, a novel low-resolution image prior based CT reconstruction model is proposed to make use of the low-resolution image to improve the reconstruction quality. More specifically, we build up a low-resolution reconstruction problem on the down-sampled projection data, and use the reconstructed low-resolution image as prior knowledge for the original limited-angle CT problem. We solve the constrained minimization problem by the alternating direction method with all subproblems approximated by the convolutional neural networks. Numerical experiments demonstrate that our double-resolution network outperforms both the variational method and popular learning-based reconstruction methods on noisy limited-angle reconstruction problems.
翻訳日:2022-08-02 14:59:23 公開日:2022-07-30
# fetoscopic spina bifida repair surgery のためのバーチャルリアリティシミュレータ

Virtual Reality Simulator for Fetoscopic Spina Bifida Repair Surgery ( http://arxiv.org/abs/2208.00169v1 )

ライセンス: Link先を確認
Przemys{\l}aw Korzeniowski, Szymon P{\l}otka, Robert Brawura-Biskupski-Samaha, Arkadiusz Sitek(参考訳) スピナビフィダ(Spina Bifida、SB)は、妊娠初期に発達した、脊髄周囲の脊髄が不完全な閉鎖状態にある出生欠陥である。 妊娠中の妊娠中の胎児で行われている胎児内視鏡下スピナ・ビフィダ修復への関心が高まり、適切な訓練が求められるようになった。 このような手順の学習曲線は急勾配であり、優れた手続きスキルを必要とする。 コンピュータベースのバーチャルリアリティ(VR)シミュレーションシステムは、安全で費用対効果が高く、構成可能なトレーニング環境を提供する。 しかし、私たちの知る限りでは、現在fetoscopic sb-repair手順で利用可能な商用または実験的なvrトレーニングシミュレーションシステムは存在しない。 本稿では,sb-repairのコアマニュアルスキルトレーニングのためのvrシミュレータを提案する。 14名の臨床医から主観的フィードバック(顔と内容の妥当性)を得ることにより,初期シミュレーションリアリズム検証を行った。 シミュレーションの全体的なリアリズムは、平均で4.07で5点のlikertスケール(1 - 非常に非現実的、5 - 非常に現実的)であった。 sb-repairのトレーニングツールとしての有用性および基礎的腹腔鏡スキルの習得には,それぞれ4.63と4.80とマークされた。 これらの結果から,胎児と母親を危険にさらすことなく,手術訓練にVRシミュレーションが寄与する可能性が示唆された。 また、より侵襲的な胎児開腹手術に代えて、より広い手術手順を適応させることも可能であった。

Spina Bifida (SB) is a birth defect developed during the early stage of pregnancy in which there is incomplete closing of the spine around the spinal cord. The growing interest in fetoscopic Spina-Bifida repair, which is performed in fetuses who are still in the pregnant uterus, prompts the need for appropriate training. The learning curve for such procedures is steep and requires excellent procedural skills. Computer-based virtual reality (VR) simulation systems offer a safe, cost-effective, and configurable training environment free from ethical and patient safety issues. However, to the best of our knowledge, there are currently no commercial or experimental VR training simulation systems available for fetoscopic SB-repair procedures. In this paper, we propose a novel VR simulator for core manual skills training for SB-repair. An initial simulation realism validation study was carried out by obtaining subjective feedback (face and content validity) from 14 clinicians. The overall simulation realism was on average marked 4.07 on a 5-point Likert scale (1 - very unrealistic, 5 - very realistic). Its usefulness as a training tool for SB-repair as well as in learning fundamental laparoscopic skills was marked 4.63 and 4.80, respectively. These results indicate that VR simulation of fetoscopic procedures may contribute to surgical training without putting fetuses and their mothers at risk. It could also facilitate wider adaptation of fetoscopic procedures in place of much more invasive open fetal surgeries.
翻訳日:2022-08-02 14:50:54 公開日:2022-07-30
# ノードの近傍次数周波数に基づく局所グラフ埋め込み

Local Graph Embeddings Based on Neighbors Degree Frequency of Nodes ( http://arxiv.org/abs/2208.00152v1 )

ライセンス: Link先を確認
Vahid Shirbisheh(参考訳) 本稿では,ノードの局所的特徴とベクトル表現を定義し,ディープニューラルネットワークを用いてノードのグローバルに定義されたメトリクスと特性を学習することにより,グラフ機械学習とネットワーク解析のための局所的対グローバル戦略を提案する。 Breath-First Search を通じてノードの次数の概念を拡張することにより、ノードの重要性を明らかにすることができる {\bfパラメトリック中央関数の一般族が定義される。 我々は、非方向グラフのノードのユークリッド空間への局所的に定義された埋め込みとして、近傍次数周波数 (NDF) を導入する。 これにより、ノードの局所近傍の構造を符号化し、グラフ同型テストに使用できるノードのベクトル化されたラベル付けが生まれる。 動的グラフも処理できるように、構築に柔軟性を加えています。 その後、Breadth-First Search は NDF ベクトル表現をノードの近傍に関する高次情報を含む2つの異なる行列表現に拡張するために使われる。 ノードのマトリックス表現は、ノードの近傍の形状を視覚化する新しい方法を提供する。 さらに,これらの行列表現を用いて,典型的なディープラーニングアルゴリズムに適した特徴ベクトルを求める。 これらのノードの埋め込みに実際にノードに関する情報が含まれていることを示すために、PageRankとCloseness Centralityは、これらのローカルな特徴にディープラーニングを適用することで学習可能であることを示す。 私たちの構成は進化するグラフを扱うのに十分柔軟です。 最後に、有向グラフに対する構成の適応方法について説明する。

We propose a local-to-global strategy for graph machine learning and network analysis by defining certain local features and vector representations of nodes and then using them to learn globally defined metrics and properties of the nodes by means of deep neural networks. By extending the notion of the degree of a node via Breath-First Search, a general family of {\bf parametric centrality functions} is defined which are able to reveal the importance of nodes. We introduce the {\bf neighbors degree frequency (NDF)}, as a locally defined embedding of nodes of undirected graphs into euclidean spaces. This gives rise to a vectorized labeling of nodes which encodes the structure of local neighborhoods of nodes and can be used for graph isomorphism testing. We add flexibility to our construction so that it can handle dynamic graphs as well. Afterwards, the Breadth-First Search is used to extend NDF vector representations into two different matrix representations of nodes which contain higher order information about the neighborhoods of nodes. Our matrix representations of nodes provide us with a new way of visualizing the shape of the neighborhood of a node. Furthermore, we use these matrix representations to obtain feature vectors, which are suitable for typical deep learning algorithms. To demonstrate these node embeddings actually contain some information about the nodes, in a series of examples, we show that PageRank and closeness centrality can be learned by applying deep learning to these local features. Our constructions are flexible enough to handle evolving graphs. Finally, we explain how to adapt our constructions for directed graphs.
翻訳日:2022-08-02 14:48:02 公開日:2022-07-30
# 公平性制約による多様性最大化のためのストリーミングアルゴリズム

Streaming Algorithms for Diversity Maximization with Fairness Constraints ( http://arxiv.org/abs/2208.00194v1 )

ライセンス: Link先を確認
Yanhao Wang and Francesco Fabbri and Michael Mathioudakis(参考訳) 多様性の最大化は、データ要約、web検索、レコメンダシステムにおける幅広いアプリケーションにおいて根本的な問題である。 集合 $X$ of $n$ 要素が与えられたとき、$S$内の要素間の相違によって定量化されるように、最大 \emph{diversity} を持つ部分集合 $S$ of $k \ll n$ 要素を選択する。 本稿では,ストリーミング環境における公平性制約を伴う多様性の最大化問題に着目する。 具体的には、その中の任意の異なる要素の対の間の最小距離(相似性)を最大化する部分集合$S$を選択する極小多様性目的を考える。 集合 $X$ が $m$ disjoint group に分割されていると仮定すると、例えば、セックスやレース、保証 \emph{fairness} は、選択されたサブセット $S$ は、各グループ $i \in [1,m]$ の $k_i$ 要素を含む必要がある。 ストリーミングアルゴリズムは、1回のパスで$x$を順次処理し、フェアネス制約を保証しながら最大値 \emph{diversity} のサブセットを返す必要がある。 多様性の最大化は広く研究されているが、最大限の多様性目標と公正性制約を扱える唯一の既知のアルゴリズムは、データストリームにとって非常に非効率である。 ダイバーシティの最大化は一般にnpハードであるため、データストリームにおける公平な多様性の最大化のための2つの近似アルゴリズムを提案する。1つは$\frac{1-\varepsilon}{4}$-approximateで、$m=2$、$\varepsilon \in (0,1)$、そしてもう1つは$\frac{1-\varepsilon}{3m+2}$-approximationである。 実世界および合成データセットでの実験的結果は、両方のアルゴリズムがストリーミング環境で数桁の高速化を実行しながら、最先端のアルゴリズムに匹敵する品質のソリューションを提供することを示している。

Diversity maximization is a fundamental problem with wide applications in data summarization, web search, and recommender systems. Given a set $X$ of $n$ elements, it asks to select a subset $S$ of $k \ll n$ elements with maximum \emph{diversity}, as quantified by the dissimilarities among the elements in $S$. In this paper, we focus on the diversity maximization problem with fairness constraints in the streaming setting. Specifically, we consider the max-min diversity objective, which selects a subset $S$ that maximizes the minimum distance (dissimilarity) between any pair of distinct elements within it. Assuming that the set $X$ is partitioned into $m$ disjoint groups by some sensitive attribute, e.g., sex or race, ensuring \emph{fairness} requires that the selected subset $S$ contains $k_i$ elements from each group $i \in [1,m]$. A streaming algorithm should process $X$ sequentially in one pass and return a subset with maximum \emph{diversity} while guaranteeing the fairness constraint. Although diversity maximization has been extensively studied, the only known algorithms that can work with the max-min diversity objective and fairness constraints are very inefficient for data streams. Since diversity maximization is NP-hard in general, we propose two approximation algorithms for fair diversity maximization in data streams, the first of which is $\frac{1-\varepsilon}{4}$-approximate and specific for $m=2$, where $\varepsilon \in (0,1)$, and the second of which achieves a $\frac{1-\varepsilon}{3m+2}$-approximation for an arbitrary $m$. Experimental results on real-world and synthetic datasets show that both algorithms provide solutions of comparable quality to the state-of-the-art algorithms while running several orders of magnitude faster in the streaming setting.
翻訳日:2022-08-02 14:47:37 公開日:2022-07-30
# ディープラーニングのためのソースコード表現にコンテキストを追加する

Adding Context to Source Code Representations for Deep Learning ( http://arxiv.org/abs/2208.00203v1 )

ライセンス: Link先を確認
Fuwei Tian and Christoph Treude(参考訳) ディープラーニングモデルは、コード分類、要約、バグや脆弱性検出など、さまざまなソフトウェアエンジニアリングタスクにうまく適用されています。 これらのタスクにディープラーニングを適用するためには、ソースコードをディープラーニングモデルへの入力に適したフォーマットで表現する必要がある。 トークン、抽象構文木(AST)、データフローグラフ(DFG)、制御フローグラフ(CFG)といったソースコードを表現するほとんどのアプローチは、コード自体にのみ焦点を当てており、ディープラーニングモデルに有用な追加のコンテキストを考慮していない。 本稿では、ディープラーニングモデルが、分析対象のコードに関する追加のコンテキスト情報にアクセスできることは有益であると論じる。 我々は、コール階層からコンテキストをエンコーディングし、コード自体の情報とともに、2つのソフトウェアエンジニアリングタスクのための最先端のディープラーニングモデルの性能を向上させるための予備的な証拠を示す。 深層学習のためのソースコード表現にさらに文脈情報を追加するための研究課題について概説する。

Deep learning models have been successfully applied to a variety of software engineering tasks, such as code classification, summarisation, and bug and vulnerability detection. In order to apply deep learning to these tasks, source code needs to be represented in a format that is suitable for input into the deep learning model. Most approaches to representing source code, such as tokens, abstract syntax trees (ASTs), data flow graphs (DFGs), and control flow graphs (CFGs) only focus on the code itself and do not take into account additional context that could be useful for deep learning models. In this paper, we argue that it is beneficial for deep learning models to have access to additional contextual information about the code being analysed. We present preliminary evidence that encoding context from the call hierarchy along with information from the code itself can improve the performance of a state-of-the-art deep learning model for two software engineering tasks. We outline our research agenda for adding further contextual information to source code representations for deep learning.
翻訳日:2022-08-02 14:46:52 公開日:2022-07-30
# DRSOM : 次元低減2次法と予備解析

DRSOM: A Dimension Reduced Second-Order Method and Preliminary Analyses ( http://arxiv.org/abs/2208.00208v1 )

ライセンス: Link先を確認
Chuwen Zhang, Dongdong Ge, Bo Jiang, Yinyu Ye(参考訳) 凸および非凸非拘束最適化のための次元還元二階法(DRSOM)を提案する。 信頼領域のような枠組みの下では、2階法の収束を保ち、ヘッセンベクトル積のみを2方向で使用する。 さらに、計算オーバーヘッドは勾配降下法のような一階に匹敵するままである。 本手法は部分空間における一階および二階条件を満たすために, $o(\epsilon^{-3/2})$ の複雑性を持つことを示す。 DRSOMの適用性と性能は、ロジスティック回帰、$L_2-L_p$最小化、センサネットワークのローカライゼーション、ニューラルネットワークトレーニングなど、様々な計算実験によって示されている。 ニューラルネットワークでは,sgdやadamなど,最先端の1次手法よりも,学習精度と反復複雑性の面で計算の利点が期待できる。

We introduce a Dimension-Reduced Second-Order Method (DRSOM) for convex and nonconvex unconstrained optimization. Under a trust-region-like framework our method preserves the convergence of the second-order method while using only Hessian-vector products in two directions. Moreover, the computational overhead remains comparable to the first-order such as the gradient descent method. We show that the method has a complexity of $O(\epsilon^{-3/2})$ to satisfy the first-order and second-order conditions in the subspace. The applicability and performance of DRSOM are exhibited by various computational experiments in logistic regression, $L_2-L_p$ minimization, sensor network localization, and neural network training. For neural networks, our preliminary implementation seems to gain computational advantages in terms of training accuracy and iteration complexity over state-of-the-art first-order methods including SGD and ADAM.
翻訳日:2022-08-02 14:46:34 公開日:2022-07-30
# 計算力学のための幾何学的深層学習(第2報) 解釈可能な多スケール塑性のためのグラフ埋め込み

Geometric deep learning for computational mechanics Part II: Graph embedding for interpretable multiscale plasticity ( http://arxiv.org/abs/2208.00246v1 )

ライセンス: Link先を確認
Nikolaos N. Vlassis and WaiChing Sun(参考訳) 古典的な可塑性モデルの履歴依存的挙動は、現象論的法則に従って進化した内部変数によってしばしば引き起こされる。 これらの内部変数がどのように変形の歴史を表すかを理解するのが困難であること、キャリブレーションと検証のための内部変数の直接測定の欠如、そしてこれらの現象学的法則の弱い物理的基盤は、現実的なモデルを作る障壁として長い間批判されてきた。 本研究では, 非線形次元還元法と塑性モデルとの接続を確立する手段として, グラフデータ上の幾何学的機械学習(有限要素解など)を用いる。 グラフ上の幾何学的学習に基づく符号化により、リッチな時間履歴データを低次元ユークリッド空間に埋め込むことができ、プラスチック変形の進化が埋め込み特徴空間で予測できる。 対応するデコーダは、これらの低次元の内部変数を重み付けグラフに変換でき、塑性変形の位相的特徴を観測して解析することができる。

The history-dependent behaviors of classical plasticity models are often driven by internal variables evolved according to phenomenological laws. The difficulty to interpret how these internal variables represent a history of deformation, the lack of direct measurement of these internal variables for calibration and validation, and the weak physical underpinning of those phenomenological laws have long been criticized as barriers to creating realistic models. In this work, geometric machine learning on graph data (e.g. finite element solutions) is used as a means to establish a connection between nonlinear dimensional reduction techniques and plasticity models. Geometric learning-based encoding on graphs allows the embedding of rich time-history data onto a low-dimensional Euclidean space such that the evolution of plastic deformation can be predicted in the embedded feature space. A corresponding decoder can then convert these low-dimensional internal variables back into a weighted graph such that the dominating topological features of plastic deformation can be observed and analyzed.
翻訳日:2022-08-02 14:46:19 公開日:2022-07-30
# アプリケーションドメインによるGitHubリポジトリの自動分類

Automatically Categorising GitHub Repositories by Application Domain ( http://arxiv.org/abs/2208.00269v1 )

ライセンス: Link先を確認
Francisco Zanartu and Christoph Treude and Bruno Cartaxo and Hudson Silva Borges and Pedro Moura and Markus Wagner and Gustavo Pinto(参考訳) GitHubは、インターネット上で最大のオープンソースソフトウェアホストである。 この大規模で自由にアクセスできるデータベースは、実践者や研究者の注目を集めている。 しかし、githubの成長が進むにつれて、広範囲のドメインにまたがるリポジトリをナビゲートすることがますます難しくなってきている。 過去の研究から、リポジトリの人気予測やプロジェクト品質の推論といったタスクには、アプリケーションドメインを考慮に入れることが不可欠であることが示されている。 この作業では、5,000のGitHubリポジトリの注釈付きデータセット上に構築し、アプリケーションドメインでリポジトリを分類するための自動分類器を設計します。 この分類器は最先端の自然言語処理技術と機械学習を使用して、5つのアプリケーションドメインに従って複数のデータソースとカタログリポジトリから学習する。 我々は,(1) 人気リポジトリを少なくとも70%の精度で各アプリケーションドメインに割り当てる自動分類器,(2) 人気が低いリポジトリ上でのアプローチのパフォーマンスの調査,(3) ソフトウェア工学の実践がアプリケーションドメイン間でどのように異なるかを理解するための,このアプローチの実践的応用について提案する。 私たちの研究はGitHubコミュニティが関心のあるリポジトリを識別することを支援することを目的としており、様々なアプリケーションドメインのリポジトリの違いを調査するための将来的な道を開くことを目的としています。

GitHub is the largest host of open source software on the Internet. This large, freely accessible database has attracted the attention of practitioners and researchers alike. But as GitHub's growth continues, it is becoming increasingly hard to navigate the plethora of repositories which span a wide range of domains. Past work has shown that taking the application domain into account is crucial for tasks such as predicting the popularity of a repository and reasoning about project quality. In this work, we build on a previously annotated dataset of 5,000 GitHub repositories to design an automated classifier for categorising repositories by their application domain. The classifier uses state-of-the-art natural language processing techniques and machine learning to learn from multiple data sources and catalogue repositories according to five application domains. We contribute with (1) an automated classifier that can assign popular repositories to each application domain with at least 70% precision, (2) an investigation of the approach's performance on less popular repositories, and (3) a practical application of this approach to answer how the adoption of software engineering practices differs across application domains. Our work aims to help the GitHub community identify repositories of interest and opens promising avenues for future work investigating differences between repositories from different application domains.
翻訳日:2022-08-02 14:46:01 公開日:2022-07-30
# 確率最適化のためのコーシーランダム摂動を用いた勾配平滑化関数アルゴリズム

A Gradient Smoothed Functional Algorithm with Truncated Cauchy Random Perturbations for Stochastic Optimization ( http://arxiv.org/abs/2208.00290v1 )

ライセンス: Link先を確認
Akash Mondal, Prashanth L. A., Shalabh Bhatnagar(参考訳) 本稿では,雑音の多いコストサンプルに対する期待値であるスムーズな目的関数を最小化し,そのパラメータに対して後者のみを観測する確率勾配アルゴリズムを提案する。 提案アルゴリズムでは, 単位球面から乱れたコーシー分布を用いて, ランダムな摂動を伴う勾配推定手法を用いる。 提案した勾配推定器のバイアスとばらつきを解析する。 本アルゴリズムは, 目的関数が凸でない場合, パラメータ次元が高い場合に特に有用であることがわかった。 漸近収束解析により、我々のアルゴリズムは目的関数の定常点の集合にほぼ確実に収束し、漸近収束率を得る。 また,本アルゴリズムは不安定な平衡を回避し,局所最小値への収束を示唆することを示す。 さらに,本アルゴリズムの非漸近収束解析を行う。 特に、ここで非凸目的関数の $\epsilon$-stationary point を見つけるための非漸近境界を確立する。 最後に,GSF,SPSA,RDSAの性能が,いくつかの非凸設定よりもかなり優れており,その性能が凸(ノイズ)目標よりも優れていることをシミュレーションにより数値的に示す。

In this paper, we present a stochastic gradient algorithm for minimizing a smooth objective function that is an expectation over noisy cost samples and only the latter are observed for any given parameter. Our algorithm employs a gradient estimation scheme with random perturbations, which are formed using the truncated Cauchy distribution from the unit sphere. We analyze the bias and variance of the proposed gradient estimator. Our algorithm is found to be particularly useful in the case when the objective function is non-convex, and the parameter dimension is high. From an asymptotic convergence analysis, we establish that our algorithm converges almost surely to the set of stationary points of the objective function and obtain the asymptotic convergence rate. We also show that our algorithm avoids unstable equilibria, implying convergence to local minima. Further, we perform a non-asymptotic convergence analysis of our algorithm. In particular, we establish here a non-asymptotic bound for finding an $\epsilon$-stationary point of the non-convex objective function. Finally, we demonstrate numerically through simulations that the performance of our algorithm outperforms GSF, SPSA and RDSA by a significant margin over a few non-convex settings and further validate its performance over convex (noisy) objectives.
翻訳日:2022-08-02 14:45:39 公開日:2022-07-30
# ニューラルネットワーク推論と高レベル合成を用いたディジタル信号プロセッサへの固定関数結合論理の効率的なコンパイルとマッピング

Efficient Compilation and Mapping of Fixed Function Combinational Logic onto Digital Signal Processors Targeting Neural Network Inference and Utilizing High-level Synthesis ( http://arxiv.org/abs/2208.00302v1 )

ライセンス: Link先を確認
Soheil Nazar Shahsavani, Arash Fayyazi, Mahdi Nazemi, and Massoud Pedram(参考訳) 今日のアプリケーション要件を満たすニューラルネットワーク(NN)アクセラレータのパフォーマンス向上に向けた最近の取り組みは、固定関数の組み合わせ論理に依存するロジックベースのNN推論の新しいトレンドを生み出している。 多くの入力変数と製品項を持つそのような大きなブール関数をフィールドプログラマブルゲートアレイ(FPGA)上のデジタル信号プロセッサ(DSP)にマッピングするには、このプロセスにおけるDSPブロックの構造と再構成性を考慮する新しいフレームワークが必要である。 本稿では,各関数に対応するブール演算をFPGA上のルックアップテーブル(LUT)ではなくDSPデバイスにマッピングすることで,DSPブロックの高速,低レイテンシ,並列性を生かして,固定関数結合論理ブロックをブール関数の集合にマッピングする。 また,高次合成フローを用いたFPGA上でのDSPに対する固定関数組合せ論理を用いて,NNのコンパイルとマッピングのための革新的な設計と最適化手法を提案する。 %) 提案手法は, DSPを用いた従来のFPGAベースNNアクセラレータと比較して, 予測遅延と出力精度において, フレームワークの同等性能を示すものである。

Recent efforts for improving the performance of neural network (NN) accelerators that meet today's application requirements have given rise to a new trend of logic-based NN inference relying on fixed function combinational logic. Mapping such large Boolean functions with many input variables and product terms to digital signal processors (DSPs) on Field-programmable gate arrays (FPGAs) needs a novel framework considering the structure and the reconfigurability of DSP blocks during this process. The proposed methodology in this paper maps the fixed function combinational logic blocks to a set of Boolean functions where Boolean operations corresponding to each function are mapped to DSP devices rather than look-up tables (LUTs) on the FPGAs to take advantage of the high performance, low latency, and parallelism of DSP blocks. % This paper also presents an innovative design and optimization methodology for compilation and mapping of NNs, utilizing fixed function combinational logic to DSPs on FPGAs employing high-level synthesis flow. % Our experimental evaluations across several \REVone{datasets} and selected NNs demonstrate the comparable performance of our framework in terms of the inference latency and output accuracy compared to prior art FPGA-based NN accelerators employing DSPs.
翻訳日:2022-08-02 14:45:19 公開日:2022-07-30
# ネットワークコミュニティ検出の20年

20 years of network community detection ( http://arxiv.org/abs/2208.00111v1 )

ライセンス: Link先を確認
Santo Fortunato, Mark E. J. Newman(参考訳) ネットワークデータの分析における基本的な技術的課題は、強く結びついたり、類似した機能や役割を共有するノード群である、コミュニティの自動発見である。 本解説では,過去20年間のこの分野の進展を概観する。

A fundamental technical challenge in the analysis of network data is the automated discovery of communities - groups of nodes that are strongly connected or that share similar features or roles. In this commentary we review progress in the field over the last 20 years.
翻訳日:2022-08-02 14:39:56 公開日:2022-07-30
# 強化学習による車両システムの統一的自動制御

Unified Automatic Control of Vehicular Systems with Reinforcement Learning ( http://arxiv.org/abs/2208.00268v1 )

ライセンス: Link先を確認
Zhongxia Yan, Abdul Rahman Kreidieh, Eugene Vinitsky, Alexandre M. Bayen, Cathy Wu(参考訳) 自動部品の比率が増大する車両システムは、混雑を緩和し効率を上げるために最適な制御を行う機会を与える。 近年,これらの非線形力学系に深部強化学習(DRL)を適用し,効果的な制御戦略の自動設計への関心が高まっている。 DRLがモデルのないという概念上の利点にもかかわらず、研究は通常、特定の車両システムに特化している訓練装置に依存している。 これは、様々な車両および移動システムの効率的な分析に欠かせない課題である。 この目的のために, 車両のマイクロシミュレーションの合理化手法を提案し, 最小限の手動設計で高性能な制御戦略を見出した。 車両部分観測マルコフ決定プロセスの最適化のために,可変エージェントマルチタスク方式を提案する。 この手法は、車両のごく一部が自動化されている混合自律交通システムで実験的に検証されており、経験的改善(通常、人間の運転基準より15~60%)は、6つの異なるオープンまたはクローズド交通システムの全ての構成で観察される。 この研究は、波動緩和、交通信号、ランプ計測に類似した多くの創発的挙動を明らかにしている。 最後に、創発行動を分析して解釈可能な制御戦略を生成し、学習した制御戦略に対して検証する。

Emerging vehicular systems with increasing proportions of automated components present opportunities for optimal control to mitigate congestion and increase efficiency. There has been a recent interest in applying deep reinforcement learning (DRL) to these nonlinear dynamical systems for the automatic design of effective control strategies. Despite conceptual advantages of DRL being model-free, studies typically nonetheless rely on training setups that are painstakingly specialized to specific vehicular systems. This is a key challenge to efficient analysis of diverse vehicular and mobility systems. To this end, this article contributes a streamlined methodology for vehicular microsimulation and discovers high performance control strategies with minimal manual design. A variable-agent, multi-task approach is presented for optimization of vehicular Partially Observed Markov Decision Processes. The methodology is experimentally validated on mixed autonomy traffic systems, where fractions of vehicles are automated; empirical improvement, typically 15-60% over a human driving baseline, is observed in all configurations of six diverse open or closed traffic systems. The study reveals numerous emergent behaviors resembling wave mitigation, traffic signaling, and ramp metering. Finally, the emergent behaviors are analyzed to produce interpretable control strategies, which are validated against the learned control strategies.
翻訳日:2022-08-02 14:39:53 公開日:2022-07-30
# 密度曲率特徴によるバンプハンティング

Bump hunting through density curvature features ( http://arxiv.org/abs/2208.00174v1 )

ライセンス: Link先を確認
Jos\'e E. Chac\'on and Javier Fern\'andez Serrano(参考訳) バンプハンティングは、バンプとして知られる意味のあるデータサブセットのサンプル空間の発見を扱う。 これらは伝統的に、基底密度関数のグラフにおけるモジュラー領域あるいは凹部領域として考えられている。 確率密度の曲率関数に基づく抽象的なバンプ構造を定義する。 次に,二階まで導関数を含むいくつかの代替特性について検討する。 特に、グッドとガスキンスのオリジナルの凹バンプの適切な実装が多変量の場合において提案されている。 さらに,適用領域において良好な結果をもたらす平均曲率やラプラシアンといった探索データ解析の概念も導入する。 本手法は,カーネル密度推定器を用いた曲率関数の近似に対処する。 ハウドルフ距離におけるバンプ境界の漸近的一貫性を、安価な収束率で保証する理論的結果を提供する。 また, 漸近的に有効かつ一貫した信頼領域を曲率バンプに束縛する。 この理論は、nba、mlb、nflのデータセットを用いたスポーツ分析のいくつかのユースケースで示されている。 異なる曲率のインスタンスを効果的に組み合わせ、洞察に富んだ可視化を生成する。

Bump hunting deals with finding in sample spaces meaningful data subsets known as bumps. These have traditionally been conceived as modal or concave regions in the graph of the underlying density function. We define an abstract bump construct based on curvature functionals of the probability density. Then, we explore several alternative characterizations involving derivatives up to second order. In particular, a suitable implementation of Good and Gaskins' original concave bumps is proposed in the multivariate case. Moreover, we bring to exploratory data analysis concepts like the mean curvature and the Laplacian that have produced good results in applied domains. Our methodology addresses the approximation of the curvature functional with a plug-in kernel density estimator. We provide theoretical results that assure the asymptotic consistency of bump boundaries in the Hausdorff distance with affordable convergence rates. We also present asymptotically valid and consistent confidence regions bounding curvature bumps. The theory is illustrated through several use cases in sports analytics with datasets from the NBA, MLB and NFL. We conclude that the different curvature instances effectively combine to generate insightful visualizations.
翻訳日:2022-08-02 14:39:16 公開日:2022-07-30
# ピクセル追跡による心筋磁気共鳴画像の心壁分節の時間的外挿

Temporal extrapolation of heart wall segmentation in cardiac magnetic resonance images via pixel tracking ( http://arxiv.org/abs/2208.00165v1 )

ライセンス: Link先を確認
Arash Rabbani, Hao Gao, Dirk Husmeier(参考訳) 本研究では,心磁気共鳴画像における心室セグメンテーションマスクの時間的外挿のための画素追跡法を考案した。 画素追跡プロセスは、利用可能な手作業で区切られた画像を用いて、心周期の末期ダイアストリックフレームから始まり、終端シストリックセグメンテーションマスクを予測する。 superpixelsアプローチは、rawイメージを小さなセルに分割するために使用され、各タイムフレームで新しいラベルが画像セルに割り当てられ、異なるフレームを通して心臓壁要素の移動を追跡する。 サイストルの端にある追跡マスクは、既に手動で手動のセグメンテーションマスクと比較され、ダイススコアは0.81から0.84である。 提案手法が必ずしもトレーニングデータセットを必要としないことを考えると,訓練データに制限のあるシナリオにおいて,ディープラーニングセグメンテーション手法の魅力的な代替手段となる可能性がある。

In this study, we have tailored a pixel tracking method for temporal extrapolation of the ventricular segmentation masks in cardiac magnetic resonance images. The pixel tracking process starts from the end-diastolic frame of the heart cycle using the available manually segmented images to predict the end-systolic segmentation mask. The superpixels approach is used to divide the raw images into smaller cells and in each time frame, new labels are assigned to the image cells which leads to tracking the movement of the heart wall elements through different frames. The tracked masks at the end of systole are compared with the already available manually segmented masks and dice scores are found to be between 0.81 to 0.84. Considering the fact that the proposed method does not necessarily require a training dataset, it could be an attractive alternative approach to deep learning segmentation methods in scenarios where training data are limited.
翻訳日:2022-08-02 14:35:32 公開日:2022-07-30
# 2次元フォワード型ソナー型多視点ステレオの擬似正面奥行き学習

Learning Pseudo Front Depth for 2D Forward-Looking Sonar-based Multi-view Stereo ( http://arxiv.org/abs/2208.00233v1 )

ライセンス: Link先を確認
Yusheng Wang and Yonghoon Ji and Hiroshi Tsuchiya and Hajime Asama and Atsushi Yamashita(参考訳) 水中ロボット工学の分野では,2次元前方ソナーから音響画像の欠落した次元情報を取得することがよく知られている。 ロボットがフライスルーモーションで3Dマップを作成できるように、単一の画像から3D情報を検索しようとする作業もある。 しかし, 独自の画像定式化原理により, 1枚の画像から3次元情報を推定することは, 深刻な曖昧性問題に直面している。 多視点ステレオの古典的な手法は曖昧さの問題を回避できるが、正確なモデルを生成するのに多くの視点を必要とする。 本研究では,3次元情報を推定する学習型多視点ステレオ手法を提案する。 複数フレームからの情報をよりよく活用するために,深度方位上昇コスト量を生成するために,高架平面掃討法を提案する。 正規化後の体積は、対象の確率的体積表現と見なすことができる。 標高角のレグレッションを行う代わりに、コストボリュームから擬似前面深度を用いて3次元情報を表現し、音響画像における2D-3D問題を回避する。 精度の高い結果は2つまたは3つの画像で生成できる。 様々な水中ターゲットをシミュレートするために合成データセットが作成された。 私たちはまた、大規模な水槽に正確な地上真理を持つ最初の実際のデータセットを構築しました。 実験により,他の最先端手法と比較して,本手法の優位性を示した。

Retrieving the missing dimension information in acoustic images from 2D forward-looking sonar is a well-known problem in the field of underwater robotics. There are works attempting to retrieve 3D information from a single image which allows the robot to generate 3D maps with fly-through motion. However, owing to the unique image formulation principle, estimating 3D information from a single image faces severe ambiguity problems. Classical methods of multi-view stereo can avoid the ambiguity problems, but may require a large number of viewpoints to generate an accurate model. In this work, we propose a novel learning-based multi-view stereo method to estimate 3D information. To better utilize the information from multiple frames, an elevation plane sweeping method is proposed to generate the depth-azimuth-elevation cost volume. The volume after regularization can be considered as a probabilistic volumetric representation of the target. Instead of performing regression on the elevation angles, we use pseudo front depth from the cost volume to represent the 3D information which can avoid the 2D-3D problem in acoustic imaging. High-accuracy results can be generated with only two or three images. Synthetic datasets were generated to simulate various underwater targets. We also built the first real dataset with accurate ground truth in a large scale water tank. Experimental results demonstrate the superiority of our method, compared to other state-of-the-art methods.
翻訳日:2022-08-02 14:35:18 公開日:2022-07-30
# 光場圧縮のための量子化による希釈低ランクニューラルラジアンス場

Distilled Low Rank Neural Radiance Field with Quantization for Light Field Compression ( http://arxiv.org/abs/2208.00164v1 )

ライセンス: Link先を確認
Jinglei Shi and Christine Guillemot(参考訳) 本稿では,QDLR-NeRF(Quantized Distilled Low Rank Neural Radiance Field)表現に基づく新しい光場圧縮法を提案する。 既存の圧縮手法は光場サブアパーチャ画像の集合を符号化するが、提案手法は、視線合成を可能にするニューラルレージアンスフィールド(NeRF)の形で暗黙的なシーン表現を学習する。 テンソルトレイン (TT) を分解した低ランク (LR) 制約の下で, 乗算器の交互方向法 (ADMM) の最適化フレームワークを用いてモデルを学習する。 モデルサイズをさらに小さくするには、テンソルトレイン分解の成分を量子化する必要がある。 しかし,低ランク制約と速度制約重み量子化を同時に考慮し,nrfモデルの最適化を行うことは困難である。 このような問題に対処するため,ネットワークトレーニングにおいて低階近似と重み量子化を分離するネットワーク蒸留操作を導入する。 初期LR拘束型NeRF(LR-NeRF)からの情報は、LR-NeRFのTT分解に基づいて、非常に小さな次元(DLR-NeRF)のモデルに蒸留される。 最適化されたグローバルコードブックは、すべてのTTコンポーネントを量子化し、最終的なQDLRNeRFを生成する。 実験の結果,提案手法は最先端の手法と比較して圧縮効率が良く,また,高品質な光界ビューを合成できるという利点があることがわかった。

In this paper, we propose a novel light field compression method based on a Quantized Distilled Low Rank Neural Radiance Field (QDLR-NeRF) representation. While existing compression methods encode the set of light field sub-aperture images, our proposed method instead learns an implicit scene representation in the form of a Neural Radiance Field (NeRF), which also enables view synthesis. For reducing its size, the model is first learned under a Low Rank (LR) constraint using a Tensor Train (TT) decomposition in an Alternating Direction Method of Multipliers (ADMM) optimization framework. To further reduce the model size, the components of the tensor train decomposition need to be quantized. However, performing the optimization of the NeRF model by simultaneously taking the low rank constraint and the rate-constrained weight quantization into consideration is challenging. To deal with this difficulty, we introduce a network distillation operation that separates the low rank approximation and the weight quantization in the network training. The information from the initial LR constrained NeRF (LR-NeRF) is distilled to a model of a much smaller dimension (DLR-NeRF) based on the TT decomposition of the LR-NeRF. An optimized global codebook is then learned to quantize all TT components, producing the final QDLRNeRF. Experimental results show that our proposed method yields better compression efficiency compared with state-of-the-art methods, and it additionally has the advantage of allowing the synthesis of any light field view with a high quality.
翻訳日:2022-08-02 14:27:15 公開日:2022-07-30
# 電子商取引の検索結果改善のための実践

Some Practice for Improving the Search Results of E-commerce ( http://arxiv.org/abs/2208.00108v1 )

ライセンス: Link先を確認
Fanyou Wu, Yang Liu, Rado Gazo, Benes Bedrich, Xiaobo Qu(参考訳) 我々は,Amazon KDD Cup 2022において,eコマースのユーザエクスペリエンスとエンゲージメントを大幅に向上させるような,検索結果の品質向上を目的とした自然言語処理手法を提案する。 このコンペティションの実際的なソリューションについて,第1タスクで第6位,第2タスクで第2位,第3タスクで第2位を議論する。 コードはhttps://github.com/wufanyou/KDD-Cup-2022-Amazonで入手できる。

In the Amazon KDD Cup 2022, we aim to apply natural language processing methods to improve the quality of search results that can significantly enhance user experience and engagement with search engines for e-commerce. We discuss our practical solution for this competition, ranking 6th in task one, 2nd in task two, and 2nd in task 3. The code is available at https://github.com/wufanyou/KDD-Cup-2022-Amazon.
翻訳日:2022-08-02 14:24:01 公開日:2022-07-30
# Celeritas: 大規模データフローグラフの高速最適化

Celeritas: Fast Optimizer for Large Dataflow Graphs ( http://arxiv.org/abs/2208.00184v1 )

ライセンス: Link先を確認
Hengwei Xu, Yong Liao, Haiyong Xie, Pengyuan Zhou(参考訳) 急速に拡大するニューラルネットワークモデルは、単一のデバイスで実行するのがますます難しくなっている。 したがって、複数のデバイス上のモデル並列性は、大規模モデルのトレーニングの効率を保証するために重要である。 最近の提案は、処理時間が長いかパフォーマンスが悪いかのいずれかで不足している。 そこで我々は,大規模モデルのデバイス配置を最適化するための高速なフレームワークであるCereritasを提案する。 Celeritasは、標準評価において単純だが効率的なモデル並列化戦略を採用し、一連のスケジューリングアルゴリズムを通じて配置ポリシーを生成する。 我々はCereritasを多数の大規模モデル上で展開および評価する実験を行う。 その結果、celeritasは配置ポリシー生成時間を26.4\%削減するだけでなく、他の先進的な手法と比較してモデル実行時間を34.2\%向上させることがわかった。

The rapidly enlarging neural network models are becoming increasingly challenging to run on a single device. Hence model parallelism over multiple devices is critical to guarantee the efficiency of training large models. Recent proposals fall short either in long processing time or poor performance. Therefore, we propose Celeritas, a fast framework for optimizing device placement for large models. Celeritas employs a simple but efficient model parallelization strategy in the Standard Evaluation, and generates placement policies through a series of scheduling algorithms. We conduct experiments to deploy and evaluate Celeritas on numerous large models. The results show that Celeritas not only reduces the placement policy generation time by 26.4\% but also improves the model running time by 34.2\% compared to most advanced methods.
翻訳日:2022-08-02 14:23:52 公開日:2022-07-30
# PUSH:Fasibility PUmpとSHiftingに基づく原始的ヒューリスティック

PUSH: a primal heuristic based on Feasibility PUmp and SHifting ( http://arxiv.org/abs/2208.00191v1 )

ライセンス: Link先を確認
Giorgio Grani and Corrado Coppola and Valerio Agasucci(参考訳) 本研究は、Fasibility PumpとShiftingを組み合わせた原始ヒューリスティックPUSHについて述べる。 主なアイデアは、実現性ポンプの丸めフェーズをシフトおよび他の丸めヒューリスティックの適切な適応に置き換えることである。 このアルゴリズムは、得られた部分的な丸みの性質によって異なる戦略を示す。 特に、部分解が実現可能で、潜在的な候補に対して不可能であり、候補者なしでは不可能である場合を区別する。 我々はしきい値を用いて、変数の比率をアルゴリズムで計算し、どの変数を最も近い整数に丸めるかを示しました。 最も重要なことに、我々のアルゴリズムは行を重複することなく直接平等な制約に取り組む。 マイプコンペティション2022に提供された19のインスタンス上で,アルゴリズムのパラメータを選択する。 最後に、私たちのアプローチを、非ゼロ数で順序付けられた最初の800MIPLIB2017インスタンスにおいて、Simple Rounding、 Rounding、Shifting、Feasibility Pumpといった他の開始ヒューリスティックと比較した。

This work describes PUSH, a primal heuristic combining Feasibility Pump and Shifting. The main idea is to replace the rounding phase of the Feasibility Pump with a suitable adaptation of the Shifting and other rounding heuristics. The algorithm presents different strategies, depending on the nature of the partial rounding obtained. In particular, we distinguish when the partial solution is feasible, infeasible with potential candidates, and infeasible without candidates. We used a threshold to indicate the percentage of variables to round with our algorithm and which other to round to the nearest integer. Most importantly, our algorithm tackles directly equality constraints without duplicating rows. We select the parameters of our algorithm on the 19 instances provided for the Mip Competition 2022. Finally, we compared our approach to other start heuristics, like Simple Rounding, Rounding, Shifting, and Feasibility Pump on the first 800 MIPLIB2017 instances ordered by the number of non-zeros.
翻訳日:2022-08-02 14:23:41 公開日:2022-07-30
# 深層強化学習による車両経路問題の解法

Solving the vehicle routing problem with deep reinforcement learning ( http://arxiv.org/abs/2208.00202v1 )

ライセンス: Link先を確認
Simone Foa and Corrado Coppola and Giorgio Grani and Laura Palagi(参考訳) 近年,NP-Hard Combinatorial 最適化問題に対する強化学習(RL)の方法論の適用が注目されている。 これは本質的には従来の組合せアルゴリズムの性質によるもので、しばしば試行錯誤プロセスに基づいている。 rlはこのプロセスの自動化を目指している。 本稿では,NP-Hard 問題に属する有名な組合せ問題である Vehicle Routing Problem (VRP) に対する RL の適用に焦点をあてる。 本稿では,まず,マルコフ決定過程(mdp)として問題をモデル化し,その後,ppo法(強化学習手法のアクタ批判クラスに属する)を適用する。 第2フェーズでは、アクターと批評家の背後にあるニューラルアーキテクチャが確立され、アクターと批評家の両方に対して、畳み込みニューラルネットワークに基づいたニューラルアーキテクチャを採用することを選んだ。 この選択は、異なるサイズの問題に効果的に対処する結果となった。 広範囲のインスタンスで実施された実験では、アルゴリズムが優れた一般化能力を持ち、短時間で良い解に達することが示されている。 提案したアルゴリズムと最先端の解法OR-TOOLSを比較すると、後者は強化学習アルゴリズムよりも優れていることがわかる。 しかし,提案アルゴリズムの現在の性能向上を目的とした今後の研究展望がある。

Recently, the applications of the methodologies of Reinforcement Learning (RL) to NP-Hard Combinatorial optimization problems have become a popular topic. This is essentially due to the nature of the traditional combinatorial algorithms, often based on a trial-and-error process. RL aims at automating this process. At this regard, this paper focuses on the application of RL for the Vehicle Routing Problem (VRP), a famous combinatorial problem that belongs to the class of NP-Hard problems. In this work, first, the problem is modeled as a Markov Decision Process (MDP) and then the PPO method (which belongs to the Actor-Critic class of Reinforcement learning methods) is applied. In a second phase, the neural architecture behind the Actor and Critic has been established, choosing to adopt a neural architecture based on the Convolutional neural networks, both for the Actor and the Critic. This choice resulted in effectively addressing problems of different sizes. Experiments performed on a wide range of instances show that the algorithm has good generalization capabilities and can reach good solutions in a short time. Comparisons between the algorithm proposed and the state-of-the-art solver OR-TOOLS show that the latter still outperforms the Reinforcement learning algorithm. However, there are future research perspectives, that aim to upgrade the current performance of the algorithm proposed.
翻訳日:2022-08-02 14:23:26 公開日:2022-07-30
# 経験的リプレイによる強化学習と行動分散の適応

Reinforcement learning with experience replay and adaptation of action dispersion ( http://arxiv.org/abs/2208.00156v1 )

ライセンス: Link先を確認
Pawe{\l} Wawrzy\'nski, Wojciech Masarczyk, Mateusz Ostaszewski(参考訳) 効果的な強化学習は、行動分布の分散によって定義される探索と利用の適切なバランスを必要とする。 しかし、このバランスはタスク、学習過程の現在の段階、そして現在の環境状態に依存する。 作用分布の分散を示す既存の方法は問題依存のハイパーパラメータを必要とする。 本稿では,次の原則を用いて,行動分布の分散を自動的に定義することを提案する。 そのため、この分散は、再生バッファ内の動作の十分な高い確率(密度)と、それらを生成する分布のモードを保証するように調整されるべきであるが、この分散は高くはならない。 このように、バッファ内のアクションに基づいてポリシーを効果的に評価することができるが、このポリシーが収束すると、アクションの探索的ランダム性が減少する。 上記の原則は、ant、halfcheetah、hopper、walker2dといった挑戦的なベンチマークで検証されています。 提案手法は,動作標準偏差を試行錯誤最適化の結果と類似した値に収束させる。

Effective reinforcement learning requires a proper balance of exploration and exploitation defined by the dispersion of action distribution. However, this balance depends on the task, the current stage of the learning process, and the current environment state. Existing methods that designate the action distribution dispersion require problem-dependent hyperparameters. In this paper, we propose to automatically designate the action distribution dispersion using the following principle: This distribution should have sufficient dispersion to enable the evaluation of future policies. To that end, the dispersion should be tuned to assure a sufficiently high probability (densities) of the actions in the replay buffer and the modes of the distributions that generated them, yet this dispersion should not be higher. This way, a policy can be effectively evaluated based on the actions in the buffer, but exploratory randomness in actions decreases when this policy converges. The above principle is verified here on challenging benchmarks Ant, HalfCheetah, Hopper, and Walker2D, with good results. Our method makes the action standard deviations converge to values similar to those resulting from trial-and-error optimization.
翻訳日:2022-08-02 14:10:02 公開日:2022-07-30
# HPO X ELA:探索的景観解析によるハイパーパラメータ最適化景観の調査

HPO X ELA: Investigating Hyperparameter Optimization Landscapes by Means of Exploratory Landscape Analysis ( http://arxiv.org/abs/2208.00220v1 )

ライセンス: Link先を確認
Lennart Schneider, Lennart Sch\"apermeier, Raphael Patrick Prager, Bernd Bischl, Heike Trautmann, Pascal Kerschke(参考訳) ハイパーパラメータ最適化(hpo)は、ピーク予測性能を達成するための機械学習モデルの重要なコンポーネントである。 hpoの多くの手法やアルゴリズムは近年提案されているが、これらのブラックボックス最適化問題の実際の構造を照らして検証する手法はほとんど進歩していない。 探索ランドスケープ分析(ELA)は、未知の最適化問題の特性に関する知識を得るために使用できる一連のテクニックを仮定する。 本稿では,10個の異なるデータセットで学習したxgboost学習者の2次元,3次元,5次元の連続探索空間からなる,30個のhpo問題に対する5種類のブラックボックス最適化の性能を評価する。 これは black-box optimization benchmark (bbob) による360問題インスタンスで評価された同じオプティマイザのパフォーマンスとは対照的である。 次に,HPOおよびBBOB問題におけるERAの特徴を計算し,類似点と相違点について検討する。 ela特徴空間におけるhpo問題とbbob問題のクラスター解析により,hpo問題と構造メタレベルのbbob問題との比較を明らかにした。 ELAの機能空間におけるHPO問題に近いBBOB問題のサブセットを特定し、この2つのベンチマーク問題に対してオプティマイザ性能が相似であることを示す。 ela for hpo のオープンな課題を取り上げ,今後の研究と応用の可能性について論じる。

Hyperparameter optimization (HPO) is a key component of machine learning models for achieving peak predictive performance. While numerous methods and algorithms for HPO have been proposed over the last years, little progress has been made in illuminating and examining the actual structure of these black-box optimization problems. Exploratory landscape analysis (ELA) subsumes a set of techniques that can be used to gain knowledge about properties of unknown optimization problems. In this paper, we evaluate the performance of five different black-box optimizers on 30 HPO problems, which consist of two-, three- and five-dimensional continuous search spaces of the XGBoost learner trained on 10 different data sets. This is contrasted with the performance of the same optimizers evaluated on 360 problem instances from the black-box optimization benchmark (BBOB). We then compute ELA features on the HPO and BBOB problems and examine similarities and differences. A cluster analysis of the HPO and BBOB problems in ELA feature space allows us to identify how the HPO problems compare to the BBOB problems on a structural meta-level. We identify a subset of BBOB problems that are close to the HPO problems in ELA feature space and show that optimizer performance is comparably similar on these two sets of benchmark problems. We highlight open challenges of ELA for HPO and discuss potential directions of future research and applications.
翻訳日:2022-08-02 14:09:45 公開日:2022-07-30
# ANOVAによる自動属性選択と心疾患予後予測モデル

ANOVA-based Automatic Attribute Selection and a Predictive Model for Heart Disease Prognosis ( http://arxiv.org/abs/2208.00296v1 )

ライセンス: Link先を確認
Mohammed Nowshad Ruhani Chowdhury, Wandong Zhang, Thangarajah Akilan(参考訳) 研究によると、心臓血管疾患(CVD)はヒトの健康にとって悪性である。 したがって、CVD予後の効率的な方法を持つことが重要である。 これを受けて、医療業界は、CVD予後のマニュアルプロセスを軽減するために、機械学習ベースのスマートソリューションを採用した。 そこで本研究では,分散分析(ANOVA)とドメインエキスパートの知識を融合した情報融合手法を提案する。 また、新しい研究のためのCVDデータサンプルのコレクションも導入している。 4つのベンチマークデータセットと新たに作成されたデータセットで、提案フレームワークのパフォーマンスを検証するために、徹底的に38の実験が行われている。 アブレーション研究により,提案手法は平均平均精度 (maa) を99.2%,平均平均auc を97.9%達成できることが示された。

Studies show that Studies that cardiovascular diseases (CVDs) are malignant for human health. Thus, it is important to have an efficient way of CVD prognosis. In response to this, the healthcare industry has adopted machine learning-based smart solutions to alleviate the manual process of CVD prognosis. Thus, this work proposes an information fusion technique that combines key attributes of a person through analysis of variance (ANOVA) and domain experts' knowledge. It also introduces a new collection of CVD data samples for emerging research. There are thirty-eight experiments conducted exhaustively to verify the performance of the proposed framework on four publicly available benchmark datasets and the newly created dataset in this work. The ablation study shows that the proposed approach can achieve a competitive mean average accuracy (mAA) of 99.2% and a mean average AUC of 97.9%.
翻訳日:2022-08-02 14:09:22 公開日:2022-07-30
# プライバシ保護,リアルタイム,無意味な機能マッチングを目指して

Towards Privacy-Preserving, Real-Time and Lossless Feature Matching ( http://arxiv.org/abs/2208.00214v1 )

ライセンス: Link先を確認
Qiang Meng, Feng Zhou(参考訳) ほとんどのビジュアル検索アプリケーションは、下流マッチングタスクのための特徴ベクトルを格納する。 これらのベクターは、ユーザー情報を吐き出すことができる場所から、慎重に守られなければプライバシーの漏洩を引き起こす。 プライバシーリスクを軽減するため、現在の作業では、主に非可逆変換や完全な暗号アルゴリズムを使用している。 しかし、変換ベースの手法は通常マッチング性能を満足できないが、暗号システムは計算のオーバーヘッドが重い。 さらに、潜在的な敵の攻撃に対処するために、現在のメソッドのセキュアなレベルが改善されるべきである。 そこで本稿では,ランダムな置換,4l-dec変換,および既存の準同型暗号技術によって特徴を保護できるsecurevectorというプラグインモジュールを提案する。 SecureVectorは、サニタイズされた機能間のリアルタイムとロスレスの機能マッチングを初めて達成し、現在の最先端技術よりもはるかに高いセキュリティレベルを実現した。 顔認識,人物再同定,画像検索,プライバシー分析などの広範な実験を行い,本手法の有効性を実証した。 この分野での限られたパブリックプロジェクトを考えると、我々のメソッドと実装済みのベースラインのコードは、https://github.com/irvingmeng/securevectorでオープンソースにされます。

Most visual retrieval applications store feature vectors for downstream matching tasks. These vectors, from where user information can be spied out, will cause privacy leakage if not carefully protected. To mitigate privacy risks, current works primarily utilize non-invertible transformations or fully cryptographic algorithms. However, transformation-based methods usually fail to achieve satisfying matching performances while cryptosystems suffer from heavy computational overheads. In addition, secure levels of current methods should be improved to confront potential adversary attacks. To address these issues, this paper proposes a plug-in module called SecureVector that protects features by random permutations, 4L-DEC converting and existing homomorphic encryption techniques. For the first time, SecureVector achieves real-time and lossless feature matching among sanitized features, along with much higher security levels than current state-of-the-arts. Extensive experiments on face recognition, person re-identification, image retrieval, and privacy analyses demonstrate the effectiveness of our method. Given limited public projects in this field, codes of our method and implemented baselines are made open-source in https://github.com/IrvingMeng/SecureVector.
翻訳日:2022-08-02 13:48:53 公開日:2022-07-30
# RBP-Pose:カテゴリーレベルポス推定のための残留境界ボックス投影

RBP-Pose: Residual Bounding Box Projection for Category-Level Pose Estimation ( http://arxiv.org/abs/2208.00237v1 )

ライセンス: Link先を確認
Ruida Zhang, Yan Di, Zhiqiang Lou, Fabian Manhardt, Nassir Navab, Federico Tombari, Xiangyang Ji(参考訳) カテゴリレベルのオブジェクトポーズ推定は、既知のカテゴリセットから任意のオブジェクトの6dポーズと3dメトリックサイズを予測することを目的としている。 近年の手法では,観測された点雲を標準空間にマッピングし,梅山アルゴリズムを用いてポーズとサイズを復元する。 しかし、その形状の事前統合戦略は間接的なポーズ推定を増加させ、ポーズに敏感な特徴抽出が不十分になり、推論速度が遅くなる。 そこで本論文では, 物体の配置と残留ベクトルを共同で予測し, 境界箱上の物体表面投射から実表面投射への変位を推定する, 幾何ガイド付き残留物体バウンディングボックス投射ネットワークrpp-poseを提案する。 このような残留ベクトルの定義は本質的にゼロ平均であり、比較的小さく、頑健で正確なポーズ回帰のために3dオブジェクトの空間的キューを明示的にカプセル化する。 予測されたポーズと残差ベクトルを整合させ、さらにパフォーマンスを高めるために幾何学的認識の一貫性条件を強制する。

Category-level object pose estimation aims to predict the 6D pose as well as the 3D metric size of arbitrary objects from a known set of categories. Recent methods harness shape prior adaptation to map the observed point cloud into the canonical space and apply Umeyama algorithm to recover the pose and size. However, their shape prior integration strategy boosts pose estimation indirectly, which leads to insufficient pose-sensitive feature extraction and slow inference speed. To tackle this problem, in this paper, we propose a novel geometry-guided Residual Object Bounding Box Projection network RBP-Pose that jointly predicts object pose and residual vectors describing the displacements from the shape-prior-indicated object surface projections on the bounding box towards the real surface projections. Such definition of residual vectors is inherently zero-mean and relatively small, and explicitly encapsulates spatial cues of the 3D object for robust and accurate pose regression. We enforce geometry-aware consistency terms to align the predicted pose and residual vectors to further boost performance.
翻訳日:2022-08-02 13:48:35 公開日:2022-07-30
# コントラスト初期化による自己教師付きモデルの微調整の改善

Improving Fine-tuning of Self-supervised Models with Contrastive Initialization ( http://arxiv.org/abs/2208.00238v1 )

ライセンス: Link先を確認
Haolin Pan, Yong Guo, Qinyi Deng, Haomin Yang, Yiqun Chen, Jian Chen(参考訳) 自己教師付き学習(SSL)は、細調整によって下流タスクでさらに使用できるモデルを事前訓練する上で、優れたパフォーマンスを達成した。 しかし、これらの自己教師付きモデルは、同じクラスに属する画像が常に対照損失の負のペアと見なされるため、意味のある意味的情報をキャプチャすることができない。 その結果、同じクラスの画像はしばしば学習された特徴空間において互いに遠く離れており、必然的に微調整プロセスを妨げる。 この問題に対処するため,セマンティック情報を強化することで,自己教師型モデルのより優れた初期化を提案する。 そこで本研究では,標準的な微調整パイプラインを細調整前に追加初期化ステージを導入することで破る対比的初期化(coin)手法を提案する。 高度なセマンティクスによって、COINはトレーニングコストを余分に必要とせず、既存のメソッドよりも大幅に優れており、複数の下流タスクに新しい最先端のタスクを設定する。

Self-supervised learning (SSL) has achieved remarkable performance in pretraining the models that can be further used in downstream tasks via fine-tuning. However, these self-supervised models may not capture meaningful semantic information since the images belonging to the same class are always regarded as negative pairs in the contrastive loss. Consequently, the images of the same class are often located far away from each other in learned feature space, which would inevitably hamper the fine-tuning process. To address this issue, we seek to provide a better initialization for the self-supervised models by enhancing the semantic information. To this end, we propose a Contrastive Initialization (COIN) method that breaks the standard fine-tuning pipeline by introducing an extra initialization stage before fine-tuning. Extensive experiments show that, with the enriched semantics, our COIN significantly outperforms existing methods without introducing extra training cost and sets new state-of-the-arts on multiple downstream tasks.
翻訳日:2022-08-02 13:48:13 公開日:2022-07-30
# 長期4Dポイントクラウド映像理解のためのポイントプリミティブトランス

Point Primitive Transformer for Long-Term 4D Point Cloud Video Understanding ( http://arxiv.org/abs/2208.00281v1 )

ライセンス: Link先を確認
Hao Wen, Yunze Liu, Jingwei Huang, Bo Duan, Li Yi(参考訳) 本稿では,長期クラウドビデオ理解のための4次元バックボーンを提案する。 空間的-時間的文脈をキャプチャする典型的な方法は階層構造のない4dconvやtransformerである。 しかし、これらの手法は、カメラの動き、シーンの変化、サンプリングパターン、および4Dデータの複雑さにより、効果も効率も十分ではない。 これらの問題に対処するために,我々はプリミティブプレーンを中レベル表現として活用し,4dポイントクラウドビデオにおける長期空間-時間的文脈を捉え,主にプリミティブポイントトランスフォーマーとプリミティブトランスフォーマーで構成される新しい階層的バックボーンであるpoint primitive transformer(pptr)を提案する。 PPTrは、様々なタスクにおいて、過去の芸術の状況より優れていた

This paper proposes a 4D backbone for long-term point cloud video understanding. A typical way to capture spatial-temporal context is using 4Dconv or transformer without hierarchy. However, those methods are neither effective nor efficient enough due to camera motion, scene changes, sampling patterns, and the complexity of 4D data. To address those issues, we leverage the primitive plane as a mid-level representation to capture the long-term spatial-temporal context in 4D point cloud videos and propose a novel hierarchical backbone named Point Primitive Transformer(PPTr), which is mainly composed of intra-primitive point transformers and primitive transformers. Extensive experiments show that PPTr outperforms the previous state of the arts on different tasks
翻訳日:2022-08-02 13:47:56 公開日:2022-07-30
# ファウショットセグメンテーションのための共分散行列の二重変形可能な凝集

Doubly Deformable Aggregation of Covariance Matrices for Few-shot Segmentation ( http://arxiv.org/abs/2208.00306v1 )

ライセンス: Link先を確認
Zhitong Xiong, Haopeng Li, and Xiao Xiang Zhu(参考訳) 注釈付きサンプルの少ない意味セグメンテーションモデルのトレーニングは、現実世界の様々なアプリケーションにおいて大きな可能性を秘めている。 数ショットのセグメンテーションタスクでは、サポートとクエリサンプル間のセマンティック対応を、限られたトレーニングデータで正確に測定する方法が主な課題である。 この問題に対処するために,学習可能な共分散行列を変形可能な4次元トランスで集約し,セグメンテーションマップを効果的に予測する。 具体的には,まず,ガウス過程の共分散核を学ぶための,新しいハードサンプルマイニング機構を考案する。 学習された共分散カーネル関数は、対応測定における既存のコサイン類似性に基づく手法よりも大きな利点がある。 学習した共分散カーネルに基づいて,特徴類似性マップを適応的にセグメンテーション結果に集約する,効率の良い2倍変形可能な4Dトランスフォーマーモジュールを設計する。 これらの2つの設計を組み合わせることで、提案手法は、新しいパフォーマンスをパブリックベンチマークに設定できるだけでなく、既存の手法よりも非常に高速に収束できる。 3つの公開データセットの実験により,本手法の有効性が示された。

Training semantic segmentation models with few annotated samples has great potential in various real-world applications. For the few-shot segmentation task, the main challenge is how to accurately measure the semantic correspondence between the support and query samples with limited training data. To address this problem, we propose to aggregate the learnable covariance matrices with a deformable 4D Transformer to effectively predict the segmentation map. Specifically, in this work, we first devise a novel hard example mining mechanism to learn covariance kernels for the Gaussian process. The learned covariance kernel functions have great advantages over existing cosine similarity-based methods in correspondence measurement. Based on the learned covariance kernels, an efficient doubly deformable 4D Transformer module is designed to adaptively aggregate feature similarity maps into segmentation results. By combining these two designs, the proposed method can not only set new state-of-the-art performance on public benchmarks, but also converge extremely faster than existing methods. Experiments on three public datasets have demonstrated the effectiveness of our method.
翻訳日:2022-08-02 13:47:41 公開日:2022-07-30
# LiDAR点雲を用いた協調知覚のための適応的特徴融合

Adaptive Feature Fusion for Cooperative Perception using LiDAR Point Clouds ( http://arxiv.org/abs/2208.00116v1 )

ライセンス: Link先を確認
D. Qiao and F. Zulkernine(参考訳) 協調認識により、コネクテッド・オートモービル(CAV)は周囲の他のCAVと相互作用し、周囲の物体の認識を高め、安全性と信頼性を高めることができる。 ブラインドスポット、低解像度、気象効果などの従来の車両知覚の限界を補うことができる。 協調的知覚の中間融合法に有効な特徴融合モデルは、特徴選択と情報集約を改善し、知覚精度をさらに高めることができる。 訓練可能な特徴選択モジュールを用いた適応的特徴融合モデルを提案する。 提案したモデルのうちの1つは、OPV2Vデータセットの2つのサブセット(デフォルトの車検出用CARLA町とドメイン適応用Culver City)において、他の最先端モデルよりも優れている。 さらに、以前の研究では、車両検出のための協調的な認識のみを検査した。 しかし、歩行者は交通事故で重傷を負う可能性が高い。 CODDデータセットを用いた車両と歩行者の両方の協調認識性能の評価を行った。 当社のアーキテクチャは,CODDデータセット上での車両および歩行者検出において,既存のモデルよりも高い平均精度(AP)を実現する。 実験では,協調的知覚が歩行者検出精度の向上にも寄与することを示した。

Cooperative perception allows a Connected Autonomous Vehicle (CAV) to interact with the other CAVs in the vicinity to enhance perception of surrounding objects to increase safety and reliability. It can compensate for the limitations of the conventional vehicular perception such as blind spots, low resolution, and weather effects. An effective feature fusion model for the intermediate fusion methods of cooperative perception can improve feature selection and information aggregation to further enhance the perception accuracy. We propose adaptive feature fusion models with trainable feature selection modules. One of our proposed models Spatial-wise Adaptive feature Fusion (S-AdaFusion) outperforms all other state-of-the-art models on the two subsets of OPV2V dataset: default CARLA towns for vehicle detection and the Culver City for domain adaptation. In addition, previous studies have only tested cooperative perception for vehicle detection. A pedestrian, however, is much more likely to be seriously injured in a traffic accident. We evaluate the performance of cooperative perception for both vehicle and pedestrian detection using the CODD dataset. Our architecture achieves higher Average Precision (AP) than other existing models for both vehicle and pedestrian detection on the CODD dataset. The experiments demonstrate that cooperative perception also can improve the pedestrian detection accuracy compared to the conventional perception process.
翻訳日:2022-08-02 13:42:20 公開日:2022-07-30
# DAS:Deep Metric Learningのための厳密なアンコールサンプリング

DAS: Densely-Anchored Sampling for Deep Metric Learning ( http://arxiv.org/abs/2208.00119v1 )

ライセンス: Link先を確認
Lizhao Liu, Shangxin Huang, Zhuangwei Zhuang, Ran Yang, Mingkui Tan, Yaowei Wang(参考訳) Deep Metric Learning (DML)は、セマンティックに類似したデータを近くの埋め込み空間に投影する埋め込み機能を学び、画像検索や顔認識など多くのアプリケーションにおいて重要な役割を果たす。 しかし、DML法の性能は、トレーニングにおける埋め込み空間から有効なデータを選択するサンプリング法に大きく依存することが多い。 実際には、埋め込み空間への埋め込みはいくつかの深層モデルによって得られ、そこでは、埋め込み空間はトレーニングポイントがないため不毛領域としばしば一致するため、「ミス埋め込み」問題と呼ばれる。 この問題はサンプルの品質を損なう可能性があるため、dmlのパフォーマンスが低下する。 本研究では,サンプリング品質を改善し,効果的なDMLを実現するために,ミス埋め込み問題を緩和する方法を検討する。 そこで本研究では,対応するデータポイントの埋め込みを"アンカー"として考慮し,アンカーの近傍の埋め込み空間を利用して,データポイントを使わずに密に埋め込みを生成する,密度の高いアンカーサンプリング(das)スキームを提案する。 具体的には、識別的特徴スケーリング(DFS)と記憶変換シフト(MTS)を用いた複数アンカーによる単一アンカーの埋め込み空間の活用を提案する。 このように、埋め込みをデータポイントと組み合わせることで、より多くの埋め込みを提供することで、サンプリングプロセスを容易にし、DMLの性能を高めることができます。 提案手法は既存のDMLフレームワークに統合され,ベルやホイッスルを使わずに改善されている。 3つのベンチマークデータセットに対する大規模な実験により,本手法の優位性が示された。

Deep Metric Learning (DML) serves to learn an embedding function to project semantically similar data into nearby embedding space and plays a vital role in many applications, such as image retrieval and face recognition. However, the performance of DML methods often highly depends on sampling methods to choose effective data from the embedding space in the training. In practice, the embeddings in the embedding space are obtained by some deep models, where the embedding space is often with barren area due to the absence of training points, resulting in so called "missing embedding" issue. This issue may impair the sample quality, which leads to degenerated DML performance. In this work, we investigate how to alleviate the "missing embedding" issue to improve the sampling quality and achieve effective DML. To this end, we propose a Densely-Anchored Sampling (DAS) scheme that considers the embedding with corresponding data point as "anchor" and exploits the anchor's nearby embedding space to densely produce embeddings without data points. Specifically, we propose to exploit the embedding space around single anchor with Discriminative Feature Scaling (DFS) and multiple anchors with Memorized Transformation Shifting (MTS). In this way, by combing the embeddings with and without data points, we are able to provide more embeddings to facilitate the sampling process thus boosting the performance of DML. Our method is effortlessly integrated into existing DML frameworks and improves them without bells and whistles. Extensive experiments on three benchmark datasets demonstrate the superiority of our method.
翻訳日:2022-08-02 13:41:58 公開日:2022-07-30
# オープンセットから見たクラスインクリメンタル学習

Few-Shot Class-Incremental Learning from an Open-Set Perspective ( http://arxiv.org/abs/2208.00147v1 )

ライセンス: Link先を確認
Can Peng, Kun Zhao, Tianren Wang, Meng Li and Brian C. Lovell(参考訳) 視覚の世界における新しいオブジェクトの継続的な出現は、現実世界のデプロイメントにおける現在のディープラーニング手法にとって大きな課題となる。 新しいタスク学習の課題は、希少性やコストによる新しいカテゴリのデータ不足によって、しばしば悪化する。 ここでは,マイナショット・クラスインクリメンタル・ラーニング(fscil)の重要課題と,その極端なデータ不足状況について考察する。 理想的なFSCILモデルは、プレゼンテーションの順序やデータのあいまいさに関わらず、すべてのクラスでうまく機能する必要がある。 また、実世界の条件をオープンに設定し、フィールドで常に発生する新しいタスクに容易に適応できるようにする必要がある。 本稿では、まず現在のタスク設定を再評価し、FSCILタスクに対してより包括的で実用的な設定を提案する。 次に、FSCILと現代の顔認識システムの目標の類似性から着想を得て、Augmented Angular Loss Incremental Classification(ALICE)を提案する。 ALICEでは、一般的に使用されるクロスエントロピー損失の代わりに、角のペナルティ損失を用いて、よくクラスタ化された特徴を得る。 得られた機能は、コンパクトにクラスタ化されるだけでなく、将来の増分クラスに対する一般化を維持するのに十分な多様性を持つため、クラス拡張、データ拡張、データバランスが分類性能にどのように影響するかをさらに議論する。 CIFAR100、miniImageNet、CUB200といったベンチマークデータセットの実験では、最先端のFSCILメソッドよりもALICEのパフォーマンスが改善された。

The continual appearance of new objects in the visual world poses considerable challenges for current deep learning methods in real-world deployments. The challenge of new task learning is often exacerbated by the scarcity of data for the new categories due to rarity or cost. Here we explore the important task of Few-Shot Class-Incremental Learning (FSCIL) and its extreme data scarcity condition of one-shot. An ideal FSCIL model needs to perform well on all classes, regardless of their presentation order or paucity of data. It also needs to be robust to open-set real-world conditions and be easily adapted to the new tasks that always arise in the field. In this paper, we first reevaluate the current task setting and propose a more comprehensive and practical setting for the FSCIL task. Then, inspired by the similarity of the goals for FSCIL and modern face recognition systems, we propose our method -- Augmented Angular Loss Incremental Classification or ALICE. In ALICE, instead of the commonly used cross-entropy loss, we propose to use the angular penalty loss to obtain well-clustered features. As the obtained features not only need to be compactly clustered but also diverse enough to maintain generalization for future incremental classes, we further discuss how class augmentation, data augmentation, and data balancing affect classification performance. Experiments on benchmark datasets, including CIFAR100, miniImageNet, and CUB200, demonstrate the improved performance of ALICE over the state-of-the-art FSCIL methods.
翻訳日:2022-08-02 13:41:32 公開日:2022-07-30
# ビデオシャドウ検出のためのシャドウ対応学習

Learning Shadow Correspondence for Video Shadow Detection ( http://arxiv.org/abs/2208.00150v1 )

ライセンス: Link先を確認
Xinpeng Ding and Jingweng Yang and Xiaowei Hu and Xiaomeng Li(参考訳) ビデオシャドウ検出は、ビデオフレーム間で一貫したシャドウ予測を生成することを目的としている。 しかし、現在のアプローチでは、特に映像の照明や背景テクスチャが変化した場合、フレーム間で一貫性のない影の予測に苦しむ。 そこで本研究では,同一のシャドウ領域の特徴が近傍のフレーム間で異なる特性を示すというシャドウ特徴の不整合性に起因する不整合予測を観測し,映像シャドウ検出のためのフレーム間の特定のシャドウ領域の画素間類似性を高めるための新しいシャドウ整合対応法(sc-cor)を提案する。 提案するSC-Corには3つの利点がある。 第一に、SC-Corは高密度画素対ピクセル対応ラベルを必要とせずに、フレーム間の画素ワイド対応を弱教師付きで学習することができる。 第2に、SC-Corはシャドウ内の分離性について検討している。 最後に、sc-corはプラグアンドプレイモジュールであり、計算コストなしで既存のシャドウ検出器に簡単に統合できる。 さらに,ビデオシャドウ検出結果の時間的安定性を評価するための新しい評価指標を設計する。 実験結果から, SC-CorはIoUでは6.51%, 新たに導入された時間安定度では3.35%, 従来の最先端法よりも優れていた。

Video shadow detection aims to generate consistent shadow predictions among video frames. However, the current approaches suffer from inconsistent shadow predictions across frames, especially when the illumination and background textures change in a video. We make an observation that the inconsistent predictions are caused by the shadow feature inconsistency, i.e., the features of the same shadow regions show dissimilar proprieties among the nearby frames.In this paper, we present a novel Shadow-Consistent Correspondence method (SC-Cor) to enhance pixel-wise similarity of the specific shadow regions across frames for video shadow detection. Our proposed SC-Cor has three main advantages. Firstly, without requiring the dense pixel-to-pixel correspondence labels, SC-Cor can learn the pixel-wise correspondence across frames in a weakly-supervised manner. Secondly, SC-Cor considers intra-shadow separability, which is robust to the variant textures and illuminations in videos. Finally, SC-Cor is a plug-and-play module that can be easily integrated into existing shadow detectors with no extra computational cost. We further design a new evaluation metric to evaluate the temporal stability of the video shadow detection results. Experimental results show that SC-Cor outperforms the prior state-of-the-art method, by 6.51% on IoU and 3.35% on the newly introduced temporal stability metric.
翻訳日:2022-08-02 13:41:08 公開日:2022-07-30
# ドメイン適応単眼深度推定のための学習特徴分解

Learning Feature Decomposition for Domain Adaptive Monocular Depth Estimation ( http://arxiv.org/abs/2208.00160v1 )

ライセンス: Link先を確認
Shao-Yuan Lo, Wei Wang, Jim Thomas, Jingjing Zheng, Vishal M. Patel, Cheng-Hao Kuo(参考訳) 単眼深度推定(MDE)は, ローカライゼーション, マッピング, 障害物検出などのロボット作業において, 低コストで重要な機能を持つため, 高い評価を受けている。 改良されたアプローチは、深層学習の進歩で大きな成功をもたらしたが、彼らは取得するのに高価な大量の地底深度アノテーションに依存している。 unsupervised domain adaptation (uda) はラベル付きソースデータからラベルなしのターゲットデータに知識を転送し、教師付き学習の制約を緩和する。 しかし、既存のudaアプローチは、ドメインシフトの問題のため、異なるデータセットにまたがるドメインギャップを完全に調整するわけではない。 うまく設計された機能分解によって、よりよいドメインアライメントが達成できると考えています。 本稿では,その特徴空間をコンテンツやスタイルコンポーネントに分解することを学ぶ,学習特徴分解 for Adaptation (LFDA) と呼ばれる,MDEのための新しいUDA手法を提案する。 LFDAは、ドメインギャップが小さいため、コンテンツコンポーネントを調整しようとするだけだ。 一方、ソースドメイン特有のスタイルコンポーネントは、プライマリタスクのトレーニングから除外されている。 さらに、FDAはドメインギャップをさらに橋渡しするために、別々の特徴分布推定を使用する。 3つのドメイン適応mdeシナリオに関する広範囲な実験により,提案手法は最先端手法に比べて精度と計算コストが向上することを示した。

Monocular depth estimation (MDE) has attracted intense study due to its low cost and critical functions for robotic tasks such as localization, mapping and obstacle detection. Supervised approaches have led to great success with the advance of deep learning, but they rely on large quantities of ground-truth depth annotations that are expensive to acquire. Unsupervised domain adaptation (UDA) transfers knowledge from labeled source data to unlabeled target data, so as to relax the constraint of supervised learning. However, existing UDA approaches may not completely align the domain gap across different datasets because of the domain shift problem. We believe better domain alignment can be achieved via well-designed feature decomposition. In this paper, we propose a novel UDA method for MDE, referred to as Learning Feature Decomposition for Adaptation (LFDA), which learns to decompose the feature space into content and style components. LFDA only attempts to align the content component since it has a smaller domain gap. Meanwhile, it excludes the style component which is specific to the source domain from training the primary task. Furthermore, LFDA uses separate feature distribution estimations to further bridge the domain gap. Extensive experiments on three domain adaptative MDE scenarios show that the proposed method achieves superior accuracy and lower computational cost compared to the state-of-the-art approaches.
翻訳日:2022-08-02 13:40:43 公開日:2022-07-30
# メモリ優先型コントラストネットワークを用いたマイズショット・シングルビュー3次元再構成

Few-shot Single-view 3D Reconstruction with Memory Prior Contrastive Network ( http://arxiv.org/abs/2208.00183v1 )

ライセンス: Link先を確認
Zhen Xing and Yijiang Chen and Zhixin Ling and Xiangdong Zhou and Yu Xiang(参考訳) 数ショット学習に基づく新しいカテゴリーの3次元再構築は、現実の応用にアピールし、研究の関心が高まりつつある。 従来のアプローチは主に、さまざまなカテゴリの事前モデルを設計する方法に重点を置いている。 目立たないカテゴリでの彼らのパフォーマンスは、あまり競争力がない。 本稿では,3次元学習に基づく3次元再構築フレームワークにおいて,形状事前知識を記憶できるメモリ先行コントラストネットワーク(mpcn)を提案する。 形状記憶では, 候補形状の異なる部分を予めキャプチャし, それらの部品を融合して, 新たなカテゴリの3次元再構築を導くマルチヘッドアテンションモジュールが提案されている。 また,メモリネットワークの検索精度を補完するだけでなく,下流タスクにおける画像特徴の整理も行う3次元認識型コントラスト学習手法を提案する。 従来の数発の3D再構成手法と比較して、MPCNはカテゴリアノテーションなしでクラス間変動を処理できる。 ベンチマーク合成データセットとPascal3D+実世界のデータセットによる実験結果から,我々のモデルは最先端の手法よりも優れていた。

3D reconstruction of novel categories based on few-shot learning is appealing in real-world applications and attracts increasing research interests. Previous approaches mainly focus on how to design shape prior models for different categories. Their performance on unseen categories is not very competitive. In this paper, we present a Memory Prior Contrastive Network (MPCN) that can store shape prior knowledge in a few-shot learning based 3D reconstruction framework. With the shape memory, a multi-head attention module is proposed to capture different parts of a candidate shape prior and fuse these parts together to guide 3D reconstruction of novel categories. Besides, we introduce a 3D-aware contrastive learning method, which can not only complement the retrieval accuracy of memory network, but also better organize image features for downstream tasks. Compared with previous few-shot 3D reconstruction methods, MPCN can handle the inter-class variability without category annotations. Experimental results on a benchmark synthetic dataset and the Pascal3D+ real-world dataset show that our model outperforms the current state-of-the-art methods significantly.
翻訳日:2022-08-02 13:40:22 公開日:2022-07-30
# 視覚煙検出データベースの複数カテゴリ

Multiple Categories Of Visual Smoke Detection Database ( http://arxiv.org/abs/2208.00210v1 )

ライセンス: Link先を確認
Y. Gong, X. Ma(参考訳) 石油化学産業の煙の排出とその安全生産と環境被害との密接な関係から,関連産業における煙検出は重要な課題となっている。 実工業生産環境においては, 排ガスの完全燃焼, 排ガスの不適切な燃焼, 排ガスの直接排出など, 製造状況は様々である。 過去の研究で使われたデータセットは、煙が存在するかどうか、そのタイプではないかどうかを判断できることがわかった。 すなわち、データセットのカテゴリは実世界の生産状況にマップされない。 その結果,70196枚の画像を含む複数カテゴリの煙検出データベースを作成した。 さらに,提案データベース上で実験を行うために複数のモデルを用いて,提案データベースの有効性を実証し,現在のアルゴリズムの性能を向上させる必要があることを示す。

Smoke detection has become a significant task in associated industries due to the close relationship between the petrochemical industry's smoke emission and its safety production and environmental damage. There are several production situations in the real industrial production environment, including complete combustion of exhaust gas, inadequate combustion of exhaust gas, direct emission of exhaust gas, etc. We discovered that the datasets used in previous research work can only determine whether smoke is present or not, not its type. That is, the dataset's category does not map to the real-world production situations, which are not conducive to the precise regulation of the production system. As a result, we created a multi-categories smoke detection database that includes a total of 70196 images. We further employed multiple models to conduct the experiment on the proposed database, the results show that the performance of the current algorithms needs to be improved and demonstrate the effectiveness of the proposed database.
翻訳日:2022-08-02 13:40:05 公開日:2022-07-30
# 非単調推論としての対話的説明について

On Interactive Explanations as Non-Monotonic Reasoning ( http://arxiv.org/abs/2208.00316v1 )

ライセンス: Link先を確認
Guilherme Paulino-Passos and Francesca Toni(参考訳) 最近の研究は、合理的なインスタンスワイドに思える局所的な説明を生成するメソッドを含む、説明との一貫性の問題を示している。 これは、インスタンス毎の説明が信頼できないだけでなく、複数の入力を介してシステムと対話する場合、ユーザが実際にシステムに対する信頼を失う可能性があることを示唆する。 この問題をよりよく分析するために、本研究では、入力、出力、説明のシーケンスを通して、ユーザとシステム間の対話的なシナリオの形式モデルを提示し、推論の対象となるオブジェクトとして説明を扱う。 我々は、説明はある種のモデル行動にコミットする(たとえプリマ・ファシエだけであっても)と考えることができると論じ、エンテーメントの一形態を示唆し、それは非モノトニックと考えるべきであると論じる。 これが許される。 1) 特定性関係などによる説明の不一致を解消する。 2)非単調な推論文献から特性を考察し,その要求性について考察し,対話的な説明シナリオについてより深い知見を得た。

Recent work shows issues of consistency with explanations, with methods generating local explanations that seem reasonable instance-wise, but that are inconsistent across instances. This suggests not only that instance-wise explanations can be unreliable, but mainly that, when interacting with a system via multiple inputs, a user may actually lose confidence in the system. To better analyse this issue, in this work we treat explanations as objects that can be subject to reasoning and present a formal model of the interactive scenario between user and system, via sequences of inputs, outputs, and explanations. We argue that explanations can be thought of as committing to some model behaviour (even if only prima facie), suggesting a form of entailment, which, we argue, should be thought of as non-monotonic. This allows: 1) to solve some considered inconsistencies in explanation, such as via a specificity relation; 2) to consider properties from the non-monotonic reasoning literature and discuss their desirability, gaining more insight on the interactive explanation scenario.
翻訳日:2022-08-02 13:34:24 公開日:2022-07-30
# 情報対話応答のためのクエリ生成による知識の動的検索

Dynamically Retrieving Knowledge via Query Generation for informative dialogue response ( http://arxiv.org/abs/2208.00128v1 )

ライセンス: Link先を確認
Zhongtian Hu, Yangqi Chen, Yushuang Liu and Lifang Wang(参考訳) 知識駆動対話生成は、最近目覚ましい進歩を遂げた。 一般的な対話システムと比較して、優れた知識駆動対話システムは、事前に提供された知識によってより情報的で知識に富んだ応答を生成することができる。 しかし、実際の応用においては、対話システムは事前に対応する知識を供給できない。 この問題を解決するために、DRKQG(情報対話応答のためのクエリ生成による知識の動的検索)という知識駆動型対話システムを設計する。 具体的には、システムはクエリ生成モジュールと対話生成モジュールの2つのモジュールに分割される。 まず、時間認識機構を用いてコンテキスト情報をキャプチャし、知識を検索するためのクエリを生成する。 次に、コピー機構とトランスフォーマーを統合し、応答生成モジュールがコンテキストと取得した知識から応答を生成するようにする。 言語・インテリジェンス技術コンペティション(Language and Intelligence Technologyコンペティション)での実験結果によると,我々のモジュールは自動評価の指標でベースラインモデルよりも優れており,Baidu Linguisticsチームによる人間による評価は,我々のシステムがFoctually Correct and Knowledgeableで印象的な結果を達成していることを示している。

Knowledge-driven dialogue generation has recently made remarkable breakthroughs. Compared with general dialogue systems, superior knowledge-driven dialogue systems can generate more informative and knowledgeable responses with pre-provided knowledge. However, in practical applications, the dialogue system cannot be provided with corresponding knowledge in advance. In order to solve the problem, we design a knowledge-driven dialogue system named DRKQG (\emph{Dynamically Retrieving Knowledge via Query Generation for informative dialogue response}). Specifically, the system can be divided into two modules: query generation module and dialogue generation module. First, a time-aware mechanism is utilized to capture context information and a query can be generated for retrieving knowledge. Then, we integrate copy Mechanism and Transformers, which allows the response generation module produces responses derived from the context and retrieved knowledge. Experimental results at LIC2022, Language and Intelligence Technology Competition, show that our module outperforms the baseline model by a large margin on automatic evaluation metrics, while human evaluation by Baidu Linguistics team shows that our system achieves impressive results in Factually Correct and Knowledgeable.
翻訳日:2022-08-02 13:30:02 公開日:2022-07-30
# ELF22:インターネットトロルに悪影響を与えるコンテキストベースのカウンタトラリングデータセット

ELF22: A Context-based Counter Trolling Dataset to Combat Internet Trolls ( http://arxiv.org/abs/2208.00176v1 )

ライセンス: Link先を確認
Huije Lee, Young Ju NA, Hoyun Song, Jisu Shin, Jong C. Park(参考訳) オンライントロルは社会的コストを高め、個人に心理的損害を与える。 ボットをトロールに利用する自動アカウントの急増に伴い、個々の利用者が定量的かつ質的に状況を処理することは困難である。 この問題に対処するため,戦闘トロルに対する対応として,表現の自由を損なうことなく,コミュニティユーザによる議論の継続を促すため,トラル対策の自動化に重点を置いている。 そこで本研究では,自動応答生成のための新しいデータセットを提案する。 特に,ラベル付き応答戦略によるトロルコメントとカウンター応答を含むペアワイズデータセットを構築し,そのモデルに微調整したモデルに対して,所定の戦略に従ってカウンター応答を可変させることで応答を生成する。 データセットの有効性を評価するために3つのタスクを実施し,自動評価と人的評価の両面で結果を評価した。 人的評価において,我々のデータセットに微調整されたモデルでは,戦略制御文生成の性能が大幅に向上することが示されている。

Online trolls increase social costs and cause psychological damage to individuals. With the proliferation of automated accounts making use of bots for trolling, it is difficult for targeted individual users to handle the situation both quantitatively and qualitatively. To address this issue, we focus on automating the method to counter trolls, as counter responses to combat trolls encourage community users to maintain ongoing discussion without compromising freedom of expression. For this purpose, we propose a novel dataset for automatic counter response generation. In particular, we constructed a pair-wise dataset that includes troll comments and counter responses with labeled response strategies, which enables models fine-tuned on our dataset to generate responses by varying counter responses according to the specified strategy. We conducted three tasks to assess the effectiveness of our dataset and evaluated the results through both automatic and human evaluation. In human evaluation, we demonstrate that the model fine-tuned on our dataset shows a significantly improved performance in strategy-controlled sentence generation.
翻訳日:2022-08-02 13:29:41 公開日:2022-07-30
# Masked Autoencodersは、事前学習された文表現のための統一学習者

Masked Autoencoders As The Unified Learners For Pre-Trained Sentence Representation ( http://arxiv.org/abs/2208.00231v1 )

ライセンス: Link先を確認
Alexander Liu, Samuel Yang(参考訳) 事前訓練された言語モデルの進歩にもかかわらず、事前訓練された文表現のための統一されたフレームワークがない。 そのため、特定のシナリオに対して異なる事前学習方法を求め、事前学習されたモデルは、その普遍性と表現品質によって制限される可能性が高い。 本研究では,最近提案されたMAEスタイル事前学習戦略であるRetroMAEを拡張し,多種多様な文表現タスクを効果的にサポートする。 拡張フレームワークは2つのステージで構成され、RetroMAEはプロセス全体にわたって実行される。 最初のステージでは、ベースモデルが学習されるWikipedia、BookCorpusなど、一般的なコーパス上でRetroMAEを実行する。 第2段階はドメイン固有のデータ、例えばMS MARCOやNLIで行われ、ベースモデルはRetroMAEとコントラスト学習に基づいて継続的に訓練される。 2段階の事前学習出力は異なる用途に役立ち、その効果は総合的な実験で検証される。 具体的には、ベースモデルがゼロショット検索に有効であることが証明され、BEIRベンチマークで顕著な性能が得られた。 事前訓練されたモデルは、MS MARCOのドメイン固有密度検索、Natural Questions、標準STSの文埋め込みの品質、SentEvalの転送タスクなど、より下流のタスクにさらに恩恵をもたらす。 この研究の実証的な洞察は、文表現の事前学習の将来の設計を刺激する可能性がある。 トレーニング済みのモデルとソースコードは、パブリックコミュニティにリリースされます。

Despite the progresses on pre-trained language models, there is a lack of unified frameworks for pre-trained sentence representation. As such, it calls for different pre-training methods for specific scenarios, and the pre-trained models are likely to be limited by their universality and representation quality. In this work, we extend the recently proposed MAE style pre-training strategy, RetroMAE, such that it may effectively support a wide variety of sentence representation tasks. The extended framework consists of two stages, with RetroMAE conducted throughout the process. The first stage performs RetroMAE over generic corpora, like Wikipedia, BookCorpus, etc., from which the base model is learned. The second stage takes place on domain-specific data, e.g., MS MARCO and NLI, where the base model is continuingly trained based on RetroMAE and contrastive learning. The pre-training outputs at the two stages may serve different applications, whose effectiveness are verified with comprehensive experiments. Concretely, the base model are proved to be effective for zero-shot retrieval, with remarkable performances achieved on BEIR benchmark. The continuingly pre-trained models further benefit more downstream tasks, including the domain-specific dense retrieval on MS MARCO, Natural Questions, and the sentence embeddings' quality for standard STS and transfer tasks in SentEval. The empirical insights of this work may inspire the future design of sentence representation pre-training. Our pre-trained models and source code will be released to the public communities.
翻訳日:2022-08-02 13:29:24 公開日:2022-07-30
# ADASの原因・影響分析:文献レビューと文献データの比較検討

Cause-and-Effect Analysis of ADAS: A Comparison Study between Literature Review and Complaint Data ( http://arxiv.org/abs/2208.00249v1 )

ライセンス: Link先を確認
Jackie Ayoub, Zifei Wang, Meitang Li, Huizhong Guo, Rini Sherony, Shan Bao, Feng Zhou(参考訳) 高度な運転支援システム (ADAS) は車両の安全性を向上させるために設計された。 しかし、現在のADASとそのソリューションの原因や限界を理解することなく、そのような利益を達成することは困難である。 この研究 1)文献レビューを通じてADASの限界と解決策を検討した。 2)自然言語処理モデルを用いた消費者苦情によるADASの原因と効果を特定し, 3) 両者の主な相違点を比較した。 これらの2つの研究は、人的要因、環境要因、車両要因など、ADASの類似したカテゴリーを特定した。 しかし、学術研究はadas問題の人的要因に重点を置いており、運転者がadasの故障の車両的要因に不満を訴える一方で、そのような問題を緩和するための高度なアルゴリズムを提案した。 これら2つの情報源からの知見は互いに補完し合っており、将来的なadasの改善に重要な意味を持つ。

Advanced driver assistance systems (ADAS) are designed to improve vehicle safety. However, it is difficult to achieve such benefits without understanding the causes and limitations of the current ADAS and their possible solutions. This study 1) investigated the limitations and solutions of ADAS through a literature review, 2) identified the causes and effects of ADAS through consumer complaints using natural language processing models, and 3) compared the major differences between the two. These two lines of research identified similar categories of ADAS causes, including human factors, environmental factors, and vehicle factors. However, academic research focused more on human factors of ADAS issues and proposed advanced algorithms to mitigate such issues while drivers complained more of vehicle factors of ADAS failures, which led to associated top consequences. The findings from these two sources tend to complement each other and provide important implications for the improvement of ADAS in the future.
翻訳日:2022-08-02 13:29:00 公開日:2022-07-30
# 言語モデルを用いたSmoothing Entailment Graphs

Smoothing Entailment Graphs with Language Models ( http://arxiv.org/abs/2208.00318v1 )

ライセンス: Link先を確認
Nick McKenna, Mark Steedman(参考訳) コーパスにおける自然言語述語の多様性とZipfian頻度分布は、エンテリメントグラフの学習時に空間性をもたらす。 自然言語推論の記号モデルとして、EGはテスト時に新しい前提や仮説を欠くと回復できない。 本稿では,新しいグラフ平滑化法を導入することにより,頂点スパーシティの問題にアプローチする。 平均精度を越えながら、2つの困難指向性包絡データセットの25.1および16.3絶対パーセンテージを改善し、エッジ空間の他の改善と相補性を示す。 さらに,言語モデルの埋め込みを解析し,仮説・スムーシングではなく前提・スムーシングに自然に適合する理由について論じる。 最後に、前提と仮説の両方を滑らかにするために推移鎖を構築して記号的推論法を平滑化する理論を定式化する。

The diversity and Zipfian frequency distribution of natural language predicates in corpora leads to sparsity when learning Entailment Graphs. As symbolic models for natural language inference, an EG cannot recover if missing a novel premise or hypothesis at test-time. In this paper we approach the problem of vertex sparsity by introducing a new method of graph smoothing, using a Language Model to find the nearest approximations of missing predicates. We improve recall by 25.1 and 16.3 absolute percentage points on two difficult directional entailment datasets while exceeding average precision, and show a complementarity with other improvements to edge sparsity. We further analyze language model embeddings and discuss why they are naturally suitable for premise-smoothing, but not hypothesis-smoothing. Finally, we formalize a theory for smoothing a symbolic inference method by constructing transitive chains to smooth both the premise and hypothesis.
翻訳日:2022-08-02 13:28:45 公開日:2022-07-30
# 深層学習による胎盤組織像の解像度向上

Resolution enhancement of placenta histological images using deep learning ( http://arxiv.org/abs/2208.00163v1 )

ライセンス: Link先を確認
Arash Rabbani, Masoud Babaei(参考訳) 本研究では,ヒト胎盤の組織像の分解能を向上させる手法を開発した。 この目的のために、入力画像の解像度を改善するために必要な画像残差を予測できるディープニューラルネットワークモデルをトレーニングするために、一連の高解像度画像と低解像度画像が収集された。 U-netニューラルネットワークモデルの修正版は、低解像度と残像の関係を見つけるために調整されている。 1000画像の拡張データセット上で900エポックのトレーニングを行った後、320のテスト画像の予測のために、相対平均二乗誤差0.003を達成する。 提案手法は,セル端の低分解能画像のコントラストを向上させるだけでなく,胎盤振動空間の高分解能画像を模倣する重要な細部やテクスチャを追加した。

In this study, a method has been developed to improve the resolution of histological human placenta images. For this purpose, a paired series of high- and low-resolution images have been collected to train a deep neural network model that can predict image residuals required to improve the resolution of the input images. A modified version of the U-net neural network model has been tailored to find the relationship between the low resolution and residual images. After training for 900 epochs on an augmented dataset of 1000 images, the relative mean squared error of 0.003 is achieved for the prediction of 320 test images. The proposed method has not only improved the contrast of the low-resolution images at the edges of cells but added critical details and textures that mimic high-resolution images of placenta villous space.
翻訳日:2022-08-02 13:24:43 公開日:2022-07-30
# MobileNeRF: モバイルアーキテクチャによる効率的なニューラルネットワークレンダリングのためのポリゴンラスタライゼーションパイプラインの爆発

MobileNeRF: Exploiting the Polygon Rasterization Pipeline for Efficient Neural Field Rendering on Mobile Architectures ( http://arxiv.org/abs/2208.00277v1 )

ライセンス: Link先を確認
Zhiqin Chen, Thomas Funkhouser, Peter Hedman, Andrea Tagliasacchi(参考訳) ニューラル・ラジアンス・フィールド(NeRF)は、新しい視点から3Dシーンの画像を合成する素晴らしい能力を実証した。 しかし、それらは広くデプロイされたグラフィックスハードウェアの能力と一致しないレイマーチングに基づく特殊なボリュームレンダリングアルゴリズムに依存している。 本稿では,標準的なレンダリングパイプラインを用いて,新しい画像を効率的に合成できるテクスチャ多角形に基づく新しいnerf表現を提案する。 NeRFは、二項不透明度と特徴ベクトルを表すテクスチャを持つポリゴンの集合として表現される。 従来のzバッファによる多角形のレンダリングでは、各ピクセルに特徴のある画像が得られるが、これはフラグメントシェーダで実行される小さなビュー依存のmlpによって解釈され、最終的なピクセル色を生成する。 このアプローチにより、NeRFを従来のポリゴンラスタ化パイプラインでレンダリングすることが可能になり、携帯電話を含む幅広い計算プラットフォーム上で対話的なフレームレートを実現することができる。

Neural Radiance Fields (NeRFs) have demonstrated amazing ability to synthesize images of 3D scenes from novel views. However, they rely upon specialized volumetric rendering algorithms based on ray marching that are mismatched to the capabilities of widely deployed graphics hardware. This paper introduces a new NeRF representation based on textured polygons that can synthesize novel images efficiently with standard rendering pipelines. The NeRF is represented as a set of polygons with textures representing binary opacities and feature vectors. Traditional rendering of the polygons with a z-buffer yields an image with features at every pixel, which are interpreted by a small, view-dependent MLP running in a fragment shader to produce a final pixel color. This approach enables NeRFs to be rendered with the traditional polygon rasterization pipeline, which provides massive pixel-level parallelism, achieving interactive frame rates on a wide range of compute platforms, including mobile phones.
翻訳日:2022-08-02 13:24:28 公開日:2022-07-30
# ヒューマノイド歩行におけるロバスト接触状態の推定

Robust Contact State Estimation in Humanoid Walking Gaits ( http://arxiv.org/abs/2208.00278v1 )

ライセンス: Link先を確認
Stylianos Piperakis, Michael Maravgakis, Dimitrios Kanoulas, and Panos Trahanias(参考訳) 本稿では,ヒト型歩行歩行ロボットの脚接触検出問題に対する統一的なアプローチを提供するディープラーニングフレームワークを提案する。 我々の定式化は、各脚の接触状態確率(安定またはすべり/無接触)を正確かつ確実に推定する。 提案手法は, 主観知覚のみを用いており, 分類過程において, 接点データのシミュレーションに頼っているものの, 摩擦面や脚の異なるロボットプラットフォームにまたがって一般化し, 同時に, シミュレーションから実践へ容易に移行できることを実証する。 このフレームワークは、接地木接触データを用いてシミュレーションにおいて定量的に定性的に評価され、ATLAS、NAO、TALOSのヒューマノイドロボットと最先端の手法と対比される。 さらに、その効果は、実際のTALOSヒューマノイドを用いたベース推定で示される。 さらなる研究活動を強化するため,我々の実装はLegged Contact Detection (LCD)と呼ばれるオープンソースのROS/Pythonパッケージとして提供される。

In this article, we propose a deep learning framework that provides a unified approach to the problem of leg contact detection in humanoid robot walking gaits. Our formulation accomplishes to accurately and robustly estimate the contact state probability for each leg (i.e., stable or slip/no contact). The proposed framework employs solely proprioceptive sensing and although it relies on simulated ground-truth contact data for the classification process, we demonstrate that it generalizes across varying friction surfaces and different legged robotic platforms and, at the same time, is readily transferred from simulation to practice. The framework is quantitatively and qualitatively assessed in simulation via the use of ground-truth contact data and is contrasted against state of-the-art methods with an ATLAS, a NAO, and a TALOS humanoid robot. Furthermore, its efficacy is demonstrated in base estimation with a real TALOS humanoid. To reinforce further research endeavors, our implementation is offered as an open-source ROS/Python package, coined Legged Contact Detection (LCD).
翻訳日:2022-08-02 13:18:25 公開日:2022-07-30
# 自動12誘導心電図診断性能向上のための多視点学習手法

A Multi-View Learning Approach to Enhance Automatic 12-Lead ECG Diagnosis Performance ( http://arxiv.org/abs/2208.00323v1 )

ライセンス: Link先を確認
Jae-Won Choi, Dae-Yong Hong, Chan Jung, Eugene Hwang, Sung-Hyuk Park, and Seung-Young Roh(参考訳) 近年,Deep Learning (DL) の導入により心電図(ECG)診断モデルの性能が向上した。 しかし,複数のDL成分の組み合わせおよび/またはデータ拡張技術が診断に与える影響は十分に研究されていない。 本研究は,従来の12誘導心電図診断法よりも高い性能を実現するために,ECG拡張技術を用いたアンサンブルに基づく多視点学習手法を提案する。 データ分析の結果,提案モデルではF1スコアが0.840であり,文献における既存の最先端手法よりも優れていた。

The performances of commonly used electrocardiogram (ECG) diagnosis models have recently improved with the introduction of deep learning (DL). However, the impact of various combinations of multiple DL components and/or the role of data augmentation techniques on the diagnosis have not been sufficiently investigated. This study proposes an ensemble-based multi-view learning approach with an ECG augmentation technique to achieve a higher performance than traditional automatic 12-lead ECG diagnosis methods. The data analysis results show that the proposed model reports an F1 score of 0.840, which outperforms existing state-ofthe-art methods in the literature.
翻訳日:2022-08-02 13:18:07 公開日:2022-07-30
# 擬似f-ratio移動ウィンドウを用いたgc-msデータの非目標領域選択($\psi$frmv)

Untargeted Region of Interest Selection for GC-MS Data using a Pseudo F-Ratio Moving Window ($\psi$FRMV) ( http://arxiv.org/abs/2208.00313v1 )

ライセンス: Link先を確認
Ryland T. Giebelhaus, Michael D. Sorochan Armstrong, A. Paulina de la Mata, James J. Harynuk(参考訳) ガスクロマトグラフィー-質量分析法(gc-ms)データの解析には多くの課題がある。 これらの課題の多くは、電子イオン化が分子イオン信号の共役損失を伴う高い断片化による分子情報の回復を困難にするという事実に由来する。 GC-MSデータでは、しばしば多くの共通フラグメントイオンが密に計算されたピーク間で共有され、分析に洗練された方法を必要とする。 これらの手法のいくつかは完全に自動化されているが、分析中にアーティファクトを導入することができるデータについていくつかの仮定を行う。 多変量曲線解法やパラレル因子分析のようなケモメトリックス手法は、柔軟性があり、データについての仮定が比較的少ないため、特に魅力的である。 これらの手法は、最も関連性の高い領域を決定するために専門的なユーザー介入を必要とし、各領域に対して適切な数のコンポーネント、$k$が必要である。 高度な信号デコンボリューションを伴うクロマトグラフィーデータのバッチ処理を自動化可能にするには、関心領域の自動選択が必要となる。 本稿では,gc-msデータに存在する多変量情報から,第1の2乗率と第2の特異値の比率に基づいて,関心領域を選択するための興味領域の自動選択手法を提案する。 第1特異値が信号に大きく、第2特異値がノイズに大きく依存していると仮定すると、これらの2つの値の関係をフィッシャー比の確率分布として解釈することができる。 このアルゴリズムの感度は、信号を含むことで知られるクロマトグラフィー領域を選択できない濃度を調べることで検証された。

There are many challenges associated with analysing gas chromatography - mass spectrometry (GC-MS) data. Many of these challenges stem from the fact that electron ionisation can make it difficult to recover molecular information due to the high degree of fragmentation with concomitant loss of molecular ion signal. With GC-MS data there are often many common fragment ions shared among closely-eluting peaks, necessitating sophisticated methods for analysis. Some of these methods are fully automated, but make some assumptions about the data which can introduce artifacts during the analysis. Chemometric methods such as Multivariate Curve Resolution, or Parallel Factor Analysis are particularly attractive, since they are flexible and make relatively few assumptions about the data - ideally resulting in fewer artifacts. These methods do require expert user intervention to determine the most relevant regions of interest and an appropriate number of components, $k$, for each region. Automated region of interest selection is needed to permit automated batch processing of chromatographic data with advanced signal deconvolution. Here, we propose a new method for automated, untargeted region of interest selection that accounts for the multivariate information present in GC-MS data to select regions of interest based on the ratio of the squared first, and second singular values from the Singular Value Decomposition of a window that moves across the chromatogram. Assuming that the first singular value accounts largely for signal, and that the second singular value accounts largely for noise, it is possible to interpret the relationship between these two values as a probabilistic distribution of Fisher Ratios. The sensitivity of the algorithm was tested by investigating the concentration at which the algorithm can no longer pick out chromatographic regions known to contain signal.
翻訳日:2022-08-02 13:16:59 公開日:2022-07-30
# 拡張不変表現学習の重要因子の再検討

Revisiting the Critical Factors of Augmentation-Invariant Representation Learning ( http://arxiv.org/abs/2208.00275v1 )

ライセンス: Link先を確認
Junqiang Huang, Xiangwen Kong, Xiangyu Zhang(参考訳) 拡張不変表現学習の重要な要素をよりよく理解することに注力する。 moco v2とbyolを再検討し、以下の仮定の真正性を証明する。 異なるフレームワークは、同じプリテキストタスクでも異なる特性の表現をもたらします。 MoCo v2とBYOLの公正比較のための最初のベンチマークを作成し、以下の結果を得た。 (i)高度なモデル構成により、データセットの事前学習への適応性が向上する。 (ii)事前学習と微調整モデルによる競争伝達性能の達成における不整合最適化戦略 公平なベンチマークを前提に,ネットワーク構造の非対称性を更に調査し,線形評価プロトコルの下でうまく機能するように比較フレームワークを内在させるとともに,ロングテール分類タスクの転送性能を損なう可能性がある。 さらに、負のサンプルはデータ拡張の選択により敏感なモデルや非対称なネットワーク構造をもたらさない。 我々の発見は将来の研究に有用な情報をもたらすと信じている。

We focus on better understanding the critical factors of augmentation-invariant representation learning. We revisit MoCo v2 and BYOL and try to prove the authenticity of the following assumption: different frameworks bring about representations of different characteristics even with the same pretext task. We establish the first benchmark for fair comparisons between MoCo v2 and BYOL, and observe: (i) sophisticated model configurations enable better adaptation to pre-training dataset; (ii) mismatched optimization strategies of pre-training and fine-tuning hinder model from achieving competitive transfer performances. Given the fair benchmark, we make further investigation and find asymmetry of network structure endows contrastive frameworks to work well under the linear evaluation protocol, while may hurt the transfer performances on long-tailed classification tasks. Moreover, negative samples do not make models more sensible to the choice of data augmentations, nor does the asymmetric network structure. We believe our findings provide useful information for future work.
翻訳日:2022-08-02 13:13:36 公開日:2022-07-30
# データセット凝縮のための効果的なグラディエントマッチング

Delving into Effective Gradient Matching for Dataset Condensation ( http://arxiv.org/abs/2208.00311v1 )

ライセンス: Link先を確認
Zixuan Jiang, Jiaqi Gu, Mingjie Liu, David Z. Pan(参考訳) ディープラーニングモデルとデータセットが急速にスケールアップするにつれて、ネットワークトレーニングは非常に時間とリソースがかかります。 データセット全体をトレーニングする代わりに、小さな合成データセットで学ぶことが、効率的なソリューションになります。 勾配マッチングが最先端のパフォーマンスを達成するデータセット凝縮の方向への広範な研究が進められている。 勾配マッチング法は、元のデータセットと合成データセットのトレーニング時に勾配をマッチングすることで、トレーニングダイナミクスを直接ターゲットとする。 しかし,本手法の原理と有効性に関する深い調査は限られている。 本研究では,包括的視点から勾配マッチング法を考察し,何,どのように,どこでマッチングするかという重要な問いに答える。 本稿では,クラス内勾配情報とクラス間勾配情報の両方を含むマルチレベル勾配のマッチングを提案する。 オーバーフィッティングの遅延を同時に考慮し,距離関数が角度に焦点を絞るべきであることを示す。 アルゴリズムの効率向上のための不要な最適化ステップをトリムするために、過適合適応学習ステップ戦略も提案されている。 アブレーションと比較実験により,提案手法が先行研究よりも精度,効率,一般化に優れることを示した。

As deep learning models and datasets rapidly scale up, network training is extremely time-consuming and resource-costly. Instead of training on the entire dataset, learning with a small synthetic dataset becomes an efficient solution. Extensive research has been explored in the direction of dataset condensation, among which gradient matching achieves state-of-the-art performance. The gradient matching method directly targets the training dynamics by matching the gradient when training on the original and synthetic datasets. However, there are limited deep investigations into the principle and effectiveness of this method. In this work, we delve into the gradient matching method from a comprehensive perspective and answer the critical questions of what, how, and where to match. We propose to match the multi-level gradients to involve both intra-class and inter-class gradient information. We demonstrate that the distance function should focus on the angle, considering the magnitude simultaneously to delay the overfitting. An overfitting-aware adaptive learning step strategy is also proposed to trim unnecessary optimization steps for algorithmic efficiency improvement. Ablation and comparison experiments demonstrate that our proposed methodology shows superior accuracy, efficiency, and generalization compared to prior work.
翻訳日:2022-08-02 13:13:21 公開日:2022-07-30
# マルコフ決定過程における帯域構造学習へのベイズ的アプローチ

A Bayesian Approach to Learning Bandit Structure in Markov Decision Processes ( http://arxiv.org/abs/2208.00250v1 )

ライセンス: Link先を確認
Kelly W. Zhang, Omer Gottesman, Finale Doshi-Velez(参考訳) 強化学習文献では、コンテキスト帯域(CB)またはマルコフ決定プロセス(MDP)環境向けに開発されたアルゴリズムが多数存在する。 しかし, 実世界における強化学習アルゴリズムの展開においては, ドメイン知識があっても, 逐次的意思決定問題をCBやMDPとして扱うことが適切かどうかを知ることは困難であることが多い。 言い換えれば、アクションは将来の状態に影響を与えるのか、あるいは即時報酬のみに影響するのか? 環境の性質に関する誤った仮定は、非効率な学習につながる可能性があるし、無限のデータであってもアルゴリズムが最適なポリシーを学習することさえ防止できる。 本研究では,ベイズ仮説テスト手法を用いて環境の性質を学習するオンラインアルゴリズムを開発した。 提案アルゴリズムでは, 環境がCBかMDPかという事前知識を取り入れ, 従来のCBとMDPに基づくアルゴリズムを効果的に補間することにより, 環境の誤特定による影響を軽減できる。 シミュレーションを行い、CB設定では、我々のアルゴリズムはMDPベースのアルゴリズムよりも後悔度が低く、一方、非帯域のMDP設定では、アルゴリズムは最適なポリシーを学習でき、しばしばMDPベースのアルゴリズムに匹敵する後悔度を達成できることを示す。

In the reinforcement learning literature, there are many algorithms developed for either Contextual Bandit (CB) or Markov Decision Processes (MDP) environments. However, when deploying reinforcement learning algorithms in the real world, even with domain expertise, it is often difficult to know whether it is appropriate to treat a sequential decision making problem as a CB or an MDP. In other words, do actions affect future states, or only the immediate rewards? Making the wrong assumption regarding the nature of the environment can lead to inefficient learning, or even prevent the algorithm from ever learning an optimal policy, even with infinite data. In this work we develop an online algorithm that uses a Bayesian hypothesis testing approach to learn the nature of the environment. Our algorithm allows practitioners to incorporate prior knowledge about whether the environment is that of a CB or an MDP, and effectively interpolate between classical CB and MDP-based algorithms to mitigate against the effects of misspecifying the environment. We perform simulations and demonstrate that in CB settings our algorithm achieves lower regret than MDP-based algorithms, while in non-bandit MDP settings our algorithm is able to learn the optimal policy, often achieving comparable regret to MDP-based algorithms.
翻訳日:2022-08-02 12:58:59 公開日:2022-07-30
# 永久磁石同期モータの温度予測のためのグローバルアテンションベースエンコーダ・デコーダLSTMモデル

Global Attention-based Encoder-Decoder LSTM Model for Temperature Prediction of Permanent Magnet Synchronous Motors ( http://arxiv.org/abs/2208.00293v1 )

ライセンス: Link先を確認
Jun Li, Thangarajah Akilan(参考訳) 温度モニタリングは、電気モーターがデバイス保護対策を実行するかどうかを決定するために重要である。 しかし、永久磁石同期モータ(pmsm)の内部構造が複雑であるため、内部部品の直接温度測定が困難となる。 この研究は、3つのディープラーニングモデルを構築し、容易に測定可能な外部量に基づいてPMSMの内部温度を推定する。 提案した教師付き学習モデルは、長短期記憶(LSTM)モジュール、双方向LSTM、アテンション機構を利用してエンコーダ・デコーダ構造を形成し、ステータ巻線、歯、ヨーク、永久磁石の温度を同時に予測する。 提案モデルの性能を検証するために,ベンチマークデータセット上で徹底的に実験を行った。 比較分析の結果,提案するグローバルアテンションベースエンコーダデコーダ(endec)モデルは,平均二乗誤差(mse)が1.72と絶対誤差(mae)が5.34である。

Temperature monitoring is critical for electrical motors to determine if device protection measures should be executed. However, the complexity of the internal structure of Permanent Magnet Synchronous Motors (PMSM) makes the direct temperature measurement of the internal components difficult. This work pragmatically develops three deep learning models to estimate the PMSMs' internal temperature based on readily measurable external quantities. The proposed supervised learning models exploit Long Short-Term Memory (LSTM) modules, bidirectional LSTM, and attention mechanism to form encoder-decoder structures to predict simultaneously the temperatures of the stator winding, tooth, yoke, and permanent magnet. Experiments were conducted in an exhaustive manner on a benchmark dataset to verify the proposed models' performances. The comparative analysis shows that the proposed global attention-based encoder-decoder (EnDec) model provides a competitive overall performance of 1.72 Mean Squared Error (MSE) and 5.34 Mean Absolute Error (MAE).
翻訳日:2022-08-02 12:58:35 公開日:2022-07-30
# 物体ポーズ推定のための神経対応場

Neural Correspondence Field for Object Pose Estimation ( http://arxiv.org/abs/2208.00113v1 )

ライセンス: Link先を確認
Lin Huang, Tomas Hodan, Lingni Ma, Linguang Zhang, Luan Tran, Christopher Twigg, Po-Chen Wu, Junsong Yuan, Cem Keskin, Robert Wang(参考訳) 1枚のRGB画像から3次元モデルで剛体物体の6DoFポーズを推定する手法を提案する。 入力画像の画素で3次元オブジェクト座標を予測する古典的対応法とは異なり,提案手法はカメラフラストラムでサンプリングされた3次元クエリポイントで3次元オブジェクト座標を予測する。 ピクセルから3Dポイントへの移動は、最近のPIFuスタイルの3D再構成法にインスパイアされたもので、自作の部品を含むオブジェクト全体を推論することができる。 ピクセル整列画像の特徴に付随する3Dクエリポイントに対して、私たちは、次のように予測するために、完全に接続されたニューラルネットワークをトレーニングします。 (i)対応する3dオブジェクト座標、 (ii)オブジェクト表面への符号付き距離は、表面近傍のクエリポイントに対してのみ定義される。 このネットワークによって実現されるマッピングをニューラル対応フィールドと呼ぶ。 オブジェクトのポーズは、Kabsch-RANSACアルゴリズムによって予測された3D-3D対応から頑健に推定される。 提案手法は,3つのBOPデータセットの最先端結果を実現し,特に閉塞を伴う課題において優れていることを示す。 プロジェクトのWebサイトは、linhuang17.github.io/NCFにある。

We propose a method for estimating the 6DoF pose of a rigid object with an available 3D model from a single RGB image. Unlike classical correspondence-based methods which predict 3D object coordinates at pixels of the input image, the proposed method predicts 3D object coordinates at 3D query points sampled in the camera frustum. The move from pixels to 3D points, which is inspired by recent PIFu-style methods for 3D reconstruction, enables reasoning about the whole object, including its (self-)occluded parts. For a 3D query point associated with a pixel-aligned image feature, we train a fully-connected neural network to predict: (i) the corresponding 3D object coordinates, and (ii) the signed distance to the object surface, with the first defined only for query points in the surface vicinity. We call the mapping realized by this network as Neural Correspondence Field. The object pose is then robustly estimated from the predicted 3D-3D correspondences by the Kabsch-RANSAC algorithm. The proposed method achieves state-of-the-art results on three BOP datasets and is shown superior especially in challenging cases with occlusion. The project website is at: linhuang17.github.io/NCF.
翻訳日:2022-08-02 12:49:32 公開日:2022-07-30
# Meta-DETR:クラス間相関爆発による画像レベルFew-Shot検出

Meta-DETR: Image-Level Few-Shot Detection with Inter-Class Correlation Exploitation ( http://arxiv.org/abs/2208.00219v1 )

ライセンス: Link先を確認
Gongjie Zhang, Zhipeng Luo, Kaiwen Cui, Shijian Lu, Eric P. Xing(参考訳) メタラーニングを領域ベース検出フレームワークに組み込むことにより,オブジェクト検出の方法が広く研究されている。 その成功にもかかわらず、そのパラダイムは今でもいくつかの要因によって制約されている。 (i)新規授業のための低品質地域提案及び (II)異なるクラス間のクラス間相関の無視。 このような制限は、新しいクラスオブジェクトを検出するためのベースクラス知識の一般化を妨げる。 本研究ではメタDETRを設計する。 (i)は、最初の画像レベルの少数ショット検出器であり、 (ii)ロバストで高精度な少数ショット物体検出のための異なるクラス間の相関を捉えて活用するための新しいクラス間相関メタラーニング戦略を導入する。 meta-detrは完全に画像レベルで動作し、どの領域の提案も必要とせず、一般的な少数ショット検出フレームワークにおける不正確な提案の制約を回避する。 さらに,Meta-DETRでは,複数のサポートクラスをひとつのフィードフォワード内で同時に参加させることで,クラス間の相関関係を捉え,類似クラスに対する誤分類を著しく低減し,新しいクラスへの知識一般化を促進する。 複数の数ショットのオブジェクト検出ベンチマーク実験により、提案したMeta-DETRは最先端の手法よりも大きなマージンで優れていることが示された。 実装コードはhttps://github.com/ZhangGongjie/Meta-DETRで公開されている。

Few-shot object detection has been extensively investigated by incorporating meta-learning into region-based detection frameworks. Despite its success, the said paradigm is still constrained by several factors, such as (i) low-quality region proposals for novel classes and (ii) negligence of the inter-class correlation among different classes. Such limitations hinder the generalization of base-class knowledge for the detection of novel-class objects. In this work, we design Meta-DETR, which (i) is the first image-level few-shot detector, and (ii) introduces a novel inter-class correlational meta-learning strategy to capture and leverage the correlation among different classes for robust and accurate few-shot object detection. Meta-DETR works entirely at image level without any region proposals, which circumvents the constraint of inaccurate proposals in prevalent few-shot detection frameworks. In addition, the introduced correlational meta-learning enables Meta-DETR to simultaneously attend to multiple support classes within a single feedforward, which allows to capture the inter-class correlation among different classes, thus significantly reducing the misclassification over similar classes and enhancing knowledge generalization to novel classes. Experiments over multiple few-shot object detection benchmarks show that the proposed Meta-DETR outperforms state-of-the-art methods by large margins. The implementation codes are available at https://github.com/ZhangGongjie/Meta-DETR.
翻訳日:2022-08-02 12:49:13 公開日:2022-07-30
# PolarMix: LiDARポイントクラウドのための汎用データ拡張技術

PolarMix: A General Data Augmentation Technique for LiDAR Point Clouds ( http://arxiv.org/abs/2208.00223v1 )

ライセンス: Link先を確認
Aoran Xiao, Jiaxing Huang, Dayan Guan, Kaiwen Cui, Shijian Lu, Ling Shao(参考訳) LiDARの点雲は通常、LiDARセンサーを連続的に回転させてスキャンされるが、周囲の環境の正確な形状を捉え、多くの自律的な検出とナビゲーションのタスクに不可欠である。 多くの3Dディープアーキテクチャが開発されているが、大量のポイントクラウドの効率的な収集とアノテーションは、ポイントクラウドデータの分析と理解において大きな課題である。 本稿では,様々な知覚タスクやシナリオにおいてデータ制約を効果的に緩和することのできる,単純かつ汎用的なポイントクラウド拡張手法であるpolarmixを提案する。 polarmixはポイントクラウドのディストリビューションを強化し、スキャン方向に沿ってポイントクラウドをカット、編集、ミックスする2つのクロススキャン拡張戦略によってポイントクラウドの忠実性を維持する。 1つ目は、方位軸に沿って切断された2つのLiDARスキャンの点雲セクターを交換するシーンレベルのスワップである。 2つ目はインスタンスレベルの回転とペーストで、1つのLiDARスキャンからポイントインスタンスをトリミングし、複数の角度で回転させ(複数のコピーを生成する)、回転したポイントインスタンスを他のスキャンにペーストする。 広範な実験により、polarmixは様々な知覚タスクとシナリオにおいて一貫して優れたパフォーマンスを達成していることが示された。 さらに、様々な3Dディープアーキテクチャのプラグイン・アンド・プレイとして機能し、教師なしドメイン適応にも適している。

LiDAR point clouds, which are usually scanned by rotating LiDAR sensors continuously, capture precise geometry of the surrounding environment and are crucial to many autonomous detection and navigation tasks. Though many 3D deep architectures have been developed, efficient collection and annotation of large amounts of point clouds remain one major challenge in the analytic and understanding of point cloud data. This paper presents PolarMix, a point cloud augmentation technique that is simple and generic but can mitigate the data constraint effectively across different perception tasks and scenarios. PolarMix enriches point cloud distributions and preserves point cloud fidelity via two cross-scan augmentation strategies that cut, edit, and mix point clouds along the scanning direction. The first is scene-level swapping which exchanges point cloud sectors of two LiDAR scans that are cut along the azimuth axis. The second is instance-level rotation and paste which crops point instances from one LiDAR scan, rotates them by multiple angles (to create multiple copies), and paste the rotated point instances into other scans. Extensive experiments show that PolarMix achieves superior performance consistently across different perception tasks and scenarios. In addition, it can work as plug-and-play for various 3D deep architectures and also performs well for unsupervised domain adaptation.
翻訳日:2022-08-02 12:48:53 公開日:2022-07-30
# 品質の多様性を最適化したニューラルアーキテクチャ探索

Tackling Neural Architecture Search With Quality Diversity Optimization ( http://arxiv.org/abs/2208.00204v1 )

ライセンス: Link先を確認
Lennart Schneider, Florian Pfisterer, Paul Kent, Juergen Branke, Bernd Bischl, Janek Thomas(参考訳) ニューラル・アーキテクチャ・サーチ(NAS)は広く研究され、大きな影響を与える研究分野となった。 古典的な単一目的nasは最高のパフォーマンスでアーキテクチャを検索するが、マルチ目的nasは複数の目的を同時に最適化する必要があると考えている。 多目的NASの分野では大きな進歩があったが、実際的な関心事の最適化問題と多目的NASが解決しようとする最適化問題との間には多少の相違があることを論じる。 我々は、多目的nas問題を品質多様性最適化(qdo)問題として定式化し、3つの品質多様性nasオプティマイザ(うち2つはマルチフィデリティオプティマイザグループに属する)を導入し、アプリケーション固有のニッチ(例えばハードウェア制約)に最適な高性能かつ多様なアーキテクチャを探索することにより、この不一致を解消する。 これらの最適化器を多目的のものと比べることで, 品質の多様性NASが, ソリューションの品質や効率性に対して多目的のNASより優れていることを示す。 さらに、アプリケーションと今後のNAS研究がQDOでどのように成長するかを示す。

Neural architecture search (NAS) has been studied extensively and has grown to become a research field with substantial impact. While classical single-objective NAS searches for the architecture with the best performance, multi-objective NAS considers multiple objectives that should be optimized simultaneously, e.g., minimizing resource usage along the validation error. Although considerable progress has been made in the field of multi-objective NAS, we argue that there is some discrepancy between the actual optimization problem of practical interest and the optimization problem that multi-objective NAS tries to solve. We resolve this discrepancy by formulating the multi-objective NAS problem as a quality diversity optimization (QDO) problem and introduce three quality diversity NAS optimizers (two of them belonging to the group of multifidelity optimizers), which search for high-performing yet diverse architectures that are optimal for application-specific niches, e.g., hardware constraints. By comparing these optimizers to their multi-objective counterparts, we demonstrate that quality diversity NAS in general outperforms multi-objective NAS with respect to quality of solutions and efficiency. We further show how applications and future NAS research can thrive on QDO.
翻訳日:2022-08-02 12:43:25 公開日:2022-07-30
# 視覚外における自己教師型学習のためのマスクオートエンコーダの検討

A Survey on Masked Autoencoder for Self-supervised Learning in Vision and Beyond ( http://arxiv.org/abs/2208.00173v1 )

ライセンス: Link先を確認
Chaoning Zhang, Chenshuang Zhang, Junha Song, John Seon Keun Yi, Kang Zhang, In So Kweon(参考訳) MAE \cite{he2022masked} というタイトルは、視覚における自己教師型学習(SSL)がNLPと同様の軌道を取ることを示唆している。 具体的には、マスク付き予測(例えばBERT)による生成前文タスクは、NLPにおけるデファクトスタンダードSSLプラクティスとなっている。 対照的に、視覚における生成的手法の初期の試みは、(対照的な学習のような)識別的手法によって埋められたが、マスク画像モデリングの成功は、マスキングオートエンコーダ(過去にはデノイングオートエンコーダ(denoising autoencoder)と呼ばれた)を復活させた。 NLPにおけるBERTとのギャップを埋めるマイルストーンとして、マスク付きオートエンコーダは、視界やそれ以上でSSLに前例のない注目を集めている。 この研究は、SSLの有望な方向性に関する洞察を隠蔽するために、マスク付きオートエンコーダの包括的な調査を実施している。 sslをマスキングオートエンコーダでレビューした最初のものとして、その歴史的発展、最近の進歩、そして多様なアプリケーションに対する影響を議論することで、そのビジョンにおけるアプリケーションに焦点を当てている。

Masked autoencoders are scalable vision learners, as the title of MAE \cite{he2022masked}, which suggests that self-supervised learning (SSL) in vision might undertake a similar trajectory as in NLP. Specifically, generative pretext tasks with the masked prediction (e.g., BERT) have become a de facto standard SSL practice in NLP. By contrast, early attempts at generative methods in vision have been buried by their discriminative counterparts (like contrastive learning); however, the success of mask image modeling has revived the masking autoencoder (often termed denoising autoencoder in the past). As a milestone to bridge the gap with BERT in NLP, masked autoencoder has attracted unprecedented attention for SSL in vision and beyond. This work conducts a comprehensive survey of masked autoencoders to shed insight on a promising direction of SSL. As the first to review SSL with masked autoencoders, this work focuses on its application in vision by discussing its historical developments, recent progress, and implications for diverse applications.
翻訳日:2022-08-02 12:41:34 公開日:2022-07-30
# sBetaによるSimplexクラスタリングとブラックボックス予測のオンライン調整への応用

Simplex Clustering via sBeta with Applications to Online Adjustments of Black-Box Predictions ( http://arxiv.org/abs/2208.00287v1 )

ライセンス: Link先を確認
Florent Chiaroni, Malik Boudiaf, Amar Mitiche, Ismail Ben Ayed(参考訳) 我々は、深層ニューラルネットワークのソフトマックス予測をクラスタリングし、k-sBetasと呼ばれる新しい確率的クラスタリング手法を導入する。 クラスタリング分布の一般的な文脈において、既存の手法は、標準ユークリッド距離の代替として、KL分散のような単純なデータに合わせた歪み測度を探索することに焦点を当てている。 クラスタリング分布の一般論として,歪みに基づく手法に基づく統計モデルでは十分説明できないことを強調する。 その代わりに、各クラスタ内のデータの適合度を、パラメータが2進代入変数とともに制約され、推定されるsBeta密度関数に最適化する。 本定式化は,クラスタデータのモデリングにおける様々なパラメトリック密度を近似し,クラスタバランスバイアスの制御を可能にする。 これにより,道路分割における一括分類や教師なし領域適応など,様々なシナリオにおけるブラックボックス予測の効率的な教師なし調整のための高い競争性能が得られる。 実装はhttps://github.com/fchiaroni/Clustering_Softmax_Predictionsで確認できる。

We explore clustering the softmax predictions of deep neural networks and introduce a novel probabilistic clustering method, referred to as k-sBetas. In the general context of clustering distributions, the existing methods focused on exploring distortion measures tailored to simplex data, such as the KL divergence, as alternatives to the standard Euclidean distance. We provide a general perspective of clustering distributions, which emphasizes that the statistical models underlying distortion-based methods may not be descriptive enough. Instead, we optimize a mixed-variable objective measuring the conformity of data within each cluster to the introduced sBeta density function, whose parameters are constrained and estimated jointly with binary assignment variables. Our versatile formulation approximates a variety of parametric densities for modeling cluster data, and enables to control the cluster-balance bias. This yields highly competitive performances for efficient unsupervised adjustment of black-box predictions in a variety of scenarios, including one-shot classification and unsupervised domain adaptation in real-time for road segmentation. Implementation is available at https://github.com/fchiaroni/Clustering_Softmax_Predictions.
翻訳日:2022-08-02 12:41:11 公開日:2022-07-30