このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220419となっている論文です。

PDF登録状況(公開日: 20220419)

TitleAuthorsAbstract論文公表日・翻訳日
# ランダムネットワークにおけるヘビアン可塑性によるメタラーニング

Meta-Learning through Hebbian Plasticity in Random Networks ( http://arxiv.org/abs/2007.02686v5 )

ライセンス: Link先を確認
Elias Najarro and Sebastian Risi(参考訳) 生涯学習と適応性は生物学的エージェントの2つの決定的な側面である。 現代の強化学習(RL)アプローチは複雑なタスクの解決に大きな進歩を示しているが、訓練が終わると、発見された解は通常静的であり、新しい情報や摂動に適応できない。 生物学的脳が経験からいかに効率的に学習し適応するかはまだ完全には理解されていないが、シナプス可塑性がこの過程において顕著な役割を担っていると考えられている。 この生物学的メカニズムに着想を得て,ニューラルネットワークの重みパラメータを直接最適化する代わりに,ネットワークがエージェントの生存中に連続的に重みを自己組織化できるように,シナプス固有のヘビアン学習規則のみを探索する手法を提案する。 本研究は,感覚の異なる複数の強化学習課題と450K以上の訓練可能な可塑性パラメータについて実証する。 完全にランダムな重みから、発見されたヘビアンルールは、エージェントがダイナミックな2Dピクセル環境をナビゲートすることを可能にする。同様に、シミュレーションされた3D四足歩行ロボットは、トレーニング中に見えない形態的損傷に適応し、100時間未満で明示的な報酬やエラー信号がない場合に、歩行の仕方を学ぶことができる。 コードはhttps://github.com/enajx/HebbianMetaLearningで入手できる。

Lifelong learning and adaptability are two defining aspects of biological agents. Modern reinforcement learning (RL) approaches have shown significant progress in solving complex tasks, however once training is concluded, the found solutions are typically static and incapable of adapting to new information or perturbations. While it is still not completely understood how biological brains learn and adapt so efficiently from experience, it is believed that synaptic plasticity plays a prominent role in this process. Inspired by this biological mechanism, we propose a search method that, instead of optimizing the weight parameters of neural networks directly, only searches for synapse-specific Hebbian learning rules that allow the network to continuously self-organize its weights during the lifetime of the agent. We demonstrate our approach on several reinforcement learning tasks with different sensory modalities and more than 450K trainable plasticity parameters. We find that starting from completely random weights, the discovered Hebbian rules enable an agent to navigate a dynamical 2D-pixel environment; likewise they allow a simulated 3D quadrupedal robot to learn how to walk while adapting to morphological damage not seen during training and in the absence of any explicit reward or error signal in less than 100 timesteps. Code is available at https://github.com/enajx/HebbianMetaLearning.
翻訳日:2022-11-13 01:15:19 公開日:2022-04-19
# パーセプトロン合成ネットワーク:ビデオにおけるアクションスケールのばらつきを再考する

Perceptron Synthesis Network: Rethinking the Action Scale Variances in Videos ( http://arxiv.org/abs/2007.11460v3 )

ライセンス: Link先を確認
Yuan Tian, Guangtao Zhai, Zhiyong Gao(参考訳) ビデオアクション認識は、固定サイズの3Dカーネルを積み重ねたCNNによって部分的に解決されている。 しかし、これらの手法は、異なるアクションプリミティブ間のスケールのばらつきを無視しつつ、単一スケール空間における厳密な時空間パターンのみをキャプチャするために、性能が低い。 この限界を克服するため,我々はデータから最適なスケールカーネルを学ぶことを提案する。 より具体的には、密度の高い経路によって相互作用する固定サイズのカーネルの袋からカーネルを生成するために、 \textit{action perceptron synthesizer} が提案されている。 経路の相互作用の豊かさと情報容量を保証するため,新しい「textit{optimized feature fusion layer}」を設計する。 この層は、現在の機能融合技術(チャネルシャッフルやチャネルドロップアウトなど)の大部分を初めてカバーする、原則化された普遍的パラダイムを確立します。 textit{synthesizer}を挿入することで、従来の2d cnnをアクション認識などのビデオ理解タスクに容易に適用でき、余分な計算コストがかかる。 提案手法は, 時間的推論や外見の識別が要求される複数の課題データセット(Somehting-to-Somthing, Kinetics, Diving48)に対して徹底的に評価され, 新たな最先端結果が得られた。 特に,我々の低分解能モデルは,計算コストの30%未満で,最近の強力なベースライン法,すなわちtsmとgstを上回っている。

Video action recognition has been partially addressed by the CNNs stacking of fixed-size 3D kernels. However, these methods may under-perform for only capturing rigid spatial-temporal patterns in single-scale spaces, while neglecting the scale variances across different action primitives. To overcome this limitation, we propose to learn the optimal-scale kernels from the data. More specifically, an \textit{action perceptron synthesizer} is proposed to generate the kernels from a bag of fixed-size kernels that are interacted by dense routing paths. To guarantee the interaction richness and the information capacity of the paths, we design the novel \textit{optimized feature fusion layer}. This layer establishes a principled universal paradigm that suffices to cover most of the current feature fusion techniques (e.g., channel shuffling, and channel dropout) for the first time. By inserting the \textit{synthesizer}, our method can easily adapt the traditional 2D CNNs to the video understanding tasks such as action recognition with marginal additional computation cost. The proposed method is thoroughly evaluated over several challenging datasets (i.e., Somehting-to-Somthing, Kinetics and Diving48) that highly require temporal reasoning or appearance discriminating, achieving new state-of-the-art results. Particularly, our low-resolution model outperforms the recent strong baseline methods, i.e., TSM and GST, with less than 30\% of their computation cost.
翻訳日:2022-11-07 22:29:51 公開日:2022-04-19
# 人体3次元メッシュ推定のための高精度3次元ハンドポーズ推定

Accurate 3D Hand Pose Estimation for Whole-Body 3D Human Mesh Estimation ( http://arxiv.org/abs/2011.11534v4 )

ライセンス: Link先を確認
Gyeongsik Moon and Hongsuk Choi and Kyoung Mu Lee(参考訳) 全身3次元メッシュ推定は、人体、手、顔を同時に再構築することを目的としている。 いくつかの方法が提案されているが、3D手首と指で構成される3Dハンドの正確な予測は2つの理由から依然として困難である。 第一に、ヒトのキネマティック鎖は3D手首を予測する際に慎重に考慮されていない。 第二に、これまでの作品では3D指の身体的特徴を利用していた。 制約を解決するために,前作よりも2つの強点を持つhand4wholeを提案する。 まず,3次元関節回転に関節機能を利用するPose2Poseを設計する。 pose2poseを使用して、hand4wholeは手のmcp関節の特徴を利用して、3d手首を予測する。 第二に、ハンド4は3d指の回転を予測するときに身体の特徴を捨てる。 hand4wholeはエンドツーエンドでトレーニングされ、従来の全身3dメッシュ推定法よりもはるかに優れた3dハンド結果を生成する。 コードはhttps://github.com/mks0601/hand4whole_releaseで入手できる。

Whole-body 3D human mesh estimation aims to reconstruct the 3D human body, hands, and face simultaneously. Although several methods have been proposed, accurate prediction of 3D hands, which consist of 3D wrist and fingers, still remains challenging due to two reasons. First, the human kinematic chain has not been carefully considered when predicting the 3D wrists. Second, previous works utilize body features for the 3D fingers, where the body feature barely contains finger information. To resolve the limitations, we present Hand4Whole, which has two strong points over previous works. First, we design Pose2Pose, a module that utilizes joint features for 3D joint rotations. Using Pose2Pose, Hand4Whole utilizes hand MCP joint features to predict 3D wrists as MCP joints largely contribute to 3D wrist rotations in the human kinematic chain. Second, Hand4Whole discards the body feature when predicting 3D finger rotations. Our Hand4Whole is trained in an end-to-end manner and produces much better 3D hand results than previous whole-body 3D human mesh estimation methods. The codes are available here at https://github.com/mks0601/Hand4Whole_RELEASE.
翻訳日:2022-09-22 02:29:49 公開日:2022-04-19
# Neural Annot: 3次元メッシュトレーニングセットのためのニューラルアノテーション

NeuralAnnot: Neural Annotator for 3D Human Mesh Training Sets ( http://arxiv.org/abs/2011.11232v5 )

ライセンス: Link先を確認
Gyeongsik Moon and Hongsuk Choi and Kyoung Mu Lee(参考訳) ほとんどの3次元メッシュ回帰器は、3D擬似GT人間のモデルパラメータで完全に制御されており、3D擬似GTが大きなパフォーマンス向上をもたらすため、GT 2D/3D関節座標で弱制御されている。 3D擬似GTは、アノテータによって取得され、3D人間のモデルパラメータを回帰器の前処理段階におけるトレーニングセットのGT2D/3D関節座標に反復的に適合させるシステムである。 最後に装着された3Dパラメータは、3D擬似GTとなり、後続機を完全に監督するために使用される。 SMPLify-Xのような最適化ベースのアノテータは、3D擬似GTを得るために広く使われている。 しかし、各サンプルの3DパラメータをGTに独立に適合させるため、しばしば間違った3D擬似GTを生成する。 この制限を克服するため、ニューラルネットワークベースのアノテーションであるNeuralAnnotを提案する。 NeuralAnnotの主なアイデアは、ニューラルネットワークベースの回帰器を採用して、アノテーションに捧げることである。 3D擬似GTが存在しないと仮定すると、NeuralAnnotはトレーニングセットのGT 2D/3D共同座標で弱められる。 同じトレーニングセットでの試験結果は、3D擬似GTとなり、回帰器を完全に監督するために使用される。 NeuralAnnotの3次元擬似GTは回帰器の訓練に非常に有益であることを示す。 3D擬似GTを公開しました。

Most 3D human mesh regressors are fully supervised with 3D pseudo-GT human model parameters and weakly supervised with GT 2D/3D joint coordinates as the 3D pseudo-GTs bring great performance gain. The 3D pseudo-GTs are obtained by annotators, systems that iteratively fit 3D human model parameters to GT 2D/3D joint coordinates of training sets in the pre-processing stage of the regressors. The fitted 3D parameters at the last fitting iteration become the 3D pseudo-GTs, used to fully supervise the regressors. Optimization-based annotators, such as SMPLify-X, have been widely used to obtain the 3D pseudo-GTs. However, they often produce wrong 3D pseudo-GTs as they fit the 3D parameters to GT of each sample independently. To overcome the limitation, we present NeuralAnnot, a neural network-based annotator. The main idea of NeuralAnnot is to employ a neural network-based regressor and dedicate it for the annotation. Assuming no 3D pseudo-GTs are available, NeuralAnnot is weakly supervised with GT 2D/3D joint coordinates of training sets. The testing results on the same training sets become 3D pseudo-GTs, used to fully supervise the regressors. We show that 3D pseudo-GTs of NeuralAnnot are highly beneficial to train the regressors. We made our 3D pseudo-GTs publicly available.
翻訳日:2022-09-22 02:21:18 公開日:2022-04-19
# 深層強化学習によるネットワークトポロジー最適化

Network Topology Optimization via Deep Reinforcement Learning ( http://arxiv.org/abs/2204.14133v1 )

ライセンス: Link先を確認
Zhuoran Li, Xing Wang, Ling Pan, Lin Zhu, Zhendong Wang, Junlan Feng, Chao Deng, Longbo Huang(参考訳) トポロジーは、リンク利用、スループット、レイテンシなど、重要なネットワークパフォーマンス指標に影響を与える。 しかし、ネットワークトポロジの組合せの性質から、特にネットワークにおけるトポロジ計画には管理固有の制約が伴うため、最適解を得るのは非常に困難である。 その結果、人間の専門家による手作業によるヒューリスティックな手法による局所的な最適化が実践的に採用されることが多い。 しかし、ヒューリスティックな手法は制約を考慮してグローバルなトポロジ設計空間をカバーできず、優れた解を見つけることは保証できない。 本稿では,ネットワークトポロジ最適化のための新しい深層強化学習アルゴリズムである advantage actor critic-graph search (a2c-gs) を提案する。 A2C-GSは、生成されたネットワークトポロジの正しさを検証する検証器、トポロジを効率的に近似するグラフニューラルネットワーク(GNN)、トポロジ探索を行うDRLアクター層を含む3つの新しいコンポーネントから構成される。 a2c-gsは、性能を満足して、大きなトポロジ空間と出力トポロジーを効率的に探索することができる。 本研究は,実ネットワークシナリオに基づくケーススタディを実施し,a2c-gsの効率と性能の両方において優れた性能を示す。

Topology impacts important network performance metrics, including link utilization, throughput and latency, and is of central importance to network operators. However, due to the combinatorial nature of network topology, it is extremely difficult to obtain an optimal solution, especially since topology planning in networks also often comes with management-specific constraints. As a result, local optimization with hand-tuned heuristic methods from human experts are often adopted in practice. Yet, heuristic methods cannot cover the global topology design space while taking into account constraints, and cannot guarantee to find good solutions. In this paper, we propose a novel deep reinforcement learning (DRL) algorithm, called Advantage Actor Critic-Graph Searching (A2C-GS), for network topology optimization. A2C-GS consists of three novel components, including a verifier to validate the correctness of a generated network topology, a graph neural network (GNN) to efficiently approximate topology rating, and a DRL actor layer to conduct a topology search. A2C-GS can efficiently search over large topology space and output topology with satisfying performance. We conduct a case study based on a real network scenario, and our experimental results demonstrate the superior performance of A2C-GS in terms of both efficiency and performance.
翻訳日:2022-05-09 00:12:26 公開日:2022-04-19
# エネルギー効率の良いACMVシステムの予測と最適化:計算インテリジェンスアプローチ

Predicting and Optimizing for Energy Efficient ACMV Systems: Computational Intelligence Approaches ( http://arxiv.org/abs/2205.00833v1 )

ライセンス: Link先を確認
Deqing Zhai and Yeng Chai Soh(参考訳) 本研究では, 住民の熱的快適状態を95%以上精度で予測するニューラルネットワークの新たな応用を提案し, シンガポールの2つの実例(総合オフィス・講義室・会議室シナリオ)で2つの最適化アルゴリズムを提案し, 評価した。 2つの最適化アルゴリズムはBayesian Gaussian Process Optimization (BGPO) と拡張ファイアフライアルゴリズム (AFA) である。 これまでの研究では、ニューラルネットワークを用いてエネルギー消費のモデルを開発し、よく訓練した。 本研究では, 集中型空調システムのエネルギー効率と使用者の熱快適性とをバランスさせることを目的とした多目的課題を解決すべく, 新たなアクティブアプローチを用いて, 使用者の熱快適性を評価することに焦点を当てた。 本研究は,bgpoとafaが共に,事前知識に基づく最適化問題を効果的に解決できることを示すものである。 しかし、AFAの最適解は、与えられたサンプルサイズで BGPO よりも一貫性がある。 BGPOとAFAの最高省エネレート(ESR)は、それぞれケース1とケース2の両方でエネルギー効率の良いユーザー好みで-21%と-10%である。 その結果、シンガポールのこの実験的な実験レベルでは、年間1219.1ドルの潜在的利益が得られる。

In this study, a novel application of neural networks that predict thermal comfort states of occupants is proposed with accuracy over 95%, and two optimization algorithms are proposed and evaluated under two real cases (general offices and lecture theatres/conference rooms scenarios) in Singapore. The two optimization algorithms are Bayesian Gaussian process optimization (BGPO) and augmented firefly algorithm (AFA). Based on our earlier studies, the models of energy consumption were developed and well-trained through neural networks. This study focuses on using novel active approaches to evaluate thermal comfort of occupants and so as to solves a multiple-objective problem that aims to balance energy-efficiency of centralized air-conditioning systems and thermal comfort of occupants. The study results show that both BGPO and AFA are feasible to resolve this no prior knowledge-based optimization problem effectively. However, the optimal solutions of AFA are more consistent than those of BGPO at given sample sizes. The best energy saving rates (ESR) of BGPO and AFA are around -21% and -10% respectively at energy-efficient user preference for both Case 1 and Case 2. As a result, an potential benefit of S$1219.1 can be achieved annually for this experimental laboratory level in Singapore.
翻訳日:2022-05-09 00:10:59 公開日:2022-04-19
# 共有とケア: 計算法学における建設的批判の文化の創造

Sharing and Caring: Creating a Culture of Constructive Criticism in Computational Legal Studies ( http://arxiv.org/abs/2205.01071v1 )

ライセンス: Link先を確認
Corinna Coupette and Dirk Hartung(参考訳) 計算法学における建設的批判の文化を作るための基本原則を7つ紹介する。 論文を主要な学術的アウトプットとして現在の認識に挑戦することから始め、出版物のより包括的な解釈を求める。 次に、これらのパブリッシングを計算的に再現可能にし、すべてのデータとすべてのコードを常に、時間、そして可能な限り最も機能的な形式でリリースすることを提案します。 その後,出版ライフサイクルのすべての段階において建設的批判を提起する。 我々は、我々の提案がこの分野の形成に役立ち、計算法学研究のための近代的なフラッグシップ出版サイトを作ることによって、この成熟度を示すアイデアを浮かび上がらせると仮定する。

We introduce seven foundational principles for creating a culture of constructive criticism in computational legal studies. Beginning by challenging the current perception of papers as the primary scholarly output, we call for a more comprehensive interpretation of publications. We then suggest to make these publications computationally reproducible, releasing all of the data and all of the code all of the time, on time, and in the most functioning form possible. Subsequently, we invite constructive criticism in all phases of the publication life cycle. We posit that our proposals will help form our field, and float the idea of marking this maturity by the creation of a modern flagship publication outlet for computational legal studies.
翻訳日:2022-05-09 00:10:36 公開日:2022-04-19
# 高速画像復元・強調のための学習強化機能

Learning Enriched Features for Fast Image Restoration and Enhancement ( http://arxiv.org/abs/2205.01649v1 )

ライセンス: Link先を確認
Syed Waqas Zamir, Aditya Arora, Salman Khan, Munawar Hayat, Fahad Shahbaz Khan, Ming-Hsuan Yang, Ling Shao(参考訳) 劣化した入力画像から、画像復元は、欠落した高品質の画像コンテンツを回復することを目的としている。 多くのアプリケーションは効率的な画像復元(例えば、計算写真、監視、自動運転車、リモートセンシング)を必要としている。 近年では、畳み込みニューラルネットワーク(CNN)が中心となって画像修復の進歩が著しい。 広く使われているCNNベースの手法は、一般的にフル解像度またはプログレッシブに低解像度の表現で動作する。 前者の場合、空間的詳細は保存されるが、文脈情報を正確に符号化することはできない。 後者の場合、生成された出力は意味的に信頼性があるが、空間的には正確ではない。 本稿では,ネットワーク全体を通して空間的にpreciseな高分解能表現を維持し,低解像度表現から相補的なコンテクスト情報を受け取ることを目標とした新しいアーキテクチャを提案する。 私たちのアプローチの核心は、以下のキー要素を含むマルチスケールの残留ブロックです。 (a)マルチスケール特徴抽出のための並列マルチレゾリューション畳み込みストリーム (b)多解像度ストリーム間の情報交換 (c)文脈情報を取得する非局所的注意機構、及び (d)注意に基づくマルチスケール特徴集約。 提案手法では,複数のスケールの文脈情報を組み合わせて,高分解能な空間的詳細を同時に保持する機能セットを学習する。 MIRNet-v2 と呼ばれる6つの実画像ベンチマークデータセットの大規模な実験により,デフォーカスデブロアリング,画像デノイング,超解像,画像強調など,様々な画像処理タスクの最先端結果が得られた。 ソースコードと事前トレーニングされたモデルはhttps://github.com/swz30/MIRNetv2で入手できる。

Given a degraded input image, image restoration aims to recover the missing high-quality image content. Numerous applications demand effective image restoration, e.g., computational photography, surveillance, autonomous vehicles, and remote sensing. Significant advances in image restoration have been made in recent years, dominated by convolutional neural networks (CNNs). The widely-used CNN-based methods typically operate either on full-resolution or on progressively low-resolution representations. In the former case, spatial details are preserved but the contextual information cannot be precisely encoded. In the latter case, generated outputs are semantically reliable but spatially less accurate. This paper presents a new architecture with a holistic goal of maintaining spatially-precise high-resolution representations through the entire network, and receiving complementary contextual information from the low-resolution representations. The core of our approach is a multi-scale residual block containing the following key elements: (a) parallel multi-resolution convolution streams for extracting multi-scale features, (b) information exchange across the multi-resolution streams, (c) non-local attention mechanism for capturing contextual information, and (d) attention based multi-scale feature aggregation. Our approach learns an enriched set of features that combines contextual information from multiple scales, while simultaneously preserving the high-resolution spatial details. Extensive experiments on six real image benchmark datasets demonstrate that our method, named as MIRNet-v2 , achieves state-of-the-art results for a variety of image processing tasks, including defocus deblurring, image denoising, super-resolution, and image enhancement. The source code and pre-trained models are available at https://github.com/swz30/MIRNetv2
翻訳日:2022-05-09 00:10:22 公開日:2022-04-19
# 推論と学習のダイナミクスについて

On the Dynamics of Inference and Learning ( http://arxiv.org/abs/2204.12939v1 )

ライセンス: Link先を確認
David S. Berman, Jonathan J. Heckman, Marc Klinger(参考訳) 統計的推論は、データセットが与えられたモデルのパラメータの空間上の確率分布を決定する過程である。 より多くのデータが利用可能になると、確率分布はベイズの定理の適用によって更新される。 本稿では,このベイズ更新過程を連続力学系として扱う。 統計的推論は、パラメトリックなモデル族によって決定される情報幾何学における軌道や流れを記述する一階微分方程式によって制御される。 いくつかの単純なモデルに対してこの方程式を解くと、Cram\'{e}r-Rao境界が飽和すると、学習率は単純な1/T$パワーローで制御され、データ量を表す時間的な変数は$T$である。 隠れ変数の存在をこの設定に組み込むことができ、結果としてフロー方程式のさらなる駆動項が導かれる。 ガウス過程とガウス確率過程に基づく解析的および数値的な例と1次元イジングモデルにおけるカップリング定数の推定の両方でこれを説明できる。 最後に,ベイズ流が示す定性的挙動と,MNISTやCIFAR10などのベンチマークデータセット上での各種ニューラルネットワークのトレーニングを比較し,最終的な損失が少ないネットワークに対して,単純なパワーローも満足できることを示す。

Statistical Inference is the process of determining a probability distribution over the space of parameters of a model given a data set. As more data becomes available this probability distribution becomes updated via the application of Bayes' theorem. We present a treatment of this Bayesian updating process as a continuous dynamical system. Statistical inference is then governed by a first order differential equation describing a trajectory or flow in the information geometry determined by a parametric family of models. We solve this equation for some simple models and show that when the Cram\'{e}r-Rao bound is saturated the learning rate is governed by a simple $1/T$ power-law, with $T$ a time-like variable denoting the quantity of data. The presence of hidden variables can be incorporated in this setting, leading to an additional driving term in the resulting flow equation. We illustrate this with both analytic and numerical examples based on Gaussians and Gaussian Random Processes and inference of the coupling constant in the 1D Ising model. Finally we compare the qualitative behaviour exhibited by Bayesian flows to the training of various neural networks on benchmarked data sets such as MNIST and CIFAR10 and show how that for networks exhibiting small final losses the simple power-law is also satisfied.
翻訳日:2022-05-01 08:49:07 公開日:2022-04-19
# (参考訳) 外部知識の活用による臨床テキストからの表現型抽出のための教師なし数値推論

Unsupervised Numerical Reasoning to Extract Phenotypes from Clinical Text by Leveraging External Knowledge ( http://arxiv.org/abs/2204.10202v1 )

ライセンス: CC BY 4.0
Ashwani Tanwar, Jingqing Zhang, Julia Ive, Vibhor Gupta, Yike Guo(参考訳) 臨床テキストから表現型を抽出することは、稀な疾患の患者を特定するなど、様々な臨床応用例に有用であることが示されている。 しかし, 臨床テキストでは, 温度102Fがフェバーを表すなど, 数値的推論が困難である。 現在の最先端の表現型モデルは一般的な表現型を検出することができるが、数値的な推論を必要とする表現型を検出すると性能が低下する。 本稿では,様々な表現型文脈における数値推論のために,外部知識と文脈的単語埋め込みを利用した新しい教師なし手法を提案する。 教師なしベンチマークと比較すると、一般化リコールとf1スコアがそれぞれ79%と71%という、実質的なパフォーマンス改善が見られた。 教師付き設定では、一般化されたリコールとF1のスコアが最大70%と44%の絶対ゲインを持つ代替手法のパフォーマンスを上回ります。

Extracting phenotypes from clinical text has been shown to be useful for a variety of clinical use cases such as identifying patients with rare diseases. However, reasoning with numerical values remains challenging for phenotyping in clinical text, for example, temperature 102F representing Fever. Current state-of-the-art phenotyping models are able to detect general phenotypes, but perform poorly when they detect phenotypes requiring numerical reasoning. We present a novel unsupervised methodology leveraging external knowledge and contextualized word embeddings from ClinicalBERT for numerical reasoning in a variety of phenotypic contexts. Comparing against unsupervised benchmarks, it shows a substantial performance improvement with absolute gains on generalized Recall and F1 scores up to 79% and 71%, respectively. In the supervised setting, it also surpasses the performance of alternative approaches with absolute gains on generalized Recall and F1 scores up to 70% and 44%, respectively.
翻訳日:2022-04-23 07:38:58 公開日:2022-04-19
# (参考訳) ウェーブレット散乱共分散によるスケール依存性と自己相似性

Scale Dependencies and Self-Similarity Through Wavelet Scattering Covariance ( http://arxiv.org/abs/2204.10177v1 )

ライセンス: CC BY 4.0
Rudy Morel, Gaspar Rochette, Roberto Leonarduzzi, Jean-Philippe Bouchaud, St\'ephane Mallat(参考訳) 定常増分を持つ時系列の非ガウスモデルを提供する散乱共分散行列を導入する。 複素ウェーブレット変換は、各スケールの信号変動を計算する。 スケール間の依存性は、複雑なウェーブレット係数とその係数の時間とスケールのジョイント共分散によって捉えられる。 この共分散は散乱共分散を定義する第二のウェーブレット変換によってほぼ対角化される。 この一連のモーメントが多スケールプロセスのガウス的でない幅広い性質を特徴付けることを示す。 これは、分数ブラウン運動、ポアソン、マルチフラクタルランダムウォーク、ホークス過程を含む様々なプロセスで分析される。 自己相似過程はスケール不変な散乱共分散行列を持つことが証明される。 この性質は数値的に推定でき、広義の自己相似過程のクラスを定義することができる。 散乱共分散係数を条件とした最大エントロピーモデルを構築し,マイクロカノニカルサンプリングアルゴリズムを用いて新しい時系列を生成する。 非常に非ゲージ的な金融と乱流の時系列に対する応用が示されている。

We introduce a scattering covariance matrix which provides non-Gaussian models of time-series having stationary increments. A complex wavelet transform computes signal variations at each scale. Dependencies across scales are captured by the joint covariance across time and scales of complex wavelet coefficients and their modulus. This covariance is nearly diagonalized by a second wavelet transform, which defines the scattering covariance. We show that this set of moments characterizes a wide range of non-Gaussian properties of multi-scale processes. This is analyzed for a variety of processes, including fractional Brownian motions, Poisson, multifractal random walks and Hawkes processes. We prove that self-similar processes have a scattering covariance matrix which is scale invariant. This property can be estimated numerically and defines a class of wide-sense self-similar processes. We build maximum entropy models conditioned by scattering covariance coefficients, and generate new time-series with a microcanonical sampling algorithm. Applications are shown for highly non-Gaussian financial and turbulence time-series.
翻訳日:2022-04-23 06:56:32 公開日:2022-04-19
# 胸部X線所見の位置認識のための空間保存フレーテニング

Spatially-Preserving Flattening for Location-Aware Classification of Findings in Chest X-Rays ( http://arxiv.org/abs/2204.09676v1 )

ライセンス: Link先を確認
Neha Srivathsa, Razi Mahmood, Tanveer Syeda-Mahmood(参考訳) 胸部X線は、大規模ラベル付きデータセットが利用可能であることから、近年、活発な深層学習研究の焦点となっている。 異常な発見の分類は可能であるが、解剖学的領域における異常の認識を必要とするため、適切に局所化されることを保証することは依然として困難である。 きめ細かな異常分類のための既存のディープラーニングネットワークは、分類前の平坦化ステップで位置と空間の連続性情報が失われるアーキテクチャを用いて、位置特異的な発見を学ぶ。 本稿では,フラット化時の特徴写像の自動符号化により位置と形状情報を保存する空間保存型深層学習ネットワークを提案する。 特徴マップ、オートエンコーダ、および分類器はエンドツーエンドで訓練され、胸部X線による所見の特定を可能にする。 その結果, マルチホスピタル型胸部X線データセットにおいて, 最先端手法による分類の精度向上が示された。

Chest X-rays have become the focus of vigorous deep learning research in recent years due to the availability of large labeled datasets. While classification of anomalous findings is now possible, ensuring that they are correctly localized still remains challenging, as this requires recognition of anomalies within anatomical regions. Existing deep learning networks for fine-grained anomaly classification learn location-specific findings using architectures where the location and spatial contiguity information is lost during the flattening step before classification. In this paper, we present a new spatially preserving deep learning network that preserves location and shape information through auto-encoding of feature maps during flattening. The feature maps, auto-encoder and classifier are then trained in an end-to-end fashion to enable location aware classification of findings in chest X-rays. Results are shown on a large multi-hospital chest X-ray dataset indicating a significant improvement in the quality of finding classification over state-of-the-art methods.
翻訳日:2022-04-22 13:00:33 公開日:2022-04-19
# 暗号通貨市場予測のためのソーシャルメディアセンシング分析

Social Media Sentiment Analysis for Cryptocurrency Market Prediction ( http://arxiv.org/abs/2204.10185v1 )

ライセンス: Link先を確認
Ali Raheman, Anton Kolonin, Igors Fridkins, Ikram Ansari, Mukul Vishwas(参考訳) 本稿では,金融市場予測に応用したソーシャルメディアの感情分析のための,さまざまな自然言語処理モデルのユーザビリティについて,暗号ドメインを参考に検討する。 我々は、異なる感情指標がBitcoinの価格変動とどのように相関しているかを研究する。 本研究の目的は,テキストから感情メトリクスを計算するための様々な手法を探索することである。 そのうちの1つは、他の20以上の公的なモデルよりも優れており、解釈可能な性質から効率的に微調整することが可能である。 したがって、解釈可能な人工知能と自然言語処理手法は、説明不能で解釈不能なものよりも実用上有用である可能性がある。 最後に、異なる感情指標と価格変動の間の潜在的な因果関係を分析する。

In this paper, we explore the usability of different natural language processing models for the sentiment analysis of social media applied to financial market prediction, using the cryptocurrency domain as a reference. We study how the different sentiment metrics are correlated with the price movements of Bitcoin. For this purpose, we explore different methods to calculate the sentiment metrics from a text finding most of them not very accurate for this prediction task. We find that one of the models outperforms more than 20 other public ones and makes it possible to fine-tune it efficiently given its interpretable nature. Thus we confirm that interpretable artificial intelligence and natural language processing methods might be more valuable practically than non-explainable and non-interpretable ones. In the end, we analyse potential causal connections between the different sentiment metrics and the price movements.
翻訳日:2022-04-22 12:58:48 公開日:2022-04-19
# optimize_prime@dravidianlangtech-acl2022: タミルにおける悪質なコメント検出

Optimize_Prime@DravidianLangTech-ACL2022: Abusive Comment Detection in Tamil ( http://arxiv.org/abs/2204.09675v1 )

ライセンス: Link先を確認
Shantanu Patankar, Omkar Gokhale, Onkar Litake, Aditya Mandke, Dipali Kadam(参考訳) 本稿では,低リソースのインデックス言語における乱用コメント検出の問題に対処する。 虐待的なコメントは、人や人々のグループに対して不快な発言である。 これらのコメントは、特定の民族、性別、キャスト、人種、セクシュアリティなどに属する個人を対象としている。 虐待的コメント検出は特に最近のソーシャルメディア利用者の増加で大きな問題となっている。 本稿では,ACL 2022共有タスク"Abusive Comment Detection in Tamil"において,我々のチームであるOptimize_Primeのアプローチについて述べる。 このタスクは、タミル語とタミル英語のCodemixedフォーマットでYouTubeのコメントを検出して分類する。 結果の最適化には,モデル,リカレントニューラルネットワーク,トランスフォーマーの3つの手法を用いた。 Tamil のデータでは,Mulil と XLM-RoBERTA が,マクロ平均 f1 スコア0.43。 さらに、Code-mixedデータに対して、MuRILとM-BERTは、マクロ平均f1スコア0.45のサブレベル結果を提供した。

This paper tries to address the problem of abusive comment detection in low-resource indic languages. Abusive comments are statements that are offensive to a person or a group of people. These comments are targeted toward individuals belonging to specific ethnicities, genders, caste, race, sexuality, etc. Abusive Comment Detection is a significant problem, especially with the recent rise in social media users. This paper presents the approach used by our team - Optimize_Prime, in the ACL 2022 shared task "Abusive Comment Detection in Tamil." This task detects and classifies YouTube comments in Tamil and Tamil- English Codemixed format into multiple categories. We have used three methods to optimize our results: Ensemble models, Recurrent Neural Networks, and Transformers. In the Tamil data, MuRIL and XLM-RoBERTA were our best performing models with a macro-averaged f1 score of 0.43. Furthermore, for the Code-mixed data, MuRIL and M-BERT provided sub-lime results, with a macro-averaged f1 score of 0.45.
翻訳日:2022-04-22 12:54:34 公開日:2022-04-19
# ベンガル語ミームとテキストからのマルチモーダルヘイト音声検出

Multimodal Hate Speech Detection from Bengali Memes and Texts ( http://arxiv.org/abs/2204.10196v1 )

ライセンス: Link先を確認
Md. Rezaul Karim and Sumon Kanti Dey and Tanhim Islam and Bharathi Raja Chakravarthi(参考訳) 機械学習(ML)とディープラーニング(DL)技術を用いて、ソーシャルメディアからのテキストデータをサイバーいじめ、フェイクニュースの伝播、ヘイトスピーチなどの反社会的行動分析に活用する研究が数多く提案されている。 しかし、多くの多様性と何百万ものネイティブスピーカーがあるにもかかわらず、ベンガル語のような一部の言語は、自然言語処理(NLP)の計算資源が不足しているため、リソースが不足している。 英語と同様に、ベンガルのソーシャルメディアコンテンツは、テキストと共に画像を含む(例えば、Facebook上の画像に短いテキストを埋め込むことで、マルチモーダルコンテンツが投稿される)。 その場合、画像は適切な判断に余分な文脈を与えるかもしれない。 本稿では,マルチモーダルベンガルミームとテキストからのヘイトスピーチ検出について述べる。 ベンガルに対する問題として,マルチモーダルヘイトスピーチ検出データセット1を作成した。 我々は、単語埋め込みを伴うBi-LSTM/Conv-LSTM、モノリンガルBangla BERT、マルチリンガルBERT-cased/uncased、XLM-RoBERTaなどのトランスフォーマーアーキテクチャなどのニューラルネットワークを、ヘイトスピーチ検出のためのテキストと視覚情報を共同で分析する。 Conv-LSTM と XLM-RoBERTa はそれぞれ 0.78 と 0.82 のスコアを得た。 ミームでは、ResNet152とDenseNet201はそれぞれ0.78と0.7のスコアを得る。 mBERT-uncased + EfficientNet-B1のマルチモーダル融合が最も良く、F1スコアは0.80である。 ベンガルにおけるヘイトスピーチ検出にはミームが適度に有用であることが示唆されたが、マルチモーダルモデルはテキストデータのみを分析するユニモーダルモデルを上回るものではない。

Numerous works have been proposed to employ machine learning (ML) and deep learning (DL) techniques to utilize textual data from social media for anti-social behavior analysis such as cyberbullying, fake news propagation, and hate speech mainly for highly resourced languages like English. However, despite having a lot of diversity and millions of native speakers, some languages such as Bengali are under-resourced, which is due to a lack of computational resources for natural language processing (NLP). Like English, Bengali social media content also includes images along with texts (e.g., multimodal contents are posted by embedding short texts into images on Facebook), only the textual data is not enough to judge them (e.g., to determine they are hate speech). In those cases, images might give extra context to properly judge. This paper is about hate speech detection from multimodal Bengali memes and texts. We prepared the only multimodal hate speech detection dataset1 for a kind of problem for Bengali. We train several neural architectures (i.e., neural networks like Bi-LSTM/Conv-LSTM with word embeddings, EfficientNet + transformer architectures such as monolingual Bangla BERT, multilingual BERT-cased/uncased, and XLM-RoBERTa) jointly analyze textual and visual information for hate speech detection. The Conv-LSTM and XLM-RoBERTa models performed best for texts, yielding F1 scores of 0.78 and 0.82, respectively. As of memes, ResNet152 and DenseNet201 models yield F1 scores of 0.78 and 0.7, respectively. The multimodal fusion of mBERT-uncased + EfficientNet-B1 performed the best, yielding an F1 score of 0.80. Our study suggests that memes are moderately useful for hate speech detection in Bengali, but none of the multimodal models outperform unimodal models analyzing only textual data.
翻訳日:2022-04-22 12:37:23 公開日:2022-04-19
# (参考訳) 運転者の気まずい行動と様々な視線領域を解析するためのSynDD1データセット

Synthetic Distracted Driving (SynDD1) dataset for analyzing distracted behaviors and various gaze zones of a driver ( http://arxiv.org/abs/2204.08096v2 )

ライセンス: CC BY 4.0
Mohammed Shaiqur Rahman, Archana Venkatachalapathy, Anuj Sharma, Jiyang Wang, Senem Velipasalar Gursoy, David Anastasiu, Shuo Wang(参考訳) 本稿では、運転者の様々な注意をそらした行動や視線ゾーンを検知し分析する機械学習モデルのための合成注意注意運転データセット(syndd1)を提案する。 3台の車載カメラをダッシュボード、リアビューミラー付近、右上ウィンドウコーナーの3箇所に配置し、静止車内でデータを収集した。 データセットは2つのアクティビティタイプを含む: 中断されたアクティビティと、各参加者の視線ゾーンと、各アクティビティタイプは、外観ブロックなしで、帽子やサングラスをかけたような外観ブロックを備えた2つのセットを持つ。 各参加者に対する各アクティビティの順序と持続時間はランダムである。 さらにデータセットには、各アクティビティに対する手動アノテーションが含まれており、開始時と終了時をアノテートしている。 研究者はこのデータセットを使って、ドライバーの様々な注意をそらすアクティビティと視線ゾーンを分類するための機械学習アルゴリズムのパフォーマンスを評価することができた。

This article presents a synthetic distracted driving (SynDD1) dataset for machine learning models to detect and analyze drivers' various distracted behavior and different gaze zones. We collected the data in a stationary vehicle using three in-vehicle cameras positioned at locations: on the dashboard, near the rearview mirror, and on the top right-side window corner. The dataset contains two activity types: distracted activities, and gaze zones for each participant and each activity type has two sets: without appearance blocks and with appearance blocks such as wearing a hat or sunglasses. The order and duration of each activity for each participant are random. In addition, the dataset contains manual annotations for each activity, having its start and end time annotated. Researchers could use this dataset to evaluate the performance of machine learning algorithms for the classification of various distracting activities and gaze zones of drivers.
翻訳日:2022-04-22 05:04:47 公開日:2022-04-19
# (参考訳) androidアプリで個人データを受け取る組織を識別する

Identifying organizations receiving personal data in Android Apps ( http://arxiv.org/abs/2204.09495v1 )

ライセンス: CC BY 4.0
David Rodriguez, Miguel Cozar and Jose M. Del Alamo(参考訳) 多くの研究が、モバイルアプリケーションは大量の個人データを収集する一般的な方法であることを示した。 多くのユーザが、複数のアプリから並行してアクセスしている場合でも、多くの異なる組織がこのデータを受け取っていることに気付いていない。 本稿では,whoisサービス,ssl証明書の検査,プライバシポリシのテキスト解析など,androidエコシステム内の個人データフローを受信している組織を特定するためのさまざまな技術を評価する。 そこで本研究では,最も成功した手法を組み合わせた完全自動化手法を提案し,受信組織を特定する上で,94.73%の精度スコアを達成した。 さらに,利用者の個人情報を収集する企業に対して,1000のAndroidアプリの評価を行い,その方法を実証する。

Many studies have demonstrated that mobile applications are common means to collect massive amounts of personal data. This goes unnoticed by most users, who are also unaware that many different organizations are receiving this data, even from multiple apps in parallel. This paper assesses different techniques to identify the organizations that are receiving personal data flows in the Android ecosystem, namely the WHOIS service, SSL certificates inspection, and privacy policy textual analysis. Based on our findings, we propose a fully automated method that combines the most successful techniques, achieving a 94.73% precision score in identifying the recipient organization. We further demonstrate our method by evaluating 1,000 Android apps and exposing the corporations that collect the users' personal data.
翻訳日:2022-04-22 03:57:47 公開日:2022-04-19
# (参考訳) セキュリティアウェア電子設計自動化のための人工知能に関する調査と展望

A Survey and Perspective on Artificial Intelligence for Security-Aware Electronic Design Automation ( http://arxiv.org/abs/2204.09579v1 )

ライセンス: CC BY 4.0
David Selasi Koblah, Rabin Yu Acharya, Olivia P. Dizon-Paradis, Shahin Tajik, Fatemeh Ganji, Damon L. Woodard, Domenic Forte(参考訳) 人工知能(AI)と機械学習(ML)の技術は、パフォーマンスと自動化のレベルを改善するために、いくつかの分野でますます使われている。 近年、高性能コンピューティングの進歩とデータサイズの増加により、この利用は指数関数的に増加している。 このような分野の1つはハードウェア設計であり、特にデジタルおよびアナログ集積回路(IC)の設計であり、そこではAI/ML技術が、常に増加する設計の複雑さ、アグレッシブな市場投入時間、そしてユビキタス接続デバイス(IoT)の増加に対応するために広く使われている。 しかし、IC設計に関するセキュリティ上の懸念や問題は非常に見過ごされている。 本稿では,回路設計・最適化におけるAL/MLの現状と課題,セキュリティ対応CAD/EDAの研究,セキュリティ対応回路設計におけるAI/MLの今後の研究方向性とニーズについて要約する。

Artificial intelligence (AI) and machine learning (ML) techniques have been increasingly used in several fields to improve performance and the level of automation. In recent years, this use has exponentially increased due to the advancement of high-performance computing and the ever increasing size of data. One of such fields is that of hardware design; specifically the design of digital and analog integrated circuits~(ICs), where AI/ ML techniques have been extensively used to address ever-increasing design complexity, aggressive time-to-market, and the growing number of ubiquitous interconnected devices (IoT). However, the security concerns and issues related to IC design have been highly overlooked. In this paper, we summarize the state-of-the-art in AL/ML for circuit design/optimization, security and engineering challenges, research in security-aware CAD/EDA, and future research directions and needs for using AI/ML for security-aware circuit design.
翻訳日:2022-04-22 03:51:50 公開日:2022-04-19
# (参考訳) 誤りレベル解析と畳み込みニューラルネットワークによるツールベース編集画像の検出

Detection of Tool based Edited Images from Error Level Analysis and Convolutional Neural Network ( http://arxiv.org/abs/2204.09075v1 )

ライセンス: CC BY 4.0
Abhishek Gupta, Raunak Joshi, Ronald Laban(参考訳) Image Forgeryは画像法医学の課題であり、その検出はDeep Learningを使って利用することができる。 本稿では,誤りレベル解析と畳み込みニューラルネットワークを用いた画像編集ツールを用いて,精度の高い画像と改ざん画像の識別手法を提案する。 このプロセスはCASIA ITDE v2データセット上で実行され、それぞれ50と100のエポックでトレーニングされる。 トレーニングセットと検証セットのそれぞれの精度はグラフを使って表現される。

Image Forgery is a problem of image forensics and its detection can be leveraged using Deep Learning. In this paper we present an approach for identification of authentic and tampered images done using image editing tools with Error Level Analysis and Convolutional Neural Network. The process is performed on CASIA ITDE v2 dataset and trained for 50 and 100 epochs respectively. The respective accuracies of the training and validation sets are represented using graphs.
翻訳日:2022-04-22 03:50:37 公開日:2022-04-19
# (参考訳) 部分アノテーション付きデータセットに対する名前付きエンティティ認識

Named Entity Recognition for Partially Annotated Datasets ( http://arxiv.org/abs/2204.09081v1 )

ライセンス: CC BY 4.0
Michael Strobl, Amine Trabelsi and Osmar Zaiane(参考訳) 最も一般的な名前付きエンティティ認識器は、通常、完全注釈付きコーパスで訓練されたシーケンスタグであり、すなわち、すべてのエンティティに対するすべての単語のクラスが知られている。 部分的に注釈付けされたコーパス、すなわち、あるタイプのすべてのエンティティが注釈付けされているわけではないが、同じエンティティが真の型でアノテートされることがあるため、トレーニングシーケンスのタグ付けにはノイズが多すぎる。 そこで我々は,部分注釈付きデータセットに対する3つのトレーニング戦略と,ウィキペディアから新たなエンティティクラスのための新しいデータセットを,手作業によるデータアノテーションを使わずに導き出すアプローチを比較している。 データ取得とトレーニングのアプローチが妥当であることを適切に検証するために、私たちは、食べ物と薬物という2つの新しいクラスのためのテストデータセットを手動で注釈付けしました。

The most common Named Entity Recognizers are usually sequence taggers trained on fully annotated corpora, i.e. the class of all words for all entities is known. Partially annotated corpora, i.e. some but not all entities of some types are annotated, are too noisy for training sequence taggers since the same entity may be annotated one time with its true type but not another time, misleading the tagger. Therefore, we are comparing three training strategies for partially annotated datasets and an approach to derive new datasets for new classes of entities from Wikipedia without time-consuming manual data annotation. In order to properly verify that our data acquisition and training approaches are plausible, we manually annotated test datasets for two new classes, namely food and drugs.
翻訳日:2022-04-22 03:46:23 公開日:2022-04-19
# (参考訳) 内視鏡による高密度3次元画像再構成

Photometric single-view dense 3D reconstruction in endoscopy ( http://arxiv.org/abs/2204.09083v1 )

ライセンス: CC BY 4.0
Victor M. Batlle, J.M.M. Montiel and Juan D. Tardos(参考訳) 人体内の視覚スラムは、内視鏡検査でコンピュータ支援ナビゲーションへの道を開く。 しかし、空間制限のため、医療用内視鏡は単眼画像しか提供せず、システムには真のスケールがない。 そこで本研究では,大腸内視鏡における制御照明を利用して,光学ステレオを用いたヒト大腸の3次元立体再構成を行った。 本手法は実際の医療環境において適切な位置校正手順と大腸管状形状に適応した深さ推定手法の両方を提供する。 その結果, 平均3mm未満の深さ推定において, 平均誤差が7%であった。 エンダマッパーデータセットの定性的な結果から,本手法は実際の大腸の結腸形状を正確に推定でき,内視鏡検査で真大の単球スラムの地面を舗装できることがわかった。

Visual SLAM inside the human body will open the way to computer-assisted navigation in endoscopy. However, due to space limitations, medical endoscopes only provide monocular images, leading to systems lacking true scale. In this paper, we exploit the controlled lighting in colonoscopy to achieve the first in-vivo 3D reconstruction of the human colon using photometric stereo on a calibrated monocular endoscope. Our method works in a real medical environment, providing both a suitable in-place calibration procedure and a depth estimation technique adapted to the colon's tubular geometry. We validate our method on simulated colonoscopies, obtaining a mean error of 7% on depth estimation, which is below 3 mm on average. Our qualitative results on the EndoMapper dataset show that the method is able to correctly estimate the colon shape in real human colonoscopies, paving the ground for true-scale monocular SLAM in endoscopy.
翻訳日:2022-04-22 03:34:44 公開日:2022-04-19
# (参考訳) 行動バイオメトリックス認証に用いる機械学習分類モデルの探索

Exploration of Machine Learning Classification Models Used for Behavioral Biometrics Authentication ( http://arxiv.org/abs/2204.09088v1 )

ライセンス: CC BY 4.0
Sara Kokal, Laura Pryor, Rushit Dave(参考訳) モバイルデバイスはここ数十年で、成長速度で製造され、強化されている。 この成長は、これらのデバイスの能力を大きく進化させたが、セキュリティは遅れている。 モバイルデバイスの能力とセキュリティの間の開発におけるこの対比は、危険にさらされている人々の機密情報にとって重大な問題である。 この分野での先行研究を継続して、現在行動バイオメトリックなモバイル認証に使われている重要な機械学習アルゴリズムを特定し、タッチダイナミクスや電話移動で使用されるこれらのアルゴリズムの包括的なレビューを提供することを目的としている。 この論文を通じて,今後の作業に対するメリット,限界,推奨事項について論じる。

Mobile devices have been manufactured and enhanced at growing rates in the past decades. While this growth has significantly evolved the capability of these devices, their security has been falling behind. This contrast in development between capability and security of mobile devices is a significant problem with the sensitive information of the public at risk. Continuing the previous work in this field, this study identifies key Machine Learning algorithms currently being used for behavioral biometric mobile authentication schemes and aims to provide a comprehensive review of these algorithms when used with touch dynamics and phone movement. Throughout this paper the benefits, limitations, and recommendations for future work will be discussed.
翻訳日:2022-04-22 03:22:58 公開日:2022-04-19
# (参考訳) ニューラルネットワークによる無差別データ中毒攻撃

Indiscriminate Data Poisoning Attacks on Neural Networks ( http://arxiv.org/abs/2204.09092v1 )

ライセンス: CC BY 4.0
Yiwei Lu, Gautam Kamath, Yaoliang Yu(参考訳) 悪意のある敵が「毒殺」されたデータを訓練プロセスに注入することでモデルに影響を及ぼそうとするデータ中毒攻撃が近年注目されている。 本研究では,既存の中毒攻撃を詳細に検討し,シーケンシャルなstackelbergゲームを解くための古いアルゴリズムと新しいアルゴリズムをつなぐ。 攻撃者に対して適切な損失関数を選択し、二次情報を利用するアルゴリズムを最適化することにより、ニューラルネットワークに有効な毒物攻撃を設計する。 従来の有毒点生成法とは対照的に,最新の自己分化パッケージを活用し,数万の有毒点を同時かつ協調的に生成できる効率的な実装を提案する。 さらに,深層ニューラルネットワークに対するデータ中毒攻撃の効果を実証的に探究する広範な実験を行う。

Data poisoning attacks, in which a malicious adversary aims to influence a model by injecting "poisoned" data into the training process, have attracted significant recent attention. In this work, we take a closer look at existing poisoning attacks and connect them with old and new algorithms for solving sequential Stackelberg games. By choosing an appropriate loss function for the attacker and optimizing with algorithms that exploit second-order information, we design poisoning attacks that are effective on neural networks. We present efficient implementations that exploit modern auto-differentiation packages and allow simultaneous and coordinated generation of tens of thousands of poisoned points, in contrast to existing methods that generate poisoned points one by one. We further perform extensive experiments that empirically explore the effect of data poisoning attacks on deep neural networks.
翻訳日:2022-04-22 03:15:33 公開日:2022-04-19
# (参考訳) 生物学的に制約されたニューラルネットワークは人間の視覚的注意を抑える

Behind the Machine's Gaze: Biologically Constrained Neural Networks Exhibit Human-like Visual Attention ( http://arxiv.org/abs/2204.09093v1 )

ライセンス: CC BY 4.0
Leo Schwinn, Doina Precup, Bj\"orn Eskofier, and Dario Zanca(参考訳) 概して、既存の視覚注意の計算モデルは、完全な視覚と刺激への完全なアクセスを巧みに想定し、その結果、フォブされた生物学的視覚から逸脱する。 さらに、トップダウンの注意のモデリングは、人間の注意を部分的に導くことができる高レベルの視覚的タスクのシグナルを組み込むことなく、セマンティックな特徴の統合に還元される。 本稿では,トップダウン方式で視覚スキャンパスを生成するニューラル・ビジュアル・アテンション(neva)アルゴリズムを提案する。 提案手法では,人間の様の走査パスを生成するために,触覚の生物学的制約を課すニューラルネットワークの能力について検討する。 これにより、スカンパスを生成して、基礎となる視覚タスク(すなわち、分類または再構成)に対する性能を最大化する。 広汎な実験により,提案手法は人間の走査パスと類似性の観点から,最先端の非監視的注意モデルより優れていた。 さらに、フレームワークの柔軟性により、生成された視覚行動における異なるタスクの役割を定量的に調査することができる。 最後に,不完全な視聴条件が与えられる実世界のアプリケーションにおいて,スキャンパスの有用性を検証した新しい実験において,アプローチの優位性を示す。

By and large, existing computational models of visual attention tacitly assume perfect vision and full access to the stimulus and thereby deviate from foveated biological vision. Moreover, modelling top-down attention is generally reduced to the integration of semantic features without incorporating the signal of a high-level visual tasks that have shown to partially guide human attention. We propose the Neural Visual Attention (NeVA) algorithm to generate visual scanpaths in a top-down manner. With our method, we explore the ability of neural networks on which we impose the biological constraints of foveated vision to generate human-like scanpaths. Thereby, the scanpaths are generated to maximize the performance with respect to the underlying visual task (i.e., classification or reconstruction). Extensive experiments show that the proposed method outperforms state-of-the-art unsupervised human attention models in terms of similarity to human scanpaths. Additionally, the flexibility of the framework allows to quantitatively investigate the role of different tasks in the generated visual behaviours. Finally, we demonstrate the superiority of the approach in a novel experiment that investigates the utility of scanpaths in real-world applications, where imperfect viewing conditions are given.
翻訳日:2022-04-22 02:54:02 公開日:2022-04-19
# (参考訳) エントロピー輸送コストに対する改良された中心極限定理と高速収束率

An improved central limit theorem and fast convergence rates for entropic transportation costs ( http://arxiv.org/abs/2204.09105v1 )

ライセンス: CC BY 4.0
Eustasio del Barrio and Alberto Gonzalez-Sanz and Jean-Michel Loubes and Jonathan Niles-Weed(参考訳) 我々は,人口コストに着目したサブガウシアン確率測度間のエントロピー輸送コストの中央極限定理を証明した。 これは必ずしも離散ではない測度間のエントロピー的最適輸送に対する漸近的に有効な推論を可能にする最初の結果である。 コンパクトに支持されたケースでは,これらの結果を,経験的尺度間で期待されるエントロピー輸送コストに対する新しい,より高速な収束率で補完する。 我々の証明は、エントロピー最適輸送問題に対する双対解の収束結果の強化に基づいている。

We prove a central limit theorem for the entropic transportation cost between subgaussian probability measures, centered at the population cost. This is the first result which allows for asymptotically valid inference for entropic optimal transport between measures which are not necessarily discrete. In the compactly supported case, we complement these results with new, faster, convergence rates for the expected entropic transportation cost between empirical measures. Our proof is based on strengthening convergence results for dual solutions to the entropic optimal transport problem.
翻訳日:2022-04-22 02:31:38 公開日:2022-04-19
# (参考訳) Sintel: 信号から洞察を抽出する機械学習フレームワーク

Sintel: A Machine Learning Framework to Extract Insights from Signals ( http://arxiv.org/abs/2204.09108v1 )

ライセンス: CC BY 4.0
Sarah Alnegheimish, Dongyu Liu, Carles Sala, Laure Berti-Equille, Kalyan Veeramachaneni(参考訳) 時系列データの異常検出は多くのモニタリングアプリケーションにおいて重要な課題である。 既存のシステムは、エンド・ツー・エンドの検出プロセスを包含せず、様々な異常検出方法の比較分析や、人間の知識を取り入れて出力を洗練させる。 これにより、mlの専門家でない実践者が現在の手法を現実の環境で使用することを妨げる。 本稿では,異常検出などのエンドツーエンド時系列タスクのための機械学習フレームワークであるSintelを紹介する。 このフレームワークは最先端のアプローチを使用して、異常検出プロセスのすべてのステップをサポートする。 Sintelは異常検出の全ジャーニーをログし、時間とともに異常の詳細なドキュメントを提供する。 ユーザは信号を分析したり、メソッドを比較したり、インタラクティブな視覚化ツールを使って異常を調査したり、イベントを注釈付け、修正、生成、削除することができる。 これらのアノテーションを使用して、このフレームワークは人間の知識を活用して異常検出パイプラインを改善する。 我々は,sintelの3つの時系列データセットに関する一連の実験と,異常解析タスクに携わる宇宙船専門家による実世界のユースケースを通じて,その使いやすさ,効率性,有効性を示す。 Sintelのフレームワーク、コード、データセットはhttps://github.com/sintel-dev/でオープンソース化されている。

The detection of anomalies in time series data is a critical task with many monitoring applications. Existing systems often fail to encompass an end-to-end detection process, to facilitate comparative analysis of various anomaly detection methods, or to incorporate human knowledge to refine output. This precludes current methods from being used in real-world settings by practitioners who are not ML experts. In this paper, we introduce Sintel, a machine learning framework for end-to-end time series tasks such as anomaly detection. The framework uses state-of-the-art approaches to support all steps of the anomaly detection process. Sintel logs the entire anomaly detection journey, providing detailed documentation of anomalies over time. It enables users to analyze signals, compare methods, and investigate anomalies through an interactive visualization tool, where they can annotate, modify, create, and remove events. Using these annotations, the framework leverages human knowledge to improve the anomaly detection pipeline. We demonstrate the usability, efficiency, and effectiveness of Sintel through a series of experiments on three public time series datasets, as well as one real-world use case involving spacecraft experts tasked with anomaly analysis tasks. Sintel's framework, code, and datasets are open-sourced at https://github.com/sintel-dev/.
翻訳日:2022-04-22 02:01:56 公開日:2022-04-19
# (参考訳) 音声による思考から運転の自動化へ--インテリジェントな車の行動の予測と説明

From Spoken Thoughts to Automated Driving Commentary: Predicting and Explaining Intelligent Vehicles' Actions ( http://arxiv.org/abs/2204.09109v1 )

ライセンス: CC BY 4.0
Daniel Omeiza, Sule Anjomshoae, Helena Webb, Marina Jirotka, Lars Kunze(参考訳) コメント駆動は、ドライバーが観察、評価、意図を言語化する技法である。 彼らの考えを語ることで、学習と熟練したドライバーの両方が、自分たちの環境をよりよく理解し、認識できるようになります。 インテリジェントな車両の文脈では、自動運転解説は運転行動についての理解に富んだ説明を提供し、運転中の運転者やエンドユーザーを支援する。 本研究では,都市環境に研究車両を配置し,データを取得するフィールドスタディを行った。 車両周囲のセンサデータを収集しながら,think-aloudプロトコルを用いて運転インストラクターから運転解説を得た。 ドライバーはまず彼の観察を公表し、計画を発表し、次に一般的な発言をする。 彼は反実的なコメントもした。 我々は,このスタイルに従う実例と反実例の自然言語説明を,単純な木に基づくアプローチで自動生成する方法を実証した。 縦方向の行動(例えば停止と移動)に対する説明は、車線変更のような横方向の行動と比較して、人間の判断者によってより知性があり、妥当であると考えられた。 我々は,運転機能の部分的および条件的自動化だけでなく,運転支援システムのより堅牢で効果的な説明可能性を実現するために,我々のアプローチをどのように構築するかについて議論した。

Commentary driving is a technique in which drivers verbalise their observations, assessments and intentions. By speaking out their thoughts, both learning and expert drivers are able to create a better understanding and awareness of their surroundings. In the intelligent vehicle context, automated driving commentary can provide intelligible explanations about driving actions, and thereby assist a driver or an end-user during driving operations in challenging and safety-critical scenarios. In this paper, we conducted a field study in which we deployed a research vehicle in an urban environment to obtain data. While collecting sensor data of the vehicle's surroundings, we obtained driving commentary from a driving instructor using the think-aloud protocol. We analysed the driving commentary and uncovered an explanation style; the driver first announces his observations, announces his plans, and then makes general remarks. He also made counterfactual comments. We successfully demonstrated how factual and counterfactual natural language explanations that follow this style could be automatically generated using a simple tree-based approach. Generated explanations for longitudinal actions (e.g., stop and move) were deemed more intelligible and plausible by human judges compared to lateral actions, such as lane changes. We discussed how our approach can be built on in the future to realise more robust and effective explainability for driver assistance as well as partial and conditional automation of driving functions.
翻訳日:2022-04-22 01:43:44 公開日:2022-04-19
# (参考訳) 深層学習に基づく住宅価格予測

House Price Prediction Based On Deep Learning ( http://arxiv.org/abs/2204.09050v1 )

ライセンス: CC0 1.0
Yuying Wu and Youshan Zhang(参考訳) 古代以来、中国人が追求してきたものは極めて単純であり、「幸せに暮らし、働くこと、食事と服装を楽しむこと」に過ぎなかった。 現在、改革と開館から40年以上経った今、人々は基本的に食品や衣服の問題を解決しており、緊急の問題は住宅である。 近年では、卵殻などの長期賃貸アパートの仲介プラットフォームが嵐となり、賃貸者の不安感が高まり、近年の都市化や大都市住民の混乱などにより、将来の不動産市場競争が激化する。 不動産価格をよりよく把握し、消費者が合理的に住宅を購入し、政策を定式化するための参考資料を提供するため、既存の住宅価格予測手法を要約し、混合深度ビジョンとテキスト特徴に基づく住宅価格予測手法を提案する。

Since ancient times, what Chinese people have been pursuing is very simple, which is nothing more than "to live and work happily, to eat and dress comfortable". Today, more than 40 years after the reform and opening, people have basically solved the problem of food and clothing, and the urgent problem is housing. Nowadays, due to the storm of long-term rental apartment intermediary platforms such as eggshell, increasing the sense of insecurity of renters, as well as the urbanization in recent years and the scramble for people in major cities, this will make the future real estate market competition more intense. In order to better grasp the real estate price, let consumers buy a house reasonably, and provide a reference for the government to formulate policies, this paper summarizes the existing methods of house price prediction and proposes a house price prediction method based on mixed depth vision and text features.
翻訳日:2022-04-22 01:28:07 公開日:2022-04-19
# (参考訳) 自律運転におけるエージェント重要度予測の重要性

Importance is in your attention: agent importance prediction for autonomous driving ( http://arxiv.org/abs/2204.09121v1 )

ライセンス: CC BY 4.0
Christopher Hazard, Akshay Bhagat, Balarama Raju Buddharaju, Zhongtao Liu, Yunming Shao, Lu Lu, Sammy Omari, Henggang Cui(参考訳) 軌道予測は自動運転において重要な課題である。 最先端の軌道予測モデルは、しばしばエージェント間の相互作用をモデル化するために注意機構を使用する。 本稿では,これらのモデルから得られた注意情報を用いて,ego車両の今後の計画軌道に対する各エージェントの重要度を計測できることを示す。 nuPlans データセットを用いた実験の結果,エゴの計画に影響を及ぼすエージェントを効果的に発見・ランク付けできることがわかった。

Trajectory prediction is an important task in autonomous driving. State-of-the-art trajectory prediction models often use attention mechanisms to model the interaction between agents. In this paper, we show that the attention information from such models can also be used to measure the importance of each agent with respect to the ego vehicle's future planned trajectory. Our experiment results on the nuPlans dataset show that our method can effectively find and rank surrounding agents by their impact on the ego's plan.
翻訳日:2022-04-22 01:27:03 公開日:2022-04-19
# (参考訳) マルチホップ質問応答と生成に関する調査

A Survey on Multi-hop Question Answering and Generation ( http://arxiv.org/abs/2204.09140v1 )

ライセンス: CC BY 4.0
Vaibhav Mavi (New York University, United States of America), Anubhav Jangra (Indian Institute of Technology, Patna, India), Adam Jatowt (University of Innsbruck, Austria)(参考訳) 質問回答(QA)の問題は、長い間大きな研究関心を集めてきた。 言語理解と知識検索タスクとの関連性は、単純な設定とともに、強力なAIシステムにおいてQAのタスクが不可欠である。 単純なQAタスクの最近の成功は、より複雑な設定に焦点を移した。 このうち、Multi-Hop QA(MHQA)は近年最も研究されているタスクの1つである。 マルチホップ質問に回答し、マルチステップ推論を行う能力は、NLPシステムの有用性を大幅に改善することができる。 その結果、高品質なデータセット、モデル、評価戦略が突然急増した。 多重ホップ」の概念はやや抽象的であり、結果として多元ホップ推論を必要とする様々なタスクが生じる。 これは、異なるデータセットとモデルが著しく異なることを意味するため、フィールドの一般化と調査が難しくなる。 この作業は、MHQAタスクの汎用的で正式な定義を提供し、既存のMHQAフレームワークを編成し、まとめることを目的としている。 また,mhqaデータセットを作成するための最善の方法を概説する。 この論文は、体系的で徹底的な紹介と、この非常に興味深い、そして非常に難しい課題に対する既存の試みの構造化を提供する。

The problem of Question Answering (QA) has attracted significant research interest for long. Its relevance to language understanding and knowledge retrieval tasks, along with the simple setting makes the task of QA crucial for strong AI systems. Recent success on simple QA tasks has shifted the focus to more complex settings. Among these, Multi-Hop QA (MHQA) is one of the most researched tasks over the recent years. The ability to answer multi-hop questions and perform multi step reasoning can significantly improve the utility of NLP systems. Consequently, the field has seen a sudden surge with high quality datasets, models and evaluation strategies. The notion of `multiple hops' is somewhat abstract which results in a large variety of tasks that require multi-hop reasoning. This implies that different datasets and models differ significantly which makes the field challenging to generalize and survey. This work aims to provide a general and formal definition of MHQA task, and organize and summarize existing MHQA frameworks. We also outline the best methods to create MHQA datasets. The paper provides a systematic and thorough introduction as well as the structuring of the existing attempts to this highly interesting, yet quite challenging task.
翻訳日:2022-04-22 01:20:58 公開日:2022-04-19
# (参考訳) albetoとdistilbeto: 軽量なスペイン語モデル

ALBETO and DistilBETO: Lightweight Spanish Language Models ( http://arxiv.org/abs/2204.09145v1 )

ライセンス: CC BY 4.0
Jos\'e Ca\~nete, Sebasti\'an Donoso, Felipe Bravo-Marquez, Andr\'es Carvallo and Vladimir Araujo(参考訳) 近年、英語以外の言語バージョンも利用可能になっている事前訓練言語モデルが大幅に進歩している。 使用量の増加により、これらのモデルの多くの軽量バージョン(パラメータの削減)も、トレーニングと推論時間の短縮のためにリリースされている。 しかし、英語以外の言語に対するこれらの軽量モデル(例えば、ALBERT、DistilBERT)のバージョンはまだ少ない。 本稿では,ALBERT と DistilBERT の派生版である ALBETO と DistilBETO について述べる。 我々は5Mから223MまでのALBETOと67Mのパラメータを持つDistilBETOのいくつかのバージョンを訓練する。 我々は、スペイン語の様々な自然言語理解タスクを含むgluesベンチマークでモデルを評価する。 その結果,パラメータが少ないにもかかわらず,私たちの軽量モデルはBETO ( Spanish-BERT) と競合する結果が得られることがわかった。 具体的には、より大規模なALBETOモデルは、MLDoc、PAWS-X、XNLI、MLQA、SQAC、XQuADデータセット上の他のモデルよりも優れています。 しかし、BETOはPOSやNERには勝てない。 さらなる貢献として、すべてのモデルがコミュニティに公開され、将来の研究が可能である。

In recent years there have been considerable advances in pre-trained language models, where non-English language versions have also been made available. Due to their increasing use, many lightweight versions of these models (with reduced parameters) have also been released to speed up training and inference times. However, versions of these lighter models (e.g., ALBERT, DistilBERT) for languages other than English are still scarce. In this paper we present ALBETO and DistilBETO, which are versions of ALBERT and DistilBERT pre-trained exclusively on Spanish corpora. We train several versions of ALBETO ranging from 5M to 223M parameters and one of DistilBETO with 67M parameters. We evaluate our models in the GLUES benchmark that includes various natural language understanding tasks in Spanish. The results show that our lightweight models achieve competitive results to those of BETO (Spanish-BERT) despite having fewer parameters. More specifically, our larger ALBETO model outperforms all other models on the MLDoc, PAWS-X, XNLI, MLQA, SQAC and XQuAD datasets. However, BETO remains unbeaten for POS and NER. As a further contribution, all models are publicly available to the community for future research.
翻訳日:2022-04-22 01:18:56 公開日:2022-04-19
# (参考訳) DialoKG: タスク指向対話生成を意識した知識構造

DialoKG: Knowledge-Structure Aware Task-Oriented Dialogue Generation ( http://arxiv.org/abs/2204.09149v1 )

ライセンス: CC BY 4.0
Md Rashad Al Hasan Rony, Ricardo Usbeck, Jens Lehmann(参考訳) 基礎となる知識はしばしば動的であり、学習プロセスに知識を効果的に組み込むのは難しいため、タスク指向の対話生成は困難である。 この環境では、人間的な反応と情報的な反応の両方を生成することは特に困難である。 最近の研究では、知識ベースにおける事実間の基礎的な関係を効果的に捉えない様々な知識蒸留法に重点が置かれている。 本稿では,さらに一歩進んで,知識グラフの構造情報がどのようにシステムの推論能力を向上させるかを実証する。 具体的には,知識を言語モデルに効果的に組み込むタスク指向対話システムであるdialogokgを提案する。 提案システムでは,リレーショナル知識を知識グラフとみなし,(1)構造認識型知識埋め込み技術,(2)対話生成時の関連情報の選択を容易にする知識グラフ強調マスキング戦略を紹介する。 実験的な評価は、いくつかの標準ベンチマークデータセットにおける最先端手法に対するDialoKGの有効性を示す。

Task-oriented dialogue generation is challenging since the underlying knowledge is often dynamic and effectively incorporating knowledge into the learning process is hard. It is particularly challenging to generate both human-like and informative responses in this setting. Recent research primarily focused on various knowledge distillation methods where the underlying relationship between the facts in a knowledge base is not effectively captured. In this paper, we go one step further and demonstrate how the structural information of a knowledge graph can improve the system's inference capabilities. Specifically, we propose DialoKG, a novel task-oriented dialogue system that effectively incorporates knowledge into a language model. Our proposed system views relational knowledge as a knowledge graph and introduces (1) a structure-aware knowledge embedding technique, and (2) a knowledge graph-weighted attention masking strategy to facilitate the system selecting relevant information during the dialogue generation. An empirical evaluation demonstrates the effectiveness of DialoKG over state-of-the-art methods on several standard benchmark datasets.
翻訳日:2022-04-22 01:02:45 公開日:2022-04-19
# (参考訳) 多要素深部演算子ネットワーク

Multifidelity Deep Operator Networks ( http://arxiv.org/abs/2204.09157v1 )

ライセンス: CC BY 4.0
Amanda A. Howard, Mauro Perego, George E. Karniadakis, Panos Stinis(参考訳) 複素非線形作用素に対する演算子学習は、物理系のモデリングにおいてますます一般的である。 しかし,そのような演算子を学習するためには,大量の高忠実度データを必要とする。 本研究では,異なるレベルの忠実度を持つ2つのデータセットを用いて学習を行うための複合Deep Operator Network(DeepONet)を提案し,十分な高忠実度データが得られない場合に複雑な演算子を正確に学習する。 さらに,低忠実度データの存在は,deeponetsを用いた物理形学習の予測を改善できることを実証する。

Operator learning for complex nonlinear operators is increasingly common in modeling physical systems. However, training machine learning methods to learn such operators requires a large amount of expensive, high-fidelity data. In this work, we present a composite Deep Operator Network (DeepONet) for learning using two datasets with different levels of fidelity, to accurately learn complex operators when sufficient high-fidelity data is not available. Additionally, we demonstrate that the presence of low-fidelity data can improve the predictions of physics-informed learning with DeepONets.
翻訳日:2022-04-22 00:46:08 公開日:2022-04-19
# (参考訳) 符号化低品質映像における行動認識モデルの性能評価について

On the Performance Evaluation of Action Recognition Models on Transcoded Low Quality Videos ( http://arxiv.org/abs/2204.09166v1 )

ライセンス: CC BY 4.0
Aoi Otani, Ryota Hashiguchi, Kazuki Omi, Norishige Fukushima, Toru Tamaki(参考訳) アクション認識モデルの設計において、データセット内のビデオの品質は重要な問題であるが、品質と性能のトレードオフは無視されることが多い。 一般的に、アクション認識モデルは高品質なビデオで訓練されテストされるが、アクション認識モデルがデプロイされた実際の状況では、入力されたビデオが高品質であると仮定できない場合がある。 本研究ではJPEGとH.264/AVCの変換に伴う品質劣化に対する行動認識モデルの定性評価を行った。 Kinetics400のトランスコード検証ビデオにおいて,事前学習モデルの性能評価実験を行った。 モデルは、トランスコードされたトレーニングビデオでもトレーニングされる。 これらの結果から,映像品質の劣化に関して,モデル性能の劣化の程度を定量的に示す。

In the design of action recognition models, the quality of videos in the dataset is an important issue, however the trade-off between the quality and performance is often ignored. In general, action recognition models are trained and tested on high-quality videos, but in actual situations where action recognition models are deployed, sometimes it might not be assumed that the input videos are of high quality. In this study, we report qualitative evaluations of action recognition models for the quality degradation associated with transcoding by JPEG and H.264/AVC. Experimental results are shown for evaluating the performance of pre-trained models on the transcoded validation videos of Kinetics400. The models are also trained on the transcoded training videos. From these results, we quantitatively show the degree of degradation of the model performance with respect to the degradation of the video quality.
翻訳日:2022-04-22 00:20:00 公開日:2022-04-19
# エネルギー効率の高い木に基づく脳波アーチファクト検出

Energy-Efficient Tree-Based EEG Artifact Detection ( http://arxiv.org/abs/2204.09577v1 )

ライセンス: Link先を確認
Thorir Mar Ingolfsson, Andrea Cossettini, Simone Benatti, Luca Benini(参考訳) てんかんモニタリングの文脈では、脳波アーチファクトは振幅と周波数の両方の形態的類似性から発作と誤解されることが多く、発作検出システムはより高い誤報率に影響を受けやすい。 本研究では, 並列超低消費電力(PULP)組み込みプラットフォーム上で, 最小数のEEGチャネルに基づくアーティファクト検出アルゴリズムの実装について述べる。 これらの分析はTUH EEG Artifact Corpusデータセットに基づいており、時間電極に焦点を当てている。 まず、自動機械学習フレームワークを用いて周波数領域の最適特徴モデルを抽出し、4時間EEGチャネルの設定に対して0.838 F1スコアで93.95%の精度を達成する。 達成された精度レベルが最先端を20%近く上回った。 そして、これらのアルゴリズムはPULPプラットフォーム向けに並列化され最適化され、最先端のアーティファクト検出フレームワークの低消費電力実装と比較してエネルギー効率が5.21倍向上する。 このモデルと低消費電力の発作検出アルゴリズムを組み合わせることで、300mAhのバッテリーで300hの連続監視をウェアラブルフォームファクタと電力予算で実現できる。 これらの結果は, 患者と介護者の双方の要件を満たす, 低偽陽性率と高感度で, 安価でウェアラブルな長期てんかんモニタリングソリューションを実現するための道を開いた。

In the context of epilepsy monitoring, EEG artifacts are often mistaken for seizures due to their morphological similarity in both amplitude and frequency, making seizure detection systems susceptible to higher false alarm rates. In this work we present the implementation of an artifact detection algorithm based on a minimal number of EEG channels on a parallel ultra-low-power (PULP) embedded platform. The analyses are based on the TUH EEG Artifact Corpus dataset and focus on the temporal electrodes. First, we extract optimal feature models in the frequency domain using an automated machine learning framework, achieving a 93.95% accuracy, with a 0.838 F1 score for a 4 temporal EEG channel setup. The achieved accuracy levels surpass state-of-the-art by nearly 20%. Then, these algorithms are parallelized and optimized for a PULP platform, achieving a 5.21 times improvement of energy-efficient compared to state-of-the-art low-power implementations of artifact detection frameworks. Combining this model with a low-power seizure detection algorithm would allow for 300h of continuous monitoring on a 300 mAh battery in a wearable form factor and power budget. These results pave the way for implementing affordable, wearable, long-term epilepsy monitoring solutions with low false-positive rates and high sensitivity, meeting both patients' and caregivers' requirements.
翻訳日:2022-04-21 15:39:55 公開日:2022-04-19
# TCADシステムの再構築:従来のTCADの新しいトリックを教える

Restructuring TCAD System: Teaching Traditional TCAD New Tricks ( http://arxiv.org/abs/2204.09578v1 )

ライセンス: Link先を確認
Sanghoon Myung, Wonik Jang, Seonghoon Jin, Jae Myung Choe, Changwook Jeong, and Dae Sin Kim(参考訳) 従来のTCADシミュレーションはデバイスの性能を予測し最適化することに成功しましたが、それでも大きな課題に直面しています。 tcadをディープラーニングに置き換えようとする試みは数多くあったが、まだ完全に置き換えられていない。 本稿では,従来のTCADシステムを再構築する新しいアルゴリズムを提案する。 提案アルゴリズムは,3次元TCADシミュレーションをリアルタイムに予測し,分散を捕捉し,深層学習とTCADが相互に補完し,収束誤差を完全に解消する。

Traditional TCAD simulation has succeeded in predicting and optimizing the device performance; however, it still faces a massive challenge - a high computational cost. There have been many attempts to replace TCAD with deep learning, but it has not yet been completely replaced. This paper presents a novel algorithm restructuring the traditional TCAD system. The proposed algorithm predicts three-dimensional (3-D) TCAD simulation in real-time while capturing a variance, enables deep learning and TCAD to complement each other, and fully resolves convergence errors.
翻訳日:2022-04-21 15:37:09 公開日:2022-04-19
# AutoField:Deep Recommenderシステムにおける機能選択の自動化

AutoField: Automating Feature Selection in Deep Recommender Systems ( http://arxiv.org/abs/2204.09078v1 )

ライセンス: Link先を確認
Yejing Wang, Xiangyu Zhao, Tong Xu, Xian Wu(参考訳) 機能品質はレコメンデーションのパフォーマンスに影響を与えます。 これにより、機能選択はディープラーニングベースのレコメンデータシステムの開発において重要なプロセスとなる。 しかし、既存のディープリコメンダシステムのほとんどは、機能選択プロセスを無視しながら、高度なニューラルネットワークを設計することに重点を置いている。 一般的には、提案されているディープアーキテクチャに可能なすべての機能を投入するか、あるいは人間の専門家が手動で重要な機能を選択すればよい。 前者は非自明な埋め込みパラメータと余分な推論時間につながり、後者は専門家の知識と人的労力を必要とする。 本研究では,重要な機能フィールドを適応的に自動選択できるAutoMLフレームワークを提案する。 具体的には、まず、特定の特徴フィールドを選択する確率を自動的に調整できる微分可能なコントローラネットワークを設計し、選択した特徴フィールドのみを使用して深層推薦モデルを再学習する。 3つのベンチマークデータセットに対する大規模な実験は、我々のフレームワークの有効性を示す。 我々は、転送性、鍵成分、パラメータ感度など、その特性についてさらなる実験を行う。

Feature quality has an impactful effect on recommendation performance. Thereby, feature selection is a critical process in developing deep learning-based recommender systems. Most existing deep recommender systems, however, focus on designing sophisticated neural networks, while neglecting the feature selection process. Typically, they just feed all possible features into their proposed deep architectures, or select important features manually by human experts. The former leads to non-trivial embedding parameters and extra inference time, while the latter requires plenty of expert knowledge and human labor effort. In this work, we propose an AutoML framework that can adaptively select the essential feature fields in an automatic manner. Specifically, we first design a differentiable controller network, which is capable of automatically adjusting the probability of selecting a particular feature field; then, only selected feature fields are utilized to retrain the deep recommendation model. Extensive experiments on three benchmark datasets demonstrate the effectiveness of our framework. We conduct further experiments to investigate its properties, including the transferability, key components, and parameter sensitivity.
翻訳日:2022-04-21 15:15:08 公開日:2022-04-19
# 臨床意思決定における人間-AI連携の導入に影響を与える要因

Factors that influence the adoption of human-AI collaboration in clinical decision-making ( http://arxiv.org/abs/2204.09082v1 )

ライセンス: Link先を確認
Patrick Hemmer, Max Schemmer, Lara Riefle, Nico Rosellen, Michael V\"ossing, Niklas K\"uhl(参考訳) 人工知能(AI)の最近の進歩は、AIが平等なパートナーである環境である人間とAIのコラボレーションの出現を後押ししている。 特に臨床的意思決定においては、過労医療従事者を支援することで治療の質を向上させる可能性がある。 臨床意思決定におけるAIの利用について研究が始まっているが、その潜在的な利点は医療専門家による採用を意味するものではない。 採用基準を技術的な観点から分析し始めた研究はいくつかあるが、意思決定プロセスにおいてaiが平等なチームメンバーになる可能性に焦点を当てた人間中心の視点を提供する研究は、まだ限られている。 そこで本研究では,医療分野の専門家との半構造化インタビューを通じて,人間とAIのコラボレーションの導入要因を明らかにする。 我々は、関連する6つの要因を特定し、それらの間の既存の緊張と効果的な人間とAIのコラボレーションを強調します。

Recent developments in Artificial Intelligence (AI) have fueled the emergence of human-AI collaboration, a setting where AI is a coequal partner. Especially in clinical decision-making, it has the potential to improve treatment quality by assisting overworked medical professionals. Even though research has started to investigate the utilization of AI for clinical decision-making, its potential benefits do not imply its adoption by medical professionals. While several studies have started to analyze adoption criteria from a technical perspective, research providing a human-centered perspective with a focus on AI's potential for becoming a coequal team member in the decision-making process remains limited. Therefore, in this work, we identify factors for the adoption of human-AI collaboration by conducting a series of semi-structured interviews with experts in the healthcare domain. We identify six relevant adoption factors and highlight existing tensions between them and effective human-AI collaboration.
翻訳日:2022-04-21 15:14:51 公開日:2022-04-19
# 相互作用シミュレーションによるXRインタフェースの計算適応

Computational Adaptation of XR Interfaces Through Interaction Simulation ( http://arxiv.org/abs/2204.09162v1 )

ライセンス: Link先を確認
Kashyap Todi, Ben Lafreniere, Tanya Jonker(参考訳) 拡張現実(XR)システムの重要な構成要素として,適応的かつインテリジェントなユーザインタフェースが提案されている。 特に、予測システムはユーザに関する推論を行い、タスクに関連するレコメンデーションや適応を与えることができる。 しかし、このような適応インタフェースは、予測の不確実性に対処するために、相互作用の全体であるemph{ Cost}を慎重に考慮すべきである。 本稿では,ユーザエクスペリエンスと性能の向上を目的として,XRインタフェースを適応するための計算手法について論じる。 メニュー選択タスクに適用した新しいモデルでは,認知と運動のコストを考慮したユーザインタラクションをシミュレートする。 予測のみに基づいて適応する欲求アルゴリズムとは対照的に,我々のモデルは,インターフェースの適応に対する適応のコストとメリットを総括的に考慮し,ユーザに最適なレコメンデーションを提供する。

Adaptive and intelligent user interfaces have been proposed as a critical component of a successful extended reality (XR) system. In particular, a predictive system can make inferences about a user and provide them with task-relevant recommendations or adaptations. However, we believe such adaptive interfaces should carefully consider the overall \emph{cost} of interactions to better address uncertainty of predictions. In this position paper, we discuss a computational approach to adapt XR interfaces, with the goal of improving user experience and performance. Our novel model, applied to menu selection tasks, simulates user interactions by considering both cognitive and motor costs. In contrast to greedy algorithms that adapt based on predictions alone, our model holistically accounts for costs and benefits of adaptations towards adapting the interface and providing optimal recommendations to the user.
翻訳日:2022-04-21 15:14:34 公開日:2022-04-19
# アートギャラリーにおける身体的ナビゲーション

Embodied Navigation at the Art Gallery ( http://arxiv.org/abs/2204.09069v1 )

ライセンス: Link先を確認
Roberto Bigazzi, Federico Landi, Silvia Cascianelli, Marcella Cornia, Lorenzo Baraldi and Rita Cucchiara(参考訳) 屋内のフォトリアリスティック環境を探索し、ナビゲートする訓練を受けたエージェントは、標準データセットとベンチマークで印象的な結果を得た。 これまでのところ、実験や評価はオフィスやアパート、家など、国内や職場の場面で行われている。 本稿では,ユニークな特徴を持つ新しい3d空間,すなわち美術館の1つを構築して公開する。 この環境をArtGallery3D(AG3D)と呼ぶ。 既存の3Dシーンと比較すると、収集された空間は増幅され、視覚的特徴に富み、非常に少ない占有情報を提供する。 この機能は、多くの占有情報を持つ密集した家庭環境で訓練される、占有者ベースのエージェントにとって困難である。 また,美術館内の絵画や彫像など,主要な関心点の座標について注釈を付ける。 この手動のプロセスのおかげで、新しいスペース内でPointGoalナビゲーションの新しいベンチマークを提供します。 このデータセットの軌道は、ギブソンとマターポート3Dの既存の航法路よりもはるかに複雑で長い。 我々は,新しい空間を用いた広範囲な実験評価を行い,このシナリオに既存手法が適用できないことを証明する。 したがって、この3Dモデルが利用可能になることにより、将来の研究が促進され、既存のソリューションの改善に役立つと信じている。

Embodied agents, trained to explore and navigate indoor photorealistic environments, have achieved impressive results on standard datasets and benchmarks. So far, experiments and evaluations have involved domestic and working scenes like offices, flats, and houses. In this paper, we build and release a new 3D space with unique characteristics: the one of a complete art museum. We name this environment ArtGallery3D (AG3D). Compared with existing 3D scenes, the collected space is ampler, richer in visual features, and provides very sparse occupancy information. This feature is challenging for occupancy-based agents which are usually trained in crowded domestic environments with plenty of occupancy information. Additionally, we annotate the coordinates of the main points of interest inside the museum, such as paintings, statues, and other items. Thanks to this manual process, we deliver a new benchmark for PointGoal navigation inside this new space. Trajectories in this dataset are far more complex and lengthy than existing ground-truth paths for navigation in Gibson and Matterport3D. We carry on extensive experimental evaluation using our new space for evaluation and prove that existing methods hardly adapt to this scenario. As such, we believe that the availability of this 3D model will foster future research and help improve existing solutions.
翻訳日:2022-04-21 15:12:16 公開日:2022-04-19
# 4D-MultispectralNet:ヒトマスクを用いたマルチスペクトル立体視差推定

4D-MultispectralNet: Multispectral Stereoscopic Disparity Estimation using Human Masks ( http://arxiv.org/abs/2204.09089v1 )

ライセンス: Link先を確認
Philippe Duplessis-Guindon, Guillaume-Alexandre Bilodeau(参考訳) マルチスペクトラル聴診は新興分野である。 古典的聴診では多くの研究がなされているが、多スペクトル聴診はあまり研究されていない。 この種の立体視は、自動運転車でRGBカメラから得られる情報を完成させるために使用できる。 夜間などの状況がより難しい場合、周囲の物体を識別するのに役立つ。 本稿ではRGB-LWIRスペクトルについて述べる。 RGB-LWIR立体視は、オクルージョン、テクスチャレス表面、反復パターンなど、古典的立体視と同じ課題を持つ。 2つのスペクトル間の一致を見つけることは、別の複雑さの層を増す。 色、テクスチャ、形状は、スペクトルによって多様である。 この新たな課題に対処するため,本稿では,現場にいる人々の格差を推定することに焦点を当てた。 人の形状がRGBとLWIRの両方で捉えられていることを考慮し,両スペクトルにおける人間のセグメンテーションマスクを用いて,シームズネットワークの第1層より前のオリジナル画像と結合する手法を提案する。 この方法は、特に1ピクセルの誤差範囲内で精度を向上させるのに役立つ。

Multispectral stereoscopy is an emerging field. A lot of work has been done in classical stereoscopy, but multispectral stereoscopy is not studied as frequently. This type of stereoscopy can be used in autonomous vehicles to complete the information given by RGB cameras. It helps to identify objects in the surroundings when the conditions are more difficult, such as in night scenes. This paper focuses on the RGB-LWIR spectrum. RGB-LWIR stereoscopy has the same challenges as classical stereoscopy, that is occlusions, textureless surfaces and repetitive patterns, plus specific ones related to the different modalities. Finding matches between two spectrums adds another layer of complexity. Color, texture and shapes are more likely to vary from a spectrum to another. To address this additional challenge, this paper focuses on estimating the disparity of people present in a scene. Given the fact that people's shape is captured in both RGB and LWIR, we propose a novel method that uses segmentation masks of the human in both spectrum and than concatenate them to the original images before the first layer of a Siamese Network. This method helps to improve the accuracy, particularly within the one pixel error range.
翻訳日:2022-04-21 14:52:19 公開日:2022-04-19
# RangeUDF: 3次元点雲からのセマンティック表面再構成

RangeUDF: Semantic Surface Reconstruction from 3D Point Clouds ( http://arxiv.org/abs/2204.09138v1 )

ライセンス: Link先を確認
Bing Wang, Zhengdi Yu, Bo Yang, Jie Qin, Toby Breckon, Ling Shao, Niki Trigoni, Andrew Markham(参考訳) 本研究では,連続3次元シーン表面の形状とセマンティクスをポイントクラウドから復元する,新しい暗黙表現ベースフレームワーク rangeudf を提案する。 閉三次元曲面のみをモデル化できる占有場や符号付き距離場とは異なり、このアプローチはいかなる位相にも制限されない。 既存の符号のない距離場と異なるため、我々のフレームワークは表面の曖昧さに悩まされない。 さらに、我々のRangeUDFは連続した表面の正確な意味を共同で推定することができる。 我々のアプローチの鍵は、表面指向セマンティクスセグメンテーションモジュールと共に、距離対応の符号なし距離関数である。 大規模な実験により、RangeUDFは4点のクラウドデータセットの表面再構成のための最先端のアプローチを明らかに超えている。 さらに、RangeUDFは、既存のすべてのアプローチではほぼ不可能な、複数の未確認データセットにまたがる優れた一般化能力を示している。

We present RangeUDF, a new implicit representation based framework to recover the geometry and semantics of continuous 3D scene surfaces from point clouds. Unlike occupancy fields or signed distance fields which can only model closed 3D surfaces, our approach is not restricted to any type of topology. Being different from the existing unsigned distance fields, our framework does not suffer from any surface ambiguity. In addition, our RangeUDF can jointly estimate precise semantics for continuous surfaces. The key to our approach is a range-aware unsigned distance function together with a surface-oriented semantic segmentation module. Extensive experiments show that RangeUDF clearly surpasses state-of-the-art approaches for surface reconstruction on four point cloud datasets. Moreover, RangeUDF demonstrates superior generalization capability across multiple unseen datasets, which is nearly impossible for all existing approaches.
翻訳日:2022-04-21 14:51:24 公開日:2022-04-19
# 自律走行車移動時のマルチカメラマルチ3次元物体追跡

Multi-Camera Multiple 3D Object Tracking on the Move for Autonomous Vehicles ( http://arxiv.org/abs/2204.09151v1 )

ライセンス: Link先を確認
Pha Nguyen, Kha Gia Quach, Chi Nhan Duong, Ngan Le, Xuan-Bac Nguyen, Khoa Luu(参考訳) 自動運転車の開発は、車の周囲の環境を捉えるカメラセンサーの完全なセットを得る機会を提供する。 したがって、カメラのビューで一貫した結果を達成するなど、新しい課題に対処するためにオブジェクトの検出と追跡が重要である。 これらの課題に対処するために,既存のトラックレットの位置予測とトラックレットとのリンク検出のためのリンク予測手法を用いた新しいグローバルアソシエーショングラフモデルを提案する。 このアプローチは,不整合3次元物体検出による問題の解決を目的としている。 さらに,本モデルでは,nuScenes検出課題における標準3次元物体検出器の検出精度の向上を図る。 nuScenesデータセットの実験結果から,既存のビジョンベース追跡データセット上でSOTA性能を実現するための提案手法の利点が示された。

The development of autonomous vehicles provides an opportunity to have a complete set of camera sensors capturing the environment around the car. Thus, it is important for object detection and tracking to address new challenges, such as achieving consistent results across views of cameras. To address these challenges, this work presents a new Global Association Graph Model with Link Prediction approach to predict existing tracklets location and link detections with tracklets via cross-attention motion modeling and appearance re-identification. This approach aims at solving issues caused by inconsistent 3D object detection. Moreover, our model exploits to improve the detection accuracy of a standard 3D object detector in the nuScenes detection challenge. The experimental results on the nuScenes dataset demonstrate the benefits of the proposed method to produce SOTA performance on the existing vision-based tracking dataset.
翻訳日:2022-04-21 14:51:08 公開日:2022-04-19
# 大規模データセットに対する永続ホモロジーの近似

Approximating Persistent Homology for Large Datasets ( http://arxiv.org/abs/2204.09155v1 )

ライセンス: Link先を確認
Yueqi Cao, Anthea Monod(参考訳) 永続ホモロジーは、代数トポロジーからデータ設定へ理論を適用するトポロジーデータ解析から重要な方法論であり、多くのアプリケーションでうまく実装されている。 データの形状とサイズをキャプチャするパーシステンスダイアグラム(persistence diagram)という形式で,統計的な要約を生成する。 広く使われているにもかかわらず、データセットが非常に大きい場合、永続的ホモロジーは単純に実装できない。 本稿では, 大規模データセットに対する代表的永続化図の検索問題に対処する。 従来のブートストラップ方式、すなわち、大規模データセットからより小さな複数のサブサンプルを描画し、研究する。 サブサンプルの永続性図の平均 - サブサンプルから計算された平均持続性尺度として取られた - は、より大きなデータセットの真の永続性ホモロジーの有効な近似であることを示す。 我々は、各サブサンプルのサブサンプル数とサイズの観点から、真の永続化図に平均永続化図の収束率を与える。 永続ホモロジーの複素代数的および幾何学的性質を考慮し、永続図形の空間における凸性と安定性特性をランダムな集合理論とともに適用し、点雲データの一般的な設定に関する理論的結果を達成する。 我々は、複雑な大規模クラウドデータに対する形状クラスタリングの適用を含む、シミュレーションおよび実データに対するアプローチを実証する。

Persistent homology is an important methodology from topological data analysis which adapts theory from algebraic topology to data settings and has been successfully implemented in many applications. It produces a statistical summary in the form of a persistence diagram, which captures the shape and size of the data. Despite its widespread use, persistent homology is simply impossible to implement when a dataset is very large. In this paper we address the problem of finding a representative persistence diagram for prohibitively large datasets. We adapt the classical statistical method of bootstrapping, namely, drawing and studying smaller multiple subsamples from the large dataset. We show that the mean of the persistence diagrams of subsamples -- taken as a mean persistence measure computed from the subsamples -- is a valid approximation of the true persistent homology of the larger dataset. We give the rate of convergence of the mean persistence diagram to the true persistence diagram in terms of the number of subsamples and size of each subsample. Given the complex algebraic and geometric nature of persistent homology, we adapt the convexity and stability properties in the space of persistence diagrams together with random set theory to achieve our theoretical results for the general setting of point cloud data. We demonstrate our approach on simulated and real data, including an application of shape clustering on complex large-scale point cloud data.
翻訳日:2022-04-21 14:17:58 公開日:2022-04-19
# Optimize_Prime@DravidianLangTech-ACL2022: タミルにおける感情分析

Optimize_Prime@DravidianLangTech-ACL2022: Emotion Analysis in Tamil ( http://arxiv.org/abs/2204.09087v1 )

ライセンス: Link先を確認
Omkar Gokhale, Shantanu Patankar, Onkar Litake, Aditya Mandke, Dipali Kadam(参考訳) 本稿では,タミルにおけるソーシャルメディアコメントの感情分析を行う。 感情分析は、テキストの感情的文脈を特定するプロセスである。 本稿では,ACL 2022共有タスク"Emotion Analysis in Tamil"において,Team Optimize_Primeで得られた結果について述べる。 このタスクはソーシャルメディアのコメントを、Joy、Anger、Trust、Disgustなどの感情カテゴリーに分類することを目的としている。 タスクはさらに、11の広範な感情カテゴリと31の特定の感情カテゴリの2つのサブタスクに分割された。 我々は,この問題を解決するために,トランスフォーマーベースモデル,リカレントニューラルネットワーク(RNN),エンサンブルモデルという3つのアプローチを実装した。 xlm-roberta は、マクロ平均 f1 スコア 0.27 で、muril は、マクロ平均 f1 スコア 0.13 で、第2 タスクの最高の結果を提供した。

This paper aims to perform an emotion analysis of social media comments in Tamil. Emotion analysis is the process of identifying the emotional context of the text. In this paper, we present the findings obtained by Team Optimize_Prime in the ACL 2022 shared task "Emotion Analysis in Tamil." The task aimed to classify social media comments into categories of emotion like Joy, Anger, Trust, Disgust, etc. The task was further divided into two subtasks, one with 11 broad categories of emotions and the other with 31 specific categories of emotion. We implemented three different approaches to tackle this problem: transformer-based models, Recurrent Neural Networks (RNNs), and Ensemble models. XLM-RoBERTa performed the best on the first task with a macro-averaged f1 score of 0.27, while MuRIL provided the best results on the second task with a macro-averaged f1 score of 0.13.
翻訳日:2022-04-21 14:17:26 公開日:2022-04-19
# PICT@DravidianLangTech-ACL2022: ドラヴィディア語のニューラルネットワーク翻訳

PICT@DravidianLangTech-ACL2022: Neural Machine Translation On Dravidian Languages ( http://arxiv.org/abs/2204.09098v1 )

ライセンス: Link先を確認
Aditya Vyawahare, Rahul Tangsali, Aditya Mandke, Onkar Litake, Dipali Kadam(参考訳) 本稿では,dravidian言語の機械翻訳に関する共通タスクに基づいて得られた知見の概要について述べる。 私たちは、メインの共有タスクに割り当てられた5つのサブタスクのうち3つで最初に立ちました。 カナダはタミル語、カナダはテルグ語、カナダはマラヤラム語、カナダはサンスクリット語、カナダはトゥルー語である。 5つの言語ペアのデータセットは、LSTM、双方向LSTM、Conv2SeqといったSeq2Seqモデルや、スクラッチから変換器としての最先端のトレーニング、すでにトレーニング済みのモデルなど、さまざまな翻訳モデルのトレーニングに使用された。 単言語コーパスを含むいくつかのモデルでは、逆翻訳も実装した。 これらのモデルの精度は、後にBLEUスコアを評価指標として、同じデータセットの一部でテストされた。

This paper presents a summary of the findings that we obtained based on the shared task on machine translation of Dravidian languages. We stood first in three of the five sub-tasks which were assigned to us for the main shared task. We carried out neural machine translation for the following five language pairs: Kannada to Tamil, Kannada to Telugu, Kannada to Malayalam, Kannada to Sanskrit, and Kannada to Tulu. The datasets for each of the five language pairs were used to train various translation models, including Seq2Seq models such as LSTM, bidirectional LSTM, Conv2Seq, and training state-of-the-art as transformers from scratch, and fine-tuning already pre-trained models. For some models involving monolingual corpora, we implemented backtranslation as well. These models' accuracy was later tested with a part of the same dataset using BLEU score as an evaluation metric.
翻訳日:2022-04-21 14:16:17 公開日:2022-04-19
# 確率的準ニュートン立方晶正規化最適化のための新しい高速完全部分問題解法

A Novel Fast Exact Subproblem Solver for Stochastic Quasi-Newton Cubic Regularized Optimization ( http://arxiv.org/abs/2204.09116v1 )

ライセンス: Link先を確認
Jarad Forristal, Joshua Griffin, Wenwen Zhou, Seyedalireza Yektamaram(参考訳) 本研究では,LQN(Limited-Memory Quasi-Newton)行列を用いた大規模非凸非制約最適化のためのCubics(ARC)法を用いた適応正規化について述べる。 ARC法は信頼領域と直線探索の代わりに3次正規化(CR)項を利用する比較的新しい最適化手法である。 LQN法は、確率勾配勾配 (SGD) のような一般的な一階法で使われるものと同一の入力をすることで、明示的な二階情報を使用するより大規模な代替手段を提供する。 CRサブプロブレムを正確に解くためにはニュートン法が必要であるが、LQN行列の内部構造の性質を用いて、CRサブプロブレムの正確な解を行列のない方法で見つけることができ、大きなスピードアップと現代的なサイズ要求へのスケーリングが可能になる。 さらに、従来のARC処理を拡張し、アルゴリズムに一階更新を明示的に組み込む。 ニューラルネットワーク(dnn)上でのadamや他の第2次最適化システムと比較して,sr1アップデートの速度向上と競合性を示す実験結果を提供する。 当社の新しいアプローチであるarclqnは,2次メソッドに共通する痛点である,最小チューニングによる現代的なオプティマイザと比較するものです。

In this work we describe an Adaptive Regularization using Cubics (ARC) method for large-scale nonconvex unconstrained optimization using Limited-memory Quasi-Newton (LQN) matrices. ARC methods are a relatively new family of optimization strategies that utilize a cubic-regularization (CR) term in place of trust-regions and line-searches. LQN methods offer a large-scale alternative to using explicit second-order information by taking identical inputs to those used by popular first-order methods such as stochastic gradient descent (SGD). Solving the CR subproblem exactly requires Newton's method, yet using properties of the internal structure of LQN matrices, we are able to find exact solutions to the CR subproblem in a matrix-free manner, providing large speedups and scaling into modern size requirements. Additionally, we expand upon previous ARC work and explicitly incorporate first-order updates into our algorithm. We provide experimental results when the SR1 update is used, which show substantial speed-ups and competitive performance compared to Adam and other second order optimizers on deep neural networks (DNNs). We find that our new approach, ARCLQN, compares to modern optimizers with minimal tuning, a common pain-point for second order methods.
翻訳日:2022-04-21 13:53:32 公開日:2022-04-19
# 多様なイメージネットモデルがよりよく転送する

Diverse Imagenet Models Transfer Better ( http://arxiv.org/abs/2204.09134v1 )

ライセンス: Link先を確認
Niv Nayman, Avram Golbert, Asaf Noy, Tan Ping, Lihi Zelnik-Manor(参考訳) 一般的に受け入れられている仮説は、imagenetで高い精度を持つモデルは、他の下流のタスクよりもパフォーマンスが良く、imagenetの精度を最適化する多くの研究に繋がる、ということである。 近年、この仮説は、自己教師モデルが、イメージネットの精度が劣っているにもかかわらず、監督モデルよりもよく転送されることを示す証拠によって批判されている。 これは、imagenetの精度に加えて、モデルを転送可能にする追加の要素を特定することを要求する。 本研究では,モデルが学習した特徴の多様さが,画像ネットの精度と協調して伝達性を促進することを示す。 本研究では, 自己教師ありモデルと教師あり事前学習を組み合わせることによって, 高い多様性と高い精度のモデルを生成する手法を提案する。 我々は,複数のアーキテクチャと複数のダウンストリームタスクについて,単一ラベルと複数ラベルの分類を含む実験を行った。

A commonly accepted hypothesis is that models with higher accuracy on Imagenet perform better on other downstream tasks, leading to much research dedicated to optimizing Imagenet accuracy. Recently this hypothesis has been challenged by evidence showing that self-supervised models transfer better than their supervised counterparts, despite their inferior Imagenet accuracy. This calls for identifying the additional factors, on top of Imagenet accuracy, that make models transferable. In this work we show that high diversity of the features learnt by the model promotes transferability jointly with Imagenet accuracy. Encouraged by the recent transferability results of self-supervised models, we propose a method that combines self-supervised and supervised pretraining to generate models with both high diversity and high accuracy, and as a result high transferability. We demonstrate our results on several architectures and multiple downstream tasks, including both single-label and multi-label classification.
翻訳日:2022-04-21 13:46:22 公開日:2022-04-19
# GAM(e) チェンジャーは? 加法モデル制約に基づく解釈可能な機械学習モデルの評価

GAM(e) changer or not? An evaluation of interpretable machine learning models based on additive model constraints ( http://arxiv.org/abs/2204.09123v1 )

ライセンス: Link先を確認
Patrick Zschech, Sven Weinzierl, Nico Hambauer, Sandra Zilker, Mathias Kraus(参考訳) 説明可能な人工知能(XAI)を扱う情報システム(IS)研究の数は、機械学習(ML)モデルの内部決定ロジックについて、フィールドがより透明性を必要とするため、現在爆発している。 しかし、xai に従属するほとんどの手法は解析後説明を提供しており、基礎となるmlモデルの近似のみを使用するため注意が必要である。 そこで本研究では,本質的に解釈可能なMLモデルについて検討し,ISコミュニティへの適合性について考察する。 より具体的には、任意のパターンをキャプチャできるが完全に解釈可能な形状関数を生成する非線形な方法で予測器を独立にモデル化するGAM(Generalized Additive Model)の拡張に焦点を当てている。 本研究では,従来の6つのMLモデルと比較して,5つのGAMの予測品質を評価し,その視覚的アウトプットをモデル解釈可能性として評価する。 そこで本研究では,そのメリットと限界について検討し,さらなる改善のための設計上の意義を導出する。

The number of information systems (IS) studies dealing with explainable artificial intelligence (XAI) is currently exploding as the field demands more transparency about the internal decision logic of machine learning (ML) models. However, most techniques subsumed under XAI provide post-hoc-analytical explanations, which have to be considered with caution as they only use approximations of the underlying ML model. Therefore, our paper investigates a series of intrinsically interpretable ML models and discusses their suitability for the IS community. More specifically, our focus is on advanced extensions of generalized additive models (GAM) in which predictors are modeled independently in a non-linear way to generate shape functions that can capture arbitrary patterns but remain fully interpretable. In our study, we evaluate the prediction qualities of five GAMs as compared to six traditional ML models and assess their visual outputs for model interpretability. On this basis, we investigate their merits and limitations and derive design implications for further improvements.
翻訳日:2022-04-21 13:43:25 公開日:2022-04-19
# 標的タンパク質結合のための3d分子の生成

Generating 3D Molecules for Target Protein Binding ( http://arxiv.org/abs/2204.09410v1 )

ライセンス: Link先を確認
Meng Liu, Youzhi Luo, Kanji Uchino, Koji Maruhashi, and Shuiwang Ji(参考訳) 薬物発見の根本的な問題は、特定のタンパク質に結合する分子を設計することである。 機械学習手法を用いてこの問題に対処するため, 与えられた結合部位に特定の型や位置の原子を1個ずつ配置することにより, 与えられたタンパク質に結合する3D分子を生成する, グラフBPと呼ばれる新規で効果的なフレームワークを提案する。 特に,各ステップでまず3次元グラフニューラルネットワークを用いて,中間的文脈情報から幾何学的・化学的情報的表現を得る。 そのような文脈は、与えられた結合部位と前のステップに置かれる原子を含む。 次に、所望の等分散性を維持するため、設計した補助分類器に従って局所参照原子を選択し、局所球座標系を構築する。 最後に、新しい原子を配置するために、その原子タイプと相対位置w.r.t.をフローモデルを介して構築した局所座標系を生成する。 また、それらの間の基盤となる依存関係をキャプチャするために、関心のある変数を順次生成することも検討しています。 実験により, タンパク質結合部位に対する結合能を有する3d分子の生成に, graphbpが有効であることが示された。 私たちの実装はhttps://github.com/divelab/graphbpで利用可能です。

A fundamental problem in drug discovery is to design molecules that bind to specific proteins. To tackle this problem using machine learning methods, here we propose a novel and effective framework, known as GraphBP, to generate 3D molecules that bind to given proteins by placing atoms of specific types and locations to the given binding site one by one. In particular, at each step, we first employ a 3D graph neural network to obtain geometry-aware and chemically informative representations from the intermediate contextual information. Such context includes the given binding site and atoms placed in the previous steps. Second, to preserve the desirable equivariance property, we select a local reference atom according to the designed auxiliary classifiers and then construct a local spherical coordinate system. Finally, to place a new atom, we generate its atom type and relative location w.r.t. the constructed local coordinate system via a flow model. We also consider generating the variables of interest sequentially to capture the underlying dependencies among them. Experiments demonstrate that our GraphBP is effective to generate 3D molecules with binding ability to target protein binding sites. Our implementation is available at https://github.com/divelab/GraphBP.
翻訳日:2022-04-21 13:42:47 公開日:2022-04-19
# 静的パワーグリッドモデルのサンプリング戦略

Sampling Strategies for Static Powergrid Models ( http://arxiv.org/abs/2204.09053v1 )

ライセンス: Link先を確認
Stephan Balduin, Eric MSP Veith, Sebastian Lehnhoff(参考訳) 機械学習とコンピュータインテリジェンス技術は、電力グリッドに関連する問題の解決策として、ますます人気が高まっている。 これらの問題の1つである電力フロー計算は、電力網のバスの電圧の大きさを電力値から計算する反復的な方法である。 機械学習、特に人工ニューラルネットワークは、電力フロー計算のサロゲートとしてうまく使われた。 ニューラルネットワークはトレーニングデータの品質とサイズに大きく依存していますが、このプロセスの側面は、私たちが発見した作業では無視されることが多いのです。 しかし,電力網における高品質な履歴データの入手は限られているため,相関サンプリングアルゴリズムを提案する。 また,本手法は,文献からの異なるランダムサンプリングアルゴリズムとコプラに基づくアプローチと比較して,サンプリング空間の広い領域をカバーすることができる一方で,他のアルゴリズムから,コプラに基づくアプローチのみを考慮した入力の相互依存性を考慮することができることを示す。

Machine learning and computational intelligence technologies gain more and more popularity as possible solution for issues related to the power grid. One of these issues, the power flow calculation, is an iterative method to compute the voltage magnitudes of the power grid's buses from power values. Machine learning and, especially, artificial neural networks were successfully used as surrogates for the power flow calculation. Artificial neural networks highly rely on the quality and size of the training data, but this aspect of the process is apparently often neglected in the works we found. However, since the availability of high quality historical data for power grids is limited, we propose the Correlation Sampling algorithm. We show that this approach is able to cover a larger area of the sampling space compared to different random sampling algorithms from the literature and a copula-based approach, while at the same time inter-dependencies of the inputs are taken into account, which, from the other algorithms, only the copula-based approach does.
翻訳日:2022-04-21 13:27:09 公開日:2022-04-19
# 階層ベイズ情報基準による不完全データを用いた因子分析における因子数の選択

Choosing the number of factors in factor analysis with incomplete data via a hierarchical Bayesian information criterion ( http://arxiv.org/abs/2204.09086v1 )

ライセンス: Link先を確認
Jianhua Zhao and Changchun Shang and Shulan Li and Ling Xin and Philip L.H. Yu(参考訳) ベイズ情報基準 (bayesian information criterion, bic) は、サンプルサイズ$n$に基づくペナルティ項を最小化する観測データログ可能性として定義され、完全なデータを持つ因子分析のための一般的なモデル選択基準である。 この定義は不完全なデータに対しても提案されている。 しかし 'complete' サンプルサイズ$N$ に基づくペナルティ用語は、完全なデータケースか不完全なデータケースかに関わらず、同じである。 非完全データの場合、変数 $i$ に対して $N_i<N$ しか観測できないため、'complete' サンプルサイズ $N$ は不完全データ固有の欠落情報の量を無視している。 この結果から,不完全データを用いた因子分析のための階層的BIC (hierarchical BIC) と呼ばれる新しい基準を提案する。 新規性は、ペナルティ用語において観測された情報の実際の量、すなわち$N_i$sのみを使用することである。 理論的には、HBICは変分ベイズ(VB)下界の大規模なサンプル近似であり、BICはHBICのさらなる近似であり、これはHBICがBICの理論的一貫性を共有することを意味する。 HBIC, BICおよび関連基準の有限サンプル性能に, 種々の欠落率でアクセスするために, 合成および実データ集合の実験を行った。 その結果、HBICとBICは、欠落率が小さい場合にも同様に動作するが、欠落率が小さい場合にはHBICの方が正確であることがわかった。

The Bayesian information criterion (BIC), defined as the observed data log likelihood minus a penalty term based on the sample size $N$, is a popular model selection criterion for factor analysis with complete data. This definition has also been suggested for incomplete data. However, the penalty term based on the `complete' sample size $N$ is the same no matter whether in a complete or incomplete data case. For incomplete data, there are often only $N_i<N$ observations for variable $i$, which means that using the `complete' sample size $N$ implausibly ignores the amounts of missing information inherent in incomplete data. Given this observation, a novel criterion called hierarchical BIC (HBIC) for factor analysis with incomplete data is proposed. The novelty is that it only uses the actual amounts of observed information, namely $N_i$'s, in the penalty term. Theoretically, it is shown that HBIC is a large sample approximation of variational Bayesian (VB) lower bound, and BIC is a further approximation of HBIC, which means that HBIC shares the theoretical consistency of BIC. Experiments on synthetic and real data sets are conducted to access the finite sample performance of HBIC, BIC, and related criteria with various missing rates. The results show that HBIC and BIC perform similarly when the missing rate is small, but HBIC is more accurate when the missing rate is not small.
翻訳日:2022-04-21 13:25:58 公開日:2022-04-19
# 教育を難しくする理由は何か? 合成環境における新たな課題

What Makes Instruction Learning Hard? An Investigation and a New Challenge in a Synthetic Environment ( http://arxiv.org/abs/2204.09148v1 )

ライセンス: Link先を確認
Matthew Finlayson, Kyle Richardson, Ashish Sabharwal, Peter Clark(参考訳) モデルがタスク記述だけで新しいタスクを実行することを学習する教示学習パラダイムは、汎用的なモデル研究で人気を博している。 しかし、命令学習者としての大きなトランスフォーマーモデルの能力はいまだに理解されていない。 このような能力を特徴付けるために,制御された合成環境を用いる。 具体的には、与えられた文字列が正規表現(命令と見なされる)と一致するかどうかを決定するタスクを使用して、命令学習を難しくするタスク、命令、インスタンスの特性を識別する。 例えば、細調整されたT5ベースのtext2text Transformerである我々のモデルは、大規模な正規言語と競合し、モデルの精度の低い命令が困難であることを示唆している。 さらに、前のステップの長いコンテキストを追跡する必要のある命令の実行も難しくなる。 そこで我々は,Hard RegSetと呼ぶ,難易度の高い学習データセットを体系的に構築する。 Hard RegSetの微調整では、テスト命令の65.6%(少なくとも90%の精度で)と、アウト・オブ・ディストリビューションの一般化設定における命令の11%-24%を正しく解釈することを学びました。 本稿では,難易度の高い指導学習課題としてHard RegSetを提案する。

The instruction learning paradigm -- where a model learns to perform new tasks from task descriptions alone -- has become popular in general-purpose model research. The capabilities of large transformer models as instruction learners, however, remain poorly understood. We use a controlled synthetic environment to characterize such capabilities. Specifically, we use the task of deciding whether a given string matches a regular expression (viewed as an instruction) to identify properties of tasks, instructions, and instances that make instruction learning challenging. For instance, we find that our model, a fine-tuned T5-based text2text transformer, struggles with large regular languages, suggesting that less precise instructions are challenging for models. Additionally, instruction executions that require tracking longer contexts of prior steps are also more difficult. We use our findings to systematically construct a challenging instruction learning dataset, which we call Hard RegSet. Fine-tuning on Hard RegSet, our large transformer learns to correctly interpret only 65.6% of test instructions (with at least 90% accuracy), and 11%-24% of the instructions in out-of-distribution generalization settings. We propose Hard RegSet as a challenging instruction learning task, and a controlled environment for studying instruction learning.
翻訳日:2022-04-21 13:10:13 公開日:2022-04-19
# (参考訳) 時相論理ニューラルネットワークを用いた転がり要素軸受の解釈可能な故障診断

Interpretable Fault Diagnosis of Rolling Element Bearings with Temporal Logic Neural Network ( http://arxiv.org/abs/2204.07579v2 )

ライセンス: CC BY 4.0
Gang Chen, Yu Lu, Rong Su, and Zhaodan Kong(参考訳) 機械学習に基づく手法は機械故障診断に成功している。 しかし、これらの方法の主な制限は、ブラックボックスとして動作し、一般に解釈できないことである。 本稿では,ネットワークのニューロンが論理命題である時間的論理ニューラルネットワーク(tlnn)と呼ばれる新しいニューラルネットワーク構造を提案する。 さらに重要なのは、ネットワークを重み付け信号の時間論理として記述し解釈できることだ。 TLNNは、従来のニューロンネットワークの優れた特性を保持するだけでなく、形式言語で自身を形式的に解釈する。 実データを用いた実験により,提案するニューラルネットワークは,高い計算効率で高精度な故障診断結果を得ることができることを示した。 さらに、ニューロンネットワークの埋め込み形式言語は、決定過程の説明を提供し、解釈可能な故障診断を実現することができる。

Machine learning-based methods have achieved successful applications in machinery fault diagnosis. However, the main limitation that exists for these methods is that they operate as a black box and are generally not interpretable. This paper proposes a novel neural network structure, called temporal logic neural network (TLNN), in which the neurons of the network are logic propositions. More importantly, the network can be described and interpreted as a weighted signal temporal logic. TLNN not only keeps the nice properties of traditional neuron networks but also provides a formal interpretation of itself with formal language. Experiments with real datasets show the proposed neural network can obtain highly accurate fault diagnosis results with good computation efficiency. Additionally, the embedded formal language of the neuron network can provide explanations about the decision process, thus achieve interpretable fault diagnosis.
翻訳日:2022-04-21 09:51:52 公開日:2022-04-19
# (参考訳) ベイジアンイメージングのための条件付きインジェクティブフロー

Conditional Injective Flows for Bayesian Imaging ( http://arxiv.org/abs/2204.07664v2 )

ライセンス: CC BY 4.0
AmirEhsan Khorashadizadeh, Konik Kothari, Leonardo Salsi, Ali Aghababaei Harandi, Maarten de Hoop, Ivan Dokmani\'c(参考訳) 計算画像のためのほとんどのディープラーニングモデルは、単一の再構成されたイメージを回帰する。 しかし、実際には、不合理性、非線形性、モデルミスマッチ、ノイズはしばしばそのような推定を誤解させるか、あるいは不十分にする。 ベイズアプローチは、画像と(ノイズ)計測を共同分散ランダムベクトルとしてモデル化し、未知の後方分布を近似することを目的としている。 条件付き正規化フローに基づく最近の変分推論手法は従来のMCMC法に代わる有望な代替手段であるが, 過大なメモリと高解像度画像に対する計算要求, ハード非線形問題に対する性能低下といった欠点が生じる。 本研究では,画像問題に特化して設計された条件付きインジェクティブフローであるC-Trumpetsを提案する。 インジェクティビティは、固定体積変化層やスキップ接続revnet層といったアーキテクチャ革新とともに、低次元潜在空間におけるメモリフットプリントとトレーニング時間を削減し、C-Trumpetsは、コンピュータとメモリの予算を低く抑えながら、様々な画像および画像復元タスクにおいて、通常の条件フローモデルより優れている。 c-trumpetsは、mmseやmapのような点推定の高速近似と、物理的に測定可能な不確実性定量化を可能にする。

Most deep learning models for computational imaging regress a single reconstructed image. In practice, however, ill-posedness, nonlinearity, model mismatch, and noise often conspire to make such point estimates misleading or insufficient. The Bayesian approach models images and (noisy) measurements as jointly distributed random vectors and aims to approximate the posterior distribution of unknowns. Recent variational inference methods based on conditional normalizing flows are a promising alternative to traditional MCMC methods, but they come with drawbacks: excessive memory and compute demands for moderate to high resolution images and underwhelming performance on hard nonlinear problems. In this work, we propose C-Trumpets -- conditional injective flows specifically designed for imaging problems, which greatly diminish these challenges. Injectivity reduces memory footprint and training time while low-dimensional latent space together with architectural innovations like fixed-volume-change layers and skip-connection revnet layers, C-Trumpets outperform regular conditional flow models on a variety of imaging and image restoration tasks, including limited-view CT and nonlinear inverse scattering, with a lower compute and memory budget. C-Trumpets enable fast approximation of point estimates like MMSE or MAP as well as physically-meaningful uncertainty quantification.
翻訳日:2022-04-21 04:03:47 公開日:2022-04-19
# (参考訳) コンピュータビジョンデータセットの可視化技術

A Tour of Visualization Techniques for Computer Vision Datasets ( http://arxiv.org/abs/2204.08601v1 )

ライセンス: CC BY 4.0
Bilal Alsallakh, Pamela Bhattacharya, Vanessa Feng, Narine Kokhlikyan, Orion Reblitz-Richardson, Rahul Rajan, David Yan(参考訳) 我々はコンピュータビジョン(CV)データセットを解析するための多くのデータ可視化手法を調査した。 これらのテクニックは、データセットレベルの分析を適用することで、そのようなデータのプロパティや潜在パターンを理解するのに役立ちます。 このような分析がCVモデルに対するデータセット特性の潜在的な影響を予測し,その欠点を適切に緩和する上で有効であることを示す。 最後に、CVデータセットの異なるモダリティのさらなる可視化技術と、特定のCVタスクや分析ニーズをサポートするように調整された手法について検討する。

We survey a number of data visualization techniques for analyzing Computer Vision (CV) datasets. These techniques help us understand properties and latent patterns in such data, by applying dataset-level analysis. We present various examples of how such analysis helps predict the potential impact of the dataset properties on CV models and informs appropriate mitigation of their shortcomings. Finally, we explore avenues for further visualization techniques of different modalities of CV datasets as well as ones that are tailored to support specific CV tasks and analysis needs.
翻訳日:2022-04-21 00:27:03 公開日:2022-04-19
# (参考訳) ディープラーニングのための画像データ拡張:調査

Image Data Augmentation for Deep Learning: A Survey ( http://arxiv.org/abs/2204.08610v1 )

ライセンス: CC BY 4.0
Suorong Yang, Weikang Xiao, Mengcheng Zhang, Suhan Guo, Jian Zhao and Furao Shen(参考訳) 深層学習は多くのコンピュータビジョンタスクにおいて顕著な成果を上げている。 ディープニューラルネットワークは通常、過度な適合を避けるために大量のトレーニングデータに依存する。 しかし、実際のアプリケーション用のラベル付きデータは制限される可能性がある。 トレーニングデータの量と多様性を改善することにより、画像データを用いたディープラーニングモデルのトレーニングでは、データ拡張が避けられない部分となっている。 訓練データの満足度と多様性を向上させる効果的な方法として,深層学習モデルを画像データに適用するためには,データ拡張が不可欠である。 本稿では,異なる画像データ拡張手法を体系的に検討する。 レビュー手法の分類法を提案し,これらの手法の強みと限界を示す。 また,セマンティクスセグメンテーション,画像分類,オブジェクト検出といった3つの典型的なコンピュータビジョンタスクにおいて,様々なデータ拡張手法を用いて広範な実験を行った。 最後に,データ拡張が直面する現在の課題と今後の研究指針について検討し,有用な研究指導を行う。

Deep learning has achieved remarkable results in many computer vision tasks. Deep neural networks typically rely on large amounts of training data to avoid overfitting. However, labeled data for real-world applications may be limited. By improving the quantity and diversity of training data, data augmentation has become an inevitable part of deep learning model training with image data. As an effective way to improve the sufficiency and diversity of training data, data augmentation has become a necessary part of successful application of deep learning models on image data. In this paper, we systematically review different image data augmentation methods. We propose a taxonomy of reviewed methods and present the strengths and limitations of these methods. We also conduct extensive experiments with various data augmentation methods on three typical computer vision tasks, including semantic segmentation, image classification and object detection. Finally, we discuss current challenges faced by data augmentation and future research directions to put forward some useful research guidance.
翻訳日:2022-04-21 00:16:03 公開日:2022-04-19
# (参考訳) より速く学習される毒はより効果的です

Poisons that are learned faster are more effective ( http://arxiv.org/abs/2204.08615v1 )

ライセンス: CC BY 4.0
Pedro Sandoval-Segura, Vasu Singla, Liam Fowl, Jonas Geiping, Micah Goldblum, David Jacobs, Tom Goldstein(参考訳) データセット全体に対する知覚不能な毒殺攻撃は、データプライバシを保護する方法として最近非難されている。 しかし、これらの技術の実用化を妨げる多くの防御策の中で、早期停止は単純で効果的な防御として際立っている。 早期停止に対する毒の脆弱性を評価するため,100回以上のピークテスト精度で誤り最小化,エラー最大化,合成毒をベンチマークし,多くの驚くべき観察を行った。 まず, トレーニング損失の少ない毒素は, ピーク時の試験精度を低下させることがわかった。 第2に,エポック8で中毒訓練が中止された場合,現在の最先端のエラー最大化毒は7倍効果が低下することが判明した。 第三に、より強く、より移動可能な敵の攻撃は、強い毒を生じない。 ピーク試験の正確性の観点から毒物の評価を提唱する。

Imperceptible poisoning attacks on entire datasets have recently been touted as methods for protecting data privacy. However, among a number of defenses preventing the practical use of these techniques, early-stopping stands out as a simple, yet effective defense. To gauge poisons' vulnerability to early-stopping, we benchmark error-minimizing, error-maximizing, and synthetic poisons in terms of peak test accuracy over 100 epochs and make a number of surprising observations. First, we find that poisons that reach a low training loss faster have lower peak test accuracy. Second, we find that a current state-of-the-art error-maximizing poison is 7 times less effective when poison training is stopped at epoch 8. Third, we find that stronger, more transferable adversarial attacks do not make stronger poisons. We advocate for evaluating poisons in terms of peak test accuracy.
翻訳日:2022-04-21 00:02:51 公開日:2022-04-19
# (参考訳) 学習ニューラルネットワークの高速化のための近似インプリシットODE解法

Proximal Implicit ODE Solvers for Accelerating Learning Neural ODEs ( http://arxiv.org/abs/2204.08621v1 )

ライセンス: CC0 1.0
Justin Baker and Hedi Xia and Yiwei Wang and Elena Cherkaev and Akil Narayan and Long Chen and Jack Xin and Andrea L. Bertozzi and Stanley J. Osher and Bao Wang(参考訳) ニューラルODEを学習するには、しばしば非常に硬いODEシステムを解く必要がある。 これらの解法は計算コストが高く、数値安定性と精度保証のために小さなステップサイズを使用する必要がある。 本稿では、近位演算子を利用した異なる順序の暗黙のODEソルバを用いたニューラルODEの学習について考察する。 内部イテレーションは、高速な最適化アルゴリズムを用いて各暗黙の更新ステップを近似し、外部イテレーションは時間とともにODEシステムを解く。 近位暗黙のodeソルバは数値安定性と計算効率において明示的な解法よりも優れていることを保証している。 連続深度グラフニューラルネットワークの学習や連続正規化フローなど,さまざまな課題のベンチマークタスクにおいて,既存のニューラルODEソルバに対する近位暗黙的解法の有効性を検証する。

Learning neural ODEs often requires solving very stiff ODE systems, primarily using explicit adaptive step size ODE solvers. These solvers are computationally expensive, requiring the use of tiny step sizes for numerical stability and accuracy guarantees. This paper considers learning neural ODEs using implicit ODE solvers of different orders leveraging proximal operators. The proximal implicit solver consists of inner-outer iterations: the inner iterations approximate each implicit update step using a fast optimization algorithm, and the outer iterations solve the ODE system over time. The proximal implicit ODE solver guarantees superiority over explicit solvers in numerical stability and computational efficiency. We validate the advantages of proximal implicit solvers over existing popular neural ODE solvers on various challenging benchmark tasks, including learning continuous-depth graph neural networks and continuous normalizing flows.
翻訳日:2022-04-20 23:51:40 公開日:2022-04-19
# (参考訳) CorrGAN:自然破壊に対する入力変換技術

CorrGAN: Input Transformation Technique Against Natural Corruptions ( http://arxiv.org/abs/2204.08623v1 )

ライセンス: CC BY 4.0
Mirazul Haque, Christof J. Budnik, and Wei Yang(参考訳) 異なるタスクにおけるディープニューラルネットワーク(DNN)の精度が向上しているため、多くのリアルタイムシステムがDNNを利用している。 これらのDNNは敵の摂動や腐敗に弱い。 特に、霧、ぼやけ、コントラストなどの自然腐敗は、自動運転車におけるdnnの予測に影響を与える可能性がある。 リアルタイムに、これらの腐敗を検知する必要があり、腐敗した入力を正しく予測するために消音する必要がある。 本研究では,劣化した入力が提供される場合に良性入力を生成できるCorrGANアプローチを提案する。 本稿では,新たな中間出力に基づく損失関数を持つGAN(Generative Adversarial Network)を訓練する。 GANは、破損した入力をノイズ化し、良性入力を生成する。 実験により,劣化した誤分類入力の75.2%がcorrganを用いてdnnによって正しく分類できることを示した。

Because of the increasing accuracy of Deep Neural Networks (DNNs) on different tasks, a lot of real times systems are utilizing DNNs. These DNNs are vulnerable to adversarial perturbations and corruptions. Specifically, natural corruptions like fog, blur, contrast etc can affect the prediction of DNN in an autonomous vehicle. In real time, these corruptions are needed to be detected and also the corrupted inputs are needed to be de-noised to be predicted correctly. In this work, we propose CorrGAN approach, which can generate benign input when a corrupted input is provided. In this framework, we train Generative Adversarial Network (GAN) with novel intermediate output-based loss function. The GAN can denoise the corrupted input and generate benign input. Through experimentation, we show that up to 75.2% of the corrupted misclassified inputs can be classified correctly by DNN using CorrGAN.
翻訳日:2022-04-20 23:26:41 公開日:2022-04-19
# (参考訳) 依存木変換による多言語構文認識言語モデリング

Multilingual Syntax-aware Language Modeling through Dependency Tree Conversion ( http://arxiv.org/abs/2204.08644v1 )

ライセンス: CC BY 4.0
Shunsuke Kando, Hiroshi Noji and Yusuke Miyao(参考訳) より強固な構文バイアスをニューラルネットワークモデル(lms)に組み込むことは長年の目標であるが、この分野の研究はしばしば英語のテキストのモデリングに焦点を当てている。 依存性ツリーバンクがより一般的である多言語設定への構成木ベースのLMの拡張は、依存性から定数への変換法によって可能である。 しかし、これはどの木形式がモデルを学ぶのに最適か、どの言語が最適かという疑問を提起する。 本稿では,様々な変換法を用いてリカレントニューラルネットワーク文法(recurrent neural network grammars,rnngs)を訓練し,多言語環境で経験的に評価する。 7種類の構文テストにより,9つの変換法と5つの言語にまたがるLM性能への影響を検討した。 平均して、最高のモデルの性能は、すべての言語で最悪の選択に対して、19パーセントの精度向上を示している。 最善のモデルは逐次的/過パラメータ化されたlmsよりも優れていることを示し,多言語環境での構文インジェクションの効果を示唆する。 我々の実験は、正しい木形式を選ぶことの重要性を強調し、情報的な決定を下すための洞察を提供する。

Incorporating stronger syntactic biases into neural language models (LMs) is a long-standing goal, but research in this area often focuses on modeling English text, where constituent treebanks are readily available. Extending constituent tree-based LMs to the multilingual setting, where dependency treebanks are more common, is possible via dependency-to-constituency conversion methods. However, this raises the question of which tree formats are best for learning the model, and for which languages. We investigate this question by training recurrent neural network grammars (RNNGs) using various conversion methods, and evaluating them empirically in a multilingual setting. We examine the effect on LM performance across nine conversion methods and five languages through seven types of syntactic tests. On average, the performance of our best model represents a 19 \% increase in accuracy over the worst choice across all languages. Our best model shows the advantage over sequential/overparameterized LMs, suggesting the positive effect of syntax injection in a multilingual setting. Our experiments highlight the importance of choosing the right tree formalism, and provide insights into making an informed decision.
翻訳日:2022-04-20 23:21:43 公開日:2022-04-19
# (参考訳) GraphHop++: GraphHopの新しい洞察と拡張

GraphHop++: New Insights into GraphHop and Its Enhancement ( http://arxiv.org/abs/2204.08646v1 )

ライセンス: CC BY 4.0
Tian Xie, Rajgopal Kannan, C.-C. Jay Kuo(参考訳) GraphHopと呼ばれる拡張ラベル伝搬(LP)法が最近提案されている。 グラフ畳み込みネットワーク(GCN)は、様々なネットワーク上の半教師付きノード分類タスクにおいて優れる。 GraphHopの性能は結合ノード属性やラベルのスムーズ化と直感的に説明されているが、厳密な数学的処理は不十分である。 本稿では,グラフホップに対する新たな知見として,制約付き最適化の観点から分析する。 グラフ上で定義されたある正規化問題に対して、graphhopが代替最適化を提供することを示す。 この解釈に基づいて、GraphHopをさらに改良する2つのアイデアを提案し、GraphHop++に導く。 GraphHop++の有効性と効率を実証するために、広範な実験を行う。 GraphHop++は5つのテストデータセットと非常に低いラベルレートでのオブジェクト認識タスク(クラス毎に1, 2, 4, 8, 16, 20のラベル付きサンプル)で、GraphHopを含む他のベンチマークメソッドよりもパフォーマンスが優れていることが観察されている。

An enhanced label propagation (LP) method called GraphHop has been proposed recently. It outperforms graph convolutional networks (GCNs) in the semi-supervised node classification task on various networks. Although the performance of GraphHop was explained intuitively with joint node attributes and labels smoothening, its rigorous mathematical treatment is lacking. In this paper, new insights into GraphHop are provided by analyzing it from a constrained optimization viewpoint. We show that GraphHop offers an alternate optimization to a certain regularization problem defined on graphs. Based on this interpretation, we propose two ideas to improve GraphHop furthermore, which leads to GraphHop++. We conduct extensive experiments to demonstrate the effectiveness and efficiency of GraphHop++. It is observed that GraphHop++ outperforms all other benchmarking methods, including GraphHop, consistently on five test datasets as well as an object recognition task at extremely low label rates (i.e., 1, 2, 4, 8, 16, and 20 labeled samples per class).
翻訳日:2022-04-20 23:09:20 公開日:2022-04-19
# (参考訳) 機械学習を用いた有害事象予測における時間軸を含むデータ分割戦略の検討

Investigation of a Data Split Strategy Involving the Time Axis in Adverse Event Prediction Using Machine Learning ( http://arxiv.org/abs/2204.08682v1 )

ライセンス: CC BY 4.0
Katsuhisa Morita, Tadahaya Mizuno, and Hiroyuki Kusuhara(参考訳) 副作用は薬物開発において深刻な問題であり,機械学習を用いた予測手法が開発されている。 ランダムスプリット・クロスバリデーションは、機械学習におけるモデル構築と評価のデファクトスタンダードであるが、このアプローチは現実の状況と比較して過度に最適化される傾向があるため、悪い事象予測に注意する必要がある。 時間軸を用いた時間分割は実世界の予測に適していると考えられる。 しかし、時間とランダム分割を用いたモデル性能の違いは、完全には理解されていない。 この差を理解するために,入力として8種類の複合情報,ターゲットとして8つの有害事象,および6つの機械学習アルゴリズムを用いて,時間分割とランダム分割のモデル性能を比較した。 ランダムスプリットは8つの目標のうち6つの時間スプリットよりも曲線値より高い領域を示した。 時間分割のトレーニングとテストデータセットの化学空間は類似しており、応用可能性領域の概念は分裂から生じる相違を説明するのに不十分であることが示唆された。 曲線差の下の領域は、他のデータセットよりもタンパク質相互作用が小さい。 その後の詳細な分析から、知識に基づく情報の利用の混乱の危険性が示唆された。 これらの結果は,悪事象予測における時間分割とランダム分割の違いを理解することの重要性を示し,実世界の悪事象予測には分割戦略の適切な利用と結果の解釈が必要であることを示唆する。

Adverse events are a serious issue in drug development and many prediction methods using machine learning have been developed. The random split cross-validation is the de facto standard for model building and evaluation in machine learning, but care should be taken in adverse event prediction because this approach tends to be overoptimistic compared with the real-world situation. The time split, which uses the time axis, is considered suitable for real-world prediction. However, the differences in model performance obtained using the time and random splits are not fully understood. To understand the differences, we compared the model performance between the time and random splits using eight types of compound information as input, eight adverse events as targets, and six machine learning algorithms. The random split showed higher area under the curve values than did the time split for six of eight targets. The chemical spaces of the training and test datasets of the time split were similar, suggesting that the concept of applicability domain is insufficient to explain the differences derived from the splitting. The area under the curve differences were smaller for the protein interaction than for the other datasets. Subsequent detailed analyses suggested the danger of confounding in the use of knowledge-based information in the time split. These findings indicate the importance of understanding the differences between the time and random splits in adverse event prediction and suggest that appropriate use of the splitting strategies and interpretation of results are necessary for the real-world prediction of adverse events.
翻訳日:2022-04-20 22:45:14 公開日:2022-04-19
# (参考訳) 語彙翻訳GANによる不均衡分類

Imbalanced Classification via a Tabular Translation GAN ( http://arxiv.org/abs/2204.08683v1 )

ライセンス: CC BY 4.0
Jonathan Gradstein, Moshe Salhov, Yoav Tulpan, Ofir Lindenbaum, Amir Averbuch(参考訳) データが厳密なクラス不均衡を示す二項分類問題を示すと、ほとんどの標準的な予測手法はマイノリティクラスを正確にモデル化することができない。 本稿では,多数のサンプルを対応する合成マイノリティ標本にマッピングするために,新たな正規化損失を用いたジェネレーティブ・アドバイサル・ネットワークに基づくモデルを提案する。 この翻訳機構は、合成されたサンプルがクラス境界に近いように促す。 さらに, 合成試料の最も有用性を維持するために, 選択基準を検討する。 様々な表型クラス不均衡データセットの下流分類器を用いた実験結果から, 提案手法は, 代替的な再重み付けやオーバーサンプリング手法と比較して平均精度を向上することが示された。

When presented with a binary classification problem where the data exhibits severe class imbalance, most standard predictive methods may fail to accurately model the minority class. We present a model based on Generative Adversarial Networks which uses additional regularization losses to map majority samples to corresponding synthetic minority samples. This translation mechanism encourages the synthesized samples to be close to the class boundary. Furthermore, we explore a selection criterion to retain the most useful of the synthesized samples. Experimental results using several downstream classifiers on a variety of tabular class-imbalanced datasets show that the proposed method improves average precision when compared to alternative re-weighting and oversampling techniques.
翻訳日:2022-04-20 22:44:07 公開日:2022-04-19
# (参考訳) エンド・ツー・エンドインタラクションによるモジュラーエンボディエージェントにおけるエピソード学習

Many Episode Learning in a Modular Embodied Agent via End-to-End Interaction ( http://arxiv.org/abs/2204.08687v1 )

ライセンス: CC BY 4.0
Yuxuan Sun, Ethan Carlson, Rebecca Qian, Kavya Srinet, Arthur Szlam(参考訳) 本研究では,機械学習(ML)を利用したエージェントのケーススタディを,クラウドワーカーとのインタラクションを通じて改善する。 エージェントは一連のモジュールで構成され、その一部は学習され、その他はヒューリスティックである。 エージェントはMLの意味では「エンドツーエンド」ではないが、エンドツーエンドのインタラクションはエージェントの学習メカニズムの重要な部分である。 エージェントの設計と複数のアノテーションインターフェースの設計を組み合わせることで、クラウドワーカーがエンド・ツー・エンドのインタラクションからモジュールエラーに対するクレジットを割り当て、個々のモジュールに対してデータをラベル付けできるようにします。 複数の自動化された人間とエージェントのインタラクション、クレジットの割り当て、データアノテーション、モデルの再トレーニングと再デプロイを通じて、私たちはエージェントの改善を示します。

In this work we give a case study of an embodied machine-learning (ML) powered agent that improves itself via interactions with crowd-workers. The agent consists of a set of modules, some of which are learned, and others heuristic. While the agent is not "end-to-end" in the ML sense, end-to-end interaction is a vital part of the agent's learning mechanism. We describe how the design of the agent works together with the design of multiple annotation interfaces to allow crowd-workers to assign credit to module errors from end-to-end interactions, and to label data for individual modules. Over multiple automated human-agent interaction, credit assignment, data annotation, and model re-training and re-deployment, rounds we demonstrate agent improvement.
翻訳日:2022-04-20 22:32:02 公開日:2022-04-19
# (参考訳) TinyMLベースのIoT組込みビジョンのためのソフトウェアエンジニアリングアプローチ: 体系的な文献レビュー

Software Engineering Approaches for TinyML based IoT Embedded Vision: A Systematic Literature Review ( http://arxiv.org/abs/2204.08702v1 )

ライセンス: CC BY 4.0
Shashank Bangalore Lakshman and Nasir U. Eisty(参考訳) モノのインターネット(IoT)は、ユビキタスセンシング、通信、計算、アクティベーションを通じて、環境を制御できる人間の能力を生み出しました。 過去数年間、IoTは機械学習(ML)と協力して、最先端に深い知性を埋め込んでいる。 TinyML(Tiny Machine Learning)は、極めてリーンなエッジハードウェアに組み込みビジョンのためのMLモデルのデプロイを可能にし、IoTとMLのパワーを両立させた。 しかし、TinyMLをベースとする組み込みビジョンアプリケーションは、まだ初期段階にあり、実際のIoTデプロイメントにまで拡大し始めている。 IoTとMLの真の可能性を活用するためには、プロダクト開発者に、TinyMLエンジニアリングで直面するユニークな課題に合わせてカスタマイズされた堅牢で使いやすいソフトウェアエンジニアリング(SE)フレームワークとベストプラクティスを提供することが必要だ。 この体系的な文献レビューを通じて、TinyML開発者によって報告された重要な課題をまとめ、TinyMLベースのIoT組み込みビジョンにおける重要な課題に対処するための、大規模コンピュータビジョン、機械学習、組み込みシステムにおける最先端のSEアプローチを特定しました。 要約すると、我々の研究は、組み込みシステム開発者とML開発者が独立して開発し、TinyMLベースのIoT組み込みビジョンのエンジニアリングにおけるユニークな課題に対処するためにSEの専門知識の相乗効果を引き出す。

Internet of Things (IoT) has catapulted human ability to control our environments through ubiquitous sensing, communication, computation, and actuation. Over the past few years, IoT has joined forces with Machine Learning (ML) to embed deep intelligence at the far edge. TinyML (Tiny Machine Learning) has enabled the deployment of ML models for embedded vision on extremely lean edge hardware, bringing the power of IoT and ML together. However, TinyML powered embedded vision applications are still in a nascent stage, and they are just starting to scale to widespread real-world IoT deployment. To harness the true potential of IoT and ML, it is necessary to provide product developers with robust, easy-to-use software engineering (SE) frameworks and best practices that are customized for the unique challenges faced in TinyML engineering. Through this systematic literature review, we aggregated the key challenges reported by TinyML developers and identified state-of-art SE approaches in large-scale Computer Vision, Machine Learning, and Embedded Systems that can help address key challenges in TinyML based IoT embedded vision. In summary, our study draws synergies between SE expertise that embedded systems developers and ML developers have independently developed to help address the unique challenges in the engineering of TinyML based IoT embedded vision.
翻訳日:2022-04-20 22:16:40 公開日:2022-04-19
# (参考訳) リモートセンシングにおけるクロスモーダル検索のための教師なしコントラストハッシュ

Unsupervised Contrastive Hashing for Cross-Modal Retrieval in Remote Sensing ( http://arxiv.org/abs/2204.08707v1 )

ライセンス: CC BY 4.0
Georgii Mikriukov, Mahdyar Ravanbakhsh, Beg\"um Demir(参考訳) 任意のモダリティの問合せに基づく意味的関連データを検索・検索できるクロスモーダル検索システムの開発は、リモートセンシング(RS)において大きな注目を集めている。 本稿では,あるモダリティ(例えばテキスト)からのクエリを,別のモダリティ(例えば画像)からのアーカイブエントリとマッチングできるクロスモーダルなテキスト画像検索に注目する。 RSの既存のクロスモーダルテキスト画像検索システムの多くは、ラベル付きトレーニングサンプルを大量に必要としており、高速でメモリ効率のよい検索もできない。 これらの問題は、rsにおける大規模アプリケーションに対する既存のクロスモーダル検索システムの適用性を制限している。 この問題に対処するため,本稿では,RSにおけるテキスト画像検索のための新しい教師なしクロスモーダルコントラストハッシュ(DUCH)手法を提案する。 この目的のために提案されたDUCHは2つの主要なモジュールから構成されている。 1) 2つのモードの深部表現を抽出する特徴抽出モジュール 2) 抽出した表現からクロスモーダルなバイナリハッシュコードを生成するハッシュモジュール。 以下を含む新しい多目的損失関数を導入する。 一 モダリティ内及びモダリティ間類似性において類似性保存を可能にする対比目的 二 相互表現の整合性のために二つのモダリティにまたがって施行される敵意 三 ハッシュコードを生成するための二元化目的 実験結果から,提案するDUCHは最先端の手法よりも優れていた。 私たちのコードはhttps://git.tu-berlin.de/rsim/duchで公開しています。

The development of cross-modal retrieval systems that can search and retrieve semantically relevant data across different modalities based on a query in any modality has attracted great attention in remote sensing (RS). In this paper, we focus our attention on cross-modal text-image retrieval, where queries from one modality (e.g., text) can be matched to archive entries from another (e.g., image). Most of the existing cross-modal text-image retrieval systems in RS require a high number of labeled training samples and also do not allow fast and memory-efficient retrieval. These issues limit the applicability of the existing cross-modal retrieval systems for large-scale applications in RS. To address this problem, in this paper we introduce a novel unsupervised cross-modal contrastive hashing (DUCH) method for text-image retrieval in RS. To this end, the proposed DUCH is made up of two main modules: 1) feature extraction module, which extracts deep representations of two modalities; 2) hashing module that learns to generate cross-modal binary hash codes from the extracted representations. We introduce a novel multi-objective loss function including: i) contrastive objectives that enable similarity preservation in intra- and inter-modal similarities; ii) an adversarial objective that is enforced across two modalities for cross-modal representation consistency; and iii) binarization objectives for generating hash codes. Experimental results show that the proposed DUCH outperforms state-of-the-art methods. Our code is publicly available at https://git.tu-berlin.de/rsim/duch.
翻訳日:2022-04-20 22:04:17 公開日:2022-04-19
# (参考訳) 柱レベルの親和性を有する無提案lidarパノプティックセグメンテーション

Proposal-free Lidar Panoptic Segmentation with Pillar-level Affinity ( http://arxiv.org/abs/2204.08744v1 )

ライセンス: CC BY 4.0
Qi Chen and Sourabh Vora(参考訳) そこで本研究では,ライダーパノプティクスセグメンテーションのための簡易かつ効果的な提案不要アーキテクチャを提案する。 柱型鳥眼ビュー表現を用いた単一ネットワークにおけるセマンティックセグメンテーションとクラスに依存しないインスタンス分類を共同で最適化する。 インスタンス分類ヘッドは、柱間のペア親和性を学び、柱が同一のインスタンスに属するか否かを決定する。 さらに,意味セグメンテーションと親和性予測を融合してインスタンスidを伝播する局所クラスタリングアルゴリズムを提案する。 nuScenesデータセットを実験した結果,提案手法は従来の提案不要手法よりも優れており,オブジェクト検出から付加的なアノテーションを必要とする提案に基づく手法に匹敵することがわかった。

We propose a simple yet effective proposal-free architecture for lidar panoptic segmentation. We jointly optimize both semantic segmentation and class-agnostic instance classification in a single network using a pillar-based bird's-eye view representation. The instance classification head learns pairwise affinity between pillars to determine whether the pillars belong to the same instance or not. We further propose a local clustering algorithm to propagate instance ids by merging semantic segmentation and affinity predictions. Our experiments on nuScenes dataset show that our approach outperforms previous proposal-free methods and is comparable to proposal-based methods which requires extra annotation from object detection.
翻訳日:2022-04-20 21:51:29 公開日:2022-04-19
# (参考訳) 熱適応物体検出モデルにおける大気乱流効果の増大

Augmentation of Atmospheric Turbulence Effects on Thermal Adapted Object Detection Models ( http://arxiv.org/abs/2204.08745v1 )

ライセンス: CC BY 4.0
Engin Uzun, Ahmet Anil Dursun, Erdem Akagunduz(参考訳) 大気の乱流は、長距離観測システムの画質に劣化効果がある。 温度、風速、湿度などの様々な要素の結果として、乱流は大気の屈折率のランダムな変動によって特徴づけられる。 可視光や赤外線帯などの様々な画像スペクトルで発生する現象である。 本稿では,熱画像における物体検出性能に及ぼす大気乱流の影響を分析する。 幾何学的乱流モデルを用いて中規模熱画像集合「flir adas v2」における乱流効果をシミュレートする。 本研究では, 最先端物体検出器に熱領域適応を適用し, 異なる重度レベルの乱流画像を用いた物体検出器の性能向上のためのデータ拡張戦略を提案する。 その結果,提案手法は乱流と非乱流の両方の熱実験画像の性能向上をもたらすことがわかった。

Atmospheric turbulence has a degrading effect on the image quality of long-range observation systems. As a result of various elements such as temperature, wind velocity, humidity, etc., turbulence is characterized by random fluctuations in the refractive index of the atmosphere. It is a phenomenon that may occur in various imaging spectra such as the visible or the infrared bands. In this paper, we analyze the effects of atmospheric turbulence on object detection performance in thermal imagery. We use a geometric turbulence model to simulate turbulence effects on a medium-scale thermal image set, namely "FLIR ADAS v2". We apply thermal domain adaptation to state-of-the-art object detectors and propose a data augmentation strategy to increase the performance of object detectors which utilizes turbulent images in different severity levels as training data. Our results show that the proposed data augmentation strategy yields an increase in performance for both turbulent and non-turbulent thermal test images.
翻訳日:2022-04-20 21:40:01 公開日:2022-04-19
# (参考訳) 自己適応型エキスパート混合によるテーブルベースファクト検証

Table-based Fact Verification with Self-adaptive Mixture of Experts ( http://arxiv.org/abs/2204.08753v1 )

ライセンス: CC BY 4.0
Yuxuan Zhou, Xien Liu, Kaiyin Zhou, Ji Wu(参考訳) テーブルベースの事実検証タスクは最近広く注目を集めているが、依然として非常に難しい問題である。 本質的には、自然言語に対する情報的推論と、表上の異なる数値的および論理的推論(例えば、count, comparative)を必要とする。 そこで,本稿では,エキスパートの混合を活用し,新しい手法であるsmoe(self-adaptive mixture-of-experts network)を提案する。 ネットワークは複数の専門家で構成され、それぞれが推論のための意味論の特定の部分を処理する。一方、マネジメントモジュールは、検証結果に対する各専門家ネットワークの貢献を決定するために適用される。 外部知識を使わずに、異なる専門家の結果をより効率的に組み合わせた管理モジュールを指導する自己適応手法を開発した。 実験の結果,本フレームワークは,従来の最先端モデルに匹敵するベンチマークデータセットで85.1%の精度を達成した。 当社のフレームワークが,テーブルベースの検証のための新たなベースラインになることを願っています。 私たちのコードはhttps://github.com/thumlp/samoeで利用可能です。

The table-based fact verification task has recently gained widespread attention and yet remains to be a very challenging problem. It inherently requires informative reasoning over natural language together with different numerical and logical reasoning on tables (e.g., count, superlative, comparative). Considering that, we exploit mixture-of-experts and present in this paper a new method: Self-adaptive Mixture-of-Experts Network (SaMoE). Specifically, we have developed a mixture-of-experts neural network to recognize and execute different types of reasoning -- the network is composed of multiple experts, each handling a specific part of the semantics for reasoning, whereas a management module is applied to decide the contribution of each expert network to the verification result. A self-adaptive method is developed to teach the management module combining results of different experts more efficiently without external knowledge. The experimental results illustrate that our framework achieves 85.1% accuracy on the benchmark dataset TabFact, comparable with the previous state-of-the-art models. We hope our framework can serve as a new baseline for table-based verification. Our code is available at https://github.com/THUMLP/SaMoE.
翻訳日:2022-04-20 21:28:20 公開日:2022-04-19
# (参考訳) エッジ型高分解能機能蒸留ネットワーク

Edge-enhanced Feature Distillation Network for Efficient Super-Resolution ( http://arxiv.org/abs/2204.08759v1 )

ライセンス: CC BY 4.0
Yan Wang(参考訳) 近年の畳み込みニューラルネットワークの発展に伴い、エッジデバイスへの実用的な展開のために、多数の軽量cnnベースの画像超解像法が提案されている。 しかし、既存の手法のほとんどはネットワークまたは損失設計という1つの特定の側面に焦点を当てており、モデルサイズを最小化することが困難になっている。 この問題に対処するため,より効率的なSR構造を得るために,ブロック設計,アーキテクチャ探索,損失設計を行う。 本稿では,制約資源下での高周波情報保存のためのエッジ強化型特徴蒸留ネットワークEFDNを提案する。 本稿では,既存の再パラメータ化手法に基づくエッジ強化畳み込みブロックを構築する。 一方,再パラメータ化パストレーニングの校正のためのエッジ強化勾配損失を提案する。 実験の結果, エッジ強化戦略はエッジを保ち, 最終修復品質を著しく向上することがわかった。 コードはhttps://github.com/icandle/EFDNで入手できる。

With the recently massive development in convolution neural networks, numerous lightweight CNN-based image super-resolution methods have been proposed for practical deployments on edge devices. However, most existing methods focus on one specific aspect: network or loss design, which leads to the difficulty of minimizing the model size. To address the issue, we conclude block devising, architecture searching, and loss design to obtain a more efficient SR structure. In this paper, we proposed an edge-enhanced feature distillation network, named EFDN, to preserve the high-frequency information under constrained resources. In detail, we build an edge-enhanced convolution block based on the existing reparameterization methods. Meanwhile, we propose edge-enhanced gradient loss to calibrate the reparameterized path training. Experimental results show that our edge-enhanced strategies preserve the edge and significantly improve the final restoration quality. Code is available at https://github.com/icandle/EFDN.
翻訳日:2022-04-20 21:12:52 公開日:2022-04-19
# (参考訳) 二元多チャンネル形態的ニューラルネットワーク

Binary Multi Channel Morphological Neural Network ( http://arxiv.org/abs/2204.08768v1 )

ライセンス: CC BY 4.0
Theodore Aouad and Hugues Talbot(参考訳) ニューラルネットワーク、特にディープラーニングは、理論的観点からは比較的研究されていない。 逆に、数学的形態学は固い理論の基礎を持つ分野である。 これらのドメインを組み合わせて、理論上より説明しやすい新しいタイプのニューラルアーキテクチャを提案する。 本稿では,畳み込みニューラルネットワークを基盤とした二元形態的ニューラルネットワーク(bimonn)を提案する。 二元入力と出力で形態素ネットワークを学ぶために設計する。 ネットワーク全体のバイナリ化に使用できるビモンとモルフォロジー演算子の等価性を示す。 これらは古典的形態学演算子を学習し、医用画像アプリケーションで有望な結果を示すことができる。

Neural networks and particularly Deep learning have been comparatively little studied from the theoretical point of view. Conversely, Mathematical Morphology is a discipline with solid theoretical foundations. We combine these domains to propose a new type of neural architecture that is theoretically more explainable. We introduce a Binary Morphological Neural Network (BiMoNN) built upon the convolutional neural network. We design it for learning morphological networks with binary inputs and outputs. We demonstrate an equivalence between BiMoNNs and morphological operators that we can use to binarize entire networks. These can learn classical morphological operators and show promising results on a medical imaging application.
翻訳日:2022-04-20 21:11:53 公開日:2022-04-19
# (参考訳) GroupNet:関係推論を用いた軌道予測のためのマルチスケールハイパーグラフニューラルネットワーク

GroupNet: Multiscale Hypergraph Neural Networks for Trajectory Prediction with Relational Reasoning ( http://arxiv.org/abs/2204.08770v1 )

ライセンス: CC BY 4.0
Chenxin Xu, Maosen Li, Zhenyang Ni, Ya Zhang, Siheng Chen(参考訳) 過去の軌道から複数のエージェント間の相互作用をデミステレーションすることは、正確かつ解釈可能な軌道予測の基礎となる。 しかし、以前の研究は限定的な関係推論を伴うペアワイズ相互作用のみを考慮していた。 関係推論のためのより包括的な相互作用モデリングを促進するために,多スケールハイパーグラフニューラルネットワークであるGroupNetを提案する。 インタラクションキャプチャの観点から,複数のグループサイズでペアワイドとグループワイドの両方のインタラクションをキャプチャする,トレーニング可能なマルチスケールハイパーグラフを提案する。 インタラクション表現学習の側面から、エンドツーエンドで学習できる3要素形式を提案し、相互作用強度やカテゴリを含む関係要因を明確に推論する。 CVAEに基づく予測システムと従来の最先端予測システムにGroupNetを適用し、関係推論による社会的に妥当な軌道の予測を行う。 関係推論の能力を検証するために, 集団行動, 理性相互作用強度, 相互作用カテゴリーを捉える能力を反映した合成物理学シミュレーションを行った。 予測の有効性を検証するため,NBA,SDD,ETH-UCYを含む3つの実世界の軌道予測データセットについて広範な実験を行った。 また,groupnet の追加により,従来の最先端予測システムの性能がさらに向上することを示す。

Demystifying the interactions among multiple agents from their past trajectories is fundamental to precise and interpretable trajectory prediction. However, previous works only consider pair-wise interactions with limited relational reasoning. To promote more comprehensive interaction modeling for relational reasoning, we propose GroupNet, a multiscale hypergraph neural network, which is novel in terms of both interaction capturing and representation learning. From the aspect of interaction capturing, we propose a trainable multiscale hypergraph to capture both pair-wise and group-wise interactions at multiple group sizes. From the aspect of interaction representation learning, we propose a three-element format that can be learnt end-to-end and explicitly reason some relational factors including the interaction strength and category. We apply GroupNet into both CVAE-based prediction system and previous state-of-the-art prediction systems for predicting socially plausible trajectories with relational reasoning. To validate the ability of relational reasoning, we experiment with synthetic physics simulations to reflect the ability to capture group behaviors, reason interaction strength and interaction category. To validate the effectiveness of prediction, we conduct extensive experiments on three real-world trajectory prediction datasets, including NBA, SDD and ETH-UCY; and we show that with GroupNet, the CVAE-based prediction system outperforms state-of-the-art methods. We also show that adding GroupNet will further improve the performance of previous state-of-the-art prediction systems.
翻訳日:2022-04-20 21:01:41 公開日:2022-04-19
# (参考訳) IndicXNLI:インド語の多言語推論の評価

IndicXNLI: Evaluating Multilingual Inference for Indian Languages ( http://arxiv.org/abs/2204.08776v1 )

ライセンス: CC BY 4.0
Divyanshu Aggarwal, Vivek Gupta, Anoop Kunchukuttan(参考訳) Indic NLPは最近、コーパスと事前訓練モデルの可用性の観点から急速に進歩しているが、標準のNLUタスクのベンチマークデータセットは限られている。 この目的のために、11のIndic言語のためのNLIデータセットであるIndicXNLIを紹介する。 元の英語XNLIデータセットの高品質な機械翻訳によって作成され、分析結果からIndicXNLIの品質が確認された。 IndicXNLIでは, 言語モデル, 言語選択, 多言語性, 混合言語入力などの影響について, 様々な言語間移動手法を微調整して解析する。 これらの実験は、様々な言語に対する事前学習されたモデルの振る舞いに関する有用な洞察を提供する。

While Indic NLP has made rapid advances recently in terms of the availability of corpora and pre-trained models, benchmark datasets on standard NLU tasks are limited. To this end, we introduce IndicXNLI, an NLI dataset for 11 Indic languages. It has been created by high-quality machine translation of the original English XNLI dataset and our analysis attests to the quality of IndicXNLI. By finetuning different pre-trained LMs on this IndicXNLI, we analyze various cross-lingual transfer techniques with respect to the impact of the choice of language models, languages, multi-linguality, mix-language input, etc. These experiments provide us with useful insights into the behaviour of pre-trained models for a diverse set of languages.
翻訳日:2022-04-20 20:59:07 公開日:2022-04-19
# (参考訳) ELEVATER: 言語拡張ビジュアルモデルを評価するベンチマークとツールキット

ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented Visual Models ( http://arxiv.org/abs/2204.08790v1 )

ライセンス: CC BY 4.0
Chunyuan Li, Haotian Liu, Liunian Harold Li, Pengchuan Zhang, Jyoti Aneja, Jianwei Yang, Ping Jin, Yong Jae Lee, Houdong Hu, Zicheng Liu, and Jianfeng Gao(参考訳) 自然言語の監督から視覚的な表現を学ぶことは、最近、多くの先駆的な研究で大きな約束を示している。 一般的に、これらの言語によるビジュアルモデルは、さまざまなデータセット/タスクへの強い転送性を示しています。 しかし、公平なベンチマークのための簡単に使えるツールキットがないため、これらの基礎モデルのトランスファー性を評価することは依然として課題である。 これを解決するために、私たちは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークであるELEVATER(Evaluation of Language-augmented Visual Task-level Transfer)を構築した。 いくつかのハイライトは以下のとおりである。 (i)データセット。 下流評価スイートとして、20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。 (ii)ツールキット。 モデル適応の公平性を確保するために,自動ハイパーパラメータチューニングツールキットを開発した。 言語拡張ビジュアルモデルのフルパワーを活用するために,適応性能を大幅に向上させる新しい言語対応初期化手法を提案する。 (iii)指標。 サンプル効率(ゼロショットと少数ショット)やパラメータ効率(線形プローブとフルモデル微調整)など、さまざまな評価指標が使用されている。 研究コミュニティのためのツールキットと評価プラットフォームをリリースします。

Learning visual representations from natural language supervision has recently shown great promise in a number of pioneering works. In general, these language-augmented visual models demonstrate strong transferability to a variety of datasets/tasks. However, it remains a challenge to evaluate the transferablity of these foundation models due to the lack of easy-to-use toolkits for fair benchmarking. To tackle this, we build ELEVATER (Evaluation of Language-augmented Visual Task-level Transfer), the first benchmark to compare and evaluate pre-trained language-augmented visual models. Several highlights include: (i) Datasets. As downstream evaluation suites, it consists of 20 image classification datasets and 35 object detection datasets, each of which is augmented with external knowledge. (ii) Toolkit. An automatic hyper-parameter tuning toolkit is developed to ensure the fairness in model adaption. To leverage the full power of language-augmented visual models, novel language-aware initialization methods are proposed to significantly improve the adaption performance. (iii) Metrics. A variety of evaluation metrics are used, including sample-efficiency (zero-shot and few-shot) and parameter-efficiency (linear probing and full model fine-tuning). We will release our toolkit and evaluation platforms for the research community.
翻訳日:2022-04-20 20:40:24 公開日:2022-04-19
# (参考訳) 映像復調のための光フローアルゴリズムの定性的検討

A qualitative investigation of optical flow algorithms for video denoising ( http://arxiv.org/abs/2204.08791v1 )

ライセンス: CC BY-SA 4.0
Hannes Fassold(参考訳) メディア産業、産業検査、自動車などの応用分野で採用されている多くのビデオ分析および復元アルゴリズムにおいて、優れた光フロー推定が重要である。 そこで本研究では,アートビデオ復調アルゴリズムの状態に統合された場合,光学フローアルゴリズムの質的性能について検討する。 古典的な光フローアルゴリズム(TV-L1)と最近のディープラーニングベースのアルゴリズム(RAFTやBMBCなど)の両方が考慮される。 質的な調査では、ほとんどの出版物で使用される標準的な画像の代わりに、挑戦的な特徴(ノイズのある内容、大きな動きなど)を持つ現実的なコンテンツを採用する。

A good optical flow estimation is crucial in many video analysis and restoration algorithms employed in application fields like media industry, industrial inspection and automotive. In this work, we investigate how well optical flow algorithms perform qualitatively when integrated into a state of the art video denoising algorithm. Both classic optical flow algorithms (e.g. TV-L1) as well as recent deep learning based algorithm (like RAFT or BMBC) will be taken into account. For the qualitative investigation, we will employ realistic content with challenging characteristic (noisy content, large motion etc.) instead of the standard images used in most publications.
翻訳日:2022-04-20 20:16:21 公開日:2022-04-19
# (参考訳) 2ストリームグラフ畳み込みネットワークによる口腔内スキャナ画像セグメンテーション

Two-Stream Graph Convolutional Network for Intra-oral Scanner Image Segmentation ( http://arxiv.org/abs/2204.08797v1 )

ライセンス: CC BY 4.0
Yue Zhao, Lingming Zhang, Yang Liu, Deyu Meng, Zhiming Cui, Chenqiang Gao, Xinbo Gao, Chunfeng Lian, Dinggang Shen(参考訳) 口腔内スキャナー画像からの歯の精密分割は, コンピュータ支援型矯正手術計画において重要な課題である。 最先端のディープラーニングベースの手法は、メッシュセルの生の幾何学的属性(座標と正規ベクトル)を単純に結合して、単一のストリームネットワークを訓練し、自動的に口内スキャナイメージのセグメンテーションを自動化する。 しかし、異なる原属性が全く異なる幾何学的情報を示すため、(低レベルの)入力段階における異なる原属性の内在的結合は、メッシュセル間の記述と識別において不要な混乱をもたらす可能性があるため、セグメンテーションタスクにおける高レベルの幾何学的表現の学習を妨げる。 この問題に対処するために,2ストリームグラフ畳み込みネットワーク(TSGCN)を設計し,異なる属性間のビュー間混乱を効果的に処理し,補完情報をより効果的に融合させ,識別的多視点幾何表現を学習する。 特に, tsgcnは2つの入力固有のグラフ学習ストリームを採用し, 座標と正規ベクトルから相補的な高レベルな幾何学表現を抽出する。 そして、これらのシングルビュー表現は、精度良く完全に自動化された歯のセグメント化のためのより識別的なマルチビュー表現を学ぶ際に、異なるビューの貢献を適応的にバランスさせるセルフアテンションモジュールによってさらに融合される。 3次元口腔内スキャナーで獲得した歯科用(mesh)モデルの患者データを用いてtsgcnを評価した。 実験の結果, TSGCNは3次元歯(表面)セグメンテーションにおいて, 最先端の方法よりも有意に優れていた。 Github: https://github.com/ZhangLingMing1/TSGCNet

Precise segmentation of teeth from intra-oral scanner images is an essential task in computer-aided orthodontic surgical planning. The state-of-the-art deep learning-based methods often simply concatenate the raw geometric attributes (i.e., coordinates and normal vectors) of mesh cells to train a single-stream network for automatic intra-oral scanner image segmentation. However, since different raw attributes reveal completely different geometric information, the naive concatenation of different raw attributes at the (low-level) input stage may bring unnecessary confusion in describing and differentiating between mesh cells, thus hampering the learning of high-level geometric representations for the segmentation task. To address this issue, we design a two-stream graph convolutional network (i.e., TSGCN), which can effectively handle inter-view confusion between different raw attributes to more effectively fuse their complementary information and learn discriminative multi-view geometric representations. Specifically, our TSGCN adopts two input-specific graph-learning streams to extract complementary high-level geometric representations from coordinates and normal vectors, respectively. Then, these single-view representations are further fused by a self-attention module to adaptively balance the contributions of different views in learning more discriminative multi-view representations for accurate and fully automatic tooth segmentation. We have evaluated our TSGCN on a real-patient dataset of dental (mesh) models acquired by 3D intraoral scanners. Experimental results show that our TSGCN significantly outperforms state-of-the-art methods in 3D tooth (surface) segmentation. Github: https://github.com/ZhangLingMing1/TSGCNet.
翻訳日:2022-04-20 20:09:44 公開日:2022-04-19
# (参考訳) smartsales: セールスチャットログからのセールススクリプト抽出と分析

SmartSales: Sales Script Extraction and Analysis from Sales Chatlog ( http://arxiv.org/abs/2204.08811v1 )

ライセンス: CC BY 4.0
Hua Liang, Tianyu Liu, Peiyi Wang, Mengliang Rao, Yunbo Cao(参考訳) 現代の販売アプリケーションでは、自動スクリプト抽出と管理により、勝利した販売スクリプトを収集するための人的労力が大幅に削減され、販売の成功率が大きく向上し、営業チーム間で共有できる。 本研究では,SmartSalesシステムを用いて,営業担当者と管理者の両方に,大規模販売のチャットログからセールスインサイトを提供する。 SmartSalesは3つのモジュールから構成される。 1)FAQ抽出は,チャットログから高品質な顧客質問応答ペアを抽出し,FAQ知識ベースを充実させることを目的としている。 2)顧客反対応答は、営業担当者が典型的な顧客反対とそれに対応する販売スクリプトの把握を支援し、特定の顧客反対に対する適切な販売応答を探索する。 3)営業マネージャダッシュボードは、特定の営業担当者またはチームが営業標準運用手順(SOP)に従うかどうかを営業マネージャが監視するのに役立つ。 提案されたプロトタイプシステムは最先端の会話型インテリジェンス技術によって強化され、tencentクラウド上で動作し、いくつかの異なる分野の営業チームにサービスを提供する。

In modern sales applications, automatic script extraction and management greatly decrease the need for human labor to collect the winning sales scripts, which largely boost the success rate for sales and can be shared across the sales teams. In this work, we present the SmartSales system to serve both the sales representatives and managers to attain the sales insights from the large-scale sales chatlog. SmartSales consists of three modules: 1) Customer frequently asked questions (FAQ) extraction aims to enrich the FAQ knowledge base by harvesting high quality customer question-answer pairs from the chatlog. 2) Customer objection response assists the salespeople to figure out the typical customer objections and corresponding winning sales scripts, as well as search for proper sales responses for a certain customer objection. 3) Sales manager dashboard helps sales managers to monitor whether a specific sales representative or team follows the sales standard operating procedures (SOP). The proposed prototype system is empowered by the state-of-the-art conversational intelligence techniques and has been running on the Tencent Cloud to serve the sales teams from several different areas.
翻訳日:2022-04-20 19:51:04 公開日:2022-04-19
# (参考訳) ラジオギャラクシー動物園: 半教師付き学習を用いて、大きな未ラベルデータセットをデータ-セットシフト下での電波銀河分類に活用する

Radio Galaxy Zoo: Using semi-supervised learning to leverage large unlabelled data-sets for radio galaxy classification under data-set shift ( http://arxiv.org/abs/2204.08816v1 )

ライセンス: CC BY 4.0
Inigo V. Slijepcevic, Anna M. M. Scaife, Mike Walmsley, Micah Bowles, Ivy Wong, Stanislav S. Shabala and Hongming Tang(参考訳) 本研究では,電波銀河の形態的分類に適用した最先端半教師付き学習(SSL)アルゴリズムの分類精度とロバスト性について検討する。 より少ないラベルを持つSSLが、監督された最先端技術に匹敵するテスト精度を達成できるかどうかをテストします。 検討した電波銀河分類問題に対して、SSLはさらなる正規化を提供し、ベースライン検定精度を上回ります。 しかし,コンピュータサイエンスのベンチマークデータに報告されているモデル性能指標とは対照的に,改善はラベルボリュームの限られた範囲に限られており,低ラベルボリュームでは性能が急速に低下している。 さらに,分類の改善にかかわらず,SSLはモデル校正を改善しないことを示す。 さらに,同じラジオ調査から抽出した下位のカタログを用いてSSLに必要なラベル付きおよび非ラベル付きデータセットを提供すると,分類性能の大幅な低下が観測され,データセットシフトによるSSL技術の適用の難しさが浮き彫りになる。 We show that a class-imbalanced unlabelled data pool negatively affects performance through prior probability shift, which we suggest may explain this performance drop, and that using the Frechet Distance between labelled and unlabelled data-sets as a measure of data-set shift can provide a prediction of model performance, but that for typical radio galaxy data-sets with labelled sample volumes of O(1000), the sample variance associated with this technique is high and the technique is in general not sufficiently robust to replace a train-test cycle.

In this work we examine the classification accuracy and robustness of a state-of-the-art semi-supervised learning (SSL) algorithm applied to the morphological classification of radio galaxies. We test if SSL with fewer labels can achieve test accuracies comparable to the supervised state-of-the-art and whether this holds when incorporating previously unseen data. We find that for the radio galaxy classification problem considered, SSL provides additional regularisation and outperforms the baseline test accuracy. However, in contrast to model performance metrics reported on computer science benchmarking data-sets, we find that improvement is limited to a narrow range of label volumes, with performance falling off rapidly at low label volumes. Additionally, we show that SSL does not improve model calibration, regardless of whether classification is improved. Moreover, we find that when different underlying catalogues drawn from the same radio survey are used to provide the labelled and unlabelled data-sets required for SSL, a significant drop in classification performance is observered, highlighting the difficulty of applying SSL techniques under dataset shift. We show that a class-imbalanced unlabelled data pool negatively affects performance through prior probability shift, which we suggest may explain this performance drop, and that using the Frechet Distance between labelled and unlabelled data-sets as a measure of data-set shift can provide a prediction of model performance, but that for typical radio galaxy data-sets with labelled sample volumes of O(1000), the sample variance associated with this technique is high and the technique is in general not sufficiently robust to replace a train-test cycle.
翻訳日:2022-04-20 19:44:09 公開日:2022-04-19
# (参考訳) 全気象条件下での効率的なドメイン・インクリメンタル学習手法

An Efficient Domain-Incremental Learning Approach to Drive in All Weather Conditions ( http://arxiv.org/abs/2204.08817v1 )

ライセンス: CC BY 4.0
M. Jehanzeb Mirza, Marc Masana, Horst Possegger, Horst Bischof(参考訳) ディープニューラルネットワークは、自律運転のための印象的な視覚知覚性能を実現するが、様々な気象条件に対する堅牢性には注意が必要である。 異なる気象条件などの変化した環境にこれらのモデルを適用する場合、以前の学習情報を忘れる傾向がある。 これは通常、トレーニングサンプルのメモリバンクを保持するか、シナリオ毎にモデル全体またはモデルパラメータのコピーを保持することによって、モデルを再トレーニングするインクリメンタルな学習アプローチによって対処される。 これらのアプローチは目覚ましい結果を示すが、スケーラビリティの問題があり、全ての気象条件下での自律運転への適用性は示されていない。 本稿では,再トレーニングや高価なメモリバンクを必要とせずに,新たなタスク(気象条件など)を漸進的に学習できるシンプルなオンラインゼロフォーティング手法であるディスクを提案する。 各タスクに格納する唯一の情報は、第1および第2次統計値の変化によって各ドメインを分類する統計パラメータです。 したがって、各タスクが到着すると、対応するタスクの統計ベクトルをモデルに'プラグ・アンド・プレイ'するだけで、そのタスクですぐにうまく働き始めます。 我々は,大雨,霧,雪などの悪天候に遭遇するドメイン増分自律運転シナリオにおいて,物体検出のためのアプローチの有効性を検証し,本手法の有効性を示す。

Although deep neural networks enable impressive visual perception performance for autonomous driving, their robustness to varying weather conditions still requires attention. When adapting these models for changed environments, such as different weather conditions, they are prone to forgetting previously learned information. This catastrophic forgetting is typically addressed via incremental learning approaches which usually re-train the model by either keeping a memory bank of training samples or keeping a copy of the entire model or model parameters for each scenario. While these approaches show impressive results, they can be prone to scalability issues and their applicability for autonomous driving in all weather conditions has not been shown. In this paper we propose DISC -- Domain Incremental through Statistical Correction -- a simple online zero-forgetting approach which can incrementally learn new tasks (i.e weather conditions) without requiring re-training or expensive memory banks. The only information we store for each task are the statistical parameters as we categorize each domain by the change in first and second order statistics. Thus, as each task arrives, we simply 'plug and play' the statistical vectors for the corresponding task into the model and it immediately starts to perform well on that task. We show the efficacy of our approach by testing it for object detection in a challenging domain-incremental autonomous driving scenario where we encounter different adverse weather conditions, such as heavy rain, fog, and snow.
翻訳日:2022-04-20 18:46:41 公開日:2022-04-19
# (参考訳) 構造認識性能スコア同期のための畳み込み注意ニューラルネットワークフレームワーク

A Convolutional-Attentional Neural Framework for Structure-Aware Performance-Score Synchronization ( http://arxiv.org/abs/2204.08822v1 )

ライセンス: CC BY 4.0
Ruchit Agrawal, Daniel Wolff, Simon Dixon(参考訳) パフォーマンススコア同期は信号処理において不可欠なタスクであり、演奏のオーディオ記録と対応する楽譜との正確なマッピングを生成する。 従来の同期手法は知識駆動的アプローチと確率的アプローチを用いてアライメントを計算するが、通常は異なる領域やモダリティに対してうまく一般化できない。 構造認識性能スコア同期のための新しいデータ駆動方式を提案する。 本稿では,時系列の発散に基づくカスタム損失を訓練した畳み込み型アーキテクチャを提案する。 異なるスコアのモダリティに関連する音声から画像へのアライメントタスクについて実験を行う。 本手法の有効性をアブレーション研究および最先端アライメント手法との比較により検証した。 提案手法は,スコアのモーダリティと音響条件にまたがる様々なテスト設定において,従来の同期方式よりも優れていることを示す。 また,本手法は,標準アライメントアプローチの一般的な限界である性能とスコア列の構造的差異にも頑健である。

Performance-score synchronization is an integral task in signal processing, which entails generating an accurate mapping between an audio recording of a performance and the corresponding musical score. Traditional synchronization methods compute alignment using knowledge-driven and stochastic approaches, and are typically unable to generalize well to different domains and modalities. We present a novel data-driven method for structure-aware performance-score synchronization. We propose a convolutional-attentional architecture trained with a custom loss based on time-series divergence. We conduct experiments for the audio-to-MIDI and audio-to-image alignment tasks pertained to different score modalities. We validate the effectiveness of our method via ablation studies and comparisons with state-of-the-art alignment approaches. We demonstrate that our approach outperforms previous synchronization methods for a variety of test settings across score modalities and acoustic conditions. Our method is also robust to structural differences between the performance and score sequences, which is a common limitation of standard alignment approaches.
翻訳日:2022-04-20 18:30:42 公開日:2022-04-19
# (参考訳) 多レベル整合と部分置換を伴う半教師付き3次元形状分割

Semi-supervised 3D shape segmentation with multilevel consistency and part substitution ( http://arxiv.org/abs/2204.08824v1 )

ライセンス: CC BY 4.0
Chun-Yu Sun, Yu-Qi Yang, Hao-Xiang Guo, Peng-Shuai Wang, Xin Tong, Yang Liu, Heung-Yeung Shum(参考訳) きめ細かい3次元形状のセグメンテーションデータが欠如していることが,学習に基づく3次元セグメンテーション技術開発の主な障害となっている。 本稿では,ラベル付3次元形状とラベル付3次元データから3次元分割を効果的に学習する手法を提案する。 ラベルのないデータに対しては,複数レベル(点レベル,部分レベル,階層レベル)で3次元形状の摂動コピー間のネットワーク予測の整合性を強制する,新しいemph{multilevel consistency}損失を示す。 ラベル付きデータに対して,より構造的な変化を伴ってラベル付き3次元形状を増強し,トレーニングを強化するシンプルな部分置換法を開発した。 本手法は,partnetとshapenetpartの3次元オブジェクト意味セグメンテーションと,scannetの屋内シーン意味セグメンテーションのタスクで広く検証されている。 既存の半教師なしかつ教師なしの3dアプローチよりも優れた性能を示す。 私たちのコードとトレーニングされたモデルは、 \url{https://github.com/isunchy/semi_supervised_3d_segmentation}で公開されている。

The lack of fine-grained 3D shape segmentation data is the main obstacle to developing learning-based 3D segmentation techniques. We propose an effective semi-supervised method for learning 3D segmentations from a few labeled 3D shapes and a large amount of unlabeled 3D data. For the unlabeled data, we present a novel \emph{multilevel consistency} loss to enforce consistency of network predictions between perturbed copies of a 3D shape at multiple levels: point-level, part-level, and hierarchical level. For the labeled data, we develop a simple yet effective part substitution scheme to augment the labeled 3D shapes with more structural variations to enhance training. Our method has been extensively validated on the task of 3D object semantic segmentation on PartNet and ShapeNetPart, and indoor scene semantic segmentation on ScanNet. It exhibits superior performance to existing semi-supervised and unsupervised pre-training 3D approaches. Our code and trained models are publicly available at \url{https://github.com/isunchy/semi_supervised_3d_segmentation}.
翻訳日:2022-04-20 18:16:57 公開日:2022-04-19
# (参考訳) 現代のai/mlシステムの責任設計のためのシステム分析

System Analysis for Responsible Design of Modern AI/ML Systems ( http://arxiv.org/abs/2204.08836v1 )

ライセンス: CC BY 4.0
Virginia H. Goodwin and Rajmonda S. Caceres(参考訳) 近年,MLアルゴリズムの実践的設定における無責任な使用は,多くの注目を集めている。 MLアルゴリズムやシステムの設計と実装には,従来のシステム分析の視点が必要であると仮定する。 このような視点は、責任あるMLプラクティスを評価し、有効にするための正式な方法を提供することができます。 本稿では,システム分析手法のコンポーネントをレビューし,それらがML設計の責任ある実践をどのように結び付けて有効にするかを明らかにする。

The irresponsible use of ML algorithms in practical settings has received a lot of deserved attention in the recent years. We posit that the traditional system analysis perspective is needed when designing and implementing ML algorithms and systems. Such perspective can provide a formal way for evaluating and enabling responsible ML practices. In this paper, we review components of the System Analysis methodology and highlight how they connect and enable responsible practices of ML design.
翻訳日:2022-04-20 17:52:38 公開日:2022-04-19
# (参考訳) 効率的な幾何認識型ニューラルネットワーク表現の教師なし学習

Unsupervised Learning of Efficient Geometry-Aware Neural Articulated Representations ( http://arxiv.org/abs/2204.08839v1 )

ライセンス: CC BY 4.0
Atsuhiro Noguchi, Xiao Sun, Stephen Lin, Tatsuya Harada(参考訳) 本論文では,3次元形状認識表現学習のための教師なし手法を提案する。 既存の3Dニューラル表現を通した明示的なポーズ制御により、明瞭なオブジェクトの写実的なイメージを表現できるが、これらの手法では、学習に高価な3Dポーズと前景マスクが必要である。 私たちは、GANトレーニングで表現を学ぶことで、このニーズを回避します。 ランダムなポーズと潜伏ベクトルから、ジェネレータは敵の訓練により、明瞭な物体のリアルなイメージを生成するように訓練される。 GANトレーニングの膨大な計算コストを回避するため、三面体に基づく音声オブジェクトの効率的なニューラル表現を提案し、教師なしトレーニングのためのGANベースのフレームワークを提案する。 提案手法の有効性を実証し, 制御可能な3次元表現の学習を, 監督なしに行えることを示す。

We propose an unsupervised method for 3D geometry-aware representation learning of articulated objects. Though photorealistic images of articulated objects can be rendered with explicit pose control through existing 3D neural representations, these methods require ground truth 3D pose and foreground masks for training, which are expensive to obtain. We obviate this need by learning the representations with GAN training. From random poses and latent vectors, the generator is trained to produce realistic images of articulated objects by adversarial training. To avoid a large computational cost for GAN training, we propose an efficient neural representation for articulated objects based on tri-planes and then present a GAN-based framework for its unsupervised training. Experiments demonstrate the efficiency of our method and show that GAN-based training enables learning of controllable 3D representations without supervision.
翻訳日:2022-04-20 17:45:52 公開日:2022-04-19
# (参考訳) 圧縮経験的測度(有限次元)

Compressed Empirical Measures (in finite dimensions) ( http://arxiv.org/abs/2204.08847v1 )

ライセンス: CC BY 4.0
Steffen Gr\"unew\"alder(参考訳) 有限次元再生カーネルヒルベルト空間(RKHS)の文脈における経験的尺度の圧縮手法について検討する。 この文脈では、経験測度は自然凸集合の中に含まれ、凸最適化法を用いて近似することができる。 このような近似は特定の条件下でデータポイントのコアセットを生じさせる。 そのようなコアセットがどれほど大きいかを制御する重要な量は、経験的凸集合に含まれる経験的測度の周りにある最大の球の大きさである。 私たちの研究の大部分は、様々な条件下でボールの大きさの高確率下限を導出することに関するものです。 我々は、カーネルリッジ回帰のような具体的な推論問題に圧縮アプローチを適用する技術を開発することで、下界のこの導出を補完する。 無限次元のRKHSの構成は圧縮が貧弱であり、無限次元のRKHSに移動しようとする際に直面する困難を浮き彫りにする。

We study approaches for compressing the empirical measure in the context of finite dimensional reproducing kernel Hilbert spaces (RKHSs).In this context, the empirical measure is contained within a natural convex set and can be approximated using convex optimization methods. Such an approximation gives under certain conditions rise to a coreset of data points. A key quantity that controls how large such a coreset has to be is the size of the largest ball around the empirical measure that is contained within the empirical convex set. The bulk of our work is concerned with deriving high probability lower bounds on the size of such a ball under various conditions. We complement this derivation of the lower bound by developing techniques that allow us to apply the compression approach to concrete inference problems such as kernel ridge regression. We conclude with a construction of an infinite dimensional RKHS for which the compression is poor, highlighting some of the difficulties one faces when trying to move to infinite dimensional RKHSs.
翻訳日:2022-04-20 17:23:45 公開日:2022-04-19
# (参考訳) 私はまだ時間を持っている:ドイツ語のテキストにHeidelTimeを拡張する

I still have Time(s): Extending HeidelTime for German Texts ( http://arxiv.org/abs/2204.08848v1 )

ライセンス: CC BY 4.0
Andy L\"ucking, Manuel Stoeckel, Giuseppe Abrami, Alexander Mehler(参考訳) HeidelTimeはテキスト中の時間表現を検出する最も広く成功したツールの1つである。 HeidelTimeのパターンマッチングシステムは正規表現に基づいているため、便利な方法で拡張することができる。 heideltime-ext という,ドイツのハイデルタイムの資源に対する拡張について述べる。 この拡張は、現実世界のテキストや様々な時間銀行で偽の否定を観察することでもたらされた。 カバレッジの上昇率は2.7%または8.5%であり、潜在的な過剰一般化の程度に依存する。 本稿では,ハイデルタイムextの開発,様々なジャンルのテキストサンプルによる評価,言語観察について述べる。 HeidelTime extはhttps://github.com/texttechnologylab/heideltimeから入手できる。

HeidelTime is one of the most widespread and successful tools for detecting temporal expressions in texts. Since HeidelTime's pattern matching system is based on regular expression, it can be extended in a convenient way. We present such an extension for the German resources of HeidelTime: HeidelTime-EXT . The extension has been brought about by means of observing false negatives within real world texts and various time banks. The gain in coverage is 2.7% or 8.5%, depending on the admitted degree of potential overgeneralization. We describe the development of HeidelTime-EXT, its evaluation on text samples from various genres, and share some linguistic observations. HeidelTime ext can be obtained from https://github.com/texttechnologylab/heideltime.
翻訳日:2022-04-20 17:22:41 公開日:2022-04-19
# (参考訳) OpenGlue: 画像マッチングのためのオープンソースのグラフニューラルネットワークベースのパイプライン

OpenGlue: Open Source Graph Neural Net Based Pipeline for Image Matching ( http://arxiv.org/abs/2204.08870v1 )

ライセンス: CC BY 4.0
Ostap Viniavskyi and Mariia Dobko and Dmytro Mishkin and Oles Dobosevych(参考訳) 我々は、SuperGlue \cite{sarlin20superglue}にインスパイアされたグラフニューラルネットワークベースのマッチングを使用する、画像マッチングのための無償のオープンソースフレームワークOpenGlueを提案する。 局所的特徴尺度,向き,アフィン幾何などの付加的な幾何学的情報を含む場合(例えばSIFT特徴量)、OpenGlue整形器の性能が大幅に向上することを示す。 種々の注意機構が精度と速度に与える影響について検討する。 また,ローカルディスクリプタとコンテキスト認識ディスクリプタを組み合わせることで,シンプルなアーキテクチャ改善を提案する。 さまざまなローカル機能のためのコードと事前訓練されたOpenGlueモデルが公開されている。

We present OpenGlue: a free open-source framework for image matching, that uses a Graph Neural Network-based matcher inspired by SuperGlue \cite{sarlin20superglue}. We show that including additional geometrical information, such as local feature scale, orientation, and affine geometry, when available (e.g. for SIFT features), significantly improves the performance of the OpenGlue matcher. We study the influence of the various attention mechanisms on accuracy and speed. We also present a simple architectural improvement by combining local descriptors with context-aware descriptors. The code and pretrained OpenGlue models for the different local features are publicly available.
翻訳日:2022-04-20 17:12:27 公開日:2022-04-19
# (参考訳) ソフトウェア分類分類のアンチパターン

Antipatterns in Software Classification Taxonomies ( http://arxiv.org/abs/2204.08880v1 )

ライセンス: CC BY 4.0
Cezar Sas and Andrea Capiluppi(参考訳) ソフトウェアエンジニアリングにおける実証的な結果から、すべてのソフトウェアシステム、あるいはどのドメインにも、結果が適用できないことが示されている。 これは既知の問題であり、ソフトウェアタイプの分類の確立が必要である。 本稿では,2つのコントリビューションについて述べる。1つ目は,現在のソフトウェア分類環境の品質を評価することである。 2つ目は、ソフトウェアシステムのキュレートされたセットを使用して、ソフトウェアタイプの分類を作成する方法を示すケーススタディを行うことだ。 私たちのコントリビューションは、ソフトウェア分類タスクの'アンチパターン'と名づけた、既存の、あるいは、非常に新しい、分類の試みが1つ以上の問題で失敗していることを示している。 ケーススタディと既存分類の両方から,これらのアンチパターンの7つを収集した。 これらのアンチパターンは、分類において繰り返し発生する問題を表すため、研究者がこれらの落とし穴を避けるための実践的な方法について議論する。 分類の試みは、分類における分類の階層を確立することを目的として、ソフトウェアタイプの分類を定式化するという恐ろしいタスクに直面する必要があることは明らかです。

Empirical results in software engineering have long started to show that findings are unlikely to be applicable to all software systems, or any domain: results need to be evaluated in specified contexts, and limited to the type of systems that they were extracted from. This is a known issue, and requires the establishment of a classification of software types. This paper makes two contributions: the first is to evaluate the quality of the current software classifications landscape. The second is to perform a case study showing how to create a classification of software types using a curated set of software systems. Our contributions show that existing, and very likely even new, classification attempts are deemed to fail for one or more issues, that we named as the `antipatterns' of software classification tasks. We collected 7 of these antipatterns that emerge from both our case study, and the existing classifications. These antipatterns represent recurring issues in a classification, so we discuss practical ways to help researchers avoid these pitfalls. It becomes clear that classification attempts must also face the daunting task of formulating a taxonomy of software types, with the objective of establishing a hierarchy of categories in a classification.
翻訳日:2022-04-20 16:58:07 公開日:2022-04-19
# (参考訳) 言語横断句検索

Cross-Lingual Phrase Retrieval ( http://arxiv.org/abs/2204.08887v1 )

ライセンス: CC BY 4.0
Heqi Zheng, Xiao Zhang, Zewen Chi, Heyan Huang, Tan Yan, Tian Lan, Wei Wei, Xian-Ling Mao(参考訳) 言語間検索は、言語間の関連テキストの検索を目的としている。 現在の方法では、言語に依存しないテキスト表現を単語や文レベルで学習することで、言語間検索が典型的である。 しかし, 言語間語句検索における句表現の学習方法は, いまだに未解決の問題である。 本稿では,ラベルのない例文から句表現を抽出するクロスリンガル句検索器であるxprを提案する。 さらに、65Kのバイリンガル句対と4.2Mのサンプル文を8つの英語中心の言語対に含む大規模言語間句検索データセットを作成する。 実験の結果,xprは単語レベルの表現や文レベルの表現を用いた最先端のベースラインよりも優れていることがわかった。 またxprは印象的なゼロショット転送性を示しており、トレーニング中にモデルが見当たらない言語ペアで検索を行うことができる。 私たちのデータセット、コード、トレーニングされたモデルはwww.github.com/cwszz/XPR/で公開されています。

Cross-lingual retrieval aims to retrieve relevant text across languages. Current methods typically achieve cross-lingual retrieval by learning language-agnostic text representations in word or sentence level. However, how to learn phrase representations for cross-lingual phrase retrieval is still an open problem. In this paper, we propose XPR, a cross-lingual phrase retriever that extracts phrase representations from unlabeled example sentences. Moreover, we create a large-scale cross-lingual phrase retrieval dataset, which contains 65K bilingual phrase pairs and 4.2M example sentences in 8 English-centric language pairs. Experimental results show that XPR outperforms state-of-the-art baselines which utilize word-level or sentence-level representations. XPR also shows impressive zero-shot transferability that enables the model to perform retrieval in an unseen language pair during training. Our dataset, code, and trained models are publicly available at www.github.com/cwszz/XPR/.
翻訳日:2022-04-20 16:56:28 公開日:2022-04-19
# (参考訳) 人間の説明によるNLPモデルの改良に関する調査

A survey on improving NLP models with human explanations ( http://arxiv.org/abs/2204.08892v1 )

ライセンス: CC BY 4.0
Mareike Hartmann and Daniel Sonntag(参考訳) 人間の説明にアクセス可能なモデルをトレーニングすることで、ドメイン内および外部データ上でのデータ効率とモデルパフォーマンスを向上させることができる。 これらの経験的な発見に加え、人間の学習プロセスと類似性は、説明から学ぶことが有能な人間と機械の相互作用を確立するための有望な方法である。 人間の説明による自然言語処理(nlp)モデルを改善するためのいくつかの方法が提案されており、異なる説明タイプとこれらの説明を学習プロセスに統合するメカニズムに依存している。 これらの方法が互いに比較されることは滅多になく、特定のユースケースに対して説明タイプと統合メカニズムの最適な組み合わせを選択することが困難になる。 本稿では,人間の説明から学ぶための異なる方法を概観し,特定のユースケースにどの方法を選択するべきかを判断できるさまざまな要因について考察する。

Training a model with access to human explanations can improve data efficiency and model performance on in- and out-of-domain data. Adding to these empirical findings, similarity with the process of human learning makes learning from explanations a promising way to establish a fruitful human-machine interaction. Several methods have been proposed for improving natural language processing (NLP) models with human explanations, that rely on different explanation types and mechanism for integrating these explanations into the learning process. These methods are rarely compared with each other, making it hard for practitioners to choose the best combination of explanation type and integration mechanism for a specific use-case. In this paper, we give an overview of different methods for learning from human explanations, and discuss different factors that can inform the decision of which method to choose for a specific use-case.
翻訳日:2022-04-20 16:41:57 公開日:2022-04-19
# (参考訳) 顔のプライバシー保護のための可逆マスクネットワーク

Invertible Mask Network for Face Privacy-Preserving ( http://arxiv.org/abs/2204.08895v1 )

ライセンス: CC BY 4.0
Yang Yang, Yiyang Huang, Ming Shi, Kejiang Chen, Weiming Zhang, Nenghai Yu(参考訳) 顔のプライバシー保護は、研究の劇的な利益をもたらすホットスポットの1つだ。 しかし、既存の顔のプライバシー保護手法は、顔の意味情報の欠如を招き、元の顔情報の再利用性を維持することを目的としている。 本稿では,処理面の自然性と保護面の復元性を実現するため,インバータブル・マスク・ネットワーク(imn)に基づく顔のプライバシー保護手法を提案する。 IMNでは、まずマスクネットを導入し、「マスク」顔を生成する。 そして「マスク」の顔を保護された顔に置き、マスクされた顔を生成し、マスクされた顔とマスクの顔が区別できないようにする。 そして、マスク面から「マスク」面を外すことができ、回収した顔が保護面と視覚的に区別できない認証されたユーザに対して回収された顔を得ることができる。 提案手法は,保護面のプライバシーを効果的に保護できるだけでなく,マスク面から保護面をほぼ完全に復元できることを示した。

Face privacy-preserving is one of the hotspots that arises dramatic interests of research. However, the existing face privacy-preserving methods aim at causing the missing of semantic information of face and cannot preserve the reusability of original facial information. To achieve the naturalness of the processed face and the recoverability of the original protected face, this paper proposes face privacy-preserving method based on Invertible "Mask" Network (IMN). In IMN, we introduce a Mask-net to generate "Mask" face firstly. Then, put the "Mask" face onto the protected face and generate the masked face, in which the masked face is indistinguishable from "Mask" face. Finally, "Mask" face can be put off from the masked face and obtain the recovered face to the authorized users, in which the recovered face is visually indistinguishable from the protected face. The experimental results show that the proposed method can not only effectively protect the privacy of the protected face, but also almost perfectly recover the protected face from the masked face.
翻訳日:2022-04-20 16:29:08 公開日:2022-04-19
# (参考訳) CodexDB: GPT-3 Codexを使用してSQLクエリを処理するコードを生成する

CodexDB: Generating Code for Processing SQL Queries using GPT-3 Codex ( http://arxiv.org/abs/2204.08941v1 )

ライセンス: CC BY 4.0
Immanuel Trummer(参考訳) codexdbはsql処理エンジンで、内部は自然言語命令でカスタマイズできる。 CodexDBはOpenAIのGPT-3コーデックスモデルに基づいており、テキストをコードに変換する。 GPT-3コーデックス上のフレームワークで、複雑なSQLクエリを自然言語で記述された一連の単純な処理ステップに分解する。 処理ステップは、ユーザが提供する命令とデータベースプロパティの記述で強化される。 Codexは結果のテキストをクエリ処理コードに変換する。 CodexDBの初期のプロトタイプは、WikiSQLベンチマークのほとんどのクエリに対して正しいコードを生成することができ、さまざまな方法でカスタマイズできる。

CodexDB is an SQL processing engine whose internals can be customized via natural language instructions. CodexDB is based on OpenAI's GPT-3 Codex model which translates text into code. It is a framework on top of GPT-3 Codex that decomposes complex SQL queries into a series of simple processing steps, described in natural language. Processing steps are enriched with user-provided instructions and descriptions of database properties. Codex translates the resulting text into query processing code. An early prototype of CodexDB is able to generate correct code for a majority of queries of the WikiSQL benchmark and can be customized in various ways.
翻訳日:2022-04-20 16:19:38 公開日:2022-04-19
# (参考訳) プライバシーポリシーに対する質問応答のための検索データ強化

Retrieval Enhanced Data Augmentation for Question Answering on Privacy Policies ( http://arxiv.org/abs/2204.08952v1 )

ライセンス: CC BY 4.0
Md Rizwan Parvez, Jianfeng Chi, Wasi Uddin Ahmad, Yuan Tian, Kai-Wei Chang(参考訳) プライバシポリシに関する以前の研究は、質問応答(QA)タスクは、ユーザクエリのポリシー文書から最も関連性の高いテキストセグメントまたは文のリストを特定するものである。 しかし、特定のドメインの専門知識(例えば法学者)を必要とするため、このようなデータセットの注釈付けは難しい。 たとえ小規模のデータを管理しても、残るボトルネックはラベル付きデータが非常に不均衡(いくつかのセグメントだけが関連している)であり、このドメインの利得を犠牲にしていることです。 そこで,本稿では,ラベルなしの方針文書から関連するテキストセグメントをキャプチャし,トレーニングセットのポジティブな例を拡大する,センサムリングレトリバーモデルに基づく新しいデータ拡張フレームワークを開発した。 さらに、拡張データの多様性と品質を改善するために、複数の事前学習言語モデル(LM)を活用し、ノイズ低減オラクルでそれらをカスケードした。 PrivacyQAベンチマークの強化データを使用して、既存のベースラインを大きなマージン(10 % F1)で高め、新しい最先端のF1スコア(50 %)を達成する。 我々のアブレーション研究は、我々のアプローチの有効性に関するさらなる洞察を提供する。

Prior studies in privacy policies frame the question answering (QA) tasks as identifying the most relevant text segment or a list of sentences from the policy document for a user query. However, annotating such a dataset is challenging as it requires specific domain expertise (e.g., law academics). Even if we manage a small-scale one, a bottleneck that remains is that the labeled data are heavily imbalanced (only a few segments are relevant) --limiting the gain in this domain. Therefore, in this paper, we develop a novel data augmentation framework based on ensembling retriever models that captures the relevant text segments from unlabeled policy documents and expand the positive examples in the training set. In addition, to improve the diversity and quality of the augmented data, we leverage multiple pre-trained language models (LMs) and cascaded them with noise reduction oracles. Using our augmented data on the PrivacyQA benchmark, we elevate the existing baseline by a large margin (10\% F1) and achieve a new state-of-the-art F1 score of 50\%. Our ablation studies provide further insights into the effectiveness of our approach.
翻訳日:2022-04-20 15:53:55 公開日:2022-04-19
# (参考訳) manIQA: 画像品質評価のためのマルチ次元注意ネットワーク

MANIQA: Multi-dimension Attention Network for No-Reference Image Quality Assessment ( http://arxiv.org/abs/2204.08958v1 )

ライセンス: CC BY 4.0
Sidi Yang and Tianhe Wu and Shuwei Shi and Shanshan Lao Yuan Gong and Mingdeng Cao and Jiahao Wang and Yujiu Yang(参考訳) No-Reference Image Quality Assessment (NR-IQA) は、人間の主観的知覚に応じて画像の知覚品質を評価することを目的としている。 残念なことに、既存のNR-IQA法は、GANベースの歪み画像に対して正確な品質スコアを予測する必要性を満たすには程遠い。 そこで本研究では,ganに基づく歪みに対する性能向上のために,ノンリファレンス画像品質評価(maniqa)のためのマルチディメンションアテンションネットワークを提案する。 まず,ViTを介して特徴を抽出し,次にグローバルおよびローカルインタラクションを強化するために,Transposed Attention Block (TAB)とScale Swin Transformer Block (SSTB)を提案する。 これら2つのモジュールはそれぞれ、チャネルと空間次元にアテンション機構を適用する。 この多次元的な方法では、モジュールは協調的に画像の異なる領域間の相互作用をグローバルおよび局所的に増加させる。 最後に、パッチ重み付け品質予測のための2つの分岐構造を適用し、各パッチのスコアの重みに応じて最終スコアを予測する。 実験の結果,MANIQAは4つの標準データセット(LIVE, TID2013, CSIQ, KADID-10K)の最先端の手法よりも大きなマージンで優れていた。 また,ntire 2022画像品質評価課題トラック2:no-referenceにおいて,最終テスト段階で第1位にランクインした。 コードとモデルはhttps://github.com/iigroup/maniqaで入手できる。

No-Reference Image Quality Assessment (NR-IQA) aims to assess the perceptual quality of images in accordance with human subjective perception. Unfortunately, existing NR-IQA methods are far from meeting the needs of predicting accurate quality scores on GAN-based distortion images. To this end, we propose Multi-dimension Attention Network for no-reference Image Quality Assessment (MANIQA) to improve the performance on GAN-based distortion. We firstly extract features via ViT, then to strengthen global and local interactions, we propose the Transposed Attention Block (TAB) and the Scale Swin Transformer Block (SSTB). These two modules apply attention mechanisms across the channel and spatial dimension, respectively. In this multi-dimensional manner, the modules cooperatively increase the interaction among different regions of images globally and locally. Finally, a dual branch structure for patch-weighted quality prediction is applied to predict the final score depending on the weight of each patch's score. Experimental results demonstrate that MANIQA outperforms state-of-the-art methods on four standard datasets (LIVE, TID2013, CSIQ, and KADID-10K) by a large margin. Besides, our method ranked first place in the final testing phase of the NTIRE 2022 Perceptual Image Quality Assessment Challenge Track 2: No-Reference. Codes and models are available at https://github.com/IIGROUP/MANIQA.
翻訳日:2022-04-20 15:41:51 公開日:2022-04-19
# カラー画像復元のためのスパース規則化による四次最適化モデル

Quaternion Optimized Model with Sparse Regularization for Color Image Recovery ( http://arxiv.org/abs/2204.08629v1 )

ライセンス: Link先を確認
Liqiao Yang, Yang Liu, Kit Ian Kou(参考訳) 本稿では,変換領域におけるスパース正規化を特徴とする低ランク量子化行列最適化に基づき,カラー画像補完問題に対処する。 この研究は、音声フォーマットや画像を含む様々な信号タイプが、それぞれのベースに関して本質的に疎い構造を持っているという事実に触発された。 色画像は四元数領域で全体として処理できるため、四元数離散コサイン変換(QDCT)領域における色画像の空間性について記述した。 加えて、色画像に固有の低ランク構造の表現は、四元数行列補完問題において重要な問題である。 より優れた低ランク近似を実現するために、提案モデルでは、クォーテリオンベースのトランケート核ノルム(QTNN)を用いる。 さらに,アルゴリズムに基づく乗算器の有能な交互方向法(ADMM)により,このモデルが促進される。 提案手法は,カラー画像の復元において,最先端の低ランク行列/四元行列近似法と比較して非常に優れた完成性能が得られることを示した。

This paper addresses the color image completion problem in accordance with low-rank quatenrion matrix optimization that is characterized by sparse regularization in a transformed domain. This research was inspired by an appreciation of the fact that different signal types, including audio formats and images, possess structures that are inherently sparse in respect of their respective bases. Since color images can be processed as a whole in the quaternion domain, we depicted the sparsity of the color image in the quaternion discrete cosine transform (QDCT) domain. In addition, the representation of a low-rank structure that is intrinsic to the color image is a vital issue in the quaternion matrix completion problem. To achieve a more superior low-rank approximation, the quatenrion-based truncated nuclear norm (QTNN) is employed in the proposed model. Moreover, this model is facilitated by a competent alternating direction method of multipliers (ADMM) based on the algorithm. Extensive experimental results demonstrate that the proposed method can yield vastly superior completion performance in comparison with the state-of-the-art low-rank matrix/quaternion matrix approximation methods tested on color image recovery.
翻訳日:2022-04-20 15:26:32 公開日:2022-04-19
# マイクロレンズアレイ(MLA)を用いた薄型視覚触覚センサ

A Thin Format Vision-Based Tactile Sensor with A Micro Lens Array (MLA) ( http://arxiv.org/abs/2204.08691v1 )

ライセンス: Link先を確認
Xia Chen, Guanlan Zhang, Michael Yu Wang, Hongyu Yu(参考訳) 視覚に基づく触覚センサは、高空間分解能と機械学習アルゴリズムとの互換性のためにロボット分野で広く研究されている。 しかし、現在使われているセンサーの撮像システムは、さらなる応用を制限している。 本稿では,センサパッケージの低厚さ化を実現するためのマイクロレンズアレイ (MLA) ベースのバイソンシステムについて述べる。 複数のマイクロマシンのマイクロレンズユニットが弾性接触層全体を覆い、縫合された透明な触覚画像を提供し、厚さ5mmの高空間分解能を実現している。 熱リフロー法とソフトリソグラフィ法により、マイクロレンズの均一な球面形状と滑らかな表面を確保する。 光学的および機械的特性は、センサーの安定なイメージングと優れた触覚センシングを示し、変位マッピングや超小型構造による力分布といった正確な3D触覚情報を可能にした。

Vision-based tactile sensors have been widely studied in the robotics field for high spatial resolution and compatibility with machine learning algorithms. However, the currently employed sensor's imaging system is bulky limiting its further application. Here we present a micro lens array (MLA) based vison system to achieve a low thickness format of the sensor package with high tactile sensing performance. Multiple micromachined micro lens units cover the whole elastic touching layer and provide a stitched clear tactile image, enabling high spatial resolution with a thin thickness of 5 mm. The thermal reflow and soft lithography method ensure the uniform spherical profile and smooth surface of micro lens. Both optical and mechanical characterization demonstrated the sensor's stable imaging and excellent tactile sensing, enabling precise 3D tactile information, such as displacement mapping and force distribution with an ultra compact-thin structure.
翻訳日:2022-04-20 15:26:16 公開日:2022-04-19
# Flux+Mutability:一級分類と異常検出のための条件付き生成手法

"Flux+Mutability": A Conditional Generative Approach to One-Class Classification and Anomaly Detection ( http://arxiv.org/abs/2204.08609v1 )

ライセンス: Link先を確認
C. Fanelli, J. Giroux and Z. Papandreou(参考訳) 異常検出は実験物理学のコミュニティでますます人気が高まっている。 大型ハドロン衝突型加速器のような実験では、異常検出は標準モデルを超えた新しい物理を見つける最前線にある。 本稿では,最先端条件生成モデルとクラスタリングアルゴリズムを組み合わせた新しい機械学習アーキテクチャであるflux+mutabilityの実装について述べる。 flux'のステージでは、参照クラスの分布を学習します。 推論における `mutability' ステージは、データが参照クラスから著しく逸脱している場合に対処します。 本手法の有効性と,1クラス分類から異常検出までの複数の問題との関連性を示す。 特に, 電磁カロリー計における中性シャワーの分離に本手法を適用し, 標準QCD背景からの異常ジジェットの検出におけるその性能を示す。 このアプローチは参照サンプルの仮定を制限し、与えられた問題のオブジェクトの相補的なクラスとは無関係である。 本稿では,参照集団を動的に生成し,定量化による選択基準を定義する可能性について述べる。 注目すべきは、この柔軟なアーキテクチャは幅広い問題に対してデプロイでき、マルチクラスの分類やデータ品質管理のようなアプリケーションは、さらなる探索のために残されていることだ。

Anomaly Detection is becoming increasingly popular within the experimental physics community. At experiments such as the Large Hadron Collider, anomaly detection is at the forefront of finding new physics beyond the Standard Model. This paper details the implementation of a novel Machine Learning architecture, called Flux+Mutability, which combines cutting-edge conditional generative models with clustering algorithms. In the `flux' stage we learn the distribution of a reference class. The `mutability' stage at inference addresses if data significantly deviates from the reference class. We demonstrate the validity of our approach and its connection to multiple problems spanning from one-class classification to anomaly detection. In particular, we apply our method to the isolation of neutral showers in an electromagnetic calorimeter and show its performance in detecting anomalous dijets events from standard QCD background. This approach limits assumptions on the reference sample and remains agnostic to the complementary class of objects of a given problem. We describe the possibility of dynamically generating a reference population and defining selection criteria via quantile cuts. Remarkably this flexible architecture can be deployed for a wide range of problems, and applications like multi-class classification or data quality control are left for further exploration.
翻訳日:2022-04-20 15:25:29 公開日:2022-04-19
# 住民クラウドソーシングのエクイティ:地中真実データなしでのアンダーレポート計測

Equity in Resident Crowdsourcing: Measuring Under-reporting without Ground Truth Data ( http://arxiv.org/abs/2204.08620v1 )

ライセンス: Link先を確認
Zhi Liu, Nikhil Garg(参考訳) 現代の都市統治は、倒木や電力線といった問題を特定するためにクラウドソーシング(あるいは「共同生産」)に大きく依存している。 これらのシステムにおける主要な懸念は、住民が同じレートで問題を報告しないことであり、政府資源の配分が不平等になってしまうことである。 しかし, 報告されていない事象は, ほぼ定義上観察されていないため, 報告不足の測定は難しい統計課題である。 したがって,低報告率と低信頼度インシデント率の区別は困難である。 外部の(プロキシ)地上真実データを用いずに(異種)報告率を同定する手法を開発した。 我々の洞察では、$\textit{duplicate}$同じインシデントに関するレポートを活用すれば、質問を標準的なPoissonレート推定タスクにすることができます。 本手法は,ニューヨーク市公園・レクリエーション局が実施した10万人以上の住民レポートに適用し,インシデント特性をコントロールした上でも,報告率にかなりの空間的・社会経済的格差があることを見いだした。

Modern city governance relies heavily on crowdsourcing (or "co-production") to identify problems such as downed trees and power-lines. A major concern in these systems is that residents do not report problems at the same rates, leading to an inequitable allocation of government resources. However, measuring such under-reporting is a difficult statistical task, as, almost by definition, we do not observe incidents that are not reported. Thus, distinguishing between low reporting rates and low ground-truth incident rates is challenging. We develop a method to identify (heterogeneous) reporting rates, without using external (proxy) ground truth data. Our insight is that rates on $\textit{duplicate}$ reports about the same incident can be leveraged, to turn the question into a standard Poisson rate estimation task -- even though the full incident reporting interval is also unobserved. We apply our method to over 100,000 resident reports made to the New York City Department of Parks and Recreation, finding that there are substantial spatial and socio-economic disparities in reporting rates, even after controlling for incident characteristics.
翻訳日:2022-04-20 15:25:12 公開日:2022-04-19
# GestureLens:プレゼンテーションビデオにおけるジェスチャーの視覚的分析

GestureLens: Visual Analysis of Gestures in Presentation Videos ( http://arxiv.org/abs/2204.08894v1 )

ライセンス: Link先を確認
Haipeng Zeng, Xingbo Wang, Yong Wang, Aoyu Wu, Ting Chuen Pong and Huamin Qu(参考訳) 適切なジェスチャーは、日々のコミュニケーションと公開プレゼンテーションの両方において、メッセージ配信とオーディエンスエンゲージメントを高めることができる。 本稿では,プレゼンテーションビデオの分析を通じてジェスチャー訓練の実践を改善するために,プロの講演指導者を支援するビジュアル分析手法を提案する。 プレゼンテーションビデオでジェスチャーの使い方を手動でチェックしたり探したりするのは面倒で時間がかかります。 ジェスチャ探索を支援する効率的な方法が欠如しているため,ジェスチャの時間的進化や音声コンテンツとの複雑な相関が困難である。 本稿では,ジェスチャベースおよびコンテンツベースによるプレゼンテーションビデオのジェスチャー利用の探索を容易にする視覚分析システムであるGestureLensを提案する。 具体的には、探索ビューにより、ユーザはジェスチャーの空間的および時間的分布を素早く把握することができる。 動的手の動きは、まず、空間パターンを明らかにするためにジェスチャー空間のヒートマップを介して集約され、その後、時間パターンを明らかにするために2つの相互垂直なタイムラインに分解される。 このリレーショナルビューでは,音声コンテンツとジェスチャーの相関関係を,リンク解析と直感的なグリフ設計により明確に探索することができる。 ビデオビューとダイナミックビューはそれぞれ、選択したジェスチャーのコンテキストと全体的な動的動きを示す。 プロのプレゼンテーションコーチとの2つの利用シナリオと専門家インタビューは、ジェスチャー探索とプレゼンテーションビデオの分析を容易にするGestureLensの有効性と有用性を示した。

Appropriate gestures can enhance message delivery and audience engagement in both daily communication and public presentations. In this paper, we contribute a visual analytic approach that assists professional public speaking coaches in improving their practice of gesture training through analyzing presentation videos. Manually checking and exploring gesture usage in the presentation videos is often tedious and time-consuming. There lacks an efficient method to help users conduct gesture exploration, which is challenging due to the intrinsically temporal evolution of gestures and their complex correlation to speech content. In this paper, we propose GestureLens, a visual analytics system to facilitate gesture-based and content-based exploration of gesture usage in presentation videos. Specifically, the exploration view enables users to obtain a quick overview of the spatial and temporal distributions of gestures. The dynamic hand movements are firstly aggregated through a heatmap in the gesture space for uncovering spatial patterns, and then decomposed into two mutually perpendicular timelines for revealing temporal patterns. The relation view allows users to explicitly explore the correlation between speech content and gestures by enabling linked analysis and intuitive glyph designs. The video view and dynamic view show the context and overall dynamic movement of the selected gestures, respectively. Two usage scenarios and expert interviews with professional presentation coaches demonstrate the effectiveness and usefulness of GestureLens in facilitating gesture exploration and analysis of presentation videos.
翻訳日:2022-04-20 15:24:51 公開日:2022-04-19
# 有界次数ベイズネットワークの独立性検証

Independence Testing for Bounded Degree Bayesian Network ( http://arxiv.org/abs/2204.08690v1 )

ライセンス: Link先を確認
Arnab Bhattacharyya, Cl\'ement L. Canonne, and Joy Qiping Yang(参考訳) p$ over $\{0,1\}^n$ の分布からサンプルにアクセスすると、$p$ が製品分布であるかどうか、あるいは任意の製品分布からの距離の合計で$\varepsilon$-far となるかどうかを判断する。 任意の分布の場合、この問題は$\exp(n)$サンプルを必要とする。 この研究で、$P$ がスパース構造を持つならば、実際は線形に多くのサンプルしか必要としないことを示す。 具体的には、もし$P$が$d$で直交するベイズネットワークに対してマルコフであれば、$\tilde{\Theta}(2^{d/2}\cdot n/\varepsilon^2)$サンプルは独立テストに必要で十分である。

We study the following independence testing problem: given access to samples from a distribution $P$ over $\{0,1\}^n$, decide whether $P$ is a product distribution or whether it is $\varepsilon$-far in total variation distance from any product distribution. For arbitrary distributions, this problem requires $\exp(n)$ samples. We show in this work that if $P$ has a sparse structure, then in fact only linearly many samples are required. Specifically, if $P$ is Markov with respect to a Bayesian network whose underlying DAG has in-degree bounded by $d$, then $\tilde{\Theta}(2^{d/2}\cdot n/\varepsilon^2)$ samples are necessary and sufficient for independence testing.
翻訳日:2022-04-20 15:24:29 公開日:2022-04-19
# (参考訳) カスケードカラーと輝度補償による夜間画像のレンダリング

Rendering Nighttime Image Via Cascaded Color and Brightness Compensation ( http://arxiv.org/abs/2204.08970v1 )

ライセンス: CC BY 4.0
Zhihao Li, Si Yi, Zhan Ma(参考訳) 画像信号処理(ISP)はカメライメージングに不可欠であり、ニューラルネットワーク(NN)ソリューションは昼間のシーンに広く展開されている。 夜間画像データセットの不足と夜間照明特性の洞察は、既存のNNISPを用いた高品質レンダリングにおいて大きな課題となる。 そこで我々はまず、ホワイトバランスとトーンマッピングを備えた高解像度夜間RAW-RGB(NR2R)データセットを構築した。 一方、夜間照明光源の特性を最大限に把握するために、色と明るさの補正を行う2段NN ISPであるCBUnetを開発した。 実験の結果,従来のispパイプラインに比べて視覚品質が向上し,ntire 2022 night photography rendering challengeの2位にランクインした。 コードと関連する資料は、私たちのWebサイトで利用可能です。

Image signal processing (ISP) is crucial for camera imaging, and neural networks (NN) solutions are extensively deployed for daytime scenes. The lack of sufficient nighttime image dataset and insights on nighttime illumination characteristics poses a great challenge for high-quality rendering using existing NN ISPs. To tackle it, we first built a high-resolution nighttime RAW-RGB (NR2R) dataset with white balance and tone mapping annotated by expert professionals. Meanwhile, to best capture the characteristics of nighttime illumination light sources, we develop the CBUnet, a two-stage NN ISP to cascade the compensation of color and brightness attributes. Experiments show that our method has better visual quality compared to traditional ISP pipeline, and is ranked at the second place in the NTIRE 2022 Night Photography Rendering Challenge for two tracks by respective People's and Professional Photographer's choices. The code and relevant materials are avaiable on our website: https://njuvision.github.io/CBUnet.
翻訳日:2022-04-20 15:23:10 公開日:2022-04-19
# EICにおけるチェレンコフ検出器イメージングのための人工知能

Artificial Intelligence for Imaging Cherenkov Detectors at the EIC ( http://arxiv.org/abs/2204.08645v1 )

ライセンス: Link先を確認
C. Fanelli and A. Mahmood(参考訳) チェレンコフ検出器は将来の電子イオン衝突型加速器(EIC)で粒子識別(PID)のバックボーンを形成する。 現在、最初のEIC検出器の提案の全ての設計は、ハドロン端のデュアルリングイメージング・チェレンコフ(dRICH)検出器、バレル内の内部反射チェレンコフ(DIRC)光検出器、電子端のモジュールRICH(mRICH)を使っている。 これらの検出器は、シミュレーションレベルで複雑な表面を追跡できる多くの光子を持つ光学プロセスを含むが、再構築にはリング画像のパターン認識に依存する。 この作業は、EICでチェレンコフ検出器を撮像するためのAIの継続的な取り組みと応用を要約している。 特に、AI支援設計のためのdRICHと、複雑なパターンからのシミュレーションと粒子識別のためのDIRCの例を示し、AIを使用する利点について議論する。

Imaging Cherenkov detectors form the backbone of particle identification (PID) at the future Electron Ion Collider (EIC). Currently all the designs for the first EIC detector proposal use a dual Ring Imaging CHerenkov (dRICH) detector in the hadron endcap, a Detector for Internally Reflected Cherenkov (DIRC) light in the barrel, and a modular RICH (mRICH) in the electron endcap. These detectors involve optical processes with many photons that need to be tracked through complex surfaces at the simulation level, while for reconstruction they rely on pattern recognition of ring images. This proceeding summarizes ongoing efforts and possible applications of AI for imaging Cherenkov detectors at EIC. In particular we will provide the example of the dRICH for the AI-assisted design and of the DIRC for simulation and particle identification from complex patterns and discuss possible advantages of using AI.
翻訳日:2022-04-20 15:11:39 公開日:2022-04-19
# RNNCTPs:動的知識分割技術を用いたニューラルシンボリック推論手法

RNNCTPs: A Neural Symbolic Reasoning Method Using Dynamic Knowledge Partitioning Technology ( http://arxiv.org/abs/2204.08810v1 )

ライセンス: Link先を確認
Yu-hao Wu and Hou-biao Li(参考訳) 従来の記号的推論法は非常に解釈可能であるが、知識グラフリンク予測への応用は計算効率が低いため限られている。 本稿では,条件付き定理プロバー(ctps)の知識選択を再フィルタすることにより計算効率を向上し,埋め込みサイズパラメータに対する感度を低下させる,新しいニューラルシンボリック推論法であるrnnctpsを提案する。 RNNCTPは関係セレクタと予測器に分けられる。 関係セレクタは効率よく解釈可能であり、モデル全体が予測子の推論に関する知識を動的に生成することができる。 全ての4つのデータセットにおいて、リンク予測タスクにおける従来の手法と競合する性能を示し、CTPに対するデータセットの選択に高い適用性を持つ。

Although traditional symbolic reasoning methods are highly interpretable, their application in knowledge graph link prediction is limited due to their low computational efficiency. In this paper, we propose a new neural symbolic reasoning method: RNNCTPs, which improves computational efficiency by re-filtering the knowledge selection of Conditional Theorem Provers (CTPs), and is less sensitive to the embedding size parameter. RNNCTPs are divided into relation selectors and predictors. The relation selectors are trained efficiently and interpretably, so that the whole model can dynamically generate knowledge for the inference of the predictor. In all four datasets, the method shows competitive performance against traditional methods on the link prediction task, and can have higher applicability to the selection of datasets relative to CTPs.
翻訳日:2022-04-20 15:11:23 公開日:2022-04-19
# 消音コマンド:音声マスキングを用いた自動音声認識システムに対するスプーフィング攻撃

Disappeared Command: Spoofing Attack On Automatic Speech Recognition Systems with Sound Masking ( http://arxiv.org/abs/2204.08977v1 )

ライセンス: Link先を確認
Jinghui Xu, Jiangshan Zhang, Jifeng Zhu and Yong Yang(参考訳) ディープラーニング技術の開発は、多くのタスクにおいて人間の聴覚に匹敵する能力を示す自動音声認識(ASR)技術の性能向上を大いに促進してきた。 音声インターフェースは多くのアプリケーションやスマートデバイスの入力としてますます広く使われている。 しかし、既存の研究によれば、dnnはわずかな障害によって容易に妨害され、誤認識されるため、音声によって制御されるインテリジェントな音声アプリケーションでは極めて危険である。

The development of deep learning technology has greatly promoted the performance improvement of automatic speech recognition (ASR) technology, which has demonstrated an ability comparable to human hearing in many tasks. Voice interfaces are becoming more and more widely used as input for many applications and smart devices. However, existing research has shown that DNN is easily disturbed by slight disturbances and makes false recognition, which is extremely dangerous for intelligent voice applications controlled by voice.
翻訳日:2022-04-20 15:11:11 公開日:2022-04-19
# G2GT:グラフからグラフへの注意ニューラルネットワークと自己学習による再合成予測

G2GT: Retrosynthesis Prediction with Graph to Graph Attention Neural Network and Self-Training ( http://arxiv.org/abs/2204.08608v1 )

ライセンス: Link先を確認
Zaiyun Lin (Beijing Stonewise Technology) and Shiqiu Yin (Beijing Stonewise Technology) and Lei Shi (Beijing Stonewise Technology) and Wenbiao Zhou (Beijing Stonewise Technology) and YingSheng Zhang (Beijing Stonewise Technology)(参考訳) 再合成予測は有機化学および関連分野における基本的な課題の1つである。 目的は、生成分子を合成できる反応分子を見つけることである。 そこで本研究では,グラフエンコーダとグラフデコーダを標準トランスフォーマ構造上に構築した新しいグラフ対グラフ変換モデルg2gtを提案する。 また,ラベルのない分子データを利用した強力なデータ拡張手法である自己学習が,モデルの性能を著しく向上することを示す。 反応型ラベルとアンサンブル学習に触発され,多様性を高めるための弱いアンサンブル法を提案した。 ビームサーチ, 核, トップkサンプリングを組み合わせ, 推論の多様性をさらに向上させ, 最終トップ10結果を得るための簡単なランキングアルゴリズムを提案した。 その結果,USPTO-50Kデータセットは54%の精度で,USPTO-Fullデータセットは50%の精度で,競合するトップ10は50%の精度で達成できた。

Retrosynthesis prediction is one of the fundamental challenges in organic chemistry and related fields. The goal is to find reactants molecules that can synthesize product molecules. To solve this task, we propose a new graph-to-graph transformation model, G2GT, in which the graph encoder and graph decoder are built upon the standard transformer structure. We also show that self-training, a powerful data augmentation method that utilizes unlabeled molecule data, can significantly improve the model's performance. Inspired by the reaction type label and ensemble learning, we proposed a novel weak ensemble method to enhance diversity. We combined beam search, nucleus, and top-k sampling methods to further improve inference diversity and proposed a simple ranking algorithm to retrieve the final top-10 results. We achieved new state-of-the-art results on both the USPTO-50K dataset, with top1 accuracy of 54%, and the larger data set USPTO-full, with top1 accuracy of 50%, and competitive top-10 results.
翻訳日:2022-04-20 15:09:14 公開日:2022-04-19
# 安全四足ナビゲーションのための学習フォワードダイナミクスモデルとインフォームド・トラック・サンプラー

Learning Forward Dynamics Model and Informed Trajectory Sampler for Safe Quadruped Navigation ( http://arxiv.org/abs/2204.08647v1 )

ライセンス: Link先を確認
Yunho Kim, Chanyoung Kim, Jemin Hwangbo(参考訳) 様々な複雑な環境での自律的な四脚ロボットナビゲーションでは、典型的なSOTAシステムは、階層的な方法で4つの主要なモジュール(マッパー、グローバルプランナー、ローカルプランナー、コマンドトラッキングコントローラ)で構成されている。 本稿では,グローバルプランナから粗い計画経路を追跡するための速度計画を生成するために,ロバストで安全なローカルプランナを構築する。 従来の作業ではウェイポイントベースの手法(例えば、Proportional-Differential Controlや純粋な追跡)を使用していた。 しかし,グローバルプランナーは粗い不正確なモデルを使い,ローカルプランナーはグローバルプランを十分に追跡できないという2つの理由から,幾何学的に複雑で狭い環境で頻繁に衝突する。 現在、ディープラーニング手法は、より正確な経験から安全性とパス実現可能性を学ぶことができるため、魅力的な代替手段である。 しかし、既存のディープラーニング手法では、長い地平線を計画することはできない。 本研究では,FDM(Learning forward dynamics model),オンラインサンプリングベースモデル予測コントローラ,ITS(Information trajectory sampler)の3つの革新的な要素からなる学習ベースの完全自律ナビゲーションフレームワークを提案する。 このフレームワークを使うことで、四足歩行ロボットは衝突することなく様々な複雑な環境で自律的に移動でき、ベースライン方式よりもスムーズなコマンドプランを生成することができる。 さらに,提案手法は計画経路上の予期せぬ障害を積極的に処理し,回避することができる。 プロジェクトページ https://awesomericky.github.io/projects/fdm_its_navigation/

For autonomous quadruped robot navigation in various complex environments, a typical SOTA system is composed of four main modules -- mapper, global planner, local planner, and command-tracking controller -- in a hierarchical manner. In this paper, we build a robust and safe local planner which is designed to generate a velocity plan to track a coarsely planned path from the global planner. Previous works used waypoint-based methods (e.g. Proportional-Differential control and pure pursuit) which simplify the path tracking problem to local point-goal navigation. However, they suffer from frequent collisions in geometrically complex and narrow environments because of two reasons; the global planner uses a coarse and inaccurate model and the local planner is unable to track the global plan sufficiently well. Currently, deep learning methods are an appealing alternative because they can learn safety and path feasibility from experience more accurately. However, existing deep learning methods are not capable of planning for a long horizon. In this work, we propose a learning-based fully autonomous navigation framework composed of three innovative elements: a learned forward dynamics model (FDM), an online sampling-based model-predictive controller, and an informed trajectory sampler (ITS). Using our framework, a quadruped robot can autonomously navigate in various complex environments without a collision and generate a smoother command plan compared to the baseline method. Furthermore, our method can reactively handle unexpected obstacles on the planned path and avoid them. Project page https://awesomericky.github.io/projects/FDM_ITS_navigation/.
翻訳日:2022-04-20 15:08:40 公開日:2022-04-19
# 分子動力学シミュレーションのためのスコアベース幾何モデル

A Score-based Geometric Model for Molecular Dynamics Simulations ( http://arxiv.org/abs/2204.08672v1 )

ライセンス: Link先を確認
Fang Wu, Qiang Zhang, Xurui Jin, Yinghui Jiang, Stan Z. Li(参考訳) 分子動力学(MD)は長い間、複雑な原子論システムを第一原理からモデル化するための「emph{de facto}」の選択であり、近年では深層学習がそれを加速する一般的な方法となっている。 それにもかかわらず、先行するアプローチは原子の位置を更新するためにポテンシャルエネルギーや力場のような中間変数に依存しており、バックプロパゲーションを行うにはさらなる計算が必要である。 この要件を和らげるために,分子コンフォメーションの対数密度の勾配を直接推定することにより, scoremd と呼ばれる新しいモデルを提案する。 さらに,mdシミュレーションにおける拡張サンプリングの原理によく適合する拡散過程を解析し,逐次コンフォメーション生成タスクに完全一致することを示す。 すなわち、ScoreMDは原子加速に依存する条件付きノイズで分子構造を摂動させ、サンプリングの先行分布として以前の時間枠でのコンフォメーションを用いる。 このようなコンフォメーション生成過程をモデル化するもう一つの課題は、分子が静的ではなく運動的であることである。 この課題を解決するために, 拡散過程におけるスコア関数として等変幾何トランスを導入し, 対応する勾配を計算する。 3次元球面フーリエ・ベッセル表現による原子運動の方向と速度を組み込む。 複数のアーキテクチャの改善により、MD17とC7O2H10の異性体において最先端のベースラインよりも優れています。 この研究は、新しい物質の加速と薬物発見に関する新たな洞察を提供する。

Molecular dynamics (MD) has long been the \emph{de facto} choice for modeling complex atomistic systems from first principles, and recently deep learning become a popular way to accelerate it. Notwithstanding, preceding approaches depend on intermediate variables such as the potential energy or force fields to update atomic positions, which requires additional computations to perform back-propagation. To waive this requirement, we propose a novel model called ScoreMD by directly estimating the gradient of the log density of molecular conformations. Moreover, we analyze that diffusion processes highly accord with the principle of enhanced sampling in MD simulations, and is therefore a perfect match to our sequential conformation generation task. That is, ScoreMD perturbs the molecular structure with a conditional noise depending on atomic accelerations and employs conformations at previous timeframes as the prior distribution for sampling. Another challenge of modeling such a conformation generation process is that the molecule is kinetic instead of static, which no prior studies strictly consider. To solve this challenge, we introduce a equivariant geometric Transformer as a score function in the diffusion process to calculate the corresponding gradient. It incorporates the directions and velocities of atomic motions via 3D spherical Fourier-Bessel representations. With multiple architectural improvements, we outperforms state-of-the-art baselines on MD17 and isomers of C7O2H10. This research provides new insights into the acceleration of new material and drug discovery.
翻訳日:2022-04-20 15:08:12 公開日:2022-04-19
# テキストとソーシャルグラフを用いた自己教師付き学習によるうわさ検出

Rumor Detection with Self-supervised Learning on Texts and Social Graph ( http://arxiv.org/abs/2204.08838v1 )

ライセンス: Link先を確認
Yuan Gao, Xiang Wang, Xiangnan He, Huamin Feng, Yongdong Zhang(参考訳) 近年、うわさ検出は新興で活発な研究分野となっている。 中心となるのは、ソーシャルネットワークの伝搬パターンやポストコンテンツのセマンティックパターンなど、リッチな情報に固有のうわさの特徴をモデル化し、真実と区別することだ。 しかし、噂の検出に関する既存の研究は、単一の情報ソースのみ(例えば、ソーシャルネットワークやポストコンテンツ)を使うか、複数のソース間の関係を無視する(例えば、単純な結合によってソーシャルとコンテンツの機能を融合する)など、異質な情報のモデル化において不足している。 したがって、噂を包括的に理解し、正確に検出する上での欠点があるかもしれない。 本研究では,異種情報ソースにおけるコントラスト的自己教師付き学習について検討し,それらの関係を明らかにするとともに,噂をよりよく特徴付ける。 技術的には, 検出の主監督タスクを補助的自己監督タスクで補完し, ポスト自己弁別によりポスト表現を豊かにする。 具体的には、ポストの2つの異質なビュー(すなわち、社会的パターンと意味パターンを符号化する表現)を与えられた場合、同じポストの異なるビュー間の相互情報を他のポストと比較して最大化する。 我々は、情報ソースの異なる関係を考慮して、視点を生成し、識別を行うためのクラスタワイズおよびインスタンスワイズアプローチを考案する。 本稿では,この枠組みをSRD(Self-supervised Rumor Detection)と呼ぶ。 3つの実世界のデータセットに対する大規模な実験により、ソーシャルメディア上での噂の自動検出におけるSRDの有効性が検証された。

Rumor detection has become an emerging and active research field in recent years. At the core is to model the rumor characteristics inherent in rich information, such as propagation patterns in social network and semantic patterns in post content, and differentiate them from the truth. However, existing works on rumor detection fall short in modeling heterogeneous information, either using one single information source only (e.g. social network, or post content) or ignoring the relations among multiple sources (e.g. fusing social and content features via simple concatenation). Therefore, they possibly have drawbacks in comprehensively understanding the rumors, and detecting them accurately. In this work, we explore contrastive self-supervised learning on heterogeneous information sources, so as to reveal their relations and characterize rumors better. Technically, we supplement the main supervised task of detection with an auxiliary self-supervised task, which enriches post representations via post self-discrimination. Specifically, given two heterogeneous views of a post (i.e. representations encoding social patterns and semantic patterns), the discrimination is done by maximizing the mutual information between different views of the same post compared to that of other posts. We devise cluster-wise and instance-wise approaches to generate the views and conduct the discrimination, considering different relations of information sources. We term this framework as Self-supervised Rumor Detection (SRD). Extensive experiments on three real-world datasets validate the effectiveness of SRD for automatic rumor detection on social media.
翻訳日:2022-04-20 15:07:49 公開日:2022-04-19
# (参考訳) 画像復元のための異なる大気乱流シミュレーション手法の比較

A comparison of different atmospheric turbulence simulation methods for image restoration ( http://arxiv.org/abs/2204.08974v1 )

ライセンス: CC BY 4.0
Nithin Gopalakrishnan Nair, Kangfu Mei and Vishal M. Patel(参考訳) 大気の乱流は、撮影シーンにぼやけや幾何学的歪みを導入することで、長距離イメージングシステムによって撮影された画像の品質を劣化させる。 これにより、これらの画像上でオブジェクト/顔認識や検出などのコンピュータビジョンアルゴリズムを実行すると、パフォーマンスが大幅に低下する。 近年,様々な深層学習に基づく大気乱流緩和手法が文献に提案されている。 これらの手法はしばしば合成画像を用いて訓練され、実世界画像上でテストされる。 したがって、これらの復元手法の性能は、ネットワークのトレーニングに使用されるシミュレーションの種類に依存する。 本稿では,画像復元における各種乱流シミュレーション手法の有効性を体系的に評価する。 特に,乱流により劣化した顔画像からなる実世界のLRFIDデータセット上での6つのシミュレーション手法を用いて,2つの状態復元ネットワークの性能を評価する。 本稿では,この分野の研究者や実践者に対して,乱流緩和のための深層モデルの訓練に適したデータ生成モデルを選択するためのガイダンスを提供する。 シミュレーション手法の実装コード、ネットワークのソースコード、事前訓練されたモデルの公開が予定されている。

Atmospheric turbulence deteriorates the quality of images captured by long-range imaging systems by introducing blur and geometric distortions to the captured scene. This leads to a drastic drop in performance when computer vision algorithms like object/face recognition and detection are performed on these images. In recent years, various deep learning-based atmospheric turbulence mitigation methods have been proposed in the literature. These methods are often trained using synthetically generated images and tested on real-world images. Hence, the performance of these restoration methods depends on the type of simulation used for training the network. In this paper, we systematically evaluate the effectiveness of various turbulence simulation methods on image restoration. In particular, we evaluate the performance of two state-or-the-art restoration networks using six simulations method on a real-world LRFID dataset consisting of face images degraded by turbulence. This paper will provide guidance to the researchers and practitioners working in this field to choose the suitable data generation models for training deep models for turbulence mitigation. The implementation codes for the simulation methods, source codes for the networks, and the pre-trained models will be publicly made available.
翻訳日:2022-04-20 15:04:39 公開日:2022-04-19
# (参考訳) セグメンテーション誘導ganを用いたデュアルドメイン画像合成

Dual-Domain Image Synthesis using Segmentation-Guided GAN ( http://arxiv.org/abs/2204.09015v1 )

ライセンス: CC BY 4.0
Dena Bazazian, Andrew Calway, Dima Damen(参考訳) 2つの異なる領域の特徴を統合した画像合成のためのセグメンテーション誘導手法を提案する。 我々の二重ドメインモデルによって合成された画像は、セマンティックマスク内の1つのドメインに属し、残りの画像内のもう1つのドメインはスムーズに統合される。 2つのドメインを利用するのに必要なトレーニング量を最小化するために、数ショットのStyleGANとシングルショットのセマンティックセグメンテーションの成功に基づいて構築する。 この方法は、2つの異なるドメインの特徴を含む画像を実現するために、数ショットのクロスドメインスタイルGANと潜在オプティマイザを組み合わせる。 ピクセルレベルとアクティベーションの両方をドメイン固有の合成画像とデュアルドメイン合成画像で比較したセグメンテーション誘導知覚損失を用いる。 その結果, 顔, 馬, 猫, 車, ドメイン (自然, 似顔絵, スケッチ) , 部品ベースのマスク (目, 鼻, 口, 髪, カーボンネット) で, 両領域の画像を合成できることが, 定性的かつ定量的に証明された。 コードは、https://github.com/denabazazian/Dual-Domain-Synthesisで公開されている。

We introduce a segmentation-guided approach to synthesise images that integrate features from two distinct domains. Images synthesised by our dual-domain model belong to one domain within the semantic mask, and to another in the rest of the image - smoothly integrated. We build on the successes of few-shot StyleGAN and single-shot semantic segmentation to minimise the amount of training required in utilising two domains. The method combines a few-shot cross-domain StyleGAN with a latent optimiser to achieve images containing features of two distinct domains. We use a segmentation-guided perceptual loss, which compares both pixel-level and activations between domain-specific and dual-domain synthetic images. Results demonstrate qualitatively and quantitatively that our model is capable of synthesising dual-domain images on a variety of objects (faces, horses, cats, cars), domains (natural, caricature, sketches) and part-based masks (eyes, nose, mouth, hair, car bonnet). The code is publicly available at: https://github.com/denabazazian/Dual-Domain-Synthesis.
翻訳日:2022-04-20 14:52:02 公開日:2022-04-19
# 協調物体検出のためのグローバル・ローカル協調学習

Global-and-Local Collaborative Learning for Co-Salient Object Detection ( http://arxiv.org/abs/2204.08917v1 )

ライセンス: Link先を確認
Runmin Cong, Ning Yang, Chongyi Li, Huazhu Fu, Yao Zhao, Qingming Huang, Sam Kwong(参考訳) cosod(co-salient object detection)の目的は、2つ以上の関連画像を含むクエリグループで一般的に現れるサルエントオブジェクトを見つけることである。 したがって、画像間対応を効果的に抽出する方法は、CoSODタスクに不可欠である。 本稿では,グローバル対応モデリング (GCM) とローカル対応モデリング (LCM) を含むグローバル・ローカル協調学習アーキテクチャを提案する。 まず、異なる画像を異なる時間スライスとして扱い、3D畳み込みを用いて、すべての内部機能を直感的に統合し、グローバルなグループセマンティクスをより完全に抽出することができる。 次に,ペアワイズ画像間の類似性を探索するためにペアワイズ相関変換 (pct) を設計し,複数の局所的ペアワイズ対応を結合して局所的画像間関係を生成する。 第3に、GCMとLCMの画像間関係はGLAモジュールを通じて統合され、より包括的な画像間協調方法が探索される。 最後に、機能内および機能間はAEWF(Intra-and-inter weighting fusion)モジュールによって適応的に統合され、相性の特徴を学習し、相性マップを予測する。 提案するglnetは3つのcosodベンチマークデータセットで評価され、我々のモデルは小さなデータセット(約3kイメージ)でトレーニングされているが、いくつかの大規模データセット(約8k-200kイメージ)でトレーニングされた11の最先端コンペティタを上回っていることを実証する。

The goal of co-salient object detection (CoSOD) is to discover salient objects that commonly appear in a query group containing two or more relevant images. Therefore, how to effectively extract inter-image correspondence is crucial for the CoSOD task. In this paper, we propose a global-and-local collaborative learning architecture, which includes a global correspondence modeling (GCM) and a local correspondence modeling (LCM) to capture comprehensive inter-image corresponding relationship among different images from the global and local perspectives. Firstly, we treat different images as different time slices and use 3D convolution to integrate all intra features intuitively, which can more fully extract the global group semantics. Secondly, we design a pairwise correlation transformation (PCT) to explore similarity correspondence between pairwise images and combine the multiple local pairwise correspondences to generate the local inter-image relationship. Thirdly, the inter-image relationships of the GCM and LCM are integrated through a global-and-local correspondence aggregation (GLA) module to explore more comprehensive inter-image collaboration cues. Finally, the intra- and inter-features are adaptively integrated by an intra-and-inter weighting fusion (AEWF) module to learn co-saliency features and predict the co-saliency map. The proposed GLNet is evaluated on three prevailing CoSOD benchmark datasets, demonstrating that our model trained on a small dataset (about 3k images) still outperforms eleven state-of-the-art competitors trained on some large datasets (about 8k-200k images).
翻訳日:2022-04-20 14:49:33 公開日:2022-04-19
# 想像への学習: ラベルなしデータを用いたインクリメンタルラーニングのためのメモリの多様化

Learning to Imagine: Diversify Memory for Incremental Learning using Unlabeled Data ( http://arxiv.org/abs/2204.08932v1 )

ライセンス: Link先を確認
Yu-Ming Tang, Yi-Xing Peng, Wei-Shi Zheng(参考訳) deep neural network(dnn)は、漸進的に学習するときに壊滅的な忘れがちだ。 各タスクの少数のサンプル(例題(exemplars)と呼ばれる)を維持することで、ある程度の忘れを軽減できるが、既存のメソッドは、これらの例題がタスク固有の知識を十分に持てるには不十分であるため、少数の例題によって制限されている。 この問題を解決するために,ラベルのないデータから豊富な意味非関連情報を参照して,与えられた例の多様な特徴を「想像する」ことを提案する。 具体的には,実例からの意味情報やラベルなしデータから意味的無関係な情報に基づいて,多種多様な実例を適応的に生成することにより,実例を多様化する学習可能な特徴生成器を開発した。 本稿では,生成したサンプルを例示と一致させるように強制する意味的コントラスト学習と,生成したサンプルの多様性を促進するための意味分離コントラスト学習を提案する。 多様な生成されたサンプルは、DNNが新しいタスクを学ぶときに忘れるのを効果的に防ぐことができる。 提案手法は, CIFAR-100 と ImageNet-Subset の2つのベンチマークにおいて, 余分な推論コストを伴わず, 最先端の手法より優れている。

Deep neural network (DNN) suffers from catastrophic forgetting when learning incrementally, which greatly limits its applications. Although maintaining a handful of samples (called `exemplars`) of each task could alleviate forgetting to some extent, existing methods are still limited by the small number of exemplars since these exemplars are too few to carry enough task-specific knowledge, and therefore the forgetting remains. To overcome this problem, we propose to `imagine` diverse counterparts of given exemplars referring to the abundant semantic-irrelevant information from unlabeled data. Specifically, we develop a learnable feature generator to diversify exemplars by adaptively generating diverse counterparts of exemplars based on semantic information from exemplars and semantically-irrelevant information from unlabeled data. We introduce semantic contrastive learning to enforce the generated samples to be semantic consistent with exemplars and perform semanticdecoupling contrastive learning to encourage diversity of generated samples. The diverse generated samples could effectively prevent DNN from forgetting when learning new tasks. Our method does not bring any extra inference cost and outperforms state-of-the-art methods on two benchmarks CIFAR-100 and ImageNet-Subset by a clear margin.
翻訳日:2022-04-20 14:48:57 公開日:2022-04-19
# 夜景レンダリングのための浅いカメラパイプライン

Shallow camera pipeline for night photography rendering ( http://arxiv.org/abs/2204.08972v1 )

ライセンス: Link先を確認
Simone Zini, Claudio Rota, Marco Buzzelli, Simone Bianco and Raimondo Schettini(参考訳) NTIRE2022 Night Photography Rendering チャレンジの一環として,低照度で映像を視覚的に楽しむためのカメラパイプラインを導入する。 この課題の性質から、目的が明示的な地上の真理画像に頼るのではなく、専門家写真家によって言葉で定義されることを考慮し、浅い構造と低いパラメータ数で特徴付けられる手作りのソリューションを設計する。 本研究では,局所光エンハンサーを高ダイナミックレンジ補正の一形態として活用し,画像ヒストグラムのグローバル調整を行い,洗浄結果の防止を図る。 我々は、より明るい領域の詳細を失うことなく、より容易に知覚される暗い領域に、画像の分別を比例的に適用する。 このソリューションは、深層畳み込みニューラルネットワークに基づいた他のエントリに匹敵する選好投票数で、コンペティションの5位に到達した。 コードはwww.github.com/AvailableAfterAcceptanceで入手できる。

We introduce a camera pipeline for rendering visually pleasing photographs in low light conditions, as part of the NTIRE2022 Night Photography Rendering challenge. Given the nature of the task, where the objective is verbally defined by an expert photographer instead of relying on explicit ground truth images, we design an handcrafted solution, characterized by a shallow structure and by a low parameter count. Our pipeline exploits a local light enhancer as a form of high dynamic range correction, followed by a global adjustment of the image histogram to prevent washed-out results. We proportionally apply image denoising to darker regions, where it is more easily perceived, without losing details on brighter regions. The solution reached the fifth place in the competition, with a preference vote count comparable to those of other entries, based on deep convolutional neural networks. Code is available at www.github.com/AvailableAfterAcceptance.
翻訳日:2022-04-20 14:48:33 公開日:2022-04-19
# リアルタイム顔認識システム

Real-Time Face Recognition System ( http://arxiv.org/abs/2204.08978v1 )

ライセンス: Link先を確認
Adarsh Ghimire, Naoufel Werghi, Sajid Javed, Jorge Dias(参考訳) 過去数十年間、顔認識のためのアルゴリズムへの関心は急速に高まり、人間レベルのパフォーマンスを超えてきた。 その成果にもかかわらず、リアルタイムパフォーマンス・ハングリーシステムとの実用的な統合は計算コストが高いため実現不可能である。 そこで本稿では,リアルタイムデバイスと容易に統合可能な最近の,高速,高精度な顔認識システムについて検討し,ロボットハードウェアプラットフォーム上でアルゴリズムをテストし,ロバスト性と速度を確認した。

Over the past few decades, interest in algorithms for face recognition has been growing rapidly and has even surpassed human-level performance. Despite their accomplishments, their practical integration with a real-time performance-hungry system is not feasible due to high computational costs. So in this paper, we explore the recent, fast, and accurate face recognition system that can be easily integrated with real-time devices, and tested the algorithms on robot hardware platforms to confirm their robustness and speed.
翻訳日:2022-04-20 14:48:17 公開日:2022-04-19
# シンガポールの文脈でRedditでToxicity Triggersを理解する

Understanding Toxicity Triggers on Reddit in the Context of Singapore ( http://arxiv.org/abs/2204.08806v1 )

ライセンス: Link先を確認
Yun Yu Chong and Haewoon Kwak(参考訳) オンライン毒性の伝染性は早期発見と予防への関心を高めたが、ほとんどの文献は西洋世界に焦点を当てている。 この研究で、私たちはそれを実証します。 1)アジアのオンラインコミュニティにおいて毒性トリガーを検出することが可能であり、 2) 毒性の引き金は西部と東部の状況で著しく異なる可能性がある。

While the contagious nature of online toxicity sparked increasing interest in its early detection and prevention, most of the literature focuses on the Western world. In this work, we demonstrate that 1) it is possible to detect toxicity triggers in an Asian online community, and 2) toxicity triggers can be strikingly different between Western and Eastern contexts.
翻訳日:2022-04-20 14:48:10 公開日:2022-04-19
# 出口:時系列分類と予測のための外挿および補間に基づくニューラル制御微分方程式

EXIT: Extrapolation and Interpolation-based Neural Controlled Differential Equations for Time-series Classification and Forecasting ( http://arxiv.org/abs/2204.08771v1 )

ライセンス: Link先を確認
Sheo Yon Jhin, Jaehoon Lee, Minju Jo, Seungji Kook, Jinsung Jeon, Jihyeon Hyeong, Jayoung Kim, Noseong Park(参考訳) 微分方程式にインスパイアされたディープラーニングは、最近の研究トレンドであり、多くの機械学習タスクにおけるアートパフォーマンスの現状を示している。 その中でも,神経制御微分方程式(ncdes)を用いた時系列モデリングはブレークスルーと考えられている。 多くの場合、ncdeベースのモデルは、recurrent neural networks (rnn)よりも精度が良いだけでなく、不規則な時系列を処理できる。 本研究では,そのコア部分,すなわち離散時系列入力から連続パスを生成することによって,ncdesを強化する。 ncdesは通常、離散時系列サンプルを連続経路に変換するために補間アルゴリズムを使用する。 しかし、我々は提案する i) NCDEの補間過程、すなわち、ニューラルネットワークベースの補間と既存の明示的補間とに対応するエンコーダ・デコーダアーキテクチャを用いて、別の潜時連続経路を生成する。 二 デコーダの生成的特性、すなわち、必要であれば元のデータの時間領域を超えて外挿すること。 したがって、NCDE設計では、下流機械学習タスクに補間情報と外挿情報の両方を使用できる。 実世界の5つのデータセットと12のベースラインを用いた実験では、外挿と補間に基づくNCDEは、非自明なマージンで既存のベースラインを上回った。

Deep learning inspired by differential equations is a recent research trend and has marked the state of the art performance for many machine learning tasks. Among them, time-series modeling with neural controlled differential equations (NCDEs) is considered as a breakthrough. In many cases, NCDE-based models not only provide better accuracy than recurrent neural networks (RNNs) but also make it possible to process irregular time-series. In this work, we enhance NCDEs by redesigning their core part, i.e., generating a continuous path from a discrete time-series input. NCDEs typically use interpolation algorithms to convert discrete time-series samples to continuous paths. However, we propose to i) generate another latent continuous path using an encoder-decoder architecture, which corresponds to the interpolation process of NCDEs, i.e., our neural network-based interpolation vs. the existing explicit interpolation, and ii) exploit the generative characteristic of the decoder, i.e., extrapolation beyond the time domain of original data if needed. Therefore, our NCDE design can use both the interpolated and the extrapolated information for downstream machine learning tasks. In our experiments with 5 real-world datasets and 12 baselines, our extrapolation and interpolation-based NCDEs outperform existing baselines by non-trivial margins.
翻訳日:2022-04-20 14:47:33 公開日:2022-04-19
# lord:neural rough differential equationにおけるlog-signatureの低次元埋め込み

LORD: Lower-Dimensional Embedding of Log-Signature in Neural Rough Differential Equations ( http://arxiv.org/abs/2204.08781v1 )

ライセンス: Link先を確認
Jaehoon Lee, Jinsung Jeon, Sheo yon Jhin, Jihyeon Hyeong, Jayoung Kim, Minju Jo, Kook Seungji, Noseong Park(参考訳) 非常に長い時系列データを処理する問題(例えば1万以上)は、機械学習における長年の研究課題である。 近年,ニューラル粗微分方程式 (NRDE) と呼ばれるブレークスルーが提案され,そのようなデータを処理できることが示されている。 その主な概念は、不規則な長い時系列に対してフーリエ変換よりも効率的であることが知られている対数符号変換を使用して、非常に長い時系列サンプルを比較的短い特徴ベクトルに変換することである。 しかし、対数信号変換は非自明な空間オーバーヘッドを引き起こす。 そこで我々は,より深度の高いログ署名知識を下位のログ署名に埋め込むためのNRDEベースのオートエンコーダを定義する。 エンコーダは,高深度と低深度ログ署名の知識をうまく組み合わせることで,トレーニングプロセスの大幅な安定化とモデルの精度の向上を実現している。 ベンチマークデータセットを用いた実験では,評価指標の分類と予測に関して,提案手法による改善率を最大75\%とした。

The problem of processing very long time-series data (e.g., a length of more than 10,000) is a long-standing research problem in machine learning. Recently, one breakthrough, called neural rough differential equations (NRDEs), has been proposed and has shown that it is able to process such data. Their main concept is to use the log-signature transform, which is known to be more efficient than the Fourier transform for irregular long time-series, to convert a very long time-series sample into a relatively shorter series of feature vectors. However, the log-signature transform causes non-trivial spatial overheads. To this end, we present the method of LOweR-Dimensional embedding of log-signature (LORD), where we define an NRDE-based autoencoder to implant the higher-depth log-signature knowledge into the lower-depth log-signature. We show that the encoder successfully combines the higher-depth and the lower-depth log-signature knowledge, which greatly stabilizes the training process and increases the model accuracy. In our experiments with benchmark datasets, the improvement ratio by our method is up to 75\% in terms of various classification and forecasting evaluation metrics.
翻訳日:2022-04-20 14:47:10 公開日:2022-04-19
# 干渉行動予測:対話的予測における過度な信頼の予測を避ける

Interventional Behavior Prediction: Avoiding Overly Confident Anticipation in Interactive Prediction ( http://arxiv.org/abs/2204.08665v1 )

ライセンス: Link先を確認
Chen Tang, Wei Zhan, Masayoshi Tomizuka(参考訳) 条件付き行動予測(cbp)は、対話的なシナリオにおいてより効率的で控えめな操作を可能にする、一貫性のある対話型予測および計画フレームワークの基礎を構築します。 CBPタスクでは、割り当てられたエゴエージェントの将来の軌跡に基づいて、対象エージェントの将来の軌跡の後方分布を近似する予測モデルを訓練する。 しかし, CBPは, 自律エージェントがターゲットエージェントの行動にどのような影響を及ぼすか, 過度に自信を持って予測できる可能性がある。 したがって、プランナーがCBPモデルに問い合わせるのは危険である。 代わりに、計画された軌道を介入として扱い、モデルに介入中の軌道分布を学習させるべきである。 我々はこれを介入行動予測(ibp)タスクと呼んでいる。 さらに、オフラインデータセットを用いたIPPモデルを適切に評価するために、予測モデルが介入分布の時間的独立性を満たすかどうかを検証するためのShapley-value-based metricを提案する。 提案手法は,IPPベンチマークの確立において重要な役割を担う時間的独立性に反するCBPモデルを効果的に同定できることを示す。

Conditional behavior prediction (CBP) builds up the foundation for a coherent interactive prediction and planning framework that can enable more efficient and less conservative maneuvers in interactive scenarios. In CBP task, we train a prediction model approximating the posterior distribution of target agents' future trajectories conditioned on the future trajectory of an assigned ego agent. However, we argue that CBP may provide overly confident anticipation on how the autonomous agent may influence the target agents' behavior. Consequently, it is risky for the planner to query a CBP model. Instead, we should treat the planned trajectory as an intervention and let the model learn the trajectory distribution under intervention. We refer to it as the interventional behavior prediction (IBP) task. Moreover, to properly evaluate an IBP model with offline datasets, we propose a Shapley-value-based metric to testify if the prediction model satisfies the inherent temporal independence of an interventional distribution. We show that the proposed metric can effectively identify a CBP model violating the temporal independence, which plays an important role when establishing IBP benchmarks.
翻訳日:2022-04-20 14:46:07 公開日:2022-04-19
# 説明可能なAIが自動化バイアスに及ぼす影響について

On the Influence of Explainable AI on Automation Bias ( http://arxiv.org/abs/2204.08859v1 )

ライセンス: Link先を確認
Max Schemmer, Niklas K\"uhl, Carina Benz, Gerhard Satzger(参考訳) 人工知能(ai)は勢いを増しており、医療や銀行など多くの分野における仕事の未来における重要性は継続的に高まっている。 しかし、人間とAIの効果的なコラボレーションについての洞察はいまだに稀である。 通常、AIは人間の制限に対処することで人間の意思決定を支援する。 しかし、AIアドバイスへの過度な依存として、特に自動化バイアスという形で、人間の偏見を引き起こすこともある。 我々は、説明可能なAI(XAI)によって自動化バイアスに影響を与える可能性に光を当てることを目指している。 この事前テストでは,研究モデルを導出し,研究設計について述べる。 その後、ホテルレビュー分類に関するオンライン実験を行い、最初の結果について議論する。 我々の研究は、安全なハイブリッドインテリジェンスシステムの設計と開発に貢献することを期待しています。

Artificial intelligence (AI) is gaining momentum, and its importance for the future of work in many areas, such as medicine and banking, is continuously rising. However, insights on the effective collaboration of humans and AI are still rare. Typically, AI supports humans in decision-making by addressing human limitations. However, it may also evoke human bias, especially in the form of automation bias as an over-reliance on AI advice. We aim to shed light on the potential to influence automation bias by explainable AI (XAI). In this pre-test, we derive a research model and describe our study design. Subsequentially, we conduct an online experiment with regard to hotel review classifications and discuss first results. We expect our research to contribute to the design and development of safe hybrid intelligence systems.
翻訳日:2022-04-20 14:45:49 公開日:2022-04-19
# 情報共有システムにおけるモデルチェック戦略能力

Model Checking Strategic Abilities in Information-sharing Systems ( http://arxiv.org/abs/2204.08896v1 )

ライセンス: Link先を確認
Francesco Belardinelli, Ioana Boureanu, Catalin Dima, and Vadim Malvone(参考訳) エージェントにプライベートなデータ共有機能を持たせる不完全な情報を持つ並列ゲーム構造(CGS)のサブクラスを導入する。 重要なことは、我々のCGSは、これらのCGSを関連するATLのフラグメントに対してモデルチェックすることが決定可能であることです。 これらのシステムは、システムの初期状態において、与えられたセットa外のエージェントからの情報フォークを、このa内のエージェントに許可するという意味で、情報フォークを可能にするアーキテクチャの一般化と考えることができる。 実際、我々のシステムとATLのフラグメントは、我々のシステムやこのATLのフラグメントは、信頼できる表現が難しいセキュリティ問題をエンコードすることができる:アイデンティティスキームにおけるテロリスト詐欺。

We introduce a subclass of concurrent game structures (CGS) with imperfect information in which agents are endowed with private data-sharing capabilities. Importantly, our CGSs are such that it is still decidable to model-check these CGSs against a relevant fragment of ATL. These systems can be thought as a generalisation of architectures allowing information forks, in the sense that, in the initial states of the system, we allow information forks from agents outside a given set A to agents inside this A. For this reason, together with the fact that the communication in our models underpins a specialised form of broadcast, we call our formalism A-cast systems. To underline, the fragment of ATL for which we show the model-checking problem to be decidable over A-cast is a large and significant one; it expresses coalitions over agents in any subset of the set A. Indeed, as we show, our systems and this ATL fragments can encode security problems that are notoriously hard to express faithfully: terrorist-fraud attacks in identity schemes.
翻訳日:2022-04-20 14:45:40 公開日:2022-04-19
# 音声言語理解と同時音声翻訳のためのブロックワイドストリーミング変換器

Blockwise Streaming Transformer for Spoken Language Understanding and Simultaneous Speech Translation ( http://arxiv.org/abs/2204.08920v1 )

ライセンス: Link先を確認
Keqi Deng, Shinji Watanabe, Jiatong Shi, Siddhant Arora(参考訳) トランスフォーマーは、音声言語理解(SLU)や音声翻訳(ST)など、いくつかの音声処理タスクで成功を収めてきたが、実世界の対話には、競争力を維持しながらオンライン処理を実現することが不可欠である。 本稿では,ブロックワイド・ストリーミング・トランスフォーマを用いて,SLUとSTを同時ストリーミングする最初のステップを,コンテキスト的ブロック処理とブロックワイド同期ビームサーチに基づいて行う。 さらに,ストリーミングSLUタスクのための音声認識(ASR)に基づく中間損失正規化を設計し,分類性能をさらに向上する。 同時STタスクについては,ターゲット言語翻訳に最適化されたCTCブランチを用いた言語間符号化手法を提案する。 さらに、CTC翻訳出力を使用して、CTCプレフィックススコアで検索空間を洗練し、共同CTC/アテンション同時翻訳を初めて達成する。 SLU 実験は FSC と SLURP コーパスで行われ,ST タスクは Fisher-CallHome Spanish と MuST-C En-De コーパスで評価された。 実験の結果, ブロックワイド・ストリーミング・トランスフォーマーは, オフラインモデルと比較して, 特に, SLUタスクでは2.4%, STタスクでは4.3BLEUの精度向上を実現していることがわかった。

Although Transformers have gained success in several speech processing tasks like spoken language understanding (SLU) and speech translation (ST), achieving online processing while keeping competitive performance is still essential for real-world interaction. In this paper, we take the first step on streaming SLU and simultaneous ST using a blockwise streaming Transformer, which is based on contextual block processing and blockwise synchronous beam search. Furthermore, we design an automatic speech recognition (ASR)-based intermediate loss regularization for the streaming SLU task to improve the classification performance further. As for the simultaneous ST task, we propose a cross-lingual encoding method, which employs a CTC branch optimized with target language translations. In addition, the CTC translation output is also used to refine the search space with CTC prefix score, achieving joint CTC/attention simultaneous translation for the first time. Experiments for SLU are conducted on FSC and SLURP corpora, while the ST task is evaluated on Fisher-CallHome Spanish and MuST-C En-De corpora. Experimental results show that the blockwise streaming Transformer achieves competitive results compared to offline models, especially with our proposed methods that further yield a 2.4% accuracy gain on the SLU task and a 4.3 BLEU gain on the ST task over streaming baselines.
翻訳日:2022-04-20 14:45:23 公開日:2022-04-19
# 直接音声翻訳における注意の局所性について

On the Locality of Attention in Direct Speech Translation ( http://arxiv.org/abs/2204.09028v1 )

ライセンス: Link先を確認
Belen Alastruey, Javier Ferrando, Gerard I. G\'allego and Marta R. Costa-juss\`a(参考訳) トランスフォーマーは複数のNLPタスクで最先端の結果を得た。 しかし、セルフアテンション機構の複雑性はシーケンス長と二乗的にスケールし、音声領域のように長いシーケンスを含むタスクの障害となる。 本稿では,直接音声翻訳における自己注意の有用性について論じる。 まず,エンコーダのセルフアテンションにおける層状トークンの寄与を分析し,局所対角パターンを提示する。 注意重みが避けられることを証明するために, 標準自己着脱を局所的効率的なものに置き換え, 分析結果に基づいて使用する文脈量を設定することを提案する。 このアプローチでは,本モデルがベースライン性能に適合し,標準注意が捨てる重みの計算をスキップすることで効率を向上させる。

Transformers have achieved state-of-the-art results across multiple NLP tasks. However, the self-attention mechanism complexity scales quadratically with the sequence length, creating an obstacle for tasks involving long sequences, like in the speech domain. In this paper, we discuss the usefulness of self-attention for Direct Speech Translation. First, we analyze the layer-wise token contributions in the self-attention of the encoder, unveiling local diagonal patterns. To prove that some attention weights are avoidable, we propose to substitute the standard self-attention with a local efficient one, setting the amount of context used based on the results of the analysis. With this approach, our model matches the baseline performance, and improves the efficiency by skipping the computation of those weights that standard attention discards.
翻訳日:2022-04-20 14:44:56 公開日:2022-04-19
# 対話型ラベル付きマルチベルヌーリフィルタ

Interaction-Aware Labeled Multi-Bernoulli Filter ( http://arxiv.org/abs/2204.08655v1 )

ライセンス: Link先を確認
Nida Ishtiaq, Amirali Khodadadian Gostar, Alireza Bab-Hadiashar, Reza Hoseinnezhad(参考訳) 時間を通して複数の物体を追跡することは、インテリジェントな輸送システムの重要な部分である。 ランダム有限集合(RFS)ベースのフィルタは、複数のオブジェクトを追跡する新しい手法の1つである。 マルチオブジェクトトラッキング(MOT)では、各オブジェクトが周囲から独立して動いているという仮定が一般的である。 しかし、多くの現実世界のアプリケーションでは、ターゲットオブジェクトは互いに環境と相互作用する。 このような相互作用は、追跡のために考慮された場合、通常、アプリケーション固有のインタラクティブモーションモデルによってモデル化される。 本稿では,RFSに基づくマルチターゲットフィルタ,すなわちラベル付きマルチベルヌーリ(LMB)フィルタの予測ステップにターゲットインタラクションを組み込む新しい手法を提案する。 この方法は、協調した群れと車両を追跡する2つの実用的な応用のために開発された。 この手法は複雑な車両追跡データセットとしてテストされており、OSPAおよびOSPA$^{(2)}$メトリックによるLMBフィルタと比較されている。 その結果,提案手法はlmbフィルタの性能向上に寄与することが明らかとなった。

Tracking multiple objects through time is an important part of an intelligent transportation system. Random finite set (RFS)-based filters are one of the emerging techniques for tracking multiple objects. In multi-object tracking (MOT), a common assumption is that each object is moving independent of its surroundings. But in many real-world applications, target objects interact with one another and the environment. Such interactions, when considered for tracking, are usually modeled by an interactive motion model which is application specific. In this paper, we present a novel approach to incorporate target interactions within the prediction step of an RFS-based multi-target filter, i.e. labeled multi-Bernoulli (LMB) filter. The method has been developed for two practical applications of tracking a coordinated swarm and vehicles. The method has been tested for a complex vehicle tracking dataset and compared with the LMB filter through the OSPA and OSPA$^{(2)}$ metrics. The results demonstrate that the proposed interaction-aware method depicts considerable performance enhancement over the LMB filter in terms of the selected metrics.
翻訳日:2022-04-20 14:43:35 公開日:2022-04-19
# 半教師付き・正ラベル学習を組み込んだフルリファレンス画像品質評価

Incorporating Semi-Supervised and Positive-Unlabeled Learning for Boosting Full Reference Image Quality Assessment ( http://arxiv.org/abs/2204.08763v1 )

ライセンス: Link先を確認
Yue Cao and Zhaolin Wan and Dongwei Ren and Zifei Yan and Wangmeng Zuo(参考訳) フル参照(FR)画像品質評価(IQA)は、その知覚的差異をプリズム品質基準と測定することで、歪み画像の視覚的品質を評価し、低レベルの視覚タスクで広く利用されている。 FR-IQAモデルのトレーニングには平均評価スコア(MOS)を持つペアワイズラベル付きデータが必要であるが、収集には時間を要する。 対照的に、ラベルなしデータは画像劣化または復元プロセスから容易に収集することができ、ラベルなしのトレーニングデータを利用してFR-IQA性能を向上させることが奨励される。 さらに、ラベル付きデータとラベルなしデータとの分散不整合により、ラベルなしデータにアウトレーヤが発生する可能性があり、トレーニングの困難が増す。 本稿では,ラベルなしデータの活用に半教師なし,正ラベルなし(pu)学習を取り入れ,異常値の悪影響を緩和する。 特に、ラベル付きデータを正のサンプルとして扱うことにより、PU学習を利用してラベルなしデータから負のサンプル(すなわち、外れ値)を識別する。 さらに、擬似MOSを動的に生成することにより、正のラベル付きデータを活用できるように半教師付き学習(SSL)が展開される。 参照および歪み分岐を含むデュアルブランチネットワークを採用する。 さらに、参照ブランチに空間的注意を導入し、より情報領域に集中し、ganモデルによって回収された画像による不一致問題に対処するためのロバストな差分マップ計算にスライスワッサースタイン距離を用いる。 本手法は,PIPAL,KADID-10k,TID2013,LIVE,CSIQのベンチマークデータセット上で,最先端技術に対して良好に動作することを示す。

Full-reference (FR) image quality assessment (IQA) evaluates the visual quality of a distorted image by measuring its perceptual difference with pristine-quality reference, and has been widely used in low-level vision tasks. Pairwise labeled data with mean opinion score (MOS) are required in training FR-IQA model, but is time-consuming and cumbersome to collect. In contrast, unlabeled data can be easily collected from an image degradation or restoration process, making it encouraging to exploit unlabeled training data to boost FR-IQA performance. Moreover, due to the distribution inconsistency between labeled and unlabeled data, outliers may occur in unlabeled data, further increasing the training difficulty. In this paper, we suggest to incorporate semi-supervised and positive-unlabeled (PU) learning for exploiting unlabeled data while mitigating the adverse effect of outliers. Particularly, by treating all labeled data as positive samples, PU learning is leveraged to identify negative samples (i.e., outliers) from unlabeled data. Semi-supervised learning (SSL) is further deployed to exploit positive unlabeled data by dynamically generating pseudo-MOS. We adopt a dual-branch network including reference and distortion branches. Furthermore, spatial attention is introduced in the reference branch to concentrate more on the informative regions, and sliced Wasserstein distance is used for robust difference map computation to address the misalignment issues caused by images recovered by GAN models. Extensive experiments show that our method performs favorably against state-of-the-arts on the benchmark datasets PIPAL, KADID-10k, TID2013, LIVE and CSIQ.
翻訳日:2022-04-20 14:43:22 公開日:2022-04-19
# uid2021: 非参照品質評価指標評価のための水中画像データセット

UID2021: An Underwater Image Dataset for Evaluation of No-reference Quality Assessment Metrics ( http://arxiv.org/abs/2204.08813v1 )

ライセンス: Link先を確認
Guojia Hou, Yuxuan Li, Huan Yang, Kunqian Li, Zhenkuan Pan(参考訳) 水中画像の主観的・客観的品質評価は、水中視覚知覚と画像/映像処理において重要である。 しかし, 水中画像品質評価(UIQA)の開発は, 一般公開データセットと信頼性の高い客観的UIQA測定値による包括的人間主観的ユーザスタディの欠如によって制限されている。 この問題に対処するため,我々は,非参照uiqaメトリクスを評価するための大規模水中画像データセット uid2021 を構築した。 6つの一般的な水中シーン(青みがかったシーン、青みがかった緑のシーン、緑がかったシーン、ぼろぼろのシーン、暗いシーン、濁ったシーン)をカバーする、さまざまなソースから収集された60の分解された水中イメージと、それに対応する900のクオリティ改善バージョンが15の最先端水中画像拡張および復元アルゴリズムを使用して生成されている。 UID2021の平均世論スコア(MOS)も52人の観測者に対してペア比較ソート法を用いて得られる。 大気中のNR-IQAと水中固有のアルゴリズムの両方を、構築したデータセット上でテストし、性能を正確に比較し、その強度と弱点を分析する。 提案したUID2021データセットにより、NR UIQAアルゴリズムを包括的に評価し、UIQAのさらなる研究の道を開くことができる。 uid2021は無償でダウンロードされ、研究目的に利用されます。

Achieving subjective and objective quality assessment of underwater images is of high significance in underwater visual perception and image/video processing. However, the development of underwater image quality assessment (UIQA) is limited for the lack of comprehensive human subjective user study with publicly available dataset and reliable objective UIQA metric. To address this issue, we establish a large-scale underwater image dataset, dubbed UID2021, for evaluating no-reference UIQA metrics. The constructed dataset contains 60 multiply degraded underwater images collected from various sources, covering six common underwater scenes (i.e. bluish scene, bluish-green scene, greenish scene, hazy scene, low-light scene, and turbid scene), and their corresponding 900 quality improved versions generated by employing fifteen state-of-the-art underwater image enhancement and restoration algorithms. Mean opinion scores (MOS) for UID2021 are also obtained by using the pair comparison sorting method with 52 observers. Both in-air NR-IQA and underwater-specific algorithms are tested on our constructed dataset to fairly compare the performance and analyze their strengths and weaknesses. Our proposed UID2021 dataset enables ones to evaluate NR UIQA algorithms comprehensively and paves the way for further research on UIQA. Our UID2021 will be a free download and utilized for research purposes at: https://github.com/Hou-Guojia/UID2021.
翻訳日:2022-04-20 14:42:54 公開日:2022-04-19
# 静的解析規則の例に基づく合成

Example-based Synthesis of Static Analysis Rules ( http://arxiv.org/abs/2204.08643v1 )

ライセンス: Link先を確認
Pranav Garg and Srinivasan Sengamedu SHS(参考訳) 静的解析ツールはいくつかのコード品質の問題に対してルールを持ち、これらのルールは専門家が手動で作成する。 本稿では,サンプルからコード品質ルールを自動合成する問題に対処する。 ルール合成問題を,コードのグラフ表現上の一階述語論理式を合成するものとして定式化する。 本稿では,整数線形計画に基づくグラフアライメントに基づく新しい合成アルゴリズムrhosynthを提案する。 rhosynthをブートストラップして、開発者のコード変更をポジティブな例とネガティブな例のソースとして活用します。 また、ルールを段階的に改善するルール改善についても、ユーザが提供する追加例で対処する。 RhoSynthは30以上のJavaコード品質ルールを合成することで検証します。 これらのルールは、企業のコードレビューシステムの一部としてデプロイされ、その精度は、ライブコードレビュー中に収集された開発者フィードバックに基づいて75%を超えている。 近年のベースラインとの比較により,現状のプログラム合成手法ではこれらの規則のほとんどを合成できないことを示す。

Static Analysis tools have rules for several code quality issues and these rules are created by experts manually. In this paper, we address the problem of automatic synthesis of code quality rules from examples. We formulate the rule synthesis problem as synthesizing first order logic formulas over graph representations of code. We present a new synthesis algorithm RhoSynth that is based on Integer Linear Programming-based graph alignment for identifying code elements of interest to the rule. We bootstrap RhoSynth by leveraging code changes made by developers as the source of positive and negative examples. We also address rule refinement in which the rules are incrementally improved with additional user-provided examples. We validate RhoSynth by synthesizing more than 30 Java code quality rules. These rules have been deployed as part of a code review system in a company and their precision exceeds 75% based on developer feedback collected during live code-reviews. Through comparisons with recent baselines, we show that current state-of-the-art program synthesis approaches are unable to synthesize most of these rules.
翻訳日:2022-04-20 14:42:25 公開日:2022-04-19
# (参考訳) Odia Shallow Parser の構築

Building Odia Shallow Parser ( http://arxiv.org/abs/2204.08960v1 )

ライセンス: CC BY 4.0
Pruthwik Mishra and Dipti Misra Sharma(参考訳) 浅い解析は、機械翻訳、要約、感情分析、アスペクト識別など多くのnlpアプリケーションにとって不可欠なタスクである。 品質アノテートコーパスは、正確な浅いパーサーを構築するために重要である。 多くのインドの言語は、コーパスの一般提供に関して資源が乏しい。 そこで本稿は,浅いパーサのための品質コーパスを作成する試みである。 本論文の貢献は,odiaのためのposとchunk annotated corporaの作成と,odiaにおけるposタグとチャンキングのためのベースラインシステムの開発の2つである。

Shallow parsing is an essential task for many NLP applications like machine translation, summarization, sentiment analysis, aspect identification and many more. Quality annotated corpora is critical for building accurate shallow parsers. Many Indian languages are resource poor with respect to the availability of corpora in general. So, this paper is an attempt towards creating quality corpora for shallow parsers. The contribution of this paper is two folds: creation pos and chunk annotated corpora for Odia and development of baseline systems for pos tagging and chunking in Odia.
翻訳日:2022-04-20 14:41:30 公開日:2022-04-19
# ヤコビアン・アンサンブル、敵の攻撃に対するロバスト性取引を改善

Jacobian Ensembles Improve Robustness Trade-offs to Adversarial Attacks ( http://arxiv.org/abs/2204.08726v1 )

ライセンス: Link先を確認
Kenneth T. Co, David Martinez-Rego, Zhongyuan Hau, Emil C. Lupu(参考訳) ディープニューラルネットワークは、ソフトウェアインフラストラクチャの不可欠な部分となり、多くの広く使用され、安全クリティカルなアプリケーションにデプロイされています。 しかし、それらの多くのシステムへの統合は、universal adversarial perturbations(uaps)という形でタイムアタックをテストする脆弱性をもたらす。 UAPは、任意の入力に適用するとモデルの誤分類を引き起こす摂動のクラスである。 これらの敵攻撃に対してモデルを守る努力が進行中であるが、モデル精度と敵攻撃に対する堅牢性においてトレードオフを和解することはしばしば困難である。 ヤコビアン正規化は UAP に対するモデルの堅牢性を改善することが示され、一方モデルアンサンブルは予測性能とモデルロバスト性の両方を改善するために広く採用されている。 本稿では,ジャコビアンアンアンサンブル(ジャコビアン正則化とモデルアンサンブルの組み合わせ)を用いて,モデル精度を維持しつつ,uapsに対するロバスト性を大幅に向上させる手法を提案する。 その結果,ヤコビアンサンブルは従来認識されていなかった精度とロバスト性を達成し,精度とロバスト性の両方に偏りやすい従来の手法を大きく改善した。

Deep neural networks have become an integral part of our software infrastructure and are being deployed in many widely-used and safety-critical applications. However, their integration into many systems also brings with it the vulnerability to test time attacks in the form of Universal Adversarial Perturbations (UAPs). UAPs are a class of perturbations that when applied to any input causes model misclassification. Although there is an ongoing effort to defend models against these adversarial attacks, it is often difficult to reconcile the trade-offs in model accuracy and robustness to adversarial attacks. Jacobian regularization has been shown to improve the robustness of models against UAPs, whilst model ensembles have been widely adopted to improve both predictive performance and model robustness. In this work, we propose a novel approach, Jacobian Ensembles-a combination of Jacobian regularization and model ensembles to significantly increase the robustness against UAPs whilst maintaining or improving model accuracy. Our results show that Jacobian Ensembles achieves previously unseen levels of accuracy and robustness, greatly improving over previous methods that tend to skew towards only either accuracy or robustness.
翻訳日:2022-04-20 14:36:18 公開日:2022-04-19
# 拡散型ハイパースペクトル画像クラスタリングによるアッシュダイバック病(Hymenoscyphus fraxineus)の無監督検出

Unsupervised detection of ash dieback disease (Hymenoscyphus fraxineus) using diffusion-based hyperspectral image clustering ( http://arxiv.org/abs/2204.09041v1 )

ライセンス: Link先を確認
Sam L. Polk, Aland H. Y. Chan, Kangning Cui, Robert J. Plemmons, David A. Coomes, and James M. Murphy(参考訳) アッシュダイバック(Hymenoscyphus fraxineus)は、ヨーロッパ各地のアッシュの木が広く枯死している真菌病である。 リモートセンシングハイパースペクトラル画像は,教師付き機械学習技術を用いて,アッシュツリーのダイバック病の検出に利用されているリッチな構造を符号化する。 しかし、景観規模で森林の健康状態を理解するためには、正確な教師なしアプローチが必要である。 本稿では,英国ケンブリッジ近郊の森林地帯におけるアッシュダイバック病の検出に,教師なし拡散とVCA支援イメージセグメンテーション(D-VIS)クラスタリングアルゴリズムを用いて検討する。 この研究で提示された教師なしクラスタリングは、このシーンにおける以前の作業の教師なし分類と重なり合う(全精度=71%)。 したがって、教師なし学習は、専門家のラベル付けを必要とせずに、アッシュダイバック病のリモート検出に使用できる。

Ash dieback (Hymenoscyphus fraxineus) is an introduced fungal disease that is causing the widespread death of ash trees across Europe. Remote sensing hyperspectral images encode rich structure that has been exploited for the detection of dieback disease in ash trees using supervised machine learning techniques. However, to understand the state of forest health at landscape-scale, accurate unsupervised approaches are needed. This article investigates the use of the unsupervised Diffusion and VCA-Assisted Image Segmentation (D-VIS) clustering algorithm for the detection of ash dieback disease in a forest site near Cambridge, United Kingdom. The unsupervised clustering presented in this work has high overlap with the supervised classification of previous work on this scene (overall accuracy = 71%). Thus, unsupervised learning may be used for the remote detection of ash dieback disease without the need for expert labeling.
翻訳日:2022-04-20 14:35:55 公開日:2022-04-19
# DecBERT: 因果注意マスクによるBERTの言語理解の促進

DecBERT: Enhancing the Language Understanding of BERT with Causal Attention Masks ( http://arxiv.org/abs/2204.08688v1 )

ライセンス: Link先を確認
Ziyang Luo, Yadong Xi, Jing Ma, Zhiwei Yang, Xiaoxi Mao, Changjie Fan, Rongsheng Zhang(参考訳) 2017年以降、トランスフォーマーベースのモデルは、下流の様々な自然言語処理タスクにおいて重要な役割を果たす。 しかし、トランスコーダで使用されるアテンション機構の一般的な制限は、自動的に単語順の情報をキャプチャできないことである。 対照的に、因果注意マスク付きトランスフォーマーデコーダは、単語の順序に自然に敏感である。 本研究では,因果注意マスクを用いたBERTの位置符号化能力の向上に焦点をあてる。 さらに,事前学習型言語モデルDecBERTを提案し,GLUEベンチマークで評価する。 実験の結果,(1)因果注意マスクが言語理解タスクにおいてBERTに有効であること,(2)位置埋め込みのないDecBERTモデルがGLUEベンチマークで同等の性能を発揮すること,(3)修正によって事前学習プロセスが加速すること,およびDecBERT w/PEが,同じ量の計算資源で事前学習する際のベースラインシステムよりも全体的な性能が向上すること,などが示されている。

Since 2017, the Transformer-based models play critical roles in various downstream Natural Language Processing tasks. However, a common limitation of the attention mechanism utilized in Transformer Encoder is that it cannot automatically capture the information of word order, so explicit position embeddings are generally required to be fed into the target model. In contrast, Transformer Decoder with the causal attention masks is naturally sensitive to the word order. In this work, we focus on improving the position encoding ability of BERT with the causal attention masks. Furthermore, we propose a new pre-trained language model DecBERT and evaluate it on the GLUE benchmark. Experimental results show that (1) the causal attention mask is effective for BERT on the language understanding tasks; (2) our DecBERT model without position embeddings achieve comparable performance on the GLUE benchmark; and (3) our modification accelerates the pre-training process and DecBERT w/ PE achieves better overall performance than the baseline systems when pre-training with the same amount of computational resources.
翻訳日:2022-04-20 14:35:39 公開日:2022-04-19
# 二重ラウンドトリップ翻訳による意味保存以上の正反対例の生成

Generating Authentic Adversarial Examples beyond Meaning-preserving with Doubly Round-trip Translation ( http://arxiv.org/abs/2204.08689v1 )

ライセンス: Link先を確認
Siyu Lai, Zhen Yang, Fandong Meng, Xue Zhang, Yufeng Chen, Jinan Xu and Jie Zhou(参考訳) 単一ラウンドトリップ翻訳 (RTT) を用いたニューラルネットワーク翻訳 (NMT) の逆例の生成は, 意味保存制限を解放することで, 有望な結果を得た。 しかし,RTTによる復元誤差が関係しているため,生成した実例が対象NMTモデルに逆らっているか,あるいは補助的後進モデルに逆らっているかは決定できない可能性がある。 この問題を解決するために,Douubly Round-Trip Translation (DRTT) に基づくNMT対逆例の新しい基準を提案する。 具体的には、ソースターゲットのrttとは別に、ターゲットのnmtモデルの真逆の例を選択するために使用されるターゲットターゲットのターゲットも考慮します。 さらに,NMTモデルのロバスト性を高めるため,NMTモデルを直接訓練するために使用されるDRTTに基づくバイリンガル対を構築するために,マスク付き言語モデルを導入する。 クリーンおよびノイズテストセット(人工および自然騒音を含む)における広範囲な実験により,nmtモデルのロバスト性が大幅に向上した。

Generating adversarial examples for Neural Machine Translation (NMT) with single Round-Trip Translation (RTT) has achieved promising results by releasing the meaning-preserving restriction. However, a potential pitfall for this approach is that we cannot decide whether the generated examples are adversarial to the target NMT model or the auxiliary backward one, as the reconstruction error through the RTT can be related to either. To remedy this problem, we propose a new criterion for NMT adversarial examples based on the Doubly Round-Trip Translation (DRTT). Specifically, apart from the source-target-source RTT, we also consider the target-source-target one, which is utilized to pick out the authentic adversarial examples for the target NMT model. Additionally, to enhance the robustness of the NMT model, we introduce the masked language models to construct bilingual adversarial pairs based on DRTT, which are used to train the NMT model directly. Extensive experiments on both the clean and noisy test sets (including the artificial and natural noise) show that our approach substantially improves the robustness of NMT models.
翻訳日:2022-04-20 14:35:18 公開日:2022-04-19
# 文法的数の利用に関する調査

Probing for the Usage of Grammatical Number ( http://arxiv.org/abs/2204.08831v1 )

ライセンス: Link先を確認
Karim Lasri, Tiago Pimentel, Alessandro Lenci, Thierry Poibeau, Ryan Cotterell(参考訳) 探究の中心的な探求は、事前訓練されたモデルがその表現の中で言語特性をエンコードする方法を明らかにすることである。 しかし、エンコーディングは、予測を行う際に、モデルがそれに依存しない可能性がある。 本稿では、モデルが実際に使用しているエンコーディングを見つけ、使用法に基づく探索設定を導入する。 まず,言語特性を用いずには解決できない行動課題を選択する。 そして、モデルの表現を介入することで、プロパティを除去しようとします。 我々は、エンコーディングがモデルによって使用される場合、その削除が選択された動作タスクのパフォーマンスに影響を及ぼすと論じる。 ケーススタディでは,BERTが文法的数値をエンコードする方法と,このエンコーディングを用いて数値合意課題を解決する方法に焦点をあてる。 実験により,BERTは文法的な数値を線形に符号化して正しい振舞いの出力を生成する。 また、BERTは名詞と動詞の文法的な数値を別々に符号化している。 最後に,文法的数に関する情報が名詞から頭動詞に伝達される層を同定する。

A central quest of probing is to uncover how pre-trained models encode a linguistic property within their representations. An encoding, however, might be spurious-i.e., the model might not rely on it when making predictions. In this paper, we try to find encodings that the model actually uses, introducing a usage-based probing setup. We first choose a behavioral task which cannot be solved without using the linguistic property. Then, we attempt to remove the property by intervening on the model's representations. We contend that, if an encoding is used by the model, its removal should harm the performance on the chosen behavioral task. As a case study, we focus on how BERT encodes grammatical number, and on how it uses this encoding to solve the number agreement task. Experimentally, we find that BERT relies on a linear encoding of grammatical number to produce the correct behavioral output. We also find that BERT uses a separate encoding of grammatical number for nouns and verbs. Finally, we identify in which layers information about grammatical number is transferred from a noun to its head verb.
翻訳日:2022-04-20 14:34:55 公開日:2022-04-19
# トークン化が言語モデルに及ぼす影響:トルコ語の分析

Impact of Tokenization on Language Models: An Analysis for Turkish ( http://arxiv.org/abs/2204.08832v1 )

ライセンス: Link先を確認
Cagri Toraman, Eyup Halit Yilmaz, Furkan \c{S}ahinu\c{c}, Oguzhan Ozcelik(参考訳) トークン化は、深層言語モデルの入力トークンを作成するための重要なテキスト前処理ステップである。 WordPieceとBPEは、BERTやGPTといった重要なモデルで使われているデファクトメソッドである。 しかし、接頭辞や接尾辞を追加することで多くの単語を生成するテュルク語のような形態学的に豊かな言語では、トークン化の影響が異なる可能性がある。 異なる粒度レベルの5つのトークン化器を比較する。すなわち、その出力は最小の文字から形態レベルのトークン化器を含む単語の表面形まで様々である。 我々は、トルコのOSCARコーパス分割におけるRoBERTa事前訓練手順を用いて、これらのトークン化器および事前訓練中規模言語モデルを訓練する。 次に6つのダウンストリームタスクでモデルを微調整します。 統計的実験により, モルフォロジーレベルのトークン化器は, 事実上のトークン化器で高い性能を示した。 さらに,語彙サイズを増大させることで,デファクトトークン化よりも形態素およびワードレベルのトークン化器の性能が向上することがわかった。 モデルパラメータの総数に対する語彙パラメータの比率は、デファクト・トークンーザの20%、他のトークンーザの40%として経験的に選択され、モデルサイズと性能の間の合理的なトレードオフが得られる。

Tokenization is an important text preprocessing step to prepare input tokens for deep language models. WordPiece and BPE are de facto methods employed by important models, such as BERT and GPT. However, the impact of tokenization can be different for morphologically rich languages, such as Turkic languages, where many words can be generated by adding prefixes and suffixes. We compare five tokenizers at different granularity levels, i.e. their outputs vary from smallest pieces of characters to the surface form of words, including a Morphological-level tokenizer. We train these tokenizers and pretrain medium-sized language models using RoBERTa pretraining procedure on the Turkish split of the OSCAR corpus. We then fine-tune our models on six downstream tasks. Our experiments, supported by statistical tests, reveal that Morphological-level tokenizer has challenging performance with de facto tokenizers. Furthermore, we find that increasing the vocabulary size improves the performance of Morphological and Word-level tokenizers more than that of de facto tokenizers. The ratio of the number of vocabulary parameters to the total number of model parameters can be empirically chosen as 20% for de facto tokenizers and 40% for other tokenizers to obtain a reasonable trade-off between model size and performance.
翻訳日:2022-04-20 14:34:36 公開日:2022-04-19
# テキストの形式性の検出:テキスト分類手法の検討

Detecting Text Formality: A Study of Text Classification Approaches ( http://arxiv.org/abs/2204.08975v1 )

ライセンス: Link先を確認
Daryna Dementieva, Ivan Trifinov, Andrey Likhachev and Alexander Panchenko(参考訳) 文書の形式性は重要な特徴である。 テキストの形式性レベルの自動検出は、所望の形式性レベルを持つテキストの検索、言語学習と文書編集プラットフォームの統合、チャットボットによる所望の会話トーンの評価など、さまざまな自然言語処理タスクにおいて有益である。 最近、フォーマルなアノテーションを備えた複数の言語向けに、2つの大規模データセットが導入された。 しかし、主にスタイルトランスファーモデルのトレーニングに使用された。 しかし、それ自身で検出テキストの形式性は有用な応用であるかもしれない。 本研究は,現在(かつより古典的)な機械学習手法に基づく形式性検出法に関する最初の体系的研究を行い,公開利用に最適なモデルを提供する。 単言語,多言語,言語横断の3種類の実験を行った。 本研究は, 形式分類タスクにおいて, トランスフォーマーモデルよりもBiLSTMモデルの方が優れていることを示す。 我々は,複数の言語を対象とした形式性検出モデルをリリースし,言語横断能力の検証を行った。

Formality is an important characteristic of text documents. The automatic detection of the formality level of a text is potentially beneficial for various natural language processing tasks, such as retrieval of texts with a desired formality level, integration in language learning and document editing platforms, or evaluating the desired conversation tone by chatbots. Recently two large-scale datasets were introduced for multiple languages featuring formality annotation. However, they were primarily used for the training of style transfer models. However, detection text formality on its own may also be a useful application. This work proposes the first systematic study of formality detection methods based on current (and more classic) machine learning methods and delivers the best-performing models for public usage. We conducted three types of experiments -- monolingual, multilingual, and cross-lingual. The study shows the overcome of BiLSTM-based models over transformer-based ones for the formality classification task. We release formality detection models for several languages yielding state of the art results and possessing tested cross-lingual capabilities.
翻訳日:2022-04-20 14:32:59 公開日:2022-04-19
# 自動医療相談システムのためのベンチマーク:フレームワーク,タスク,データセット

A Benchmark for Automatic Medical Consultation System: Frameworks, Tasks and Datasets ( http://arxiv.org/abs/2204.08997v1 )

ライセンス: Link先を確認
Wei Chen, Zhiwei Li, Hongyi Fang, Qianyuan Yao, Cheng Zhong, Jianye Hao, Qi Zhang, Xuanjing Huang, J iajie Peng, Zhongyu Wei(参考訳) 近年,機械学習による医療相談の効率化や患者体験の向上への関心が高まっている。 本稿では,医師と患者の対話理解とタスク指向インタラクションという,医療相談の自動化を支援する2つの枠組みを提案する。 マルチレベルな微粒なアノテーションを持つ新しい医療対話データセットを導入し、名前付きエンティティ認識、対話行為分類、症状ラベル推論、医療報告生成、診断指向対話ポリシーを含む5つの独立したタスクを確立する。 各タスクに対するベンチマーク結果のセットを報告し,データセットのユーザビリティを示し,今後の研究のベースラインを設定する。

In recent years, interest has arisen in using machine learning to improve the efficiency of automatic medical consultation and enhance patient experience. In this paper, we propose two frameworks to support automatic medical consultation, namely doctor-patient dialogue understanding and task-oriented interaction. A new large medical dialogue dataset with multi-level fine-grained annotations is introduced and five independent tasks are established, including named entity recognition, dialogue act classification, symptom label inference, medical report generation and diagnosis-oriented dialogue policy. We report a set of benchmark results for each task, which shows the usability of the dataset and sets a baseline for future studies.
翻訳日:2022-04-20 14:32:44 公開日:2022-04-19
# メタモルフィックテストに基づくディープフェイク検知器の逆襲

Metamorphic Testing-based Adversarial Attack to Fool Deepfake Detectors ( http://arxiv.org/abs/2204.08612v1 )

ライセンス: Link先を確認
Nyee Thoang Lim, Meng Yi Kuan, Muxin Pu, Mei Kuan Lim, Chun Yong Chong(参考訳) Deepfakesは人工知能(AI)技術を利用して、ある人の類似性を別の人に置き換える合成メディアを作成する。 ディープフェイクは誤解を招き、有害なデジタルコンテンツを作成するために悪用されるのではないかという懸念が高まっている。 ディープフェイクが一般的になるにつれて、ディープフェイク検出技術はディープフェイクメディアを見つけるのに役立つ。 現在のディープフェイク検出モデルは、優れた精度(>90%)を達成することができる。 しかし、そのほとんどは、トレーニングとテストに同じデータセットを使用するデータセット内シナリオに限られている。 ほとんどのモデルは、他のソースから見えないデータセットでモデルをテストする、クロスデータセットシナリオでは十分に一般化しない。 さらに、最先端のディープフェイク検出モデルは、敵の攻撃に弱いことが知られているニューラルネットワークベースの分類モデルに依存している。 本研究は,ロバストなディープフェイク検出モデルの必要性から,メタモルフィックテスト(MT)の原則を適用し,この領域におけるテストオラクル問題を克服しつつ,検査モデルのロバスト性に影響を与える可能性のある因子を特定する。 メタモルフィックテストは、潜在的に大きな入力ドメインに基づいて、主にブラックボックスコンポーネントの確率的結果による学習ベースのシステムテストに適合するテスト手法として、特に選択される。 本研究では,最先端のディープフェイク検出モデルであるmesoinception-4とtwostreamnetについて評価を行った。 この研究は、メイクアップはディープフェイク検知器を騙す敵の攻撃であると特定した。 実験の結果,mesoinception-4モデルと2streamnetモデルの両方が,入力データがメークアップで摂動した場合,最大で30-%低下することがわかった。

Deepfakes utilise Artificial Intelligence (AI) techniques to create synthetic media where the likeness of one person is replaced with another. There are growing concerns that deepfakes can be maliciously used to create misleading and harmful digital contents. As deepfakes become more common, there is a dire need for deepfake detection technology to help spot deepfake media. Present deepfake detection models are able to achieve outstanding accuracy (>90%). However, most of them are limited to within-dataset scenario, where the same dataset is used for training and testing. Most models do not generalise well enough in cross-dataset scenario, where models are tested on unseen datasets from another source. Furthermore, state-of-the-art deepfake detection models rely on neural network-based classification models that are known to be vulnerable to adversarial attacks. Motivated by the need for a robust deepfake detection model, this study adapts metamorphic testing (MT) principles to help identify potential factors that could influence the robustness of the examined model, while overcoming the test oracle problem in this domain. Metamorphic testing is specifically chosen as the testing technique as it fits our demand to address learning-based system testing with probabilistic outcomes from largely black-box components, based on potentially large input domains. We performed our evaluations on MesoInception-4 and TwoStreamNet models, which are the state-of-the-art deepfake detection models. This study identified makeup application as an adversarial attack that could fool deepfake detectors. Our experimental results demonstrate that both the MesoInception-4 and TwoStreamNet models degrade in their performance by up to 30\% when the input data is perturbed with makeup.
翻訳日:2022-04-20 14:30:22 公開日:2022-04-19
# キーポイント検出のための自己教師付き同変学習

Self-Supervised Equivariant Learning for Oriented Keypoint Detection ( http://arxiv.org/abs/2204.08613v1 )

ライセンス: Link先を確認
Jongmin Lee, Byungjin Kim, Minsu Cho(参考訳) 画像からロバストなキーポイントを検出することは、多くのコンピュータビジョン問題の不可欠な部分であり、キーポイントの特徴的方向とスケールはキーポイントの記述とマッチングに重要な役割を果たしている。 既存の学習に基づくキーポイント検出法は標準的な翻訳等価CNNに依存しているが、幾何学的変動に対して信頼性の高いキーポイントを検出できないことが多い。 ロバスト指向のキーポイントを検出するために,回転同値cnnを用いた自己教師付き学習フレームワークを提案する。 ヒストグラムに基づく方位マップを訓練するために,合成変換により生成する画像対による密度方向配向損失を提案する。 本手法は,画像マッチングベンチマークおよびカメラポーズ推定ベンチマークにおいて,従来の手法を上回っている。

Detecting robust keypoints from an image is an integral part of many computer vision problems, and the characteristic orientation and scale of keypoints play an important role for keypoint description and matching. Existing learning-based methods for keypoint detection rely on standard translation-equivariant CNNs but often fail to detect reliable keypoints against geometric variations. To learn to detect robust oriented keypoints, we introduce a self-supervised learning framework using rotation-equivariant CNNs. We propose a dense orientation alignment loss by an image pair generated by synthetic transformations for training a histogram-based orientation map. Our method outperforms the previous methods on an image matching benchmark and a camera pose estimation benchmark.
翻訳日:2022-04-20 14:29:54 公開日:2022-04-19
# ActAR:ビデオアクション認識のためのアクター駆動型ポーズ埋め込み

ActAR: Actor-Driven Pose Embeddings for Video Action Recognition ( http://arxiv.org/abs/2204.08671v1 )

ライセンス: Link先を確認
Soufiane Lamghari, Guillaume-Alexandre Bilodeau, Nicolas Saunier(参考訳) ビデオにおけるヒューマンアクション認識(HAR)は、ビデオ理解のコアタスクの1つである。 ビデオシーケンスに基づいて、人間の行動を認識することが目的である。 harは可視スペクトルで多くの注目を集めているが、赤外線ビデオでのアクション認識はほとんど研究されていない。 赤外領域における人間の行動の正確な認識は、配列に存在する冗長で識別不能なテクスチャの特徴のため、非常に難しい課題である。 さらに、実際の関心行動に寄与しない複数のアクティブな人物の存在によって引き起こされる無関係な情報から課題が生じる場合もある。 したがって、既存の手法の多くは、これらの課題を考慮しない標準パラダイムを考慮に入れており、これは一部のケースでは認識タスクの曖昧な定義のためである。 本稿では,従来の知識や明示的なアノテーションを使わずに行動を行うキーアクタを自動的に識別しながら,赤外線スペクトルにおける人間の行動の効率的な認識を同時に行う手法を提案する。 我々の方法は3つの段階で構成されている。 第1段階では、光フローベースのキーアクタ識別を行う。 そして、各キーアクタについて、フレーム選択プロセスを導くキー候補を推定する。 アクション表現の質を高めるために、埋め込みポーズフィルタリングと共にスケール不変符号化処理を行う。 infarデータセットにおける実験結果は,提案モデルが有望な認識性能を達成し,有用な動作表現を学習することを示す。

Human action recognition (HAR) in videos is one of the core tasks of video understanding. Based on video sequences, the goal is to recognize actions performed by humans. While HAR has received much attention in the visible spectrum, action recognition in infrared videos is little studied. Accurate recognition of human actions in the infrared domain is a highly challenging task because of the redundant and indistinguishable texture features present in the sequence. Furthermore, in some cases, challenges arise from the irrelevant information induced by the presence of multiple active persons not contributing to the actual action of interest. Therefore, most existing methods consider a standard paradigm that does not take into account these challenges, which is in some part due to the ambiguous definition of the recognition task in some cases. In this paper, we propose a new method that simultaneously learns to recognize efficiently human actions in the infrared spectrum, while automatically identifying the key-actors performing the action without using any prior knowledge or explicit annotations. Our method is composed of three stages. In the first stage, optical flow-based key-actor identification is performed. Then for each key-actor, we estimate key-poses that will guide the frame selection process. A scale-invariant encoding process along with embedded pose filtering are performed in order to enhance the quality of action representations. Experimental results on InfAR dataset show that our proposed model achieves promising recognition performance and learns useful action representations.
翻訳日:2022-04-20 14:29:43 公開日:2022-04-19
# すべてのトークンが同じではない:Token Clustering Transformerによる人間中心のビジュアル分析

Not All Tokens Are Equal: Human-centric Visual Analysis via Token Clustering Transformer ( http://arxiv.org/abs/2204.08680v1 )

ライセンス: Link先を確認
Wang Zeng, Sheng Jin, Wentao Liu, Chen Qian, Ping Luo, Ouyang Wanli, and Xiaogang Wang(参考訳) ビジョントランスフォーマーは多くのコンピュータビジョンタスクで大きな成功を収めた。 ほとんどの方法は、画像を正規および固定されたグリッドに分割し、各セルをトークンとして扱うことで視覚トークンを生成する。 しかし、全ての領域が人間中心の視覚タスクにおいて等しく重要であるわけではない。例えば、人間の体は多くのトークンを持つ微妙な表現を必要とするが、画像背景はいくつかのトークンでモデル化できる。 そこで本研究では,トークンをフレキシブルな形状と大きさの異なる場所からマージ可能な,プログレッシブクラスタリングによってトークンをマージする,Token Clustering Transformer (TCFormer) という新しいビジョントランスフォーマーを提案する。 tcformerのトークンは重要な領域に焦点を合わせるだけでなく、意味概念に合うようにトークン形状を調整したり、重要な詳細情報を含む領域に対して詳細な解決を行うことができる。 大規模な実験によると、TCFormerは、COCO-WholeBodyの全身ポーズ推定や3DPWの3Dヒューマンメッシュ再構築など、さまざまな挑戦的な人間中心のタスクやデータセットにおいて、一貫してその成果を上げている。 コードはhttps://github.com/ zengwang430521/TCFormer.gitで入手できる。

Vision transformers have achieved great successes in many computer vision tasks. Most methods generate vision tokens by splitting an image into a regular and fixed grid and treating each cell as a token. However, not all regions are equally important in human-centric vision tasks, e.g., the human body needs a fine representation with many tokens, while the image background can be modeled by a few tokens. To address this problem, we propose a novel Vision Transformer, called Token Clustering Transformer (TCFormer), which merges tokens by progressive clustering, where the tokens can be merged from different locations with flexible shapes and sizes. The tokens in TCFormer can not only focus on important areas but also adjust the token shapes to fit the semantic concept and adopt a fine resolution for regions containing critical details, which is beneficial to capturing detailed information. Extensive experiments show that TCFormer consistently outperforms its counterparts on different challenging human-centric tasks and datasets, including whole-body pose estimation on COCO-WholeBody and 3D human mesh reconstruction on 3DPW. Code is available at https://github.com/ zengwang430521/TCFormer.git.
翻訳日:2022-04-20 14:29:25 公開日:2022-04-19
# CTCNet:顔画像超解像のためのCNN変換器協調ネットワーク

CTCNet: A CNN-Transformer Cooperation Network for Face Image Super-Resolution ( http://arxiv.org/abs/2204.08696v1 )

ライセンス: Link先を確認
Guangwei Gao, Zixiang Xu, Juncheng Li, Jian Yang, Tieyong Zeng and Guo-Jun Qi(参考訳) 近年, 深部畳み込みニューラルネットワーク (CNN) による顔の超解像法は, 顔面前兆との協調訓練により, 顔の劣化を回復する大きな進歩を遂げている。 しかし、これらの方法には明らかな制限がある。 一方、マルチタスク共同学習ではデータセットに付加的なマーキングが必要であり、導入された事前ネットワークはモデルの計算コストを大幅に増加させる。 一方、CNNの受容野の制限により、再構成された顔画像の忠実度や自然性が低下し、最適下再構成画像が得られる。 本研究では,マルチスケール接続型エンコーダデコーダアーキテクチャをバックボーンとして用いた,顔超解像タスクのための効率的なCNN-Transformer Cooperation Network (CTCNet)を提案する。 具体的には,FSAU(Fcial Structure Attention Unit)とTransformer Block(Transformer Block)を組み合わせたLGCM(Local-Global Feature Cooperation Module)を考案し,局所的な顔の細部とグローバルな顔の構造復元を同時に促進する。 次に,局所的な顔構造情報を強化するため,効率的な局所的特徴改善モジュール(lfrm)を設計する。 最後に,詳細な顔詳細の復元をさらに改善するために,マルチスケール特徴融合ユニット(mffu)を提案し,エンコーダ手順の異なる段階から特徴を適応的に融合する。 様々なデータセットに対する総合的な評価では、提案したCTCNetは他の最先端手法を著しく上回ることができると評価されている。

Recently, deep convolution neural networks (CNNs) steered face super-resolution methods have achieved great progress in restoring degraded facial details by jointly training with facial priors. However, these methods have some obvious limitations. On the one hand, multi-task joint learning requires additional marking on the dataset, and the introduced prior network will significantly increase the computational cost of the model. On the other hand, the limited receptive field of CNN will reduce the fidelity and naturalness of the reconstructed facial images, resulting in suboptimal reconstructed images. In this work, we propose an efficient CNN-Transformer Cooperation Network (CTCNet) for face super-resolution tasks, which uses the multi-scale connected encoder-decoder architecture as the backbone. Specifically, we first devise a novel Local-Global Feature Cooperation Module (LGCM), which is composed of a Facial Structure Attention Unit (FSAU) and a Transformer block, to promote the consistency of local facial detail and global facial structure restoration simultaneously. Then, we design an efficient Local Feature Refinement Module (LFRM) to enhance the local facial structure information. Finally, to further improve the restoration of fine facial details, we present a Multi-scale Feature Fusion Unit (MFFU) to adaptively fuse the features from different stages in the encoder procedure. Comprehensive evaluations on various datasets have assessed that the proposed CTCNet can outperform other state-of-the-art methods significantly.
翻訳日:2022-04-20 14:29:03 公開日:2022-04-19
# NAFSSR:NAFNetを用いたステレオ画像超解像

NAFSSR: Stereo Image Super-Resolution Using NAFNet ( http://arxiv.org/abs/2204.08714v1 )

ライセンス: Link先を確認
Xiaojie Chu, Liangyu Chen, Wenqing Yu(参考訳) ステレオ画像超解像は、双眼鏡システムが提供する補完情報を利用して、超解像結果の品質を高めることを目的としている。 妥当な性能を得るために、ほとんどの手法はモジュールや損失関数などを微妙に設計することに集中し、他の視点から情報を利用する。 これはシステムの複雑さを増大させる副作用であり、研究者が新しいアイデアを評価し、方法を比較するのが難しくなる。 本稿では,単一視点特徴抽出のための強固でシンプルな画像復元モデルnafnetを継承し,視点間の特徴を融合して両眼的シナリオに適応させるクロスアテンションモジュールを追加した。 ステレオ画像超解像のベースラインはNAFSSRとして注目されている。 さらに、NAFSSRの性能を完全に活用するためのトレーニング/テスト戦略が提案されている。 広範な実験により本手法の有効性が実証された。 特にNAFSSRは、KITTI 2012、KITTI 2015、Middlebury、Flickr1024データセットで最先端の手法より優れている。 NAFSSRでは、NTIRE 2022 Stereo Image Super- resolution Challengeで1位を獲得した。 コードとモデルはhttps://github.com/megvii-research/NAFNetで公開される。

Stereo image super-resolution aims at enhancing the quality of super-resolution results by utilizing the complementary information provided by binocular systems. To obtain reasonable performance, most methods focus on finely designing modules, loss functions, and etc. to exploit information from another viewpoint. This has the side effect of increasing system complexity, making it difficult for researchers to evaluate new ideas and compare methods. This paper inherits a strong and simple image restoration model, NAFNet, for single-view feature extraction and extends it by adding cross attention modules to fuse features between views to adapt to binocular scenarios. The proposed baseline for stereo image super-resolution is noted as NAFSSR. Furthermore, training/testing strategies are proposed to fully exploit the performance of NAFSSR. Extensive experiments demonstrate the effectiveness of our method. In particular, NAFSSR outperforms the state-of-the-art methods on the KITTI 2012, KITTI 2015, Middlebury, and Flickr1024 datasets. With NAFSSR, we won 1st place in the NTIRE 2022 Stereo Image Super-resolution Challenge. Codes and models will be released at https://github.com/megvii-research/NAFNet.
翻訳日:2022-04-20 14:28:36 公開日:2022-04-19
# 形状認識型単眼物体検出

Shape-Aware Monocular 3D Object Detection ( http://arxiv.org/abs/2204.08717v1 )

ライセンス: Link先を確認
Wei Chen, Jie Zhao, Wan-Lei Zhao, Song-Yuan Wu(参考訳) 単一の視点カメラによる3Dオブジェクトの検出は、難しい問題である。 アンカーフリーとキーポイントベースのモデルは、その有効性と単純さから近年注目を集めている。 しかし、これらのメソッドのほとんどは、occluded と truncated オブジェクトに対して脆弱である。 本稿では,単眼3次元物体検出モデルを提案する。 インスタンスセグメンテーションヘッドはモデルトレーニングに統合され、モデルが対象オブジェクトの目に見える形状を認識することができる。 この検出は、対象物体を取り巻く無関係領域からの干渉をほとんど避ける。 さらに,ステレオやLiDARによる検出手法の評価を目的としたIoUに基づく評価指標が,モノクロ3Dオブジェクト検出アルゴリズムの改良に敏感であることも明らかにした。 単分子3次元物体検出モデルに対して,新しい評価基準,すなわち平均深度類似度(ADS)を提案する。 提案手法は,実時間効率を維持しつつ,人気指標と評価指標の両方のベースラインに優れる。

The detection of 3D objects through a single perspective camera is a challenging issue. The anchor-free and keypoint-based models receive increasing attention recently due to their effectiveness and simplicity. However, most of these methods are vulnerable to occluded and truncated objects. In this paper, a single-stage monocular 3D object detection model is proposed. An instance-segmentation head is integrated into the model training, which allows the model to be aware of the visible shape of a target object. The detection largely avoids interference from irrelevant regions surrounding the target objects. In addition, we also reveal that the popular IoU-based evaluation metrics, which were originally designed for evaluating stereo or LiDAR-based detection methods, are insensitive to the improvement of monocular 3D object detection algorithms. A novel evaluation metric, namely average depth similarity (ADS) is proposed for the monocular 3D object detection models. Our method outperforms the baseline on both the popular and the proposed evaluation metrics while maintaining real-time efficiency.
翻訳日:2022-04-20 14:28:17 公開日:2022-04-19
# 視覚トランスフォーマーのためのマルチモーダルトークン融合

Multimodal Token Fusion for Vision Transformers ( http://arxiv.org/abs/2204.08721v1 )

ライセンス: Link先を確認
Yikai Wang, Xinghao Chen, Lele Cao, Wenbing Huang, Fuchun Sun, Yunhe Wang(参考訳) トランスフォーマーの多くの適応は、イメージのような入力源を扱うために自己注意モジュールを積み重ねる単一モード視覚タスクに対処するために現れている。 直感的には、複数のデータモダリティを視覚変換器に供給することで性能が向上するが、内部モードの減衰重量も希薄になり、最終的な性能が損なわれる可能性がある。 本稿では,変換器を用いた視覚タスクに適したマルチモーダルトークン融合法(TokenFusion)を提案する。 複数のモダリティを効果的に融合させるために、TokenFusionは動的に非形式的トークンを検出し、これらのトークンを投影および集約されたモジュール間特徴に置き換える。 核融合後のモード間アライメントの明示的利用を可能にするために、残留位置アライメントも採用されている。 TokenFusionの設計により、トランスフォーマーはマルチモーダル特徴間の相関を学習できるが、シングルモーダルトランスアーキテクチャはほとんど無傷である。 マルチモーダル画像から画像への変換,RGBのセマンティックセマンティックセグメンテーション,点雲と画像を用いた3次元物体検出の3つの典型的なビジョンタスクにおいて,TokenFusionが最先端の手法を超えることを実証した。

Many adaptations of transformers have emerged to address the single-modal vision tasks, where self-attention modules are stacked to handle input sources like images. Intuitively, feeding multiple modalities of data to vision transformers could improve the performance, yet the inner-modal attentive weights may also be diluted, which could thus undermine the final performance. In this paper, we propose a multimodal token fusion method (TokenFusion), tailored for transformer-based vision tasks. To effectively fuse multiple modalities, TokenFusion dynamically detects uninformative tokens and substitutes these tokens with projected and aggregated inter-modal features. Residual positional alignment is also adopted to enable explicit utilization of the inter-modal alignments after fusion. The design of TokenFusion allows the transformer to learn correlations among multimodal features, while the single-modal transformer architecture remains largely intact. Extensive experiments are conducted on a variety of homogeneous and heterogeneous modalities and demonstrate that TokenFusion surpasses state-of-the-art methods in three typical vision tasks: multimodal image-to-image translation, RGB-depth semantic segmentation, and 3D object detection with point cloud and images.
翻訳日:2022-04-20 14:27:31 公開日:2022-04-19
# 連続手話認識のためのマルチビュー時空間ネットワーク

Multi-View Spatial-Temporal Network for Continuous Sign Language Recognition ( http://arxiv.org/abs/2204.08747v1 )

ライセンス: Link先を確認
Ronghui Li and Lu Meng(参考訳) 手話は美しい視覚言語であり、話し手や聴覚障害者が使用する主要言語でもある。 しかし、手話には多くの複雑な表現があり、大衆が理解しマスターすることが困難である。 手話認識アルゴリズムは、聴覚障害者と普通の人とのコミュニケーションを著しく促進する。 従来の連続手話認識では、畳み込みニューラルネットワーク(CNN)とLong Short-Term Memory Network(LSTM)に基づくシーケンス学習法がよく用いられる。 これらの手法は空間的特徴と時間的特徴を別々に学習することができ、手話の複雑な空間的・時間的特徴を学習できない。 LSTMは長期依存の学習も困難である。 これらの問題を緩和するために,多視点空間時空間連続手話認識ネットワークを提案する。 ネットワークは3つの部分からなる。 第1部はmstn(multi-view spatial-temporal feature extractor network)で、rgbとスケルトンデータの空間的-時間的特徴を直接抽出し、第2部はトランスフォーマーに基づく手話エンコーダネットワークであり、長期的な依存関係を学習することができる。 本アルゴリズムは,SLR-100とPHOENIX-Weather 2014T(RWTH)の2つの公開手話データセットで検証する。 その結果,本手法は両方のデータセットにおいて優れた性能を発揮する。 SLR-100データセットの単語エラー率は1.9%、RWTHPHOENIX-Weatherデータセットの単語エラー率は22.8%である。

Sign language is a beautiful visual language and is also the primary language used by speaking and hearing-impaired people. However, sign language has many complex expressions, which are difficult for the public to understand and master. Sign language recognition algorithms will significantly facilitate communication between hearing-impaired people and normal people. Traditional continuous sign language recognition often uses a sequence learning method based on Convolutional Neural Network (CNN) and Long Short-Term Memory Network (LSTM). These methods can only learn spatial and temporal features separately, which cannot learn the complex spatial-temporal features of sign language. LSTM is also difficult to learn long-term dependencies. To alleviate these problems, this paper proposes a multi-view spatial-temporal continuous sign language recognition network. The network consists of three parts. The first part is a Multi-View Spatial-Temporal Feature Extractor Network (MSTN), which can directly extract the spatial-temporal features of RGB and skeleton data; the second is a sign language encoder network based on Transformer, which can learn long-term dependencies; the third is a Connectionist Temporal Classification (CTC) decoder network, which is used to predict the whole meaning of the continuous sign language. Our algorithm is tested on two public sign language datasets SLR-100 and PHOENIX-Weather 2014T (RWTH). As a result, our method achieves excellent performance on both datasets. The word error rate on the SLR-100 dataset is 1.9%, and the word error rate on the RWTHPHOENIX-Weather dataset is 22.8%.
翻訳日:2022-04-20 14:27:05 公開日:2022-04-19
# 勾配場を経由したダイナミックポイントクラウドデノイング

Dynamic Point Cloud Denoising via Gradient Fields ( http://arxiv.org/abs/2204.08755v1 )

ライセンス: Link先を確認
Qianjiang Hu, Wei Hu(参考訳) 3Dダイナミックポイントクラウドは、没入型テレプレゼンス、自律運転、監視などにおいて広く適用されてきた、現実のオブジェクトや動きのシーンを離散的に表現する。 しかし、センサから取得した点雲は通常ノイズによって摂動し、表面再構成や解析などの下流タスクに影響する。 静的ポイントクラウドデノージングには多くの取り組みがなされているが、動的ポイントクラウドデノージングは未検討のままである。 本稿では,勾配場の推定による時間的対応を活用し,勾配場に基づく動的点雲除算法を提案する。 勾配場はノイズ点雲の対数確率関数の勾配であり、各点を下層の清浄面に収束させるために勾配上昇を行う。 本研究では,各表面パッチの勾配を推定し,時間的対応パッチを探索する時間的対応を利用して,古典力学における剛体運動を利用する。 特に、各パッチを剛体として扱い、隣り合うフレームの勾配場を力で移動する、すなわち、パッチ上の勾配の和が0に達するときのバランス状態に達する。 点が下面に近づくと勾配が小さくなるので、バランスの取れたパッチは下面によく適合し、時間的対応をもたらす。 最後に、隣接するフレームにおける対応するパッチから平均される勾配方向に沿ってパッチの各点の位置を更新する。 実験により,提案手法は,合成ノイズとシミュレーション実環境騒音の両方において,最先端の手法よりも優れていた。

3D dynamic point clouds provide a discrete representation of real-world objects or scenes in motion, which have been widely applied in immersive telepresence, autonomous driving, surveillance, etc. However, point clouds acquired from sensors are usually perturbed by noise, which affects downstream tasks such as surface reconstruction and analysis. Although many efforts have been made for static point cloud denoising, dynamic point cloud denoising remains under-explored. In this paper, we propose a novel gradient-field-based dynamic point cloud denoising method, exploiting the temporal correspondence via the estimation of gradient fields -- a fundamental problem in dynamic point cloud processing and analysis. The gradient field is the gradient of the log-probability function of the noisy point cloud, based on which we perform gradient ascent so as to converge each point to the underlying clean surface. We estimate the gradient of each surface patch and exploit the temporal correspondence, where the temporally corresponding patches are searched leveraging on rigid motion in classical mechanics. In particular, we treat each patch as a rigid object, which moves in the gradient field of an adjacent frame via force until reaching a balanced state, i.e., when the sum of gradients over the patch reaches 0. Since the gradient would be smaller when the point is closer to the underlying surface, the balanced patch would fit the underlying surface well, thus leading to the temporal correspondence. Finally, the position of each point in the patch is updated along the direction of the gradient averaged from corresponding patches in adjacent frames. Experimental results demonstrate that the proposed model outperforms state-of-the-art methods under both synthetic noise and simulated real-world noise.
翻訳日:2022-04-20 14:26:37 公開日:2022-04-19
# 物体検出におけるインクリメンタル学習のためのミスアノテーションのモデル化

Modeling Missing Annotations for Incremental Learning in Object Detection ( http://arxiv.org/abs/2204.08766v1 )

ライセンス: Link先を確認
Fabio Cermelli, Antonino Geraci, Dario Fontanel, Barbara Caputo(参考訳) オブジェクト検出の分野での最近の進歩にもかかわらず、一般的なアーキテクチャは、時間とともに新たなカテゴリを段階的に検出するのに相応しい。 彼らは、元のトレーニングデータなしでパラメータを更新しながら、既に学んだことを忘れてしまう。 従来の研究は、主に知識蒸留フレームワークを採用したオブジェクト検出タスクにおける標準分類手法を拡張した。 しかし、オブジェクト検出は、見過ごされている追加の問題をもたらしていると主張する。 新しいクラスに属するオブジェクトはアノテーションによって学習されるが、入力にまだ存在する可能性のある他のオブジェクトに対する監督がなければ、モデルはそれらをバックグラウンド領域に関連付けることを学ぶ。 標準知識蒸留フレームワークを再考し,これらの欠落したアノテーションを扱うことを提案する。 提案手法は,Pascal-VOCデータセットのすべての設定において,最先端の手法よりも優れている。 さらに、他のベースラインよりも優れたインスタンスセグメンテーションの拡張を提案する。 本稿では, 標準知識蒸留フレームワークを再検討することにより, 欠落したアノテーションを扱うことを提案する。 提案手法は,Pascal-VOC 2007データセットのすべての設定において,現在の最先端手法よりも優れていることを示す。 さらに、インスタンスセグメンテーションへの単純な拡張を提案し、他のベースラインよりも優れていることを示す。

Despite the recent advances in the field of object detection, common architectures are still ill-suited to incrementally detect new categories over time. They are vulnerable to catastrophic forgetting: they forget what has been already learned while updating their parameters in absence of the original training data. Previous works extended standard classification methods in the object detection task, mainly adopting the knowledge distillation framework. However, we argue that object detection introduces an additional problem, which has been overlooked. While objects belonging to new classes are learned thanks to their annotations, if no supervision is provided for other objects that may still be present in the input, the model learns to associate them to background regions. We propose to handle these missing annotations by revisiting the standard knowledge distillation framework. Our approach outperforms current state-of-the-art methods in every setting of the Pascal-VOC dataset. We further propose an extension to instance segmentation, outperforming the other baselines. In this work, we propose to handle the missing annotations by revisiting the standard knowledge distillation framework. We show that our approach outperforms current state-of-the-art methods in every setting of the Pascal-VOC 2007 dataset. Moreover, we propose a simple extension to instance segmentation, showing that it outperforms the other baselines.
翻訳日:2022-04-20 14:26:12 公開日:2022-04-19
# 高度な衝突解消を伴う証拠推論を用いたトップビューグリッドマップにおけるセンサデータ融合

Sensor Data Fusion in Top-View Grid Maps using Evidential Reasoning with Advanced Conflict Resolution ( http://arxiv.org/abs/2204.08780v1 )

ライセンス: Link先を確認
Sven Richter, Frank Bieder, Sascha Wirges and Christoph Stiller(参考訳) 異質なセンサ源から推定される露骨なトップビューグリッドマップを結合する新しい手法を提案する。 この文脈で通常適用されるデンプスターの組合せ規則は、非常に相反する入力を持つ望ましくない結果をもたらす。 したがって,より高度な証拠推論手法を用い,証拠源の信頼性をモデル化し,紛争解決の改善を図る。 kitti-360データセットを用いた融合品質を最適化するためのデータ駆動信頼性推定手法を提案する。 提案手法をLiDARとステレオカメラデータの融合に適用し,定性的に定量的に評価する。 提案手法は, 異種センサによる計測を頑健に組み合わせ, センサの衝突を解消する。

We present a new method to combine evidential top-view grid maps estimated based on heterogeneous sensor sources. Dempster's combination rule that is usually applied in this context provides undesired results with highly conflicting inputs. Therefore, we use more advanced evidential reasoning techniques and improve the conflict resolution by modeling the reliability of the evidence sources. We propose a data-driven reliability estimation to optimize the fusion quality using the Kitti-360 dataset. We apply the proposed method to the fusion of LiDAR and stereo camera data and evaluate the results qualitatively and quantitatively. The results demonstrate that our proposed method robustly combines measurements from heterogeneous sensors and successfully resolves sensor conflicts.
翻訳日:2022-04-20 14:25:54 公開日:2022-04-19
# ジェネレーティブ・サリエンシーのためのエネルギーベースの事前

An Energy-Based Prior for Generative Saliency ( http://arxiv.org/abs/2204.08803v1 )

ライセンス: Link先を確認
Jing Zhang, Jianwen Xie, Nick Barnes, Ping Li(参考訳) そこで本研究では, 潜在変数が有意なエネルギーベースプリアーに従う, ジェネレイティブ・サリエンシー予測のための新しいエネルギーベースプリアーを提案する。 サリエンシージェネレータとエネルギーベースのプリエントの両方をマルコフ連鎖モンテカルロに基づく最大確率推定により共同で訓練し、ランジュバンダイナミクスによって潜在変数の難解な後方分布および前値分布からのサンプリングを行う。 生成サリエンシモデルを用いて,画像から画素単位の不確実性マップを得ることができ,サリエンシ予測におけるモデル信頼度を示す。 従属変数の先行分布を単純な等方的ガウス分布として定義する既存の生成モデルとは異なり、我々のモデルは、従属変数の潜在空間を捉える上でより表現力のあるエネルギーベースの情報伝達先を用いる。 情報的エネルギーベースの先行して、生成モデルのガウス分布仮定を拡張して、潜在空間のより代表的な分布を達成することにより、より信頼性の高い不確実性推定を行う。 提案するフレームワークは、トランスフォーマーと畳み込みニューラルネットワークのバックボーンを用いて、RGBとRGB-Dの両方に適応する。 実験の結果, エネルギーベースプリエントを持つ生成的サルマンシーモデルでは, 正確なサルマンシー予測だけでなく, 人間の知覚と一致する信頼性の高い不確実性マップを実現できることがわかった。

We propose a novel energy-based prior for generative saliency prediction, where the latent variables follow an informative energy-based prior. Both the saliency generator and the energy-based prior are jointly trained via Markov chain Monte Carlo-based maximum likelihood estimation, in which the sampling from the intractable posterior and prior distributions of the latent variables are performed by Langevin dynamics. With the generative saliency model, we can obtain a pixel-wise uncertainty map from an image, indicating model confidence in the saliency prediction. Different from existing generative models, which define the prior distribution of the latent variable as a simple isotropic Gaussian distribution, our model uses an energy-based informative prior which can be more expressive in capturing the latent space of the data. With the informative energy-based prior, we extend the Gaussian distribution assumption of generative models to achieve a more representative distribution of the latent space, leading to more reliable uncertainty estimation. We apply the proposed frameworks to both RGB and RGB-D salient object detection tasks with both transformer and convolutional neural network backbones. Experimental results show that our generative saliency model with an energy-based prior can achieve not only accurate saliency predictions but also reliable uncertainty maps that are consistent with human perception.
翻訳日:2022-04-20 14:25:41 公開日:2022-04-19
# sepico:ドメイン適応意味セグメンテーションのための意味誘導ピクセルコントラスト

SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation ( http://arxiv.org/abs/2204.08808v1 )

ライセンス: Link先を確認
Binhui Xie, Shuang Li, Mingjia Li, Chi Harold Liu, Gao Huang and Guoren Wang(参考訳) ドメイン適応セマンティックセグメンテーションは、ラベル付きソースドメインでトレーニングされたモデルを利用して、ラベルなしのターゲットドメインで十分な密集した予測を試みる。 ひとつの解決策は、ターゲットの擬似ラベルでモデルを再トレーニングするセルフトレーニングである。 多くの方法はノイズの多い擬似ラベルを緩和する傾向があるが、同様の意味概念を持つクロスドメインピクセル間の内在的な接続を無視する。 したがって、ドメイン間のセマンティックなバリエーションに対処するのに苦労し、差別や一般化の低さにつながった。 本研究では,セマンティック・ガイド・ピクセル・コントラスト (SePiCo) を提案する。セマンティック・ガイド・ピクセル・コントラスト (SePiCo) は,各ピクセルのセマンティックな概念を強調する新しい一段階適応フレームワークである。 特に、適切な意味概念を検討するために、まず、ソースドメイン全体または単一のソースイメージのカテゴリcentroidsを使用して、識別的特徴の学習をガイドするcentroid-awareピクセルコントラストを調査します。 セマンティックな概念におけるカテゴリの多様性の欠如を考慮し、各セマンティックなカテゴリの真の分布をラベル付きソースデータの統計から近似する、分布対応画素コントラストという、十分な量のインスタンスを包含する分布的視点の軌跡を示す。 さらに、そのような最適化目的は無限個の(dis)類似のペアを暗黙的に含むことによって閉形式上界を導出することができる。 大規模な実験によると、SePiCoはトレーニングの安定だけでなく、差別的な特徴も生み出す。 特に、SePiCoは、GTAV/SYNTHIA-to-CityscapesとCityscapes-to-Dark Zurichのタスクにおいて優れた結果を確立し、前回のベストメソッドと比較して12.8、8.8、9.2 mIoUsの改善を行った。

Domain adaptive semantic segmentation attempts to make satisfactory dense predictions on an unlabeled target domain by utilizing the model trained on a labeled source domain. One solution is self-training, which retrains models with target pseudo labels. Many methods tend to alleviate noisy pseudo labels, however, they ignore intrinsic connections among cross-domain pixels with similar semantic concepts. Thus, they would struggle to deal with the semantic variations across domains, leading to less discrimination and poor generalization. In this work, we propose Semantic-Guided Pixel Contrast (SePiCo), a novel one-stage adaptation framework that highlights the semantic concepts of individual pixel to promote learning of class-discriminative and class-balanced pixel embedding space across domains. Specifically, to explore proper semantic concepts, we first investigate a centroid-aware pixel contrast that employs the category centroids of the entire source domain or a single source image to guide the learning of discriminative features. Considering the possible lack of category diversity in semantic concepts, we then blaze a trail of distributional perspective to involve a sufficient quantity of instances, namely distribution-aware pixel contrast, in which we approximate the true distribution of each semantic category from the statistics of labeled source data. Moreover, such an optimization objective can derive a closed-form upper bound by implicitly involving an infinite number of (dis)similar pairs. Extensive experiments show that SePiCo not only helps stabilize training but also yields discriminative features, making significant progress in both daytime and nighttime scenarios. Most notably, SePiCo establishes excellent results on tasks of GTAV/SYNTHIA-to-Cityscapes and Cityscapes-to-Dark Zurich, improving by 12.8, 8.8, and 9.2 mIoUs compared to the previous best method, respectively.
翻訳日:2022-04-20 14:25:17 公開日:2022-04-19
# 検出と記述:オブジェクトの検出と記述のための共同学習フレームワーク

Detect-and-describe: Joint learning framework for detection and description of objects ( http://arxiv.org/abs/2204.08828v1 )

ライセンス: Link先を確認
Addel Zafar, Umar Khalid(参考訳) 従来のオブジェクト検出では、"what"(オブジェクトとは何か?)と"where"(オブジェクトの場所)の2つの質問に答える。 オブジェクト検出の"what"部分は、"what type"、"what shape"、"what material"など、さらに詳細に説明することができます。 これにより、オブジェクト検出タスクがオブジェクト記述パラダイムにシフトする。 オブジェクトを記述することは、オブジェクトの特性と特性を理解するための追加の詳細を提供する("plastic boat" は単なるボートではなく、"glass bottle" であり、ボトルではない)。 この追加情報は、目に見えない物体(例えば、未知の物体は「金属」、ハスホイール」など)についての洞察を得るために暗黙的に使用できるが、従来の物体検出では不可能である。 本稿では,オブジェクトを同時に検出し,それらの属性を推測する新しいアプローチを提案する。 DaDはディープラーニングベースのアプローチであり、オブジェクト検出をオブジェクト属性予測にも拡張する。 我々は、aPascal の列車セットでモデルをトレーニングし、aPascal のテストセットでアプローチを評価します。 apascalテストセットにおける対象属性予測のための受信者動作特性曲線(auc)の下での面積97.0%を達成する。 また、未知のオブジェクトに対するオブジェクト属性予測の質的結果を示し、未知のオブジェクトを記述する手法の有効性を示す。

Traditional object detection answers two questions; "what" (what the object is?) and "where" (where the object is?). "what" part of the object detection can be fine-grained further i.e. "what type", "what shape" and "what material" etc. This results in the shifting of the object detection tasks to the object description paradigm. Describing an object provides additional detail that enables us to understand the characteristics and attributes of the object ("plastic boat" not just boat, "glass bottle" not just bottle). This additional information can implicitly be used to gain insight into unseen objects (e.g. unknown object is "metallic", "has wheels"), which is not possible in traditional object detection. In this paper, we present a new approach to simultaneously detect objects and infer their attributes, we call it Detect and Describe (DaD) framework. DaD is a deep learning-based approach that extends object detection to object attribute prediction as well. We train our model on aPascal train set and evaluate our approach on aPascal test set. We achieve 97.0% in Area Under the Receiver Operating Characteristic Curve (AUC) for object attributes prediction on aPascal test set. We also show qualitative results for object attribute prediction on unseen objects, which demonstrate the effectiveness of our approach for describing unknown objects.
翻訳日:2022-04-20 14:23:59 公開日:2022-04-19
# 新しい拡張技術によるコアボックス画像認識とその改善

Core Box Image Recognition and its Improvement with a New Augmentation Technique ( http://arxiv.org/abs/2204.08853v1 )

ライセンス: Link先を確認
E.E. Baraboshkin, A.E. Demidov, D.M. Orlov, D.A. Koroteev(参考訳) 自動フルボア岩盤コア画像解析(記述、色、プロパティ分布など)のほとんどの方法は、分離されたコアカラム分析に基づいている。 コアは通常、各コアカラムのイメージを取得するのにかなりの時間を要するため、ボックス内でイメージされます。 この研究はコアボックスからコア列を抽出するための革新的な方法とアルゴリズムを示す。 コアボックスイメージングの条件は、大きく異なる可能性がある。 このような違いは、可能なすべてのデータバリエーションを記述する大きなデータセットを必要とする機械学習アルゴリズムにとっては悲惨だ。 それでもそのようなイメージには、ボックスとコアという、いくつかの標準的な機能があります。 したがって,本研究では,異なる環境のエミュレートを行うことができる。 テンプレートライクな拡張(TLA)と呼ばれる。 この手法は様々な環境で記述・テストされ、従来のデータと伝統的なデータとtlaデータの両方で訓練されたアルゴリズムで比較される。 TLAデータでトレーニングされたアルゴリズムは、TLAなしでトレーニングされたデータとは異なり、より良いメトリクスを提供し、ほとんどの新しいイメージのコアを検出することができる。 自動化コア記述システムで実装されたコアカラム抽出アルゴリズムは、コアボックス処理を20倍高速化する。

Most methods for automated full-bore rock core image analysis (description, colour, properties distribution, etc.) are based on separate core column analyses. The core is usually imaged in a box because of the significant amount of time taken to get an image for each core column. The work presents an innovative method and algorithm for core columns extraction from core boxes. The conditions for core boxes imaging may differ tremendously. Such differences are disastrous for machine learning algorithms which need a large dataset describing all possible data variations. Still, such images have some standard features - a box and core. Thus, we can emulate different environments with a unique augmentation described in this work. It is called template-like augmentation (TLA). The method is described and tested on various environments, and results are compared on an algorithm trained on both 'traditional' data and a mix of traditional and TLA data. The algorithm trained with TLA data provides better metrics and can detect core on most new images, unlike the algorithm trained on data without TLA. The algorithm for core column extraction implemented in an automated core description system speeds up the core box processing by a factor of 20.
翻訳日:2022-04-20 14:23:36 公開日:2022-04-19
# 少数に満たない:セルフショットビデオインスタンスのセグメンテーション

Less than Few: Self-Shot Video Instance Segmentation ( http://arxiv.org/abs/2204.08874v1 )

ライセンス: Link先を確認
Pengwan Yang, Yuki M. Asano, Pascal Mettes, and Cees G. M. Snoek(参考訳) 本稿の目標は,実行時のビデオ理解において,ラベル付きサンプルの必要性を回避することにある。 実効性は証明されているものの、いくつかの例をラベル付けする多くの実用的なビデオ設定では非現実的なように見える。 特に、時空間的ビデオ理解における詳細レベルが大きくなるにつれて、アノテーションの複雑さは増大し続けています。 人間の託宣で数ショットの学習を行ない、密にラベル付けされたサポートビデオを提供する代わりに、クエリが与えられた適切なサポートビデオを自動的に見つけることを提案する。 我々はこれを自撮り学習と呼び、関連サンプルの教師なし検索に適した埋め込み空間を生成するための簡単な自己教師付き学習手法を概説する。 この斬新な設定を示すために、私たちは初めて、ビデオインスタンスのセグメンテーションをセルフショット(および数ショット)の設定に取り組み、そのゴールは、空間的および時間的領域にわたってピクセルレベルのインスタンスをセグメンテーションすることである。 我々は,新しいトランスフォーマーモデルを用いた強力なベースライン性能を提供し,自己ショット学習が数ショットを超え,さらなるパフォーマンス向上のために肯定的に組み合わせることができることを示す。 新しいベンチマーク実験により,本手法は高い性能を実現し,一部の設定ではオラクルサポートと競合し,大規模なビデオコレクションにスケールし,半教師付き設定で組み合わせることができることがわかった。

The goal of this paper is to bypass the need for labelled examples in few-shot video understanding at run time. While proven effective, in many practical video settings even labelling a few examples appears unrealistic. This is especially true as the level of details in spatio-temporal video understanding and with it, the complexity of annotations continues to increase. Rather than performing few-shot learning with a human oracle to provide a few densely labelled support videos, we propose to automatically learn to find appropriate support videos given a query. We call this self-shot learning and we outline a simple self-supervised learning method to generate an embedding space well-suited for unsupervised retrieval of relevant samples. To showcase this novel setting, we tackle, for the first time, video instance segmentation in a self-shot (and few-shot) setting, where the goal is to segment instances at the pixel-level across the spatial and temporal domains. We provide strong baseline performances that utilize a novel transformer-based model and show that self-shot learning can even surpass few-shot and can be positively combined for further performance gains. Experiments on new benchmarks show that our approach achieves strong performance, is competitive to oracle support in some settings, scales to large unlabelled video collections, and can be combined in a semi-supervised setting.
翻訳日:2022-04-20 14:23:22 公開日:2022-04-19
# 単一画像デハザリングとデハザリングの効率化に向けて

Towards Efficient Single Image Dehazing and Desnowing ( http://arxiv.org/abs/2204.08899v1 )

ライセンス: Link先を確認
Tian Ye and Sixiang Chen and Yun Liu and Erkang Chen and Yuche Li(参考訳) 画像から雨、霧、雪などの悪天候を取り除くことは難しい問題である。 特定の条件を対象とする現在のリカバリアルゴリズムは目覚ましい進歩を遂げているが、様々な劣化タイプに対処できるほど柔軟ではない。 そこで本研究では,単一の適応ゲート型ニューラルネットワークを持つ複数のコンパクトエキスパートネットワークからなるこの問題に対処するために,dan-net (degradation-adaptive neural network) と呼ばれる効率的でコンパクトな画像復元ネットワークを提案する。 単一の専門家ネットワークは、コンパクトアーキテクチャと3つの新しいコンポーネントに依存する厄介な冬のシーンで、特定の劣化に効率的に対処します。 DAN-Netは、Mixture of Experts戦略に基づいて、各入力画像から劣化情報をキャプチャしてタスク固有のエキスパートネットワークの出力を適応的に調整し、各種の悪天候条件を除去する。 具体的には、軽量な適応ゲート型ニューラルネットワークを用いて入力画像のゲート付きアテンションマップを推定し、同じトポロジーを持つ異なるタスク固有の専門家を共同で派遣して劣化画像を処理する。 このような新しい画像復元パイプラインは、異なる種類の厳しい気象シーンを効果的かつ効率的に処理する。 また、ネットワーク全体が調整なしで訓練された専門家に勝るコーディネートブースティングの利点も享受している。 広汎な実験により,提案手法は画像品質において最先端の単一タスク法より優れ,推論効率が良くなった。 さらに,冬季に撮影された各種の積雪画像を含む冬季画像復元手法を評価するために,実世界の冬季シーンデータセットを収集した。 データセットとソースコードの両方が公開される。

Removing adverse weather conditions like rain, fog, and snow from images is a challenging problem. Although the current recovery algorithms targeting a specific condition have made impressive progress, it is not flexible enough to deal with various degradation types. We propose an efficient and compact image restoration network named DAN-Net (Degradation-Adaptive Neural Network) to address this problem, which consists of multiple compact expert networks with one adaptive gated neural. A single expert network efficiently addresses specific degradation in nasty winter scenes relying on the compact architecture and three novel components. Based on the Mixture of Experts strategy, DAN-Net captures degradation information from each input image to adaptively modulate the outputs of task-specific expert networks to remove various adverse winter weather conditions. Specifically, it adopts a lightweight Adaptive Gated Neural Network to estimate gated attention maps of the input image, while different task-specific experts with the same topology are jointly dispatched to process the degraded image. Such novel image restoration pipeline handles different types of severe weather scenes effectively and efficiently. It also enjoys the benefit of coordinate boosting in which the whole network outperforms each expert trained without coordination. Extensive experiments demonstrate that the presented manner outperforms the state-of-the-art single-task methods on image quality and has better inference efficiency. Furthermore, we have collected the first real-world winter scenes dataset to evaluate winter image restoration methods, which contains various hazy and snowy images snapped in winter. Both the dataset and source code will be publicly available.
翻訳日:2022-04-20 14:22:58 公開日:2022-04-19
# 衣服着用者の光実物的3次元再構成

Photorealistic Monocular 3D Reconstruction of Humans Wearing Clothing ( http://arxiv.org/abs/2204.08906v1 )

ライセンス: Link先を確認
Thiemo Alldieck, Mihai Zanfir, Cristian Sminchisescu(参考訳) 我々は,単眼のRGB画像のみを付加したフォトリアリスティックな3次元人体再構成のための,新しいエンドツーエンドトレーニング可能なディープニューラルネットワーク手法PHORHUMを提案する。 我々の画素アライメント法は,3次元形状を詳細に推定し,非整形表面色とシーン照明を併用した。 高忠実度色再現には3Dの監督だけでは不十分であることが確認され、人間の可視部における信頼性の高い色再構成を可能にするパッチベースのレンダリング損失を導入し、非可視部の詳細な色推定を行う。 さらに, 要素を効果的に絡み合うことができるエンドツーエンドモデルにおいて, 幾何学, アルベド, 照明効果の表現という観点から, 先行研究の方法論的, 実用的限界に特化している。 大規模な実験では、我々のアプローチの汎用性と堅牢性を示す。 この手法を幾何的, 異なる測定値に対して, 幾何的, 色再現の両面で検証した。

We present PHORHUM, a novel, end-to-end trainable, deep neural network methodology for photorealistic 3D human reconstruction given just a monocular RGB image. Our pixel-aligned method estimates detailed 3D geometry and, for the first time, the unshaded surface color together with the scene illumination. Observing that 3D supervision alone is not sufficient for high fidelity color reconstruction, we introduce patch-based rendering losses that enable reliable color reconstruction on visible parts of the human, and detailed and plausible color estimation for the non-visible parts. Moreover, our method specifically addresses methodological and practical limitations of prior work in terms of representing geometry, albedo, and illumination effects, in an end-to-end model where factors can be effectively disentangled. In extensive experiments, we demonstrate the versatility and robustness of our approach. Our state-of-the-art results validate the method qualitatively and for different metrics, for both geometric and color reconstruction.
翻訳日:2022-04-20 14:22:30 公開日:2022-04-19
# 軽量超解像用自己校正効率変圧器

Self-Calibrated Efficient Transformer for Lightweight Super-Resolution ( http://arxiv.org/abs/2204.08913v1 )

ライセンス: Link先を確認
Wenbin Zou, Tian Ye, Weixin Zheng, Yunchen Zhang, Liang Chen and Yi Wu(参考訳) 近年,シングルイメージ超解像(SISR)にディープラーニングを応用し,優れた性能を実現している。 しかし、既存のほとんどの手法は、大量の計算コストとメモリストレージを伴って複雑なネットワークを構築することに重点を置いている。 この問題に対処するため,我々はSCET(Self-Calibrated Efficient Transformer)ネットワークを提案する。 SCETのアーキテクチャは、主に自己校正モジュールと効率的なトランスフォーマーブロックで構成され、そこでは、自己校正モジュールが画素アテンション機構を採用して画像の特徴を効果的に抽出する。 特徴からの文脈情報をさらに活用するために,ネットワークが遠隔で類似した特徴を得るのに役立つ効率的なトランスフォーマを用いて,テクスチャの詳細を復元する。 ネットワーク全体の異なる設定に関する総合的な結果を提供する。 提案手法はベースライン法よりも優れた性能を実現する。 ソースコードと事前訓練されたモデルはhttps://github.com/AlexZou14/SCET.comで入手できる。

Recently, deep learning has been successfully applied to the single-image super-resolution (SISR) with remarkable performance. However, most existing methods focus on building a more complex network with a large number of layers, which can entail heavy computational costs and memory storage. To address this problem, we present a lightweight Self-Calibrated Efficient Transformer (SCET) network to solve this problem. The architecture of SCET mainly consists of the self-calibrated module and efficient transformer block, where the self-calibrated module adopts the pixel attention mechanism to extract image features effectively. To further exploit the contextual information from features, we employ an efficient transformer to help the network obtain similar features over long distances and thus recover sufficient texture details. We provide comprehensive results on different settings of the overall network. Our proposed method achieves more remarkable performance than baseline methods. The source code and pre-trained models are available at https://github.com/AlexZou14/SCET.
翻訳日:2022-04-20 14:22:13 公開日:2022-04-19
# (参考訳) COptiDICE: 定常分布補正推定によるオフライン制約強化学習

COptiDICE: Offline Constrained Reinforcement Learning via Stationary Distribution Correction Estimation ( http://arxiv.org/abs/2204.08957v1 )

ライセンス: CC BY 4.0
Jongmin Lee, Cosmin Paduraru, Daniel J. Mankowitz, Nicolas Heess, Doina Precup, Kee-Eung Kim, Arthur Guez(参考訳) エージェントは、所定のコスト制約を満たしながら、事前収集されたデータセットからのみ学習しながら、期待リターンを最大化するポリシーの計算を目標とする、オフライン制約強化学習(rl)問題を考える。 この問題の設定は、環境との直接的な相互作用がコストかリスクがかかり、結果として得られるポリシーが安全上の制約を満たすべきという、多くの現実世界のシナリオにおいて魅力的である。 しかし,非政治評価には本質的に推定誤差があるため,オフラインのRL設定におけるコスト制約を満たすポリシーを計算することは困難である。 本稿では,静止分布の空間におけるポリシーを最適化するオフライン制約付きrlアルゴリズムを提案する。 提案手法であるcoptidiceは,実際の制約満足度に対するコスト保存ポリシーの付与を目標とし,コスト上限を制約しながら,最適方針の定常分布補正を直接推定する。 実験結果から,COptiDICEは制約満足度やリターン最大化の点で,ベースラインアルゴリズムよりも優れたポリシを実現することが示された。

We consider the offline constrained reinforcement learning (RL) problem, in which the agent aims to compute a policy that maximizes expected return while satisfying given cost constraints, learning only from a pre-collected dataset. This problem setting is appealing in many real-world scenarios, where direct interaction with the environment is costly or risky, and where the resulting policy should comply with safety constraints. However, it is challenging to compute a policy that guarantees satisfying the cost constraints in the offline RL setting, since the off-policy evaluation inherently has an estimation error. In this paper, we present an offline constrained RL algorithm that optimizes the policy in the space of the stationary distribution. Our algorithm, COptiDICE, directly estimates the stationary distribution corrections of the optimal policy with respect to returns, while constraining the cost upper bound, with the goal of yielding a cost-conservative policy for actual constraint satisfaction. Experimental results show that COptiDICE attains better policies in terms of constraint satisfaction and return-maximization, outperforming baseline algorithms.
翻訳日:2022-04-20 14:20:13 公開日:2022-04-19
# アダプタモジュールによる自然言語からコードへのクロスモーダル変換について

On The Cross-Modal Transfer from Natural Language to Code through Adapter Modules ( http://arxiv.org/abs/2204.08653v1 )

ライセンス: Link先を確認
Divyam Goel, Ramansh Grover, Fatemeh H. Fard(参考訳) CodeBERTのような事前トレーニングされたニューラルネットワークモデル(PTLM)は、最近、大規模なソースコードコーパスで事前トレーニングされたモデルとして、ソフトウェアエンジニアリングで使用されている。 その知識は微調整によって下流タスク(コードクローン検出など)に転送される。 自然言語処理(NLP)では、PTLMの層に挿入されるアダプタ、コンパクトでパラメータ効率の良いモジュールを用いて、PTLMの知識を伝達する他の代替手段を探索する。 アダプタは、すべてのモデルのパラメータを再トレーニングする必要のあるモデルを微調整することに比べて、多くの下流タスクへの適応を容易にすることが知られているが、アダプタのプラグとプレイの性質とパラメータの効率性に起因している。 本稿では,アダプタを用いた知識伝達を考察し,ヒンドルらによって提唱された自然性仮説に基づく。 al \cite{hindle2016naturalness} の略。 したがって、clozeテストとコードクローン検出の2つのタスクに対するアダプタのバイモーダリティを調べることは、codexglueプラットフォームのベンチマークと比較できる。 これらのアダプタはプログラミング言語を用いて訓練され、英語コーパス(N-PTLM)で事前訓練されたPTLMに挿入される。 C/C++、Python、Javaの3つのプログラミング言語が、アダプタに最適な設定に関する広範な実験とともに研究されている。 N-PTLMの結果を改善することで、ソフトウェア工学への知識伝達におけるアダプタの成功が確認される。これは、ソースコードでトレーニングされたPTLMの結果と同程度、あるいは超過することもあるが、パラメータ数、メモリ使用量、推論時間の点でより効率的である。 私たちの結果は、より小さなモデルを構築するための新しい方向を開くことができます。 すべてのスクリプトとトレーニング済みのアダプタをオープンソースにしています。

Pre-trained neural Language Models (PTLM), such as CodeBERT, are recently used in software engineering as models pre-trained on large source code corpora. Their knowledge is transferred to downstream tasks (e.g. code clone detection) via fine-tuning. In natural language processing (NLP), other alternatives for transferring the knowledge of PTLMs are explored through using adapters, compact, parameter efficient modules inserted in the layers of the PTLM. Although adapters are known to facilitate adapting to many downstream tasks compared to fine-tuning the model that require retraining all of the models' parameters -- which owes to the adapters' plug and play nature and being parameter efficient -- their usage in software engineering is not explored. Here, we explore the knowledge transfer using adapters and based on the Naturalness Hypothesis proposed by Hindle et. al \cite{hindle2016naturalness}. Thus, studying the bimodality of adapters for two tasks of cloze test and code clone detection, compared to their benchmarks from the CodeXGLUE platform. These adapters are trained using programming languages and are inserted in a PTLM that is pre-trained on English corpora (N-PTLM). Three programming languages, C/C++, Python, and Java, are studied along with extensive experiments on the best setup used for adapters. Improving the results of the N-PTLM confirms the success of the adapters in knowledge transfer to software engineering, which sometimes are in par with or exceed the results of a PTLM trained on source code; while being more efficient in terms of the number of parameters, memory usage, and inference time. Our results can open new directions to build smaller models for more software engineering tasks. We open source all the scripts and the trained adapters.
翻訳日:2022-04-20 13:38:46 公開日:2022-04-19
# 確率的シュタイン変分ニュートン法

A stochastic Stein Variational Newton method ( http://arxiv.org/abs/2204.09039v1 )

ライセンス: Link先を確認
Alex Leviyev, Joshua Chen, Yifei Wang, Omar Ghattas, Aaron Zimmerman(参考訳) Stein variational gradient descent (SVGD) は、最近人気が高まっている汎用最適化に基づくサンプリングアルゴリズムであるが、偏りのあるサンプルを生成することが知られており、複雑な分布への収束が遅くなるという2つの問題によって制限されている。 最近提案された SVGD の確率的変種 (sSVGD) は最初の問題に対処し、漸近収束が保証されるようなSVGD 力学に特別なノイズを組み込むことで、バイアスのないサンプルを生成する。 一方、SVGDのニュートン様拡張であるStein variational Newton (SVN)は、ヘッセン情報を力学に組み込むことで、SVGDの収束を劇的に加速するが、バイアスサンプルも生成する。 本稿では,漸近的に正確かつ迅速に収束するSVN(sSVN)の確率的変種を導出し,その実践的実装について述べる。 本アルゴリズムは, ハイブリッドローズブロック密度(Hybrid Rosenbrock density)という, 難解なテスト問題に対する有効性を示すとともに, sSVNは, 確率的SVGDよりも3桁少ない勾配評価を用いて収束することを示した。 以上の結果から,ssvn は低次元 $d\sim\mathcal{o}(10)$ で高精度ベイズ推定タスクを高速化する有望な手法であることが示された。

Stein variational gradient descent (SVGD) is a general-purpose optimization-based sampling algorithm that has recently exploded in popularity, but is limited by two issues: it is known to produce biased samples, and it can be slow to converge on complicated distributions. A recently proposed stochastic variant of SVGD (sSVGD) addresses the first issue, producing unbiased samples by incorporating a special noise into the SVGD dynamics such that asymptotic convergence is guaranteed. Meanwhile, Stein variational Newton (SVN), a Newton-like extension of SVGD, dramatically accelerates the convergence of SVGD by incorporating Hessian information into the dynamics, but also produces biased samples. In this paper we derive, and provide a practical implementation of, a stochastic variant of SVN (sSVN) which is both asymptotically correct and converges rapidly. We demonstrate the effectiveness of our algorithm on a difficult class of test problems -- the Hybrid Rosenbrock density -- and show that sSVN converges using three orders of magnitude fewer gradient evaluations of the log likelihood than its stochastic SVGD counterpart. Our results show that sSVN is a promising approach to accelerating high-precision Bayesian inference tasks with modest-dimension, $d\sim\mathcal{O}(10)$.
翻訳日:2022-04-20 13:37:27 公開日:2022-04-19
# 複数のSARS-CoV-2ターゲットに対する単一シーケンス誘導深部生成フレームワークによるインヒビター探索の高速化

Accelerating Inhibitor Discovery for Multiple SARS-CoV-2 Targets with a Single, Sequence-Guided Deep Generative Framework ( http://arxiv.org/abs/2204.09042v1 )

ライセンス: Link先を確認
Vijil Chenthamarakshan, Samuel C. Hoffman, C. David Owen, Petra Lukacik, Claire Strain-Damerell, Daren Fearon, Tika R. Malla, Anthony Tumber, Christopher J. Schofield, Helen M.E. Duyvesteyn, Wanwisa Dejnirattisai, Loic Carrique, Thomas S. Walter, Gavin R. Screaton, Tetiana Matviiuk, Aleksandra Mojsilovic, Jason Crain, Martin A. Walsh, David I. Stuart, Payel Das(参考訳) 新型コロナウイルスのパンデミックは、より効率的な分子発見経路を開発する緊急性を強調している。 広大な化学空間の徹底的な探索は不可能であるため、創薬標的タンパク質の新規な阻害剤分子の発見は困難である。 スパイクタンパク質の主プロテアーゼ (Mpro) と受容体結合ドメイン (RBD) の2つの異なるSARS-CoV-2標的に対する新規な薬物様阻害剤分子の発見に向けた1つの深部生成機構の有用性を実証する。 ターゲット認識設計を行うため、フレームワークは生成モデルから新規分子のターゲットシーケンス条件付サンプリングを用いる。 マイクロモルレベルインビトロ阻害は, 各標的に対する2つの候補(4種のうち)に対して観察された。 最も強力なスパイクRBD阻害剤は、生きたウイルス中和測定においてSARS-CoV-2変異株に対して幅広いスペクトル活性を有する稀な非共有結合抗ウイルス剤として出現した。 これらの結果は、幅広いデプロイ可能なマシンインテリジェンスフレームワークが、さまざまな新興ドラッグターゲットのヒット発見を加速することを示している。

The COVID-19 pandemic has highlighted the urgency for developing more efficient molecular discovery pathways. As exhaustive exploration of the vast chemical space is infeasible, discovering novel inhibitor molecules for emerging drug-target proteins is challenging, particularly for targets with unknown structure or ligands. We demonstrate the broad utility of a single deep generative framework toward discovering novel drug-like inhibitor molecules against two distinct SARS-CoV-2 targets -- the main protease (Mpro) and the receptor binding domain (RBD) of the spike protein. To perform target-aware design, the framework employs a target sequence-conditioned sampling of novel molecules from a generative model. Micromolar-level in vitro inhibition was observed for two candidates (out of four synthesized) for each target. The most potent spike RBD inhibitor also emerged as a rare non-covalent antiviral with broad-spectrum activity against several SARS-CoV-2 variants in live virus neutralization assays. These results show a broadly deployable machine intelligence framework can accelerate hit discovery across different emerging drug-targets.
翻訳日:2022-04-20 13:37:01 公開日:2022-04-19
# 深層学習におけるデータ多様体のトポロジーと幾何学

Topology and geometry of data manifold in deep learning ( http://arxiv.org/abs/2204.08624v1 )

ライセンス: Link先を確認
German Magai, Anton Ayzenberg(参考訳) 深層学習の分野が様々な分野に応用されているにもかかわらず、深層学習モデルの内部過程を説明することは重要かつオープンな問題である。 本稿では,ニューラルネットワークの学習過程の幾何学的,トポロジ的視点を記述し,実証することを目的とする。 我々は、ニューラルネットワークの内部表現と、異なる層上のデータ多様体のトポロジーと幾何学の変化のダイナミクスに注目している。 また,トポロジカル記述子に基づくニューラルネットワークの一般化能力の評価手法を提案する。 本稿では、トポロジカルデータ解析と本質的な次元の概念を用いて、さまざまなデータセットと畳み込みニューラルネットワークアーキテクチャの異なる構成に関する幅広い実験を行う。 さらに,分類課題における敵攻撃の幾何学的特徴と,顔認識システムに対する攻撃の偽装について考察する。 我々の研究は、コンピュータビジョンの例を通して、説明可能な、解釈可能なAIの重要な分野の発展に寄与している。

Despite significant advances in the field of deep learning in applications to various fields, explaining the inner processes of deep learning models remains an important and open question. The purpose of this article is to describe and substantiate the geometric and topological view of the learning process of neural networks. Our attention is focused on the internal representation of neural networks and on the dynamics of changes in the topology and geometry of the data manifold on different layers. We also propose a method for assessing the generalizing ability of neural networks based on topological descriptors. In this paper, we use the concepts of topological data analysis and intrinsic dimension, and we present a wide range of experiments on different datasets and different configurations of convolutional neural network architectures. In addition, we consider the issue of the geometry of adversarial attacks in the classification task and spoofing attacks on face recognition systems. Our work is a contribution to the development of an important area of explainable and interpretable AI through the example of computer vision.
翻訳日:2022-04-20 13:36:42 公開日:2022-04-19
# (参考訳) 大規模解析のためのディリクレプロセスのCPUおよびGPUによる分散サンプリング

CPU- and GPU-based Distributed Sampling in Dirichlet Process Mixtures for Large-scale Analysis ( http://arxiv.org/abs/2204.08988v1 )

ライセンス: CC BY 4.0
Or Dinari, Raz Zamir, John W. Fisher III, Oren Freifeld(参考訳) 教師なし学習の領域では、Dirichlet Process Mixture Model (DPMM)によって実証されたベイズ非パラメトリック混合モデルは、モデルの複雑さをデータに適用するための原則化されたアプローチを提供する。 このようなモデルは、クラスタ数不明のクラスタ化タスクで特に有用である。 しかし、その可能性と数学的優雅さにもかかわらず、DPMMはまだ実践者が広く採用する主流のツールにはなっていない。 これはおそらく、これらのモデルがスケールが悪く、大規模なデータセットを効率的に処理できる高性能(かつユーザフレンドリー)なソフトウェアツールが欠如しているという誤解によるものだ。 本稿では,スケーラブルなdpmm推論のための新しい統計ソフトウェアパッケージを提案することで,この実用的ギャップを埋める。 具体的には、マルチマシン、マルチコア、CPU実装(Juliaで書かれる)とマルチストリームGPU実装(CUDA/C++で書かれる)のいずれかをユーザが自由に選択できるDPMMにおいて、高性能な分散サンプリングベースの推論のための効率的で容易に修正可能な実装を提供する。 cpuとgpuの実装には共通の(そしてオプションの)pythonラッパーが付属しており、同じインターフェースで単一のエントリポイントをユーザに提供する。 アルゴリズム面では,本実装では,Chang と Fisher III, 2013 のDPMM サンプルを用いている。 chang氏とfisher iii氏の実装(matlab/c++で書かれている)はcpuのみを使用して、単一のマルチコアマシン用に設計されましたが、ここで提案するパッケージは、複数のマルチコアマシンまたは変更可能なgpuストリームに対して効率的に計算を配布します。 これにより、スピードアップ、メモリとストレージの制限を緩和し、DPMMをはるかに大きなデータセットに適合させ、以前可能だった(Chang and Fisher III, 2013)や他のDPMMメソッドよりも高次元にすることができる。

In the realm of unsupervised learning, Bayesian nonparametric mixture models, exemplified by the Dirichlet Process Mixture Model (DPMM), provide a principled approach for adapting the complexity of the model to the data. Such models are particularly useful in clustering tasks where the number of clusters is unknown. Despite their potential and mathematical elegance, however, DPMMs have yet to become a mainstream tool widely adopted by practitioners. This is arguably due to a misconception that these models scale poorly as well as the lack of high-performance (and user-friendly) software tools that can handle large datasets efficiently. In this paper we bridge this practical gap by proposing a new, easy-to-use, statistical software package for scalable DPMM inference. More concretely, we provide efficient and easily-modifiable implementations for high-performance distributed sampling-based inference in DPMMs where the user is free to choose between either a multiple-machine, multiple-core, CPU implementation (written in Julia) and a multiple-stream GPU implementation (written in CUDA/C++). Both the CPU and GPU implementations come with a common (and optional) python wrapper, providing the user with a single point of entry with the same interface. On the algorithmic side, our implementations leverage a leading DPMM sampler from (Chang and Fisher III, 2013). While Chang and Fisher III's implementation (written in MATLAB/C++) used only CPU and was designed for a single multi-core machine, the packages we proposed here distribute the computations efficiently across either multiple multi-core machines or across mutiple GPU streams. This leads to speedups, alleviates memory and storage limitations, and lets us fit DPMMs to significantly larger datasets and of higher dimensionality than was possible previously by either (Chang and Fisher III, 2013) or other DPMM methods.
翻訳日:2022-04-20 13:35:13 公開日:2022-04-19
# 偽発見に基づく進歩

Making Progress Based on False Discoveries ( http://arxiv.org/abs/2204.08809v1 )

ライセンス: Link先を確認
Roi Livni(参考訳) 凸最適化の枠組みにおける適応データ解析の課題について考察する。 我々は、勾配降下によってクエリされた$O(1/\epsilon^2)$勾配の$\epsilon$-正確な推定を計算するために、どのくらいのサンプルが必要なのかを問う。 まず、一般アナリスト(必ずしも勾配降下ではない)に対して、$\Omega(1/\epsilon^3)$サンプルが必要であることを示す。 これにより、防犯機構の可能性を排除できる。 私たちの構築は、いくつかの非適応的な質問を、固定的で既知の1ラウンドの順応性(adaptivity)で実行し、真の発見のほんの一部を必要とするアナリストのために、新しい下限(それ自体が興味を持つかもしれない)に基づいています。 そのようなアナリストに対して、$\Omega (\sqrt{T}/\epsilon^2)$サンプルが必要であることを示す。 第二に、オラクル上の特定の仮定の下では、勾配降下$\tilde \Omega(1/\epsilon^{2.5})$サンプルが必要であることを示す。 我々の仮定では、オラクルは \emph{first order access} のみを持ち、 \emph{post-hoc generalizing} である。 1次アクセスは、アルゴリズムが問い合わせた点におけるサンプル関数の勾配のみを計算できることを意味する。 emph{post-hoc generalization} の仮定は、統計クエリの既存の下限から導かれる。 より一般的には、統計的クエリの標準設定から、勾配降下によって問合せされた勾配を推定する問題への一般的な還元を提供する。 これらの結果は、$O(1/\epsilon^2)$サンプルを用いて、人口リスクを$O(\epsilon)$の精度に最適化できるが、その結果、急激な勾配を持つことを示す古典的境界とは対照的である。

We consider the question of adaptive data analysis within the framework of convex optimization. We ask how many samples are needed in order to compute $\epsilon$-accurate estimates of $O(1/\epsilon^2)$ gradients queried by gradient descent, and we provide two intermediate answers to this question. First, we show that for a general analyst (not necessarily gradient descent) $\Omega(1/\epsilon^3)$ samples are required. This rules out the possibility of a foolproof mechanism. Our construction builds upon a new lower bound (that may be of interest of its own right) for an analyst that may ask several non adaptive questions in a batch of fixed and known $T$ rounds of adaptivity and requires a fraction of true discoveries. We show that for such an analyst $\Omega (\sqrt{T}/\epsilon^2)$ samples are necessary. Second, we show that, under certain assumptions on the oracle, in an interaction with gradient descent $\tilde \Omega(1/\epsilon^{2.5})$ samples are necessary. Our assumptions are that the oracle has only \emph{first order access} and is \emph{post-hoc generalizing}. First order access means that it can only compute the gradients of the sampled function at points queried by the algorithm. Our assumption of \emph{post-hoc generalization} follows from existing lower bounds for statistical queries. More generally then, we provide a generic reduction from the standard setting of statistical queries to the problem of estimating gradients queried by gradient descent. These results are in contrast with classical bounds that show that with $O(1/\epsilon^2)$ samples one can optimize the population risk to accuracy of $O(\epsilon)$ but, as it turns out, with spurious gradients.
翻訳日:2022-04-20 13:31:10 公開日:2022-04-19
# (参考訳) 部分監督型マルチラベル分類におけるリスク最小化の再検討

Revisiting Vicinal Risk Minimization for Partially Supervised Multi-Label Classification Under Data Scarcity ( http://arxiv.org/abs/2204.08954v1 )

ライセンス: CC BY 4.0
Nanqing Dong, Jiayi Wang, Irina Voiculescu(参考訳) 人為的なアノテーションのコストが高いため、あらゆる種類の関心事に完全にラベル付けされた大規模医療データセットをキュレートするのは簡単ではない。 代わりに、異なるマッチングソースから複数の小さなラベル付きデータセットを収集することは便利だろう。 本稿では,多段分類器が部分的にラベル付けされた医療画像のみを用いて訓練される部分教師付き多段分類 (psmlc) という,未検討の問題に対する経験的理解を提供する。 完全に監督されたものとは対照的に、医療データ不足による部分的監督は、モデル性能に非自明な負の影響をもたらす。 潜在的な治療は、部分的なラベルを増強することかもしれない。 vicinal risk minimization (vrm) はモデルの一般化能力を改善するための有望なソリューションであるが、psmlcへの応用は未解決のままである。 方法論的ギャップを埋めるために、PSMLCにVRMベースのソリューションを提供する。 実験結果はまた、データ不足下の部分教師付き学習の今後の研究方向性に関する洞察を提供する。

Due to the high human cost of annotation, it is non-trivial to curate a large-scale medical dataset that is fully labeled for all classes of interest. Instead, it would be convenient to collect multiple small partially labeled datasets from different matching sources, where the medical images may have only been annotated for a subset of classes of interest. This paper offers an empirical understanding of an under-explored problem, namely partially supervised multi-label classification (PSMLC), where a multi-label classifier is trained with only partially labeled medical images. In contrast to the fully supervised counterpart, the partial supervision caused by medical data scarcity has non-trivial negative impacts on the model performance. A potential remedy could be augmenting the partial labels. Though vicinal risk minimization (VRM) has been a promising solution to improve the generalization ability of the model, its application to PSMLC remains an open question. To bridge the methodological gap, we provide the first VRM-based solution to PSMLC. The empirical results also provide insights into future research directions on partially supervised learning under data scarcity.
翻訳日:2022-04-20 13:27:31 公開日:2022-04-19
# モデルデバッグにおける欠如バイアス

Missingness Bias in Model Debugging ( http://arxiv.org/abs/2204.08945v1 )

ライセンス: Link先を確認
Saachi Jain, Hadi Salman, Eric Wong, Pengchuan Zhang, Vibhav Vineet, Sai Vemprala, Aleksander Madry(参考訳) 欠如、あるいは入力からの機能の欠如は、多くのモデルデバッグツールの基本的な概念である。 しかし、コンピュータビジョンでは、ピクセルを単に画像から取り除くことはできない。 したがって、ピクセルを黒くするといったヒューリスティックに頼る傾向があり、これはデバッグプロセスにバイアスをもたらす可能性がある。 このようなバイアスを調査し,特にトランスフォーマティブベースのアーキテクチャが欠如をより自然な実装を可能にしていることを示すことで,これらの問題を回避し,実際にモデルデバッグの信頼性を向上させる。 私たちのコードはhttps://github.com/madrylab/missingnessで利用可能です。

Missingness, or the absence of features from an input, is a concept fundamental to many model debugging tools. However, in computer vision, pixels cannot simply be removed from an image. One thus tends to resort to heuristics such as blacking out pixels, which may in turn introduce bias into the debugging process. We study such biases and, in particular, show how transformer-based architectures can enable a more natural implementation of missingness, which side-steps these issues and improves the reliability of model debugging in practice. Our code is available at https://github.com/madrylab/missingness
翻訳日:2022-04-20 13:12:44 公開日:2022-04-19
# 部分的に観察可能な強化学習は怖くないのか?

When Is Partially Observable Reinforcement Learning Not Scary? ( http://arxiv.org/abs/2204.08967v1 )

ライセンス: Link先を確認
Qinghua Liu, Alan Chung, Csaba Szepesv\'ari, Chi Jin(参考訳) 強化学習(rl)の応用は、エージェントが制御システムの潜在状態、すなわち状態の部分的可観測性の下で振る舞う状態に関する完全な情報を欠いているにもかかわらず、一連の意思決定を学習する。 有名な情報理論の結果は、部分的に観測可能なマルコフ決定プロセス(POMDP)の学習には、最悪の場合、指数的なサンプル数が必要であることを示している。 しかし、これは学習が抽出可能なPOMDPの大きなサブクラスの存在を除外するものではない。 本稿では,そのようなサブクラスを,弱明化pomdpと呼ぶ。 この家族は、観察が学習を難しくする程度に非形式的であるPOMDPの病理例を除外する。 我々は,POMDPを弱解化するために,最適化と最大類似度推定(MLE)を組み合わせた単純なアルゴリズムが,多項式サンプルの複雑性を保証するのに十分であることを証明した。 我々の知る限りでは、これは、観測数よりも潜伏状態の数が大きい過完全POMDPの相互作用から学習するための、証明可能なサンプル効率の最初の結果である。

Applications of Reinforcement Learning (RL), in which agents learn to make a sequence of decisions despite lacking complete information about the latent states of the controlled system, that is, they act under partial observability of the states, are ubiquitous. Partially observable RL can be notoriously difficult -- well-known information-theoretic results show that learning partially observable Markov decision processes (POMDPs) requires an exponential number of samples in the worst case. Yet, this does not rule out the existence of large subclasses of POMDPs over which learning is tractable. In this paper we identify such a subclass, which we call weakly revealing POMDPs. This family rules out the pathological instances of POMDPs where observations are uninformative to a degree that makes learning hard. We prove that for weakly revealing POMDPs, a simple algorithm combining optimism and Maximum Likelihood Estimation (MLE) is sufficient to guarantee polynomial sample complexity. To the best of our knowledge, this is the first provably sample-efficient result for learning from interactions in overcomplete POMDPs, where the number of latent states can be larger than the number of observations.
翻訳日:2022-04-20 13:12:35 公開日:2022-04-19
# LitMC-BERT : トランスフォーマーを用いたバイオメディカル文献の多ラベル分類とCOVID-19文献キュレーションへの応用

LitMC-BERT: transformer-based multi-label classification of biomedical literature with an application on COVID-19 literature curation ( http://arxiv.org/abs/2204.08649v1 )

ライセンス: Link先を確認
Qingyu Chen, Jingcheng Du, Alexis Allot, and Zhiyong Lu(参考訳) 生物医学文学の急速な成長は、キュレーションと解釈にとって重要な課題である。 これは新型コロナウイルス(covid-19)のパンデミックでより顕著になった。 COVID-19関連論文の文献データベースであるLitCovidは、数百万のアクセスを持つ180,000以上の記事を蓄積している。 毎月約10,000の新しい記事がLitCovidに追加されている。 LitCovidの主なキュレーションタスクはトピックアノテーションであり、記事には治療と診断の8つのトピックが割り当てられている。 注釈付きトピックは、litcovid(総使用量の約18%を占める)と、ネットワーク生成などの下流研究の両方で広く使われている。 しかし,課題の性質や文献の急速な成長により,キュレーションのボトルネックとなっている。 本研究では,生物医学文献におけるトランスフォーマーを用いた多ラベル分類手法であるLITMC-BERTを提案する。 すべてのラベルに共有トランスフォーマーのバックボーンを使用し、ラベル固有の特徴とラベルペア間の相関をキャプチャする。 LITMC-BERTを2つのデータセット上の3つのベースラインモデルと比較する。 マイクロF1とインスタンスベースのF1は、それぞれ現在の最良の結果よりも5%と4%高く、Binary BERTベースラインよりも推論時間の約18%しか必要としない。 関連するデータセットとモデルは、https://github.com/ncbi/ml-transformerで入手できる。

The rapid growth of biomedical literature poses a significant challenge for curation and interpretation. This has become more evident during the COVID-19 pandemic. LitCovid, a literature database of COVID-19 related papers in PubMed, has accumulated over 180,000 articles with millions of accesses. Approximately 10,000 new articles are added to LitCovid every month. A main curation task in LitCovid is topic annotation where an article is assigned with up to eight topics, e.g., Treatment and Diagnosis. The annotated topics have been widely used both in LitCovid (e.g., accounting for ~18% of total uses) and downstream studies such as network generation. However, it has been a primary curation bottleneck due to the nature of the task and the rapid literature growth. This study proposes LITMC-BERT, a transformer-based multi-label classification method in biomedical literature. It uses a shared transformer backbone for all the labels while also captures label-specific features and the correlations between label pairs. We compare LITMC-BERT with three baseline models on two datasets. Its micro-F1 and instance-based F1 are 5% and 4% higher than the current best results, respectively, and only requires ~18% of the inference time than the Binary BERT baseline. The related datasets and models are available via https://github.com/ncbi/ml-transformer.
翻訳日:2022-04-20 13:12:16 公開日:2022-04-19
# 新型コロナウイルスが最初に発見された場所は? パンデミック状況に対する質問応答システムの設計

Where Was COVID-19 First Discovered? Designing a Question-Answering System for Pandemic Situations ( http://arxiv.org/abs/2204.08787v1 )

ライセンス: Link先を確認
Johannes Graf, Gino Lancho, Patrick Zschech, Kai Heinrich(参考訳) 新型コロナウイルス(covid-19)のパンデミックには、インキュベーション時間や感染率、ワクチンの効果など、covid-19関連の質問に対して簡潔で信頼できる情報を見つけるのが難しい巨大な「情報デミック(infodemic)」が伴っている。 新たな解決法として,自然言語処理から情報過負荷や誤情報を克服するための現代的技術に基づく質問応答システムの設計について検討した。 本研究は、デザインサイエンス研究のアプローチに従い、Ingwersenの認知モデルによる情報検索インタラクションを適用し、社会技術レンズから設計プロセスを伝える。 そこで我々は,設計要件と設計原則の観点から規範的設計知識を導出し,原型インスタンス化の構成に変換した。 実装はCORD-19データセットをベースとして,バイオメディカル専門家がラベル付けしたCOVID-19質問のサンプルに基づいて,回答の質を評価することで,アーティファクトの有用性を実証する。

The COVID-19 pandemic is accompanied by a massive "infodemic" that makes it hard to identify concise and credible information for COVID-19-related questions, like incubation time, infection rates, or the effectiveness of vaccines. As a novel solution, our paper is concerned with designing a question-answering system based on modern technologies from natural language processing to overcome information overload and misinformation in pandemic situations. To carry out our research, we followed a design science research approach and applied Ingwersen's cognitive model of information retrieval interaction to inform our design process from a socio-technical lens. On this basis, we derived prescriptive design knowledge in terms of design requirements and design principles, which we translated into the construction of a prototypical instantiation. Our implementation is based on the comprehensive CORD-19 dataset, and we demonstrate our artifact's usefulness by evaluating its answer quality based on a sample of COVID-19 questions labeled by biomedical experts.
翻訳日:2022-04-20 13:10:58 公開日:2022-04-19
# atp: amrize では parse! PseudoAMRによるAMR解析の強化

ATP: AMRize Then Parse! Enhancing AMR Parsing with PseudoAMRs ( http://arxiv.org/abs/2204.08875v1 )

ライセンス: Link先を確認
Liang Chen, Peiyi Wang, Runxin Xu, Tianyu Liu, Zhifang Sui, Baobao Chang(参考訳) 抽象的意味表現(AMR)は、複合意味アノテーションを暗黙的に含んでいるため、意味的あるいは形式的に関連する補助的タスクは、AMR解析をより強化する可能性がある。 私たちはそれを見つけ 1)Semantic Role labeling (SRL) とDependency parsing (DP) は、MTなどの他のタスクよりもパフォーマンスが向上し、データが少なくてもテキストからAMRへの移行が要約される。 2) amrの適合性を高めるためには,補助課題からのデータを訓練前に疑似学習者に対して適切に「増幅」する必要がある。 浅層解析タスクからの知識は、構造変換を伴うAMRパーシングに転送される。 3)中間タスク学習は,マルチタスク学習と比較して,補助タスクをAMR解析に導入する上で優れたパラダイムである。 実証的な観点から,AMR解析を促進するための補助的タスクを含む原理的手法を提案する。 本手法は,特にトポロジ関連スコアにおいて,異なるベンチマーク上での新たな最先端性能を実現することを示す。

As Abstract Meaning Representation (AMR) implicitly involves compound semantic annotations, we hypothesize auxiliary tasks which are semantically or formally related can better enhance AMR parsing. We find that 1) Semantic role labeling (SRL) and dependency parsing (DP), would bring more performance gain than other tasks e.g. MT and summarization in the text-to-AMR transition even with much less data. 2) To make a better fit for AMR, data from auxiliary tasks should be properly "AMRized" to PseudoAMR before training. Knowledge from shallow level parsing tasks can be better transferred to AMR Parsing with structure transform. 3) Intermediate-task learning is a better paradigm to introduce auxiliary tasks to AMR parsing, compared to multitask learning. From an empirical perspective, we propose a principled method to involve auxiliary tasks to boost AMR parsing. Extensive experiments show that our method achieves new state-of-the-art performance on different benchmarks especially in topology-related scores.
翻訳日:2022-04-20 13:10:40 公開日:2022-04-19
# ヘイトスピーチ検出とテキスト分類のためのMono vs Multilingual BERT:Marathiを事例として

Mono vs Multilingual BERT for Hate Speech Detection and Text Classification: A Case Study in Marathi ( http://arxiv.org/abs/2204.08669v1 )

ライセンス: Link先を確認
Abhishek Velankar, Hrushikesh Patil, Raviraj Joshi(参考訳) トランスフォーマーは、幅広い自然言語処理タスクで使用される最も優れたアーキテクチャである。 これらのモデルは、大きなテキストコーパスで事前トレーニングされ、テキスト分類のようなタスクよりも最先端の結果を提供する。 本研究では,単言語モデルと多言語BERTモデルの比較研究を行う。 marathi言語に注目し,ヘイトスピーチ検出,感情分析,単純なテキスト分類のためのデータセットのモデルを評価する。 我々は,mBERT,indicBERT,xlm-RoBERTaなどの標準多言語モデルを用い,MahaBERT,MahaALBERT,MahaRoBERTaと比較した。 さらに,マラーティー単言語モデルは,下流の5種類の微調整実験において,多言語bertの変種を上回っていることを示した。 また,BERTエンコーダ層を凍結することにより,これらのモデルからの文埋め込みを評価する。 本稿では,多言語対応の文埋め込みと比較して,単言語マハベルトモデルが豊かな表現を提供することを示す。 しかし、これらの埋め込みは十分に汎用的ではなく、ドメイン外のソーシャルメディアデータセットではうまく機能しないと観察する。 本稿では,2つのマラーティーヘイトスピーチデータセットL3Cube-MahaHate,HASOC-2021,マラーティー感情分類データセットL3Cube-MahaSent,マラーティーヘッドライン,記事分類データセットについて考察する。

Transformers are the most eminent architectures used for a vast range of Natural Language Processing tasks. These models are pre-trained over a large text corpus and are meant to serve state-of-the-art results over tasks like text classification. In this work, we conduct a comparative study between monolingual and multilingual BERT models. We focus on the Marathi language and evaluate the models on the datasets for hate speech detection, sentiment analysis and simple text classification in Marathi. We use standard multilingual models such as mBERT, indicBERT and xlm-RoBERTa and compare with MahaBERT, MahaALBERT and MahaRoBERTa, the monolingual models for Marathi. We further show that Marathi monolingual models outperform the multilingual BERT variants on five different downstream fine-tuning experiments. We also evaluate sentence embeddings from these models by freezing the BERT encoder layers. We show that monolingual MahaBERT based models provide rich representations as compared to sentence embeddings from multi-lingual counterparts. However, we observe that these embeddings are not generic enough and do not work well on out of domain social media datasets. We consider two Marathi hate speech datasets L3Cube-MahaHate, HASOC-2021, a Marathi sentiment classification dataset L3Cube-MahaSent, and Marathi Headline, Articles classification datasets.
翻訳日:2022-04-20 13:10:22 公開日:2022-04-19
# 神経崩壊に触発されたアトラクション-リパルトバランス損失

Neural Collapse Inspired Attraction-Repulsion-Balanced Loss for Imbalanced Learning ( http://arxiv.org/abs/2204.08735v1 )

ライセンス: Link先を確認
Liang Xie, Yibo Yang, Deng Cai, Dacheng Tao, Xiaofei He(参考訳) クラス不均衡分布は実世界工学において広く存在する。 しかし、エラーを最小限に抑えるために主流となる最適化アルゴリズムは、極度のクラス不均衡に直面した場合、サブ最適化においてディープラーニングモデルをトラップする。 これは分類の精度、特にマイナークラスに深刻な害を与える。 基本的な理由は、分類器の重みの勾配が異なるクラスの成分間で不均衡であるからである。 本稿では,勾配の異なる成分のバランスをとるために,Attraction-Repulsion-Balanced Loss (ARB-Loss)を提案する。 大規模分類とセグメンテーションデータセットの実験を行い、最近のSOTAのように2段階の学習ではなく、1段階の訓練で最先端のパフォーマンスを達成できます。

Class imbalance distribution widely exists in real-world engineering. However, the mainstream optimization algorithms that seek to minimize error will trap the deep learning model in sub-optimums when facing extreme class imbalance. It seriously harms the classification precision, especially on the minor classes. The essential reason is that the gradients of the classifier weights are imbalanced among the components from different classes. In this paper, we propose Attraction-Repulsion-Balanced Loss (ARB-Loss) to balance the different components of the gradients. We perform experiments on the large-scale classification and segmentation datasets and our ARB-Loss can achieve state-of-the-art performance via only one-stage training instead of 2-stage learning like nowadays SOTA works.
翻訳日:2022-04-20 13:09:56 公開日:2022-04-19
# (参考訳) 注意メカニズムに基づく認知レベルシーン理解

Attention Mechanism based Cognition-level Scene Understanding ( http://arxiv.org/abs/2204.08027v2 )

ライセンス: CC0 1.0
Xuejiao Tang, Tai Le Quy, Eirini Ntoutsi, Kea Turner, Vasile Palade, Israat Haque, Peng Xu, Chris Brown and Wenbin Zhang(参考訳) 質問画像入力が与えられると、visual commonsense reasoning (vcr) モデルは、実世界からの推論能力を必要とする対応する合理性で答えを予測できる。 VCRタスクは、マルチソース情報を活用し、異なるレベルの理解と広範な常識知識を学ぶことを要求するもので、認知レベルのシーン理解タスクである。 VCRタスクは、視覚的質問応答、自動車両システム、臨床決定支援など幅広い応用のために、研究者の関心を喚起している。 VCRタスクを解くための従来のアプローチは、一般的に、長い依存性関係の符号化されたモデルによるメモリの事前トレーニングや利用に頼っている。 しかし、これらのアプローチは一般化可能性の欠如と長いシーケンスで情報を失うことに苦しむ。 本稿では,視覚とテキストの情報を効率的に融合し,意味情報を並列にエンコードし,モデルが認知レベルの推論のためにリッチな情報をキャプチャできるようにする並列注意型認知vcrネットワークpavcrを提案する。 広範な実験により、提案モデルがベンチマークvcrデータセットの既存の方法を大幅に改善できることが示されている。 さらに,提案モデルは視覚的コモンセンス推論の直感的な解釈を提供する。

Given a question-image input, the Visual Commonsense Reasoning (VCR) model can predict an answer with the corresponding rationale, which requires inference ability from the real world. The VCR task, which calls for exploiting the multi-source information as well as learning different levels of understanding and extensive commonsense knowledge, is a cognition-level scene understanding task. The VCR task has aroused researchers' interest due to its wide range of applications, including visual question answering, automated vehicle systems, and clinical decision support. Previous approaches to solving the VCR task generally rely on pre-training or exploiting memory with long dependency relationship encoded models. However, these approaches suffer from a lack of generalizability and losing information in long sequences. In this paper, we propose a parallel attention-based cognitive VCR network PAVCR, which fuses visual-textual information efficiently and encodes semantic information in parallel to enable the model to capture rich information for cognition-level inference. Extensive experiments show that the proposed model yields significant improvements over existing methods on the benchmark VCR dataset. Moreover, the proposed model provides intuitive interpretation into visual commonsense reasoning.
翻訳日:2022-04-20 12:12:31 公開日:2022-04-19
# (参考訳) Kymatioにおける時間周波数の異なる散乱

Differentiable Time-Frequency Scattering in Kymatio ( http://arxiv.org/abs/2204.08269v2 )

ライセンス: CC BY 4.0
John Muradeli, Cyrus Vahidi, Changhong Wang, Han Han, Vincent Lostanlen, Mathieu Lagrange, George Fazekas(参考訳) 結合時間周波数散乱(JTFS)は、様々な速度とスケールで分光時間変調を抽出する時間周波数領域における畳み込み作用素である。 一次聴覚野におけるスペクトロテンポラル受容野(strf)の理想化されたモデルを提供し、孤立したオーディオイベントのスケールで人間の知覚的判断のための生物学的に説得力のある代理として機能する。 しかし、JTFS と STRF の以前の実装は、知覚的類似度測定と音声生成のための評価方法の標準ツールキットの外部に留まっている。 この問題は、微分可能性、スピード、柔軟性の3つの制限に遡る。 本稿では,オープンソースの散乱変換用pythonパッケージkymatioにおける時間周波数散乱の実装について述べる。 以前の実装とは異なり、KymatioはNumPyとPyTorchをバックエンドとして対応しており、CPUとGPUの両方で移植可能である。 提案手法は, 分光時間変調の教師なし多様体学習, 楽器の教師付き分類, 生体音響音のテクスチャ再生の3つの応用を通して, JTFS の有用性を示す。

Joint time-frequency scattering (JTFS) is a convolutional operator in the time-frequency domain which extracts spectrotemporal modulations at various rates and scales. It offers an idealized model of spectrotemporal receptive fields (STRF) in the primary auditory cortex, and thus may serve as a biological plausible surrogate for human perceptual judgments at the scale of isolated audio events. Yet, prior implementations of JTFS and STRF have remained outside of the standard toolkit of perceptual similarity measures and evaluation methods for audio generation. We trace this issue down to three limitations: differentiability, speed, and flexibility. In this paper, we present an implementation of time-frequency scattering in Kymatio, an open-source Python package for scattering transforms. Unlike prior implementations, Kymatio accommodates NumPy and PyTorch as backends and is thus portable on both CPU and GPU. We demonstrate the usefulness of JTFS in Kymatio via three applications: unsupervised manifold learning of spectrotemporal modulations, supervised classification of musical instruments, and texture resynthesis of bioacoustic sounds.
翻訳日:2022-04-20 12:00:07 公開日:2022-04-19
# (参考訳) リモートセンシング画像における半教師付き変化検出のための一貫性正規化の再検討

Revisiting Consistency Regularization for Semi-supervised Change Detection in Remote Sensing Images ( http://arxiv.org/abs/2204.08454v2 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) リモートセンシング(rs)変化検出(cd)は、共登録バイタイムポラリ画像から「関心の変化」を検出することを目的としている。 既存の深層教師付きCD手法の性能は、ネットワークのトレーニングに使用される大量の注釈付きデータに起因する。 しかし、大量のリモートセンシング画像をアノテートすることは、人間の専門家によるピクセル単位での比較を必要とするため、労働集約的で高価である。 一方,地球観測プログラムの増大により,無ラベルのマルチ時間RS画像へのアクセスが制限されることが少なくない。 本稿では,ラベルなしバイタイム画像からの情報を簡易かつ効果的に活用し,cdアプローチの性能を向上させる手法を提案する。 具体的には, 教師なしcd損失を, 教師なしクロスエントロピー(ce)損失に加えて, 教師なしcd損失を定式化した半教師付きcdモデルを提案する。 2つの公開CDデータセットで行った実験により、提案した半教師付きCD法は、注釈付きトレーニングデータの10%未満にアクセスしても、教師付きCDの性能に近づくことができた。 コードはhttps://github.com/wgcban/semicdで利用可能

Remote-sensing (RS) Change Detection (CD) aims to detect "changes of interest" from co-registered bi-temporal images. The performance of existing deep supervised CD methods is attributed to the large amounts of annotated data used to train the networks. However, annotating large amounts of remote sensing images is labor-intensive and expensive, particularly with bi-temporal images, as it requires pixel-wise comparisons by a human expert. On the other hand, we often have access to unlimited unlabeled multi-temporal RS imagery thanks to ever-increasing earth observation programs. In this paper, we propose a simple yet effective way to leverage the information from unlabeled bi-temporal images to improve the performance of CD approaches. More specifically, we propose a semi-supervised CD model in which we formulate an unsupervised CD loss in addition to the supervised Cross-Entropy (CE) loss by constraining the output change probability map of a given unlabeled bi-temporal image pair to be consistent under the small random perturbations applied on the deep feature difference map that is obtained by subtracting their latent feature representations. Experiments conducted on two publicly available CD datasets show that the proposed semi-supervised CD method can reach closer to the performance of supervised CD even with access to as little as 10% of the annotated training data. Code available at https://github.com/wgcban/SemiCD
翻訳日:2022-04-20 11:45:03 公開日:2022-04-19
# 逆コントラスト学習による低リソースドメインのためのマイクロブログ投稿のうわさ検出

Detect Rumors in Microblog Posts for Low-Resource Domains via Adversarial Contrastive Learning ( http://arxiv.org/abs/2204.08143v2 )

ライセンス: Link先を確認
Hongzhan Lin, Jing Ma, Liangliang Chen, Zhiwei Yang, Mingfei Cheng, Guang Chen(参考訳) ニュースやトレンドの話題と共に、大量の偽の噂が浮上し、真実を著しく妨げている。 既存のうわさ検出アプローチは、モデルトレーニングのために同じドメインから収集された十分なコーパスがあるため、昨日のニュースで有望なパフォーマンスを達成する。 しかし、訓練データや事前知識(低資源体制など)の欠如により、特に異なる言語で伝播した、予期せぬ出来事の噂を検出するのが苦手である。 本稿では,噂データから得られた特徴をローソースに適応させることにより,うわさを検出するための,敵対的コントラスト学習フレームワークを提案する。 我々のモデルは、言語アライメントと新しい教師付きコントラッシブトレーニングパラダイムにより、ドメインおよび/または言語の使用制限を明示的に克服する。 さらに,低リソースのうわさ表現のロバスト性をさらに高めるための相反する拡張機構を開発する。 実世界のマイクロブログプラットフォームから収集した2つの低リソースデータセットによる大規模な実験により、我々のフレームワークは最先端の手法よりもはるかに優れた性能を示し、早期に噂を検出する能力を示している。

Massive false rumors emerging along with breaking news or trending topics severely hinder the truth. Existing rumor detection approaches achieve promising performance on the yesterday's news, since there is enough corpus collected from the same domain for model training. However, they are poor at detecting rumors about unforeseen events especially those propagated in different languages due to the lack of training data and prior knowledge (i.e., low-resource regimes). In this paper, we propose an adversarial contrastive learning framework to detect rumors by adapting the features learned from well-resourced rumor data to that of the low-resourced. Our model explicitly overcomes the restriction of domain and/or language usage via language alignment and a novel supervised contrastive training paradigm. Moreover, we develop an adversarial augmentation mechanism to further enhance the robustness of low-resource rumor representation. Extensive experiments conducted on two low-resource datasets collected from real-world microblog platforms demonstrate that our framework achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2022-04-20 11:42:23 公開日:2022-04-19
# LayoutLMv3: 統一テキストとイメージマスキングによるドキュメントAIの事前トレーニング

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking ( http://arxiv.org/abs/2204.08387v2 )

ライセンス: Link先を確認
Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei(参考訳) 自己教師付き事前トレーニング技術は、Document AIで顕著な進歩を遂げた。 ほとんどのマルチモーダル事前学習モデルは、マスク付き言語モデリングの目的を用いて、テキストモダリティの双方向表現を学習するが、画像モダリティの事前学習目標が異なる。 この不一致はマルチモーダル表現学習に困難をもたらす。 本稿では,テキストと画像マスキングを統一した文書ai用マルチモーダルトランスフォーマーの事前学習を行うlayoutlmv3を提案する。 さらに、LayoutLMv3を単語パッチアライメント目的で事前訓練し、テキストワードの対応する画像パッチがマスクされているか否かを予測して、クロスモーダルアライメントを学習する。 単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。 実験結果から,LayoutLMv3はテキスト中心のタスク(フォーム理解,レセプション理解,文書視覚質問応答など)だけでなく,文書画像分類や文書レイアウト解析などの画像中心のタスクにおいても,最先端のパフォーマンスを実現することがわかった。 コードとモデルはhttps://aka.ms/layoutlmv3で公開されている。

Self-supervised pre-training techniques have achieved remarkable progress in Document AI. Most multimodal pre-trained models use a masked language modeling objective to learn bidirectional representations on the text modality, but they differ in pre-training objectives for the image modality. This discrepancy adds difficulty to multimodal representation learning. In this paper, we propose LayoutLMv3 to pre-train multimodal Transformers for Document AI with unified text and image masking. Additionally, LayoutLMv3 is pre-trained with a word-patch alignment objective to learn cross-modal alignment by predicting whether the corresponding image patch of a text word is masked. The simple unified architecture and training objectives make LayoutLMv3 a general-purpose pre-trained model for both text-centric and image-centric Document AI tasks. Experimental results show that LayoutLMv3 achieves state-of-the-art performance not only in text-centric tasks, including form understanding, receipt understanding, and document visual question answering, but also in image-centric tasks such as document image classification and document layout analysis. The code and models are publicly available at https://aka.ms/layoutlmv3.
翻訳日:2022-04-20 11:42:02 公開日:2022-04-19
# MHSCNet:ビデオ要約のためのマルチモーダル階層型ショットアウェア畳み込みネットワーク

MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization ( http://arxiv.org/abs/2204.08352v2 )

ライセンス: Link先を確認
Wujiang Xu, Shaoshuai Li, Qiongxu Ma, Yunan Zhao, Sheng Guo, Xiaobo Guo, Bing Han, Junchi Yan, Yifei Xu(参考訳) ビデオ要約は、コンテンツ全体の最も有益な部分を効果的に捉え結合することにより、簡潔なビデオ要約を作成することを目的としている。 既存のビデオ要約手法では、このタスクをフレームワイドキーフレーム選択問題とみなし、長い範囲の時間依存性と非モーダル情報やバイモーダル情報を組み合わせたフレームワイズ表現が一般的である。 しかし、最適なビデオ要約は、最も価値のあるキーフレームを自身の情報と、コンテンツ全体のセマンティックなパワーで反映する必要がある。 したがって、より強力で堅牢なフレームワイド表現を構築し、フレームレベルの重要度を公平かつ包括的に予測することが重要である。 上記の課題に対処するため,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。 具体的には,ショートレンジとロングレンジの時間依存性を考慮して,適応的なフレームレベル表現を組み込む階層型ShotConvネットワークを設計する。 学習されたショットアウェア表現に基づいて、mhscnetはビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測できる。 2つの標準ビデオ要約データセットに関する広範囲な実験により,提案手法が最先端のベースラインを一貫して上回ることを示した。 ソースコードは公開される予定だ。

Video summarization intends to produce a concise video summary by effectively capturing and combining the most informative parts of the whole content. Existing approaches for video summarization regard the task as a frame-wise keyframe selection problem and generally construct the frame-wise representation by combining the long-range temporal dependency with the unimodal or bimodal information. However, the optimal video summaries need to reflect the most valuable keyframe with its own information, and one with semantic power of the whole content. Thus, it is critical to construct a more powerful and robust frame-wise representation and predict the frame-level importance score in a fair and comprehensive manner. To tackle the above issues, we propose a multimodal hierarchical shot-aware convolutional network, denoted as MHSCNet, to enhance the frame-wise representation via combining the comprehensive available multimodal information. Specifically, we design a hierarchical ShotConv network to incorporate the adaptive shot-aware frame-level representation by considering the short-range and long-range temporal dependency. Based on the learned shot-aware representations, MHSCNet can predict the frame-level importance score in the local and global view of the video. Extensive experiments on two standard video summarization datasets demonstrate that our proposed method consistently outperforms state-of-the-art baselines. Source code will be made publicly available.
翻訳日:2022-04-20 11:41:38 公開日:2022-04-19
# 深層強化学習におけるスケーラブルな観測モデルを用いた効率よいベイズ政策再利用

Efficient Bayesian Policy Reuse with a Scalable Observation Model in Deep Reinforcement Learning ( http://arxiv.org/abs/2204.07729v2 )

ライセンス: Link先を確認
Jinmei Liu, Zhi Wang, Chunlin Chen, Daoyi Dong(参考訳) ベイジアンポリシー再利用(bpr)は、いくつかの観測信号と訓練された観測モデルに基づいてタスク信念を推論することにより、オフラインライブラリからソースポリシーを選択するための一般的なポリシー転送フレームワークである。 本稿では,深部強化学習(DRL)におけるより効率的な政策伝達を実現するための改良されたBPR手法を提案する。 第一に、ほとんどのBPRアルゴリズムは、限られた情報を含む観察信号として、エピソードの終わりまで取得できないエピソードリターンを使用する。 代わりに、より高速で正確なタスク推論のための観測信号として、情報的かつ瞬時的な状態遷移サンプルを用いる。 第二に、BPRアルゴリズムは、特に状態遷移サンプルを信号として使用する場合、高コストで、学習や維持が不可能なグラフベースの観測モデルの確率分布を推定するために、多くのサンプルを必要とする。 そこで本研究では,対象タスクで観測される信号に一般化可能な,少数のサンプルのみからのソースタスクの状態遷移関数を適合させたスケーラブルな観測モデルを提案する。 さらに,スケーラブルな観察モデルをプラグ・アンド・プレイ方式で拡張することで,新たな未知のタスクに直面する場合の負の転送を回避し,オフラインモードbprを連続学習環境に拡張する。 実験の結果,提案手法はより高速かつ効率的な政策伝達を継続的に促進できることが判明した。

Bayesian policy reuse (BPR) is a general policy transfer framework for selecting a source policy from an offline library by inferring the task belief based on some observation signals and a trained observation model. In this paper, we propose an improved BPR method to achieve more efficient policy transfer in deep reinforcement learning (DRL). First, most BPR algorithms use the episodic return as the observation signal that contains limited information and cannot be obtained until the end of an episode. Instead, we employ the state transition sample, which is informative and instantaneous, as the observation signal for faster and more accurate task inference. Second, BPR algorithms usually require numerous samples to estimate the probability distribution of the tabular-based observation model, which may be expensive and even infeasible to learn and maintain, especially when using the state transition sample as the signal. Hence, we propose a scalable observation model based on fitting state transition functions of source tasks from only a small number of samples, which can generalize to any signals observed in the target task. Moreover, we extend the offline-mode BPR to the continual learning setting by expanding the scalable observation model in a plug-and-play fashion, which can avoid negative transfer when faced with new unknown tasks. Experimental results show that our method can consistently facilitate faster and more efficient policy transfer.
翻訳日:2022-04-20 11:41:15 公開日:2022-04-19
# 半教師付き超解像

Semi-Supervised Super-Resolution ( http://arxiv.org/abs/2204.08192v2 )

ライセンス: Link先を確認
Ankur Singh, Piyush Rai(参考訳) スーパーレゾリューション(super- resolution)とは、低解像度の写真の品質を向上させる技術である。 コンピュータビジョンコミュニティはスーパーリゾリューションの領域を幅広く探求してきた。 しかし、従来の超解法では、低解像度で高解像度のペアがほとんど得られない領域では問題となるような訓練のために大量のデータを必要とする。 このような領域の1つは統計的ダウンスケーリングであり、低解像度データから高解像度の気候情報を得るために超解像がますます使われている。 高解像度の気候データを取得するのは非常に高価で難しい。 高解像度の気候情報を生成するコストを削減するため、超解法アルゴリズムは限られた数の低解像度で高解像度のペアを訓練できる必要がある。 本稿では,500対の例に満たないシャープで高解像度の画像を生成するための半教師付き手法を導入することで,上記の問題を解決することを試みる。 提案手法は, 教師付きGANベースのスーパーリゾリューション法を用いて, プラグアンドプレイモジュールとして利用することができる。 提案モデルの性能を定量的・定性的に分析し,教師なし手法と同様に教師付き手法と比較した。 総合的な評価は, 異なる測定値における他の手法よりも優れた方法を示す。 また,高分解能気候画像を得るための統計的ダウンスケール手法の適用性も提供する。

Super-Resolution is the technique to improve the quality of a low-resolution photo by boosting its plausible resolution. The computer vision community has extensively explored the area of Super-Resolution. However, previous Super-Resolution methods require vast amounts of data for training which becomes problematic in domains where very few low-resolution, high-resolution pairs might be available. One such area is statistical downscaling, where super-resolution is increasingly being used to obtain high-resolution climate information from low-resolution data. Acquiring high-resolution climate data is extremely expensive and challenging. To reduce the cost of generating high-resolution climate information, Super-Resolution algorithms should be able to train with a limited number of low-resolution, high-resolution pairs. This paper tries to solve the aforementioned problem by introducing a semi-supervised way to perform super-resolution that can generate sharp, high-resolution images with as few as 500 paired examples. The proposed semi-supervised technique can be used as a plug-and-play module with any supervised GAN-based Super-Resolution method to enhance its performance. We quantitatively and qualitatively analyze the performance of the proposed model and compare it with completely supervised methods as well as other unsupervised techniques. Comprehensive evaluations show the superiority of our method over other methods on different metrics. We also offer the applicability of our approach in statistical downscaling to obtain high-resolution climate images.
翻訳日:2022-04-20 11:40:50 公開日:2022-04-19