このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220322となっている論文です。

PDF登録状況(公開日: 20220322)

TitleAuthorsAbstract論文公表日・翻訳日
# 自律運転における車両の動的スペクトルアクセスのための分散学習

Distributed Learning for Vehicular Dynamic Spectrum Access in Autonomous Driving ( http://arxiv.org/abs/2204.10179v1 )

ライセンス: Link先を確認
Pawe\{l} Sroka, Adrian Kliks(参考訳) 自律走行車間の信頼性の高い無線通信は、乗客の安全と快適性を保証するための基本的なニーズの1つである。 しかし、通信車両の数が増加すると、使用周波数帯の電波が多すぎるため、伝送品質が著しく低下する可能性がある。 本稿では,車内通信を動的に選択した周波数帯で行う自律型小隊通信のユースケースに焦点をあてる。 キャリア選択は、路側ユニット(無線通信インフラのエッジ)に位置するコンテキストデータベースのサポートにより、柔軟に行われる。 しかしながら、データベースがプラトンリーダーにコンテキスト情報のみを提供するため、最終的な決定は人工知能アルゴリズムによる提案に従って個々のプラトンによって別々に行われる。 本研究では,各車両に動的チャネル選択を成功させる軽量なq-learningソリューションに注目する。

Reliable wireless communication between the autonomously driving cars is one of the fundamental needs for guaranteeing passenger safety and comfort. However, when the number of communicating cars increases, the transmission quality may be significantly degraded due to too high occupancy radio of the used frequency band. In this paper, we concentrate on the autonomous vehicle-platooning use-case, where intra-platoon communication is done in the dynamically selected frequency band, other than nominally devoted for such purposes. The carrier selection is done in a flexible manner with the support of the context database located at the roadside unit (edge of wireless communication infrastructure). However, as the database delivers only context information to the platoons' leaders, the final decision is made separately by the individual platoons, following the suggestions made by the artificial intelligence algorithms. In this work, we concentrate on a lightweight Q-learning solution, that could be successfully implemented in each car for dynamic channel selection.
翻訳日:2022-04-24 16:42:12 公開日:2022-03-22
# 生ビデオ解析を用いたネットワーク状態推定:vQoS-GANに基づく非侵入的ディープラーニングアプローチ

Network state Estimation using Raw Video Analysis: vQoS-GAN based non-intrusive Deep Learning Approach ( http://arxiv.org/abs/2204.07062v1 )

ライセンス: Link先を確認
Renith G, Harikrishna Warrier, Yogesh Gupta(参考訳) コンテンツベースプロバイダは、ある領域から別の領域へビデオデータなどのリアルタイム複合信号を送信する。 この伝送過程の間、信号は通常、ビデオに存在する実際の情報が失われるときに歪んだり、劣化したりする。 これは通常、ストリーミングビデオサービスアプリケーションで発生する。 したがって、受信側で発生した劣化のレベルを知る必要がある。 このビデオ劣化は、データレートやパケット損失値などのネットワーク状態パラメータによって推定できる。 提案手法であるvqos gan(video quality of service generative adversarial network)は,半教師付き生成型adversarial networkアルゴリズムのディープラーニング手法を用いて,劣化した映像データからネットワーク状態パラメータを推定する。 ディープラーニングネットワークモデルの堅牢でユニークな設計が、データレートとパケット損失クラスラベルとともにビデオデータで訓練され、95%以上のトレーニング精度が達成されている。 提案した半教師付き生成対向ネットワークは、劣化したビデオデータを元の形式に再構築することで、より良いエンドユーザー体験を実現する。

Content based providers transmits real time complex signal such as video data from one region to another. During this transmission process, the signals usually end up distorted or degraded where the actual information present in the video is lost. This normally happens in the streaming video services applications. Hence there is a need to know the level of degradation that happened in the receiver side. This video degradation can be estimated by network state parameters like data rate and packet loss values. Our proposed solution vQoS GAN (video Quality of Service Generative Adversarial Network) can estimate the network state parameters from the degraded received video data using a deep learning approach of semi supervised generative adversarial network algorithm. A robust and unique design of deep learning network model has been trained with the video data along with data rate and packet loss class labels and achieves over 95 percent of training accuracy. The proposed semi supervised generative adversarial network can additionally reconstruct the degraded video data to its original form for a better end user experience.
翻訳日:2022-04-17 07:29:12 公開日:2022-03-22
# 形状とランドマークを用いた機能データのデータ駆動・ソフトアライメント

Data-Driven, Soft Alignment of Functional Data Using Shapes and Landmarks ( http://arxiv.org/abs/2203.14810v1 )

ライセンス: Link先を確認
Xiaoyang Guo, Wei Wu, Anuj Srivastava(参考訳) 関数のアライメントや登録は、関数や形状の統計解析における根本的な問題である。 利用可能なアプローチはいくつかあるが、より最近のアプローチではフィッシャー・ラオ計量と平方根速度関数(SRVF)が優れていることが示されている。 しかし、このsrvf法には2つの制限がある:(1)信号と同様にノイズのアライメントが過大なアライメントに影響を受けやすく、(2)ランドマークの形で追加情報が存在する場合、元の定式化ではその情報を組み込む方法を規定していない。 本稿では,ランドマーク情報の導入により,一致する曲線とランドマークの妥協を求める拡張手法を提案する。 これにより、関数とランドマークからのコントリビューションの妥協を見つけるために正確なオーバーレイを必要とせず、ランドマークを近づけるソフトなランドマークアライメントが実現される。 提案手法は,特定のシナリオにおいて優れていることを示す。

Alignment or registration of functions is a fundamental problem in statistical analysis of functions and shapes. While there are several approaches available, a more recent approach based on Fisher-Rao metric and square-root velocity functions (SRVFs) has been shown to have good performance. However, this SRVF method has two limitations: (1) it is susceptible to over alignment, i.e., alignment of noise as well as the signal, and (2) in case there is additional information in form of landmarks, the original formulation does not prescribe a way to incorporate that information. In this paper we propose an extension that allows for incorporation of landmark information to seek a compromise between matching curves and landmarks. This results in a soft landmark alignment that pushes landmarks closer, without requiring their exact overlays to finds a compromise between contributions from functions and landmarks. The proposed method is demonstrated to be superior in certain practical scenarios.
翻訳日:2022-04-03 17:48:03 公開日:2022-03-22
# (参考訳) 人工言語による事前学習:言語モデルにおける伝達可能な知識の研究 [全文訳有]

Pretraining with Artificial Language: Studying Transferable Knowledge in Language Models ( http://arxiv.org/abs/2203.10326v2 )

ライセンス: CC BY 4.0
Ryokan Ri and Yoshimasa Tsuruoka(参考訳) ニューラルネットワークエンコーダが自然言語処理にどのような構造的知識を伝達できるかを考察する。 自然言語を模倣する構造的性質を持つ人工言語を設計し,データのエンコーダをプリトレーニングし,自然言語における下流タスクにおけるエンコーダのパフォーマンスを確認する。 実験の結果,ネスト依存構造を持つ人工言語による事前学習は,自然言語に伝達可能な知識を提供することがわかった。 後続の探索分析は、転送の成功は、符号化された文脈情報の量と関連しており、転送されるものは、言語の位置認識コンテキスト依存の知識であることを示している。 本稿では、ニューラルネットワークエンコーダが人間の言語をどのように処理するか、そして最近の多言語モデルにおける言語間変換可能性の源泉について考察する。

We investigate what kind of structural knowledge learned in neural network encoders is transferable to processing natural language. We design artificial languages with structural properties that mimic natural language, pretrain encoders on the data, and see how much performance the encoder exhibits on downstream tasks in natural language. Our experimental results show that pretraining with an artificial language with a nesting dependency structure provides some knowledge transferable to natural language. A follow-up probing analysis indicates that its success in the transfer is related to the amount of encoded contextual information and what is transferred is the knowledge of position-aware context dependence of language. Our results provide insights into how neural network encoders process human languages and the source of cross-lingual transferability of recent multilingual language models.
翻訳日:2022-03-26 18:58:13 公開日:2022-03-22
# (参考訳) g2pW:マンダリンにおけるポリフォン曖昧化のための条件付き重み付きソフトマックスBERT [全文訳有]

g2pW: A Conditional Weighted Softmax BERT for Polyphone Disambiguation in Mandarin ( http://arxiv.org/abs/2203.10430v2 )

ライセンス: CC BY 4.0
Yi-Chang Chen and Yu-Chuan Chang and Yen-Cheng Chang and Yi-Ren Yeh(参考訳) ポリフォンの曖昧さは、マンダリン・グラデム・トゥ・音素変換(g2p)において最も重要な課題である。 従来の研究では、事前訓練された言語モデル、制限された出力、および Part-Of-Speech (POS) タグ付けからの余分な情報を用いてこの問題にアプローチしてきた。 これらの戦略にインスパイアされたg2pWという新しい手法を提案する。これは学習可能なソフトマックスウェイトを適応させ、BERTの出力にポリフォニックな特徴とPOSタグ付けを付与する。 先行研究のようにハードマスクを使うのではなく,音素候補に対するソフトウェイトリング関数の学習がパフォーマンスに有益であることを示す実験を行った。 さらに,提案したg2pWは,POSタグを補助機能として使用しながら,事前学習したPOSタグモデルを必要としない。 実験の結果,g2pWはCPPデータセット上の既存の手法よりも優れていた。 すべてのコード、モデルウェイト、ユーザフレンドリーなパッケージが公開されている。

Polyphone disambiguation is the most crucial task in Mandarin grapheme-to-phoneme (g2p) conversion. Previous studies have approached this problem using pre-trained language models, restricted output, and extra information from Part-Of-Speech (POS) tagging. Inspired by these strategies, we propose a novel approach, called g2pW, which adapts learnable softmax-weights to condition the outputs of BERT with the polyphonic character of interest and its POS tagging. Rather than using the hard mask as in previous works, our experiments show that learning a soft-weighting function for the candidate phonemes benefits performance. In addition, our proposed g2pW does not require extra pre-trained POS tagging models while using POS tags as auxiliary features since we train the POS tagging model simultaneously with the unified encoder. Experimental results show that our g2pW outperforms existing methods on the public CPP dataset. All codes, model weights, and a user-friendly package are publicly available.
翻訳日:2022-03-26 12:47:05 公開日:2022-03-22
# (参考訳) SimAN: 類似性を考慮した正規化によるシーンテキストの自己教師付き表現学習 [全文訳有]

SimAN: Exploring Self-Supervised Representation Learning of Scene Text via Similarity-Aware Normalization ( http://arxiv.org/abs/2203.10492v2 )

ライセンス: CC BY 4.0
Canjie Luo, Lianwen Jin, Jingdong Chen(参考訳) 近年,シーンテキスト認識コミュニティから自己指導型表現学習が注目されている。 コントラスト学習を用いた従来の研究とは違って,表現学習の枠組みを生成的に定式化することで,別の観点から問題に取り組む。 典型的には、隣接するテキスト行のイメージパッチは、ストローク、テクスチャ、色など、類似したスタイルを持つ傾向にある。 この常識によって、イメージパッチを1つ増やし、隣接するパッチをガイダンスとして使用して、自分自身を回復します。 具体的には、異なるパターンを特定し、対応するスタイルを導くための類似性認識正規化(siman)モジュールを提案する。 このように、ネットワークは乱雑なストロークやごちゃごちゃした背景といった複雑なパターンを区別する表現能力を得る。 実験の結果,提案したSimANは表現品質を著しく向上し,有望な性能を実現することがわかった。 さらに、我々の自己教師型生成ネットワークは、データ合成、テキスト画像編集、フォント補間など、驚くほどの可能性を秘めており、提案したSimANには幅広い実用的な応用があることが示唆されている。

Recently self-supervised representation learning has drawn considerable attention from the scene text recognition community. Different from previous studies using contrastive learning, we tackle the issue from an alternative perspective, i.e., by formulating the representation learning scheme in a generative manner. Typically, the neighboring image patches among one text line tend to have similar styles, including the strokes, textures, colors, etc. Motivated by this common sense, we augment one image patch and use its neighboring patch as guidance to recover itself. Specifically, we propose a Similarity-Aware Normalization (SimAN) module to identify the different patterns and align the corresponding styles from the guiding patch. In this way, the network gains representation capability for distinguishing complex patterns such as messy strokes and cluttered backgrounds. Experiments show that the proposed SimAN significantly improves the representation quality and achieves promising performance. Moreover, we surprisingly find that our self-supervised generative network has impressive potential for data synthesis, text image editing, and font interpolation, which suggests that the proposed SimAN has a wide range of practical applications.
翻訳日:2022-03-26 10:22:08 公開日:2022-03-22
# (参考訳) Pseudo Labelは人間のラベルより優れている [全文訳有]

Pseudo Label Is Better Than Human Label ( http://arxiv.org/abs/2203.12668v1 )

ライセンス: CC BY 4.0
Dongseong Hwang, Khe Chai Sim, Zhouyuan Huo, Trevor Strohman(参考訳) 最先端自動音声認識(asr)システムは、何万時間ものラベル付き音声データで訓練される。 ヒトの転写は高価で時間を要する。 転写の品質や一貫性などの要因は、これらのデータで訓練されたASRモデルの性能に大きな影響を与える。 本稿では,近年の自己教師と半教師による学習技術を用いて,教師モデルを用いて高品質な疑似ラベルを作成できることを示す。 具体的には、JUST(Joint Unsupervised/Supervi sed Training)と反復雑音の学生教師トレーニングを用いて、6億のパラメータ双方向教師モデルを訓練する。 このモデルは音声検索タスクで4.0%の単語誤り率(wer)を達成し、ベースラインよりも11.1%優れている。 さらに,この強力な教師モデルを用いて,高品質な擬似ラベルを生成することにより,ストリーミングモデルに対するWERの相対減少率(5.9%から5.1%)を,人間のラベルと比較して13.6%に抑えることができることを示した。

State-of-the-art automatic speech recognition (ASR) systems are trained with tens of thousands of hours of labeled speech data. Human transcription is expensive and time consuming. Factors such as the quality and consistency of the transcription can greatly affect the performance of the ASR models trained with these data. In this paper, we show that we can train a strong teacher model to produce high quality pseudo labels by utilizing recent self-supervised and semi-supervised learning techniques. Specifically, we use JUST (Joint Unsupervised/Supervi sed Training) and iterative noisy student teacher training to train a 600 million parameter bi-directional teacher model. This model achieved 4.0% word error rate (WER) on a voice search task, 11.1% relatively better than a baseline. We further show that by using this strong teacher model to generate high-quality pseudo labels for training, we can achieve 13.6% relative WER reduction (5.9% to 5.1%) for a streaming model compared to using human labels.
翻訳日:2022-03-26 05:28:12 公開日:2022-03-22
# (参考訳) 癌予後予測におけるShannonとTsallis Havrda Charvat Entropiesの定量的比較 [全文訳有]

A Quantitative Comparison between Shannon and Tsallis Havrda Charvat Entropies Applied to Cancer Outcome Prediction ( http://arxiv.org/abs/2203.11943v1 )

ライセンス: CC BY 4.0
Thibaud Brochet, J\'er\^ome Lapuyade-Lahorgue, Pierre Vera and Su Ruan(参考訳) 本稿では,医学的応用でよく見られる小さなデータセットの場合のディープネットワークのトレーニングにおいて,パラメータ化されたTsallis-Havrda-Charv atエントロピーと古典的なShannonエントロピーに基づいて損失関数を定量的に比較する。 シャノンクロスエントロピーは、画像のセグメンテーション、分類、検出に適用されるほとんどのニューラルネットワークの損失関数として広く用いられている。 シャノンエントロピーはtsallis-havrda-charv atエントロピーの特別な場合である。 本研究は, 頭頸部癌および肺癌患者の治療後の再発を予測するための医療的応用を通して, これら2つのエントロピーを比較した。 CT画像と患者情報の両方に基づいて、クロスエントロピーを損失関数として、画像再構成タスクとして繰り返し予測タスクを実行するマルチタスクディープニューラルネットワークを提案する。 Tsallis-Havrda-Charv at クロスエントロピーはパラメータ $\alpha$ を持つパラメータ化されたクロスエントロピーである。 シャノンエントロピーは、Tsallis-Havrda-Charv at entropy for $\alpha$ = 1 の特別な場合である。 このパラメータが最終予測結果に及ぼす影響について検討した。 そこで本研究では, 頭頸部癌434例, 肺癌146例の計580例について検討を行った。 その結果,Tsallis-Havrda-Char vatエントロピーは予測精度が$\alpha$の値でより優れた性能が得られることがわかった。

In this paper, we propose to quantitatively compare loss functions based on parameterized Tsallis-Havrda-Charv at entropy and classical Shannon entropy for the training of a deep network in the case of small datasets which are usually encountered in medical applications. Shannon cross-entropy is widely used as a loss function for most neural networks applied to the segmentation, classification and detection of images. Shannon entropy is a particular case of Tsallis-Havrda-Charv at entropy. In this work, we compare these two entropies through a medical application for predicting recurrence in patients with head-neck and lung cancers after treatment. Based on both CT images and patient information, a multitask deep neural network is proposed to perform a recurrence prediction task using cross-entropy as a loss function and an image reconstruction task. Tsallis-Havrda-Charv at cross-entropy is a parameterized cross entropy with the parameter $\alpha$. Shannon entropy is a particular case of Tsallis-Havrda-Charv at entropy for $\alpha$ = 1. The influence of this parameter on the final prediction results is studied. In this paper, the experiments are conducted on two datasets including in total 580 patients, of whom 434 suffered from head-neck cancers and 146 from lung cancers. The results show that Tsallis-Havrda-Charv at entropy can achieve better performance in terms of prediction accuracy with some values of $\alpha$.
翻訳日:2022-03-26 05:12:47 公開日:2022-03-22
# (参考訳) CM-GAN: カスケード変調GANとオブジェクト認識トレーニングによるイメージインペインティング

CM-GAN: Image Inpainting with Cascaded Modulation GAN and Object-Aware Training ( http://arxiv.org/abs/2203.11947v1 )

ライセンス: CC BY 4.0
Haitian Zheng, Zhe Lin, Jingwan Lu, Scott Cohen, Eli Shechtman, Connelly Barnes, Jianming Zhang, Ning Xu, Sohrab Amirghodsi, and Jiebo Luo(参考訳) 最近の画像塗装法は大きな進歩を遂げているが、複雑な画像に大きな穴をあける場合、しばしば可塑性画像構造を生成するのに苦労している。 これは部分的には、画像の長距離依存性と高レベルセマンティクスの両方をキャプチャできる効果的なネットワーク構造がないためである。 これらの問題に対処するために、入力画像から複数スケールの特徴表現を抽出するフーリエ畳み込みブロックを持つエンコーダと、各スケールレベルで新しい大域空間変調ブロックを持つスタイルGAN様デコーダからなる新しいネットワーク設計であるカスケード変調GAN(CM-GAN)を提案する。 各デコーダブロックでは、まず大域変調を適用して粗い意味認識構造合成を行い、次に大域変調の出力に空間変調を施し、空間的に適応した方法で特徴マップをさらに調整する。 さらに,ネットワークがホール内の新たな物体を幻覚させるのを防ぐため,実世界のシナリオにおける物体除去タスクのニーズを満たすためのオブジェクト認識学習手法を設計する。 本手法は, 定量評価と定性評価の両方において, 既存手法よりも有意に優れていた。

Recent image inpainting methods have made great progress but often struggle to generate plausible image structures when dealing with large holes in complex images. This is partially due to the lack of effective network structures that can capture both the long-range dependency and high-level semantics of an image. To address these problems, we propose cascaded modulation GAN (CM-GAN), a new network design consisting of an encoder with Fourier convolution blocks that extract multi-scale feature representations from the input image with holes and a StyleGAN-like decoder with a novel cascaded global-spatial modulation block at each scale level. In each decoder block, global modulation is first applied to perform coarse semantic-aware structure synthesis, then spatial modulation is applied on the output of global modulation to further adjust the feature map in a spatially adaptive fashion. In addition, we design an object-aware training scheme to prevent the network from hallucinating new objects inside holes, fulfilling the needs of object removal tasks in real-world scenarios. Extensive experiments are conducted to show that our method significantly outperforms existing methods in both quantitative and qualitative evaluation.
翻訳日:2022-03-26 05:01:56 公開日:2022-03-22
# (参考訳) 重み空間における共鳴:共変量シフトはモーメント付きSGDの分散を駆動できる

Resonance in Weight Space: Covariate Shift Can Drive Divergence of SGD with Momentum ( http://arxiv.org/abs/2203.11992v1 )

ライセンス: CC BY-SA 4.0
Kirby Banman, Liam Peet-Pare, Nidhi Hegde, Alona Fyshe, Martha White(参考訳) ほとんどの収束保証は、運動量を伴う確率勾配降下(SGDm)は、イドサンプリングに依存する。 しかし、SGDmは、連続学習や強化学習のような時間的に相関した入力サンプルの設定において、この体制の外でよく使われる。 既存の研究は、崩壊するステップサイズを持つSGDmがマルコフ時間相関の下で収束できることを示した。 本研究は, 一定段径の共変量シフト下でのSGDmが不安定かつ分散可能であることを示す。 特に,共変量シフト下でのsgdmはパラメトリック発振器であり,共鳴現象と呼ばれる現象に苦しむ可能性がある。 常微分方程式の時間変化系として学習系を近似し、既存の理論を用いてシステムの発散/収束を共振/非共振モードとして特徴付ける。 理論的結果は, 周期的共変量シフトを伴う線形設定に限られるため, 非周期的共変量シフト, ニューラルネットワークを用いた非線形ダイナミクス, およびSGDm以外のオプティマイザの下でも共鳴現象が持続することを示す。

Most convergence guarantees for stochastic gradient descent with momentum (SGDm) rely on iid sampling. Yet, SGDm is often used outside this regime, in settings with temporally correlated input samples such as continual learning and reinforcement learning. Existing work has shown that SGDm with a decaying step-size can converge under Markovian temporal correlation. In this work, we show that SGDm under covariate shift with a fixed step-size can be unstable and diverge. In particular, we show SGDm under covariate shift is a parametric oscillator, and so can suffer from a phenomenon known as resonance. We approximate the learning system as a time varying system of ordinary differential equations, and leverage existing theory to characterize the system's divergence/convergen ce as resonant/nonresonant modes. The theoretical result is limited to the linear setting with periodic covariate shift, so we empirically supplement this result to show that resonance phenomena persist even under non-periodic covariate shift, nonlinear dynamics with neural networks, and optimizers other than SGDm.
翻訳日:2022-03-26 04:59:40 公開日:2022-03-22
# (参考訳) 音響イベント分類のためのフェデレーション自己監督学習 [全文訳有]

Federated Self-Supervised Learning for Acoustic Event Classification ( http://arxiv.org/abs/2203.11997v1 )

ライセンス: CC BY 4.0
Meng Feng, Chieh-Chi Kao, Qingming Tang, Ming Sun, Viktor Rozgic, Spyros Matsoukas, Chao Wang(参考訳) 標準音響イベント分類(AEC)ソリューションは、モデル最適化のためにクライアントデバイスからの大規模なデータの収集を必要とする。 フェデレートラーニング(FL)は、データの収集とモデルのトレーニングを分離して顧客のプライバシーを強化する魅力的なフレームワークである。 本研究では,顧客データをサーバに直接アップロードすることなく,FLを適用してAEC性能を向上させる可能性を検討する。 デバイス上のユーザ入力から擬似ラベルを推測できないと仮定し、AECの典型的なユースケースと整合する。 表示のオンデバイス連続学習のためのFLフレームワークに自己教師付き学習を適用し,ラベル付き/擬似ラベル付きデータを使用せずに,下流AEC分類器の性能を向上させる。 ベースラインw/o flと比較して,本手法はリコールを維持しつつ,精度を20.3\%まで向上させる。 我々の研究は、FLにおける以前の作業と異なり、我々のアプローチはユーザ生成の学習目標を必要とせず、使用したデータはベータプログラムから収集され、プロダクション設定を最大限にシミュレートするために特定される。

Standard acoustic event classification (AEC) solutions require large-scale collection of data from client devices for model optimization. Federated learning (FL) is a compelling framework that decouples data collection and model training to enhance customer privacy. In this work, we investigate the feasibility of applying FL to improve AEC performance while no customer data can be directly uploaded to the server. We assume no pseudo labels can be inferred from on-device user inputs, aligning with the typical use cases of AEC. We adapt self-supervised learning to the FL framework for on-device continual learning of representations, and it results in improved performance of the downstream AEC classifiers without labeled/pseudo-label ed data available. Compared to the baseline w/o FL, the proposed method improves precision up to 20.3\% relatively while maintaining the recall. Our work differs from prior work in FL in that our approach does not require user-generated learning targets, and the data we use is collected from our Beta program and is de-identified, to maximally simulate the production settings.
翻訳日:2022-03-26 04:57:30 公開日:2022-03-22
# (参考訳) 身体-脳共進化のための統一基材 [全文訳有]

A Unified Substrate for Body-Brain Co-evolution ( http://arxiv.org/abs/2203.12066v1 )

ライセンス: CC BY 4.0
Sidney Pontes-Filho, Kathryn Walker, Elias Najarro, Stefano Nichele and Sebastian Risi(参考訳) 複雑な多細胞生物の開発には数百万年を要した。 このような多細胞生物のゲノムは、その制御システムを含む単一の細胞から体の発達を誘導する。 私たちの目標は、モジュール型ロボットエージェントのゲノムとして、単一の神経細胞オートマトン(nca)を使って、この自然なプロセスを模倣することです。 導入されたアプローチであるNCRS(Neural Cellular Robot Substrate)では、単一のNAAが、ロボットの成長と、デプロイメント中にロボットを制御する細胞活動をガイドする。 また、3つのベンチマーク環境を導入し、異なるロボット形態を育むためのアプローチの能力をテストする。 我々は,共分散行列適応進化戦略(CMA-ES)と品質多様性のための共分散行列適応MAP-Elites(CMA-ME)を用いてNCRSを進化させ,CMA-MEがより多様なロボット形態を生成することを観察した。 NCRSはベンチマークで簡単なタスクを解くことができるが、タスクの難しさが増加すると成功率が低下する。 我々は、NCRSアプローチをより複雑なドメインに活用するための今後の取り組みについて論じる。

A successful development of a complex multicellular organism took millions of years of evolution. The genome of such a multicellular organism guides the development of its body from a single cell, including its control system. Our goal is to imitate this natural process using a single neural cellular automaton (NCA) as a genome for modular robotic agents. In the introduced approach, called Neural Cellular Robot Substrate (NCRS), a single NCA guides the growth of a robot and the cellular activity which controls the robot during deployment. We also introduce three benchmark environments, which test the ability of the approach to grow different robot morphologies. We evolve the NCRS with covariance matrix adaptation evolution strategy (CMA-ES), and covariance matrix adaptation MAP-Elites (CMA-ME) for quality diversity and observe that CMA-ME generates more diverse robot morphologies with higher fitness scores. While the NCRS is able to solve the easier tasks in the benchmark, the success rate reduces when the difficulty of the task increases. We discuss directions for future work that may facilitate the use of the NCRS approach for more complex domains.
翻訳日:2022-03-26 04:44:54 公開日:2022-03-22
# (参考訳) 音素系列とASR仮説の相互注意によるロバスト音声言語理解の構築 [全文訳有]

Building Robust Spoken Language Understanding by Cross Attention between Phoneme Sequence and ASR Hypothesis ( http://arxiv.org/abs/2203.12067v1 )

ライセンス: CC BY 4.0
Zexun Wang, Yuquan Le, Yi Zhu, Yuming Zhao, Mingchao Feng, Meng Chen, Xiaodong He(参考訳) 音声認識(ASR)エラーに頑健な音声言語理解(SLU)を構築することは、音声対応バーチャルアシスタントにとって重要な問題である。 ほとんどのASR誤りは、類似した音声表現間の音声的混同によるものであるので、直感的には、音声の音素シーケンスを活用することで、ASR仮説を補完し、SLUの堅牢性を高めることができる。 本稿では,SLU用クロスアテンションモデル(CASLU)を提案する。 クロスアテンションブロックは音素と単語の埋め込みのきめ細かい相互作用を捉えるために考案され、共同表現が入力の音素的・意味的な特徴を同時にキャッチし、下流自然言語理解(NLU)タスクにおけるASRエラーを克服する。 3つのデータセットで広範な実験を行い、このアプローチの有効性と競争力を示した。 さらに、我々はCASLUの普遍性を検証し、他の堅牢なSLU技術と組み合わせてその相補性を証明する。

Building Spoken Language Understanding (SLU) robust to Automatic Speech Recognition (ASR) errors is an essential issue for various voice-enabled virtual assistants. Considering that most ASR errors are caused by phonetic confusion between similar-sounding expressions, intuitively, leveraging the phoneme sequence of speech can complement ASR hypothesis and enhance the robustness of SLU. This paper proposes a novel model with Cross Attention for SLU (denoted as CASLU). The cross attention block is devised to catch the fine-grained interactions between phoneme and word embeddings in order to make the joint representations catch the phonetic and semantic features of input simultaneously and for overcoming the ASR errors in downstream natural language understanding (NLU) tasks. Extensive experiments are conducted on three datasets, showing the effectiveness and competitiveness of our approach. Additionally, We also validate the universality of CASLU and prove its complementarity when combining with other robust SLU techniques.
翻訳日:2022-03-26 04:34:36 公開日:2022-03-22
# (参考訳) NISQ時代のハイブリッド量子画像エッジ検出器 [全文訳有]

A hybrid quantum image edge detector for the NISQ era ( http://arxiv.org/abs/2203.12072v1 )

ライセンス: CC BY 4.0
Alexander Geng, Ali Moghiseh, Claudia Redenbach, Katja Schladitz(参考訳) エッジは、グレー値の強度が突然変化するイメージロケーションである。 イメージを理解し、セグメント化するための最も重要な機能のひとつです。 エッジ検出はデジタル画像処理における標準的なタスクであり、例えばフィルタリング技術を用いて解決される。 しかし、処理されるデータの量は急速に増加し、スーパーコンピュータでさえ限界まで押し寄せる。 量子コンピューティングは、古典ビットの数に比べて量子ビットの数でメモリ使用量が指数関数的に少ないことを約束する。 本稿では,量子人工ニューロンのアイデアに基づく,量子エッジ検出のためのハイブリッド手法を提案する。 提案手法は量子コンピュータ,特に現在ノイズの強い中間量子時代の量子コンピュータに実装することができる。 この方法の6つの変種を比較し,回路数を削減し,量子エッジ検出に要する時間を削減する。 この手法のスケーラビリティを生かして,従来よりもはるかに大きな画像のエッジを実際に検出することができる。

Edges are image locations where the gray value intensity changes suddenly. They are among the most important features to understand and segment an image. Edge detection is a standard task in digital image processing, solved for example using filtering techniques. However, the amount of data to be processed grows rapidly and pushes even supercomputers to their limits. Quantum computing promises exponentially lower memory usage in terms of the number of qubits compared to the number of classical bits. In this paper, we propose a hybrid method for quantum edge detection based on the idea of a quantum artificial neuron. Our method can be practically implemented on quantum computers, especially on those of the current noisy intermediate-scale quantum era. We compare six variants of the method to reduce the number of circuits and thus the time required for the quantum edge detection. Taking advantage of the scalability of our method, we can practically detect edges in images considerably larger than reached before.
翻訳日:2022-03-26 04:23:39 公開日:2022-03-22
# 学習原理としての制約付きパラメータ推論

Constrained Parameter Inference as a Principle for Learning ( http://arxiv.org/abs/2203.13203v1 )

ライセンス: Link先を確認
Nasir Ahmad, Ellen Schrader, Marcel van Gerven(参考訳) 生体および人工ニューラルネットワークでの学習は、標的エラー信号がより最適なネットワーク動作のためにパラメータ更新を導く問題としてしばしば考えられている。 誤りのバックプロパゲーション(BP)はそのようなアプローチの例であり、ディープニューラルネットワークへの確率勾配降下の高度に成功した応用であることが証明されている。 しかし、BPは勾配情報のグローバルな伝達に依存しており、その生物学的不確実性について批判されている。 制約パラメータ推論(COPI)を学習の新たな原則として提案する。 copiは、decorrelated neural inputとtop-down perturbation of neural stateの制約下でのネットワークパラメータの推定を可能にする。 copiは生物学的に妥当なだけでなく、エラーの標準的なバックプロパゲーションと比べて、高速な学習に特有の利点がある。

Learning in biological and artificial neural networks is often framed as a problem in which targeted error signals guide parameter updating for more optimal network behaviour. Backpropagation of error (BP) is an example of such an approach and has proven to be a highly successful application of stochastic gradient descent to deep neural networks. However, BP relies on the global transmission of gradient information and has therefore been criticised for its biological implausibility. We propose constrained parameter inference (COPI) as a new principle for learning. COPI allows for the estimation of network parameters under the constraints of decorrelated neural inputs and top-down perturbations of neural states. We show that COPI not only is more biologically plausible but also provides distinct advantages for fast learning, compared with standard backpropagation of error.
翻訳日:2022-03-25 15:50:16 公開日:2022-03-22
# 視覚・言語ナビゲーション:課題・方法・今後の方向性に関する調査

Vision-and-Language Navigation: A Survey of Tasks, Methods, and Future Directions ( http://arxiv.org/abs/2203.12667v1 )

ライセンス: Link先を確認
Jing Gu, Eliana Stefani, Qi Wu, Jesse Thomason, Xin Eric Wang(参考訳) AI研究の長期的な目標は、自然言語で人間とコミュニケーションし、環境を認識し、現実世界のタスクを実行するインテリジェントエージェントを構築することである。 視覚・言語ナビゲーション(vln)は、この目標に向けて基礎的かつ学際的な研究テーマであり、自然言語処理、コンピュータビジョン、ロボット工学、機械学習コミュニティから注目を集めている。 本稿では, VLNの新興分野における現代研究を概観し, 課題, 評価指標, 方法等について述べる。 現状の進展と課題の構造化分析を通じて、現在のVLNの限界と今後の仕事の機会を強調します。 本稿では,VLN研究コミュニティの詳細な参考となる。

A long-term goal of AI research is to build intelligent agents that can communicate with humans in natural language, perceive the environment, and perform real-world tasks. Vision-and-Language Navigation (VLN) is a fundamental and interdisciplinary research topic towards this goal, and receives increasing attention from natural language processing, computer vision, robotics, and machine learning communities. In this paper, we review contemporary studies in the emerging field of VLN, covering tasks, evaluation metrics, methods, etc. Through structured analysis of current progress and challenges, we highlight the limitations of current VLN and opportunities for future work. This paper serves as a thorough reference for the VLN research community.
翻訳日:2022-03-25 12:44:28 公開日:2022-03-22
# (参考訳) planemvs: 多視点ステレオからの3次元平面再構成 [全文訳有]

PlaneMVS: 3D Plane Reconstruction from Multi-View Stereo ( http://arxiv.org/abs/2203.12082v1 )

ライセンス: CC BY 4.0
Jiachen Liu, Pan Ji, Nitin Bansal, Changjiang Cai, Qingan Yan, Xiaolei Huang, Yi Xu(参考訳) カメラのポーズによる複数入力ビューからの3次元平面再構成のための新しいフレームワークPlainMVSを提案する。 従来の学習ベース平面再構成手法では, 単一画像から3次元平面を再構成する手法が多かった。 対照的に、マルチビュー幾何学を利用するマルチビューステレオ(MVS)パイプラインで3次元平面を再構成する。 平面再構成を意味的平面検出分岐と平面MVS分岐に分離する。 セマンティックプレーン検出ブランチは、シングルビュープレーン検出フレームワークに基づいているが、違いがある。 平面MVSブランチは、従来の深度仮説を置き換えるために斜め平面仮説を採用し、最終的にピクセルレベルの平面パラメータとその平面深度マップを学習する。 そこで本研究では,両枝をバランスよく学習する方法を示し,両枝の出力を関連付け,相互に利益を与えるソフトプール損失を提案する。 様々な屋内データセットに対する大規模な実験により、PlaneMVSは、平面検出と3次元幾何計測の両方において、最先端(SOTA)単一ビュー平面再構成法よりも著しく優れていることが示された。 本手法は,soma学習に基づくmvs手法を学習平面優先法で上回る性能を持つ。 私たちの知る限りでは、これはエンドツーエンドのMVSフレームワーク内での3次元平面再構成に関する最初の作業です。

We present a novel framework named PlaneMVS for 3D plane reconstruction from multiple input views with known camera poses. Most previous learning-based plane reconstruction methods reconstruct 3D planes from single images, which highly rely on single-view regression and suffer from depth scale ambiguity. In contrast, we reconstruct 3D planes with a multi-view-stereo (MVS) pipeline that takes advantage of multi-view geometry. We decouple plane reconstruction into a semantic plane detection branch and a plane MVS branch. The semantic plane detection branch is based on a single-view plane detection framework but with differences. The plane MVS branch adopts a set of slanted plane hypotheses to replace conventional depth hypotheses to perform plane sweeping strategy and finally learns pixel-level plane parameters and its planar depth map. We present how the two branches are learned in a balanced way, and propose a soft-pooling loss to associate the outputs of the two branches and make them benefit from each other. Extensive experiments on various indoor datasets show that PlaneMVS significantly outperforms state-of-the-art (SOTA) single-view plane reconstruction methods on both plane detection and 3D geometry metrics. Our method even outperforms a set of SOTA learning-based MVS methods thanks to the learned plane priors. To the best of our knowledge, this is the first work on 3D plane reconstruction within an end-to-end MVS framework.
翻訳日:2022-03-25 12:37:13 公開日:2022-03-22
# (参考訳) 深いポートレートの喜び [全文訳有]

Deep Portrait Delighting ( http://arxiv.org/abs/2203.12088v1 )

ライセンス: CC BY 4.0
Joshua Weir, Junhong Zhao, Andrew Chalmers, Taehyun Rhee(参考訳) 本稿では,制約のないポートレート画像から望ましくないシェーディング特徴を除去し,テクスチャを回復するディープニューラルネットワークを提案する。 トレーニング手法には3つの正規化戦略が組み込まれている: マスキング損失, 高周波シェーディング特徴の強調, 微妙な照明変化に対する感度を向上させるソフトシャドウ損失, シェーディングとテクスチャの分離を監督するシェーディングオフセット推定である。 本手法は,最新技術との比較により,快適な品質と一般化が向上することを示す。 さらに,この方法により,顔の照らしや意味解析などの感光性コンピュータビジョンタスクの性能が向上し,極端な照明条件を処理できることを実証する。

We present a deep neural network for removing undesirable shading features from an unconstrained portrait image, recovering the underlying texture. Our training scheme incorporates three regularization strategies: masked loss, to emphasize high-frequency shading features; soft-shadow loss, which improves sensitivity to subtle changes in lighting; and shading-offset estimation, to supervise separation of shading and texture. Our method demonstrates improved delighting quality and generalization when compared with the state-of-the-art. We further demonstrate how our delighting method can enhance the performance of light-sensitive computer vision tasks such as face relighting and semantic parsing, allowing them to handle extreme lighting conditions.
翻訳日:2022-03-25 12:02:22 公開日:2022-03-22
# (参考訳) FxP-QNet:動的固定点表現を用いた混合低精度DNNの設計のためのポストトレーニング量子化器 [全文訳有]

FxP-QNet: A Post-Training Quantizer for the Design of Mixed Low-Precision DNNs with Dynamic Fixed-Point Representation ( http://arxiv.org/abs/2203.12091v1 )

ライセンス: CC BY 4.0
Ahmad Shawahna, Sadiq M. Sait, Aiman El-Maleh, and Irfan Ahmad(参考訳) 深層ニューラルネットワーク(dnn)は、集中的な計算とメモリを必要とする複雑な深層構造を通じて得られた最先端の結果と合わせて、幅広いコンピュータビジョンタスクにおいてその効果を実証した。 現在、効率的なモデル推論は、リソース制約のあるプラットフォーム上のコンシューマアプリケーションにとって不可欠である。 その結果、DNNのスループットとエネルギー効率を向上させるため、専用ディープラーニング(DL)ハードウェアの研究と開発に多くの関心が寄せられている。 量子化によるDNNデータ構造の低精度表現は、特殊なDLハードウェアに大きな利点をもたらすだろう。 しかし、厳密な量子化は厳密な精度低下につながる。 このように量子化はビット精度レベルで大きなハイパーパラメータ空間を開き、その探索は大きな課題である。 本稿では,整数-有理展開のための混合低精度dnnを柔軟に設計する,ディープニューラルネットワークの固定点量子化器 (fxp-qnet) と呼ばれる新しいフレームワークを提案する。 具体的には、FxP-QNetは、ネットワーク精度と低精度要求とのトレードオフに基づいて、各レイヤのデータ構造毎の量子化レベルを徐々に適応させる。 さらに、学習後の自己蒸留とネットワーク予測誤差統計を用いて浮動小数点値の固定点数への量子化を最適化する。 FxP-QNetの最先端アーキテクチャとベンチマークであるImageNetデータセットについて検討し、FxP-QNetがトレーニングを必要とせずに精度圧縮トレードオフを達成する上での有効性を実証的に示す。 その結果、FxP-QNet量子化AlexNet、VGG-16、ResNet-18は、それぞれ0.95%未満の7.16x、10.36x、6.44xのメモリ要求を1.99%の精度で削減した。

Deep neural networks (DNNs) have demonstrated their effectiveness in a wide range of computer vision tasks, with the state-of-the-art results obtained through complex and deep structures that require intensive computation and memory. Now-a-days, efficient model inference is crucial for consumer applications on resource-constrained platforms. As a result, there is much interest in the research and development of dedicated deep learning (DL) hardware to improve the throughput and energy efficiency of DNNs. Low-precision representation of DNN data-structures through quantization would bring great benefits to specialized DL hardware. However, the rigorous quantization leads to a severe accuracy drop. As such, quantization opens a large hyper-parameter space at bit-precision levels, the exploration of which is a major challenge. In this paper, we propose a novel framework referred to as the Fixed-Point Quantizer of deep neural Networks (FxP-QNet) that flexibly designs a mixed low-precision DNN for integer-arithmetic-o nly deployment. Specifically, the FxP-QNet gradually adapts the quantization level for each data-structure of each layer based on the trade-off between the network accuracy and the low-precision requirements. Additionally, it employs post-training self-distillation and network prediction error statistics to optimize the quantization of floating-point values into fixed-point numbers. Examining FxP-QNet on state-of-the-art architectures and the benchmark ImageNet dataset, we empirically demonstrate the effectiveness of FxP-QNet in achieving the accuracy-compression trade-off without the need for training. The results show that FxP-QNet-quantized AlexNet, VGG-16, and ResNet-18 reduce the overall memory requirements of their full-precision counterparts by 7.16x, 10.36x, and 6.44x with less than 0.95%, 0.95%, and 1.99% accuracy drop, respectively.
翻訳日:2022-03-25 11:10:44 公開日:2022-03-22
# (参考訳) 物理的に実現可能な量子ニューラルネットワークを目指して [全文訳有]

Toward Physically Realizable Quantum Neural Networks ( http://arxiv.org/abs/2203.12092v1 )

ライセンス: CC BY 4.0
Mohsen Heidari, Ananth Grama, Wojciech Szpankowski(参考訳) 近年、量子ニューラルネットワーク(QNN)への関心が高まり、様々な分野にも応用されている。 現在のqnnのソリューションはスケーラビリティに重大な課題をもたらし、量子力学の仮定が満たされ、ネットワークが物理的に実現可能であることを保証する。 QNNの指数的状態空間は、トレーニング手順のスケーラビリティに課題をもたらす。 非閉鎖原理は、複数のトレーニングサンプルの作成を禁止し、測定の仮定は非決定論的損失関数につながる。 その結果、qnnを訓練するために各サンプルの繰り返し測定に依存する既存のアプローチの物理的実現可能性と効率は明らかでない。 本稿では、量子パーセプトロン(QP)の転送関数の帯域制限されたフーリエ展開を利用してスケーラブルなトレーニング手順を設計するQNNの新しいモデルを提案する。 このトレーニング手順はランダム化量子確率勾配降下法で拡張され、サンプル複製の必要性がなくなる。 このトレーニング手順は、量子測定による非決定性の存在下でも、期待の真の最小値に収束する。 私たちのソリューションには、多くの重要な利点があります。 i) フーリエパワースペクトルを集中したQPを用いて、QNNのトレーニング手順をスケーラブルにすることができることを示す。 (二)再サンプリングの必要性を排除し、非閉鎖規則と整合性を保つこと。 (iii)各データサンプルはエポック毎に1回処理されるため、トレーニングプロセス全体のデータ効率が向上する。 我々は、モデルとメソッドのスケーラビリティ、正確性、データ効率に関する詳細な理論基盤を提示する。 また,一連の数値実験により,本手法の有効性を検証した。

There has been significant recent interest in quantum neural networks (QNNs), along with their applications in diverse domains. Current solutions for QNNs pose significant challenges concerning their scalability, ensuring that the postulates of quantum mechanics are satisfied and that the networks are physically realizable. The exponential state space of QNNs poses challenges for the scalability of training procedures. The no-cloning principle prohibits making multiple copies of training samples, and the measurement postulates lead to non-deterministic loss functions. Consequently, the physical realizability and efficiency of existing approaches that rely on repeated measurement of several copies of each sample for training QNNs are unclear. This paper presents a new model for QNNs that relies on band-limited Fourier expansions of transfer functions of quantum perceptrons (QPs) to design scalable training procedures. This training procedure is augmented with a randomized quantum stochastic gradient descent technique that eliminates the need for sample replication. We show that this training procedure converges to the true minima in expectation, even in the presence of non-determinism due to quantum measurement. Our solution has a number of important benefits: (i) using QPs with concentrated Fourier power spectrum, we show that the training procedure for QNNs can be made scalable; (ii) it eliminates the need for resampling, thus staying consistent with the no-cloning rule; and (iii) enhanced data efficiency for the overall training process since each data sample is processed once per epoch. We present a detailed theoretical foundation for our models and methods' scalability, accuracy, and data efficiency. We also validate the utility of our approach through a series of numerical experiments.
翻訳日:2022-03-25 10:07:16 公開日:2022-03-22
# (参考訳) 物理ネットワークにおける非干渉フィードバック化学信号による学習 [全文訳有]

Learning by non-interfering feedback chemical signaling in physical networks ( http://arxiv.org/abs/2203.12098v1 )

ライセンス: CC BY 4.0
Vidyesh Rao Anisetti, B. Scellier, J. M. Schwarz(参考訳) 非神経系と神経系の両方が学べる。 したがって、純粋に脳のような学習に焦点を合わせるのではなく、物理システムにおける学習を研究するための取り組みが進行中である。 このような取り組みには、均衡伝播(ep)と結合学習(cl)があり、2つの異なる状態(自由状態)と摂動状態(摂動状態)の保存を必要とする。 スライムモールドに着想を得て, 2つの異なる状態の保存を必要としない化学信号処理に根ざした新しい学習アルゴリズムを提案する。 むしろ、出力エラー情報は、アクティベーション/フェードフォワード信号と似た方法でネットワークに拡散する化学信号に符号化される。 定常フィードバック化学濃度は、活性化信号とともに、必要な勾配情報を局所的に記憶する。 物理線形フローネットワークを用いてアルゴリズムを適用し,93%の精度でIrisデータセットを用いて試行する。 また,アルゴリズムが勾配降下を行うことを示す。 最後に,本アルゴリズムをEPとCLと直接比較することに加えて,アルゴリズムの生物学的妥当性について考察する。

Both non-neural and neural biological systems can learn. So rather than focusing on purely brain-like learning, efforts are underway to study learning in physical systems. Such efforts include equilibrium propagation (EP) and coupled learning (CL), which require storage of two different states-the free state and the perturbed state-during the learning process to retain information about gradients. Inspired by slime mold, we propose a new learning algorithm rooted in chemical signaling that does not require storage of two different states. Rather, the output error information is encoded in a chemical signal that diffuses into the network in a similar way as the activation/feedforwa rd signal. The steady state feedback chemical concentration, along with the activation signal, stores the required gradient information locally. We apply our algorithm using a physical, linear flow network and test it using the Iris data set with 93% accuracy. We also prove that our algorithm performs gradient descent. Finally, in addition to comparing our algorithm directly with EP and CL, we address the biological plausibility of the algorithm.
翻訳日:2022-03-25 09:50:20 公開日:2022-03-22
# 意思決定能力評価のための因子ベースフレームワーク

A Factor-Based Framework for Decision-Making Competency Self-Assessment ( http://arxiv.org/abs/2203.11981v1 )

ライセンス: Link先を確認
Brett W. Israelsen, Nisar Ahmed(参考訳) 我々は,ロボットが割り当てられたタスクを遂行する機能的能力において,ロボットの自己信頼という機械的自信の観点から,簡潔で理解しやすい能力の自己評価を実現するための枠組みを開発する上での取り組みを要約する。 私たちのFactized Machine Self-Confidenceフレームワークは、ニッチなアプリケーションのためのアドホックな方法でマシンの自己自信を探求する一方で、アルゴリズム計画のための確率的メタ推論と不確実性の下での意思決定のいくつかの側面を導入して、さまざまな問題に対する能力評価を支援する新しい一般化可能な自己自信因子のセットに到達します。

We summarize our efforts to date in developing a framework for generating succinct human-understandable competency self-assessments in terms of machine self confidence, i.e. a robot's self-trust in its functional abilities to accomplish assigned tasks. Whereas early work explored machine self-confidence in ad hoc ways for niche applications, our Factorized Machine Self-Confidence framework introduces and combines several aspects of probabilistic meta reasoning for algorithmic planning and decision-making under uncertainty to arrive at a novel set of generalizable self-confidence factors, which can support competency assessment for a wide variety of problems.
翻訳日:2022-03-24 16:31:53 公開日:2022-03-22
# マルチタスク深層ニューラルネットワークを用いたバイオプラスチック設計

Bioplastic Design using Multitask Deep Neural Networks ( http://arxiv.org/abs/2203.12033v1 )

ライセンス: Link先を確認
Christopher Kuenneth, Jessica Lalonde, Babetta L. Marrone, Carl N. Iverson, Rampi Ramprasad, Ghanshyam Pilania(参考訳) 分解性のないプラスチック廃棄物は、何十年も陸地や水中に留まり、環境を危うくしています。 ポリヒドロキシアルカノエート(PHA)のポリマーファミリーのような生合成および生分解性代替物質は、世界のプラスチック供給の大部分をクレードル・トゥ・クレードル材料に置き換える可能性があるが、その化学的複雑さと多様性は伝統的な資源集約的な実験を制限する。 本研究では,23,000近いホモポリマーおよび共重合体の多種集合に対する実験データを用いたマルチタスクディープニューラルネットワーク特性予測器を開発した。 予測器を用いて、約14万の候補から14個のPHA系バイオプラスチックを抽出し、世界の年間プラスチック生産量の75%を占める7つの石油系プラスチックの代替となる可能性がある。 本研究は,これら特定された有望材料に対する合成経路について論じる。 開発したマルチタスクポリマー特性予測器は、PolymerGenome.orgのPolymer Genomeプロジェクトの一部として利用可能である。

Non-degradable plastic waste stays for decades on land and in water, jeopardizing our environment; yet our modern lifestyle and current technologies are impossible to sustain without plastics. Bio-synthesized and biodegradable alternatives such as the polymer family of polyhydroxyalkanoate s (PHAs) have the potential to replace large portions of the world's plastic supply with cradle-to-cradle materials, but their chemical complexity and diversity limit traditional resource-intensive experimentation. In this work, we develop multitask deep neural network property predictors using available experimental data for a diverse set of nearly 23000 homo- and copolymer chemistries. Using the predictors, we identify 14 PHA-based bioplastics from a search space of almost 1.4 million candidates which could serve as potential replacements for seven petroleum-based commodity plastics that account for 75% of the world's yearly plastic production. We discuss possible synthesis routes for these identified promising materials. The developed multitask polymer property predictors are made available as a part of the Polymer Genome project at https://PolymerGenom e.org.
翻訳日:2022-03-24 16:26:53 公開日:2022-03-22
# 視覚変換器におけるパッチ・クラスタ・アテンションの学習

Learning Patch-to-Cluster Attention in Vision Transformer ( http://arxiv.org/abs/2203.11987v1 )

ライセンス: Link先を確認
Ryan Grainger, Thomas Paniagua, Xi Song, Tianfu Wu(参考訳) vision transformer(vit)モデルは、イメージパッチを"ビジュアルトークン"として扱い、パッチからパッチへの注意を学習するという仮定に基づいている。 パッチ埋め込みベースのトークン化ツールは実際には回避策であり、テキストトークン化ツールとは意味的なギャップがある。 パッチ・トゥ・パッチの注意は二次的な複雑性の問題に悩まされ、学習されたViTモデルを説明するのも簡単ではない。 本稿では,パッチ・ツー・クラスタ・アテンション(PaCa)に基づくViTモデルを提案する。 PaCaViTのクエリはパッチに基づいており、キーと値はクラスタ化(事前定義された少数のクラスタ)に基づいています。 クラスタはエンドツーエンドで学習され、より優れたトークンライザと、ViTモデルにデプロイされた共同クラスタリングとアテンション・フォー・クラスタリングを実現する。 二次複雑性は線形複雑性に緩和される。 また、学習したクラスタを直接視覚化することで、トレーニングされたViTモデルがどのようにタスクを実行するか(オブジェクト検出など)を明らかにすることができる。 実験では,CIFAR-100とImageNet-1000の画像分類,MS-COCOオブジェクト検出とインスタンスセグメンテーションでPaCa-ViTを提案する。 先行技術と比較すると、分類における優れた性能と、検出とセグメンテーションにおける同等の性能が得られる。 線形複雑性のためCOCOでは著しく効率的である。 学習したクラスタは意味的に意味があり、より差別的で解釈可能なViTモデルの設計に重点を置いている。

The Vision Transformer (ViT) model is built on the assumption of treating image patches as "visual tokens" and learning patch-to-patch attention. The patch embedding based tokenizer is a workaround in practice and has a semantic gap with respect to its counterpart, the textual tokenizer. The patch-to-patch attention suffers from the quadratic complexity issue, and also makes it non-trivial to explain learned ViT models. To address these issues in ViT models, this paper proposes to learn patch-to-cluster attention (PaCa) based ViT models. Queries in our PaCaViT are based on patches, while keys and values are based on clustering (with a predefined small number of clusters). The clusters are learned end-to-end, leading to better tokenizers and realizing joint clustering-for-atten tion and attention-for-cluste ring when deployed in ViT models. The quadratic complexity is relaxed to linear complexity. Also, directly visualizing the learned clusters can reveal how a trained ViT model learns to perform a task (e.g., object detection). In experiments, the proposed PaCa-ViT is tested on CIFAR-100 and ImageNet-1000 image classification, and MS-COCO object detection and instance segmentation. Compared with prior arts, it obtains better performance in classification and comparable performance in detection and segmentation. It is significantly more efficient in COCO due to the linear complexity. The learned clusters are also semantically meaningful and shed light on designing more discriminative yet interpretable ViT models.
翻訳日:2022-03-24 14:55:45 公開日:2022-03-22
# トラッキングのための統合機能学習と関係モデリング:一ストリームフレームワーク

Joint Feature Learning and Relation Modeling for Tracking: A One-Stream Framework ( http://arxiv.org/abs/2203.11991v1 )

ライセンス: Link先を確認
Botao Ye, Hong Chang, Bingpeng Ma, and Shiguang Shan(参考訳) 現在の人気2-stream, two-stage trackingフレームワークはテンプレートと検索領域の特徴を分離して抽出し,関係モデリングを行う。 上記の課題に対処するために,テンプレート検索画像対と双方向情報フローをブリッジすることで特徴学習と関係モデリングを統一する新しい一ストリーム追跡(OSTrack)フレームワークを提案する。 このようにして、相互誘導により識別的目標指向特徴を動的に抽出することができる。 余分な重み付きモデリングモジュールは不要であり、実装は高度に並列化されているため、提案したトラッカーは高速に動作する。 推論効率をさらに向上するため,1ストリームフレームワークで計算された強い類似性に基づいて,ネットワーク内候補早期除去モジュールを提案する。 統一されたフレームワークとして、OSTrackは複数のベンチマークで最先端のパフォーマンスを達成し、特に1ショット追跡ベンチマークのGOT-10kでは、73.7%のAOを達成し、既存の最高の結果(SwinTrack)を4.3%改善した。 さらに,本手法は性能・速度のトレードオフを良好に維持し,より高速な収束を示す。 コードとモデルはhttps://github.com/b otaoye/OSTrack.comから入手できる。

The current popular two-stream, two-stage tracking framework extracts the template and the search region features separately and then performs relation modeling, thus the extracted features lack the awareness of the target and have limited target-background discriminability. To tackle the above issue, we propose a novel one-stream tracking (OSTrack) framework that unifies feature learning and relation modeling by bridging the template-search image pairs with bidirectional information flows. In this way, discriminative target-oriented features can be dynamically extracted by mutual guidance. Since no extra heavy relation modeling module is needed and the implementation is highly parallelized, the proposed tracker runs at a fast speed. To further improve the inference efficiency, an in-network candidate early elimination module is proposed based on the strong similarity prior calculated in the one-stream framework. As a unified framework, OSTrack achieves state-of-the-art performance on multiple benchmarks, in particular, it shows impressive results on the one-shot tracking benchmark GOT-10k, i.e., achieving 73.7% AO, improving the existing best result (SwinTrack) by 4.3%. Besides, our method maintains a good performance-speed trade-off and shows faster convergence. The code and models will be available at https://github.com/b otaoye/OSTrack.
翻訳日:2022-03-24 14:53:27 公開日:2022-03-22
# rgb-d画像からの測地線対応局所特徴の学習

Learning Geodesic-Aware Local Features from RGB-D Images ( http://arxiv.org/abs/2203.12016v1 )

ライセンス: Link先を確認
Guilherme Potje, Renato Martins, Felipe Cadar, Erickson R. Nascimento(参考訳) 既存の手書きおよび学習ベースのローカル記述子のほとんどは、アフィンのイメージ変換とほとんど変わらず、しばしば変形可能な表面を無視している。 本稿では,等尺性非剛性変形に不変なrgb-d画像(rgbは画素色輝度,dは奥行き情報を表す)から記述子を計算するための新しい手法を提案する。 提案手法は,表面測地線を用いた局所画像パッチにおける特徴表現の学習という重要な概念に基づいている。 ジオデシックな特徴を効率的に計算するための2つの補完的な局所記述子戦略を設計する。手作りのバイナリテストに基づく効率的なバイナリ記述子(GeoBit)と、畳み込みニューラルネットワーク(CNN)を用いた学習ベースの記述子(GeoPatch)である。 実際のRGB-Dデータベンチマークと一般公開されたRGB-Dデータベンチマークの異なる実験では、同等の処理時間でオブジェクト検索や非厳密な表面追跡実験と同様に、最先端の手技と学習ベースのイメージとRGB-Dディスクリプタを一貫して上回ります。 また,変形可能な表面対応アルゴリズムの評価ベンチマークとして,強い非剛性変形を受ける異なる物体(シャツ,布,絵画,バッグ)のrgb-d画像の正確なアノテーションをコミュニティに提供する。

Most of the existing handcrafted and learning-based local descriptors are still at best approximately invariant to affine image transformations, often disregarding deformable surfaces. In this paper, we take one step further by proposing a new approach to compute descriptors from RGB-D images (where RGB refers to the pixel color brightness and D stands for depth information) that are invariant to isometric non-rigid deformations, as well as to scale changes and rotation. Our proposed description strategies are grounded on the key idea of learning feature representations on undistorted local image patches using surface geodesics. We design two complementary local descriptors strategies to compute geodesic-aware features efficiently: one efficient binary descriptor based on handcrafted binary tests (named GeoBit), and one learning-based descriptor (GeoPatch) with convolutional neural networks (CNNs) to compute features. In different experiments using real and publicly available RGB-D data benchmarks, they consistently outperforms state-of-the-art handcrafted and learning-based image and RGB-D descriptors in matching scores, as well as in object retrieval and non-rigid surface tracking experiments, with comparable processing times. We also provide to the community a new dataset with accurate matching annotations of RGB-D images of different objects (shirts, cloths, paintings, bags), subjected to strong non-rigid deformations, for evaluation benchmark of deformable surface correspondence algorithms.
翻訳日:2022-03-24 14:53:04 公開日:2022-03-22
# ノックアウトとラウンドロビントーナメントの融合:フレキシブルリニア除去トーナメントデザイン

Merging Knockout and Round-Robin Tournaments: A Flexible Linear Elimination Tournament Design ( http://arxiv.org/abs/2203.12011v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 我々は,人気のノックアウトトーナメントとラウンドロビントーナメントを組み合わせた新しいトーナメント構造を提案する。 分断的排除の極端さとは対照的に,我々のトーナメントは,減算的排除の一形態として,参加者をできるだけ直線的に排除することを目的としている。 私たちのデザインは、任意の数のプレーヤーに$N$で、任意の数のマッチに$M$で適応できるという意味で柔軟です。 我々のデザインは、トーナメントが勝者を選ぶのに望ましい多くの特性を満足し、参加選手のランク付けに適応できる。

We propose a new tournament structure that combines the popular knockout tournaments and the round-robin tournaments. As opposed to the extremes of divisive elimination and no elimination, our tournament aims to eliminate the participants as linearly as possible as a form of subtractive elimination. Our design is flexible in the sense that it can be adapted to any number of players $N$ and any number of matches $M$. Our design satisfies many properties that are desirable for a tournament to select a winner and can be adapted to rank all the participating players.
翻訳日:2022-03-24 14:35:12 公開日:2022-03-22
# 多クラス教師学生パーセプトロンの学習曲線

Learning curves for the multi-class teacher-student perceptron ( http://arxiv.org/abs/2203.12094v1 )

ライセンス: Link先を確認
Elisabetta Cornacchia, Francesca Mignacco, Rodrigo Veiga, C\'edric Gerbelot, Bruno Loureiro, Lenka Zdeborov\'a(参考訳) 高次元学習理論における最も古典的な結果の1つは、ガウス入力の単層教師-学生パーセプトロンによる二項分類の一般化誤差に対する閉形式表現である。 ベイズ最適推定と経験的リスク最小化(erm)はどちらもこの設定のために広範囲に分析された。 同時に、現代の機械学習プラクティスのかなりの部分は、多クラス分類に関するものだ。 しかし、それに対応するマルチクラスの教師・生徒のパーセプトロンに対する類似の分析は欠落していた。 本稿では,高次元状態におけるベイズ最適化およびERM一般化誤差の漸近表現の導出と評価により,このギャップを埋める。 ガウスの教師の重み付けについて,クロスエントロピーと正方形損失の両方を伴うermの性能を調査し,ベイズ最適化へのアプローチにおけるリッジ正則化の役割について検討した。 特に、正規化されたクロスエントロピー最小化は、最適に近い精度を得る。 その代わり、二進教師に対しては、ベイズ最適性能において一階位相遷移が発生することを示す。

One of the most classical results in high-dimensional learning theory provides a closed-form expression for the generalisation error of binary classification with the single-layer teacher-student perceptron on i.i.d. Gaussian inputs. Both Bayes-optimal estimation and empirical risk minimisation (ERM) were extensively analysed for this setting. At the same time, a considerable part of modern machine learning practice concerns multi-class classification. Yet, an analogous analysis for the corresponding multi-class teacher-student perceptron was missing. In this manuscript we fill this gap by deriving and evaluating asymptotic expressions for both the Bayes-optimal and ERM generalisation errors in the high-dimensional regime. For Gaussian teacher weights, we investigate the performance of ERM with both cross-entropy and square losses, and explore the role of ridge regularisation in approaching Bayes-optimality. In particular, we observe that regularised cross-entropy minimisation yields close-to-optimal accuracy. Instead, for a binary teacher we show that a first-order phase transition arises in the Bayes-optimal performance.
翻訳日:2022-03-24 14:09:05 公開日:2022-03-22
# シミュレーション統合型バイオインスパイアサーチベーステストを用いたadasの機械学習テスト

Machine Learning Testing in an ADAS Case Study Using Simulation-Integrate d Bio-Inspired Search-Based Testing ( http://arxiv.org/abs/2203.12026v1 )

ライセンス: Link先を確認
Mahshid Helali Moghadam, Markus Borg, Mehrdad Saadatmand, Seyed Jalaleddin Mousavirad, Markus Bohlin, Bj\"orn Lisper(参考訳) 本稿では,ディープニューラルネットワークを用いた車線維持システムをテストするためのフェールリベリングテストシナリオを生成する,サーチベースのシミュレーション統合テストソリューションであるDeeperの拡張版を提案する。 新たに提案されたバージョンでは、新しいバイオインスパイアされた検索アルゴリズム、遺伝的アルゴリズム(GA)、$({\mu}+{\lambda})$および$({\mu},{\lambda})$進化戦略(ES)、そして品質の高い集団種子とドメイン固有のクロスオーバーと突然変異操作を利用する粒子群最適化(PSO)を利用する。 SBST 2021のサイバー物理システムテストコンテストに参加する5つのツールについて,Deeper内の新しいテストジェネレータの能力を実証するため,実証的な評価と比較を行った。 評価の結果,新たに提案するテストジェネレータは,前バージョンの大幅な改善を示すだけでなく,ml駆動レーンキーピングシステムをテストする上で,多数の多様な障害回避テストシナリオを誘発する上で有効かつ効率的であることが判明した。 テストシナリオの多様性を促進しながら、テスト時間の予算の制限、高いターゲット障害の重大さ、厳格な速度制限の下で、いくつかの障害をトリガーすることができる。

This paper presents an extended version of Deeper, a search-based simulation-integrate d test solution that generates failure-revealing test scenarios for testing a deep neural network-based lane-keeping system. In the newly proposed version, we utilize a new set of bio-inspired search algorithms, genetic algorithm (GA), $({\mu}+{\lambda})$ and $({\mu},{\lambda})$ evolution strategies (ES), and particle swarm optimization (PSO), that leverage a quality population seed and domain-specific cross-over and mutation operations tailored for the presentation model used for modeling the test scenarios. In order to demonstrate the capabilities of the new test generators within Deeper, we carry out an empirical evaluation and comparison with regard to the results of five participating tools in the cyber-physical systems testing competition at SBST 2021. Our evaluation shows the newly proposed test generators in Deeper not only represent a considerable improvement on the previous version but also prove to be effective and efficient in provoking a considerable number of diverse failure-revealing test scenarios for testing an ML-driven lane-keeping system. They can trigger several failures while promoting test scenario diversity, under a limited test time budget, high target failure severity, and strict speed limit constraints.
翻訳日:2022-03-24 13:55:41 公開日:2022-03-22
# transsleep:睡眠ステージングのための遷移注意型ディープニューラルネットワーク

TransSleep: Transitioning-aware Attention-based Deep Neural Network for Sleep Staging ( http://arxiv.org/abs/2203.12590v1 )

ライセンス: Link先を確認
Jauen Phyo, Wonjun Ko, Eunjin Jeon, and Heung-Il Suk(参考訳) 睡眠ステージングは睡眠評価に不可欠であり、健康指標として重要な役割を果たす。 近年の多くの研究は、睡眠ステージングのためのディープラーニングアーキテクチャと同様に、さまざまな機械学習を考案している。 しかし、これらのアーキテクチャの実用的利用を妨げる2つの重要な課題は、睡眠信号のサルエント波形を効果的に捉え、変遷時代の混乱した段階を正しく分類することである。 本研究では,局所的な時間パターンを捉え,2つの補助タスクを用いて混乱段階を区別する,新しい深層ニューラルネットワーク構造であるtranssleepを提案する。 特に、transsleepは注目度の高い波形をキャプチャするマルチスケール特徴抽出モジュールと、混乱ステージを識別するための信頼度スコアを推定する新しい補助タスクであるエポックレベルステージ分類を備えたステージ・コンフュージョン・エスティメータモジュールと、他の新しい補助タスクであるステージ・トランジション検出を備えたコンテキストエンコーダモジュールを採用し、隣接したエポック間のコンテキスト関係を表現している。 その結果,TransSleepは自動睡眠ステージングにおいて有望な性能を発揮することがわかった。 TransSleepの有効性は、2つの公開データセットであるSleep-EDFとMASS上での最先端のパフォーマンスによって実証されている。 さらに, 異なる視点から結果を分析するため, アブレーションを行った。 全体的な結果に基づいて、TransSleepにはディープラーニングベースの睡眠ステージングに関する新たな洞察を提供する大きな可能性があると考えています。

Sleep staging is essential for sleep assessment and plays a vital role as a health indicator. Many recent studies have devised various machine learning as well as deep learning architectures for sleep staging. However, two key challenges hinder the practical use of these architectures: effectively capturing salient waveforms in sleep signals and correctly classifying confusing stages in transitioning epochs. In this study, we propose a novel deep neural network structure, TransSleep, that captures distinctive local temporal patterns and distinguishes confusing stages using two auxiliary tasks. In particular, TransSleep adopts an attention-based multi-scale feature extractor module to capture salient waveforms; a stage-confusion estimator module with a novel auxiliary task, epoch-level stage classification, to estimate confidence scores for identifying confusing stages; and a context encoder module with the other novel auxiliary task, stage-transition detection, to represent contextual relationships across neighboring epochs. Results show that TransSleep achieves promising performance in automatic sleep staging. The validity of TransSleep is demonstrated by its state-of-the-art performance on two publicly available datasets, Sleep-EDF and MASS. Furthermore, we performed ablations to analyze our results from different perspectives. Based on our overall results, we believe that TransSleep has immense potential to provide new insights into deep learning-based sleep staging.
翻訳日:2022-03-24 13:55:11 公開日:2022-03-22
# 平均フィールドゲームのためのスケーラブル深層強化学習アルゴリズム

Scalable Deep Reinforcement Learning Algorithms for Mean Field Games ( http://arxiv.org/abs/2203.11973v1 )

ライセンス: Link先を確認
Mathieu Lauri\`ere, Sarah Perrin, Sertan Girgin, Paul Muller, Ayush Jain, Theophile Cabannes, Georgios Piliouras, Julien P\'erolat, Romuald \'Elie, Olivier Pietquin, Matthieu Geist(参考訳) 平均フィールドゲーム (MFGs) は、非常に多くの戦略エージェントを持つゲームを効率的に近似するために導入された。 近年,モデルフリー強化学習(RL)手法を用いて,MFGの学習均衡の課題が活発化している。 RLを用いてさらにスケールアップするための制限要因の1つは、MFGを解く既存のアルゴリズムが戦略や$q$-valuesのような近似量の混合を必要とすることである。 これは、ニューラルネットワークのような優れた一般化特性を持つ非線形関数近似の場合、自明ではない。 この欠点に対処する2つの方法を提案する。 1つ目は、歴史データの蒸留からニューラルネットワークへの混合戦略を学び、Fictitious Playアルゴリズムに適用する。 2つ目は、履歴データや過去の推定を記憶する必要のない正規化に基づくオンライン混合手法である。 Online Mirror Descentの拡張に使われる。 これらの手法がディープRLアルゴリズムを用いて様々なMFGを効率的に解くことができることを示す。 さらに,これらの手法が論文からSotAベースラインを上回っていることを示す。

Mean Field Games (MFGs) have been introduced to efficiently approximate games with very large populations of strategic agents. Recently, the question of learning equilibria in MFGs has gained momentum, particularly using model-free reinforcement learning (RL) methods. One limiting factor to further scale up using RL is that existing algorithms to solve MFGs require the mixing of approximated quantities such as strategies or $q$-values. This is non-trivial in the case of non-linear function approximation that enjoy good generalization properties, e.g. neural networks. We propose two methods to address this shortcoming. The first one learns a mixed strategy from distillation of historical data into a neural network and is applied to the Fictitious Play algorithm. The second one is an online mixing method based on regularization that does not require memorizing historical data or previous estimates. It is used to extend Online Mirror Descent. We demonstrate numerically that these methods efficiently enable the use of Deep RL algorithms to solve various MFGs. In addition, we show that these methods outperform SotA baselines from the literature.
翻訳日:2022-03-24 13:54:14 公開日:2022-03-22
# 自己回帰符号化(RandSAC)を用いたランダムセグメントによる自己監督

Self-supervision through Random Segments with Autoregressive Coding (RandSAC) ( http://arxiv.org/abs/2203.12054v1 )

ライセンス: Link先を確認
Tianyu Hua, Yonglong Tian, Sucheng Ren, Hang Zhao, Leonid Sigal(参考訳) 本稿では,自然言語における自己教師あり自己回帰表現学習(gptとその変種)の成功と,視覚トランスフォーマー(vits)を用いた最近の視覚アーキテクチャ設計の進展に触発され,視覚機能学習における学習戦略の適用に様々なデザイン選択が与えた影響について考察する。 具体的には,ランダムセグメントを自動回帰符号化(randsac)と呼ぶ新しい戦略を提案する。 randsacでは、パッチ表現(イメージトークン)を階層的に配置したセグメントにグループ化する。各セグメント内では、トークンはbertに類似した並列に予測され、セグメント全体ではgptに類似している。 セグメントのランダム化シリアライゼーションは,特徴学習に有効な空間長(クロスセグメント)と短(インターセグメント)の予測よりも,性能と結果が著しく向上することを示す。 いくつかのデータセット(例えば、CIFAR10、ImageNet)上で、これらの設計選択の関連性を説明します。 我々の事前学習戦略はバニラ変圧器で機能するが、概念的にシンプルだが非常に効果的であると同時に、エンコーダ特徴層に学習可能なスキップ接続を可能にするデコーダも提案し、パフォーマンスをさらに向上させる。 ImageNetでトレーニングした最終モデルは、予測的自己教師型学習アプローチの中で、最先端の線形探索性能を68.3%向上させる。

Inspired by the success of self-supervised autoregressive representation learning in natural language (GPT and its variants), and advances in recent visual architecture design with Vision Transformers (ViTs), in this paper, we explore the effects various design choices have on the success of applying such training strategies for visual feature learning. Specifically, we introduce a novel strategy that we call Random Segments with Autoregressive Coding (RandSAC). In RandSAC, we group patch representations (image tokens) into hierarchically arranged segments; within each segment, tokens are predicted in parallel, similar to BERT, while across segment predictions are sequential, similar to GPT. We illustrate that randomized serialization of the segments significantly improves the performance and results in distribution over spatially-long (across-segments) and -short (within-segment) predictions which are effective for feature learning. We illustrate the pertinence of these design choices and explore alternatives on a number of datasets (e.g., CIFAR10, ImageNet). While our pre-training strategy works with vanilla Transformer, we also propose a conceptually simple, but highly effective, addition to the decoder that allows learnable skip-connections to encoder feature layers, which further improves the performance. Our final model, trained on ImageNet, achieves new state-of-the-art linear probing performance 68.3% among comparative predictive self-supervised learning approaches.
翻訳日:2022-03-24 13:50:15 公開日:2022-03-22
# コントラスト的自己監督学習におけるテキスト変換 : レビュー

Text Transformations in Contrastive Self-Supervised Learning: A Review ( http://arxiv.org/abs/2203.12000v1 )

ライセンス: Link先を確認
Amrita Bhattacharjee, Mansooreh Karami, Huan Liu(参考訳) 対照的な自己指導型学習は表現学習において顕著な技術となっている。 これらの方法の主なステップは、意味的に類似し、異なるサンプルペアを対比することである。 しかし、自然言語領域では、対照的な学習仮定に関して類似のペアを作成する際に用いられる拡張手法は困難である。 これは、入力中の単語を単純に変更しても文の意味的意味が変化し、従って分布仮説に違反する可能性があるためである。 本稿では,自然言語処理分野におけるコントラスト学習フレームワークの形式化について述べる。 データ変換ステップで対処すべき考慮事項を強調し,nlpにおけるコントラスト表現学習の最先端手法と評価について検討する。 最後に、コントラスト法を用いてより良いテキスト表現を学習するための課題と潜在的方向性について述べる。

Contrastive self-supervised learning has become a prominent technique in representation learning. The main step in these methods is to contrast semantically similar and dissimilar pairs of samples. However, in the domain of Natural Language, the augmentation methods used in creating similar pairs with regard to contrastive learning assumptions are challenging. This is because, even simply modifying a word in the input might change the semantic meaning of the sentence, and hence, would violate the distributional hypothesis. In this review paper, we formalize the contrastive learning framework in the domain of natural language processing. We emphasize the considerations that need to be addressed in the data transformation step and review the state-of-the-art methods and evaluations for contrastive representation learning in NLP. Finally, we describe some challenges and potential directions for learning better text representations using contrastive methods.
翻訳日:2022-03-24 13:47:51 公開日:2022-03-22
# 強化学習の安定性・ロバスト性・レジリエンスの測定基準の検討

Review of Metrics to Measure the Stability, Robustness and Resilience of Reinforcement Learning ( http://arxiv.org/abs/2203.12048v1 )

ライセンス: Link先を確認
Laura L. Pullum(参考訳) 強化学習は近年,チェスや囲碁,オンラインコンピュータゲームなど,多くの課題を解決するための深層強化学習の成功によって,大きな関心を集めている。 しかし、強化学習に焦点が当てられるにつれて、ゲーム以外のアプリケーションやシミュレーション環境は強化学習法の堅牢性、安定性、レジリエンスを理解する必要がある。 そこで本研究では,これら3つの行動について,強化学習に関連する文献を特徴付けるため,包括的な文献レビューを行った。 我々は,ロバスト性,安定性,弾力性を示すために用いられる定量的・理論的アプローチを分類した。 さらに, 定量的アプローチが安定し, 堅牢で, 回復力のある動作や事象についても検討した。 最後に,行動の定量化のためのメトリクス選択に有用な決定木を提供する。 これは、強化学習に特化した安定性、堅牢性、レジリエンスに関する、初めての包括的なレビューであると考えています。

Reinforcement learning has received significant interest in recent years, due primarily to the successes of deep reinforcement learning at solving many challenging tasks such as playing Chess, Go and online computer games. However, with the increasing focus on reinforcement learning, applications outside of gaming and simulated environments require understanding the robustness, stability, and resilience of reinforcement learning methods. To this end, we conducted a comprehensive literature review to characterize the available literature on these three behaviors as they pertain to reinforcement learning. We classify the quantitative and theoretical approaches used to indicate or measure robustness, stability, and resilience behaviors. In addition, we identified the action or event to which the quantitative approaches were attempting to be stable, robust, or resilient. Finally, we provide a decision tree useful for selecting metrics to quantify the behaviors. We believe that this is the first comprehensive review of stability, robustness and resilience specifically geared towards reinforcement learning.
翻訳日:2022-03-24 13:46:24 公開日:2022-03-22
# ジェネレーティブモデリングは、弱視(とバイス・ヴァーサ)を助ける

Generative Modeling Helps Weak Supervision (and Vice Versa) ( http://arxiv.org/abs/2203.12023v1 )

ライセンス: Link先を確認
Benedikt Boecking, Willie Neiswanger, Nicholas Roberts, Stefano Ermon, Frederic Sala, Artur Dubrawski(参考訳) 教師付き機械学習の多くの有望な応用は、ラベル付きデータの十分な量と品質取得においてハードルに直面し、高価なボトルネックを生み出している。 このような制限を克服するため、弱監督や生成モデリングなど、真実ラベルに依存しない手法が開発されている。 これらのテクニックは、互いに改善しながら、コンサートで使用することができるように思えるが、それらのインターフェースを構築する方法はよく理解されていない。 本稿では,弱い監督と生成的敵ネットワークを用いたモデルを提案する。 弱い監督によるラベル推定と共に、データの離散変数をキャプチャする。 それらのアライメントは、弱い監督源のサンプル依存の精度のより良いモデリングを可能にし、観測されていない地上の真理推定を改善する。 これは、弱い教師付き合成画像と擬似ラベルによるデータ拡張を可能にする最初のアプローチである。 さらに、学習された離散変数は定性的に検査することができる。 このモデルは、複数のマルチクラス分類データセットのベースライン弱監督ラベルモデルより優れ、生成画像の品質を改善し、さらに合成サンプルによるデータ拡張によるエンドモデル性能を向上させる。

Many promising applications of supervised machine learning face hurdles in the acquisition of labeled data in sufficient quantity and quality, creating an expensive bottleneck. To overcome such limitations, techniques that do not depend on ground truth labels have been developed, including weak supervision and generative modeling. While these techniques would seem to be usable in concert, improving one another, how to build an interface between them is not well-understood. In this work, we propose a model fusing weak supervision and generative adversarial networks. It captures discrete variables in the data alongside the weak supervision derived label estimate. Their alignment allows for better modeling of sample-dependent accuracies of the weak supervision sources, improving the unobserved ground truth estimate. It is the first approach to enable data augmentation through weakly supervised synthetic images and pseudolabels. Additionally, its learned discrete variables can be inspected qualitatively. The model outperforms baseline weak supervision label models on a number of multiclass classification datasets, improves the quality of generated images, and further improves end-model performance through data augmentation with synthetic samples.
翻訳日:2022-03-24 13:31:44 公開日:2022-03-22
# DTFD-MIL:スライディング画像分類のためのダブルタイア特徴蒸留マルチインスタンス学習

DTFD-MIL: Double-Tier Feature Distillation Multiple Instance Learning for Histopathology Whole Slide Image Classification ( http://arxiv.org/abs/2203.12081v1 )

ライセンス: Link先を確認
Hongrun Zhang, Yanda Meng, Yitian Zhao, Yihong Qiao, Xiaoyun Yang, Sarah E. Coupland, Yalin Zheng(参考訳) 複数インスタンス学習 (mil) は病理組織学全体のスライド画像(wsis)の分類に用いられてきた。 しかし、この特定の分類問題に対する MIL のアプローチは、特に小さなサンプルコホートに関連する特別な課題に直面している。 これらの中には、限られた数のWSIスライド(バグ)があるが、単一のWSIの解像度は巨大であり、このスライドから取得された多数のパッチ(インスタンス)につながる。 この問題に対処するため,我々は疑似バッグの概念を導入することでバッグ数を事実上拡大し,その内在的な機能を効果的に活用するための2層ミルフレームワークを構築することを提案する。 さらに、注意に基づくMILの枠組みに基づくインスタンス確率の導出にも貢献し、この導出を利用して提案したフレームワークの構築と分析に役立てる。 提案手法はCAMELYON-16の他の最新の手法よりもかなり大きなマージンで優れており,TCGA肺がんデータセットの性能も優れている。 提案されたフレームワークは、より広範なMILアプリケーションのために拡張される準備ができている。 コードは、https://github.com/h rzhang1123/DTFD-MILで入手できる。

Multiple instance learning (MIL) has been increasingly used in the classification of histopathology whole slide images (WSIs). However, MIL approaches for this specific classification problem still face unique challenges, particularly those related to small sample cohorts. In these, there are limited number of WSI slides (bags), while the resolution of a single WSI is huge, which leads to a large number of patches (instances) cropped from this slide. To address this issue, we propose to virtually enlarge the number of bags by introducing the concept of pseudo-bags, on which a double-tier MIL framework is built to effectively use the intrinsic features. Besides, we also contribute to deriving the instance probability under the framework of attention-based MIL, and utilize the derivation to help construct and analyze the proposed framework. The proposed method outperforms other latest methods on the CAMELYON-16 by substantially large margins, and is also better in performance on the TCGA lung cancer dataset. The proposed framework is ready to be extended for wider MIL applications. The code is available at: https://github.com/h rzhang1123/DTFD-MIL
翻訳日:2022-03-24 13:30:42 公開日:2022-03-22
# wayfast: フィールドロボットのためのトラバーサビリティ予測ナビゲーション

WayFAST: Traversability Predictive Navigation for Field Robots ( http://arxiv.org/abs/2203.12071v1 )

ライセンス: Link先を確認
Mateus Valverde Gasparino, Arun Narenthiran Sivakumar, Yixiao Liu, Andres Eduardo Baquero Velasquez, Vitor Akihiro Hisano Higuti, John Rogers, Huy Tran, Girish Chowdhary(参考訳) 本研究では,移動ロボットの移動経路を予測するための自己教師型学習手法を提案する。 われわれのアルゴリズムはWayFAST(Waypoint Free Autonomous Systems for Traversability)と呼ばれ、RGBと深度データとナビゲーション体験を使って、屋外の非構造環境における移動可能な経路を自律的に生成する。 キーとなるインスピレーションは、キノダイナミックモデルを用いてローリングロボットのトラクションを推定できることです。 オンライン・リサイディング・ホライズン推定器によるトラクション推定値を用いることで,従来手法のヒューリスティックスを必要とせず,トラバーサビリティ予測ニューラルネットワークを自己教師あり方式で訓練することができる。 砂浜,森林キャノピー,雪に覆われた草原など,様々な環境における広範囲な野外試験により,ウェイファストの有効性を実証した。 この結果から,LiDARのような幾何学的データのみを提供するセンサでは避け難い雪のような不測の地形だけでなく,幾何学的障害物も回避できることが明らかとなった。 さらに,オンライントラクション推定に基づくトレーニングパイプラインは,他のヒューリスティック手法よりもデータ効率が高いことを示す。

We present a self-supervised approach for learning to predict traversable paths for wheeled mobile robots that require good traction to navigate. Our algorithm, termed WayFAST (Waypoint Free Autonomous Systems for Traversability), uses RGB and depth data, along with navigation experience, to autonomously generate traversable paths in outdoor unstructured environments. Our key inspiration is that traction can be estimated for rolling robots using kinodynamic models. Using traction estimates provided by an online receding horizon estimator, we are able to train a traversability prediction neural network in a self-supervised manner, without requiring heuristics utilized by previous methods. We demonstrate the effectiveness of WayFAST through extensive field testing in varying environments, ranging from sandy dry beaches to forest canopies and snow covered grass fields. Our results clearly demonstrate that WayFAST can learn to avoid geometric obstacles as well as untraversable terrain, such as snow, which would be difficult to avoid with sensors that provide only geometric data, such as LiDAR. Furthermore, we show that our training pipeline based on online traction estimates is more data-efficient than other heuristic-based methods.
翻訳日:2022-03-24 13:30:05 公開日:2022-03-22
# CLIPとGamePhysics:ゼロショット転送学習を用いたゲームプレイビデオのバグ識別

CLIP meets GamePhysics: Towards bug identification in gameplay videos using zero-shot transfer learning ( http://arxiv.org/abs/2203.11096v2 )

ライセンス: Link先を確認
Mohammad Reza Taesiri, Finlay Macklon, Cor-Paul Bezemer(参考訳) ゲームプレイビデオには、プレイヤーがゲームとどのように相互作用し、ゲームがどのように反応するかについての豊富な情報が含まれている。 redditなどのソーシャルメディアプラットフォームでゲームプレイビデオを共有することは、多くのプレイヤーにとって一般的なプラクティスとなっている。 多くの場合、プレイヤーはビデオゲームのバグを示すゲームプレイビデオを共有する。 このようなゲームプレイビデオは、バグ分析の洞察を提供するため、ゲームテストに使用できるソフトウェアアーティファクトである。 ゲームプレイビデオの大規模なリポジトリは存在するが、効果的で構造化された方法で解析し、マイニングすることは依然として大きな課題である。 本稿では,ゲームプレイビデオの大規模リポジトリから関連映像を検索するために,任意の英語テキストクエリを入力として受け入れる検索手法を提案する。 われわれのアプローチは外部情報(ビデオメタデータなど)に頼らず、ビデオの内容にのみ依存して機能する。 Contrastive Language-Image Pre-Training(CLIP)モデルのゼロショット転送機能を活用することで、我々のアプローチはデータラベリングやトレーニングを必要としない。 このアプローチを評価するために、redditウェブサイトのgamephysicsセクションから収集された1,873本のゲームから26,954本のビデオからなる$\texttt{gamephysics}$データセットを提示した。 本手法は,単純クエリ,複合クエリ,バグクエリの広範な分析において有望な結果を示し,ゲームプレイビデオのオブジェクト検出やイベント検出に有用であることを示す。 このアプローチの例として、ビデオゲームのバグの再現を支援するゲームプレイビデオ検索エンジンがあります。 コードとデータについては以下のリンクを参照してください。 https://asgaardlab.g ithub.io/clipxgameph ysics/

Gameplay videos contain rich information about how players interact with the game and how the game responds. Sharing gameplay videos on social media platforms, such as Reddit, has become a common practice for many players. Often, players will share gameplay videos that showcase video game bugs. Such gameplay videos are software artifacts that can be utilized for game testing, as they provide insight for bug analysis. Although large repositories of gameplay videos exist, parsing and mining them in an effective and structured fashion has still remained a big challenge. In this paper, we propose a search method that accepts any English text query as input to retrieve relevant videos from large repositories of gameplay videos. Our approach does not rely on any external information (such as video metadata); it works solely based on the content of the video. By leveraging the zero-shot transfer capabilities of the Contrastive Language-Image Pre-Training (CLIP) model, our approach does not require any data labeling or training. To evaluate our approach, we present the $\texttt{GamePhysics}$ dataset consisting of 26,954 videos from 1,873 games, that were collected from the GamePhysics section on the Reddit website. Our approach shows promising results in our extensive analysis of simple queries, compound queries, and bug queries, indicating that our approach is useful for object and event detection in gameplay videos. An example application of our approach is as a gameplay video search engine to aid in reproducing video game bugs. Please visit the following link for the code and the data: https://asgaardlab.g ithub.io/CLIPxGamePh ysics/
翻訳日:2022-03-24 11:51:03 公開日:2022-03-22
# (参考訳) マルチビュー3次元再構成のための実世界データセット [全文訳有]

A Real World Dataset for Multi-view 3D Reconstruction ( http://arxiv.org/abs/2203.11397v1 )

ライセンス: CC BY 4.0
Rakesh Shrestha, Siqi Hu, Minghao Gou, Ziyuan Liu, Ping Tan(参考訳) 日常のテーブルトップオブジェクトの371個の3Dモデルと,実世界のRGBと深度画像のデータセットを提示する。 画像毎のカメラポーズとオブジェクトポーズの正確なアノテーションを半自動で実行し、形状再構成、オブジェクトポーズ推定、形状検索などの無数の3Dアプリケーションにデータセットを使用することを容易にする。 私たちは主に、タスクに適切な実世界のベンチマークがないため、学習したマルチビューの3D再構成に注目し、データセットがそのギャップを埋めることを示す。 アノテーションツールと評価ベースラインのソースコードとともに、アノテーション付きデータセット全体が公開される。

We present a dataset of 371 3D models of everyday tabletop objects along with their 320,000 real world RGB and depth images. Accurate annotations of camera poses and object poses for each image are performed in a semi-automated fashion to facilitate the use of the dataset for myriad 3D applications like shape reconstruction, object pose estimation, shape retrieval etc. We primarily focus on learned multi-view 3D reconstruction due to the lack of appropriate real world benchmark for the task and demonstrate that our dataset can fill that gap. The entire annotated dataset along with the source code for the annotation tools and evaluation baselines will be made publicly available.
翻訳日:2022-03-24 08:26:27 公開日:2022-03-22
# (参考訳) 教師なし後知識注入による会話目標達成 [全文訳有]

Achieving Conversational Goals with Unsupervised Post-hoc Knowledge Injection ( http://arxiv.org/abs/2203.11399v1 )

ライセンス: CC BY 4.0
Bodhisattwa Prasad Majumder, Harsh Jhamtani, Taylor Berg-Kirkpatrick, Julian McAuley(参考訳) 現在のニューラルダイアログモデルの制限は、主に限られたシナリオをカバーし限られた知識を伝達するトレーニングデータに依存するため、生成された応答の特異性と情報性の欠如に悩まされる傾向があることである。 この問題を緩和する一つの方法は、デコード時に外部ソースから関連する知識を抽出し、ダイアログ応答に組み込むことである。 本稿では,ダイアログ履歴と既存のダイアログモデルから初期応答の両方を条件とした,多様な知識スニペットの集合を検索する,ポストホックな知識注入手法を提案する。 我々は,各検索したスニペットを勾配に基づく復号法を用いて初期応答に個別に注入し,教師なしランキングステップで最終応答を選択する。 目標指向型および知識ベース型ダイアログ設定における実験により,提案手法の出力を従来のダイアログシステムよりも有意かつ情報的であると判断した。 さらに,知識向上は,双方の実験環境における会話目標達成の成功を促進することを示す。

A limitation of current neural dialog models is that they tend to suffer from a lack of specificity and informativeness in generated responses, primarily due to dependence on training data that covers a limited variety of scenarios and conveys limited knowledge. One way to alleviate this issue is to extract relevant knowledge from external sources at decoding time and incorporate it into the dialog response. In this paper, we propose a post-hoc knowledge-injection technique where we first retrieve a diverse set of relevant knowledge snippets conditioned on both the dialog history and an initial response from an existing dialog model. We construct multiple candidate responses, individually injecting each retrieved snippet into the initial response using a gradient-based decoding method, and then select the final response with an unsupervised ranking step. Our experiments in goal-oriented and knowledge-grounded dialog settings demonstrate that human annotators judge the outputs from the proposed method to be more engaging and informative compared to responses from prior dialog systems. We further show that knowledge-augmentati on promotes success in achieving conversational goals in both experimental settings.
翻訳日:2022-03-24 08:12:15 公開日:2022-03-22
# (参考訳) Hindsight:過去のトラバーサルを活用して3D認識を支援する [全文訳有]

Hindsight is 20/20: Leveraging Past Traversals to Aid 3D Perception ( http://arxiv.org/abs/2203.11405v1 )

ライセンス: CC BY 4.0
Yurong You, Katie Z Luo, Xiangyu Chen, Junan Chen, Wei-Lun Chao, Wen Sun, Bharath Hariharan, Mark Campbell, Kilian Q. Weinberger(参考訳) 自動運転車は、車両、歩行者、その他の交通参加者を正確に検知して安全に運転しなければならない。 小さな、遠く、あるいは非常に隠蔽された物体は、検出するためのLiDAR点雲に限られた情報があるため、特に困難である。 この課題に対処するために、私たちは過去の貴重な情報、特に、同じシーンの過去のトラバースで収集されたデータを活用する。 これらの過去のデータは通常捨てられ、上記の難題を曖昧にするために豊富な文脈情報を提供すると仮定する。 そこで本稿では,この文脈情報を過去のトラバーサルから抽出し,クエリの容易なデータ構造に格納する,新たなエンドツーエンドのトレーニング可能な後見フレームワークを提案する。 このフレームワークは現代のほとんどの3D検出アーキテクチャと互換性があり、複数の自律運転データセットの平均精度を大幅に向上させることができる。

Self-driving cars must detect vehicles, pedestrians, and other traffic participants accurately to operate safely. Small, far-away, or highly occluded objects are particularly challenging because there is limited information in the LiDAR point clouds for detecting them. To address this challenge, we leverage valuable information from the past: in particular, data collected in past traversals of the same scene. We posit that these past data, which are typically discarded, provide rich contextual information for disambiguating the above-mentioned challenging cases. To this end, we propose a novel, end-to-end trainable Hindsight framework to extract this contextual information from past traversals and store it in an easy-to-query data structure, which can then be leveraged to aid future 3D object detection of the same scene. We show that this framework is compatible with most modern 3D detection architectures and can substantially improve their average precision on multiple autonomous driving datasets, most notably by more than 300% on the challenging cases.
翻訳日:2022-03-24 07:53:18 公開日:2022-03-22
# (参考訳) ロバストピボット:2レベル最適化による摩擦安定性の活用 [全文訳有]

Robust Pivoting: Exploiting Frictional Stability Using Bilevel Optimization ( http://arxiv.org/abs/2203.11412v1 )

ライセンス: CC BY 4.0
Yuki Shirai, Devesh K. Jha, Arvind Raghunathan, Diego Romeres(参考訳) 汎用的な操作は、ロボットが新しい物体や環境と対話できることを必要とする。 この要件は、ロボットが物体の物理的特性の不確実性と複雑な摩擦相互作用を推論する必要があるため、操作を極めて困難にする。 本稿では,不確実性の存在下でのピボット操作制御のためのロバストな最適化について検討する。 操作中の物理特性の推定の不正確さを補うために摩擦をいかに活用できるかについて考察する。 特に,ピボット操作時の摩擦による安定性マージンの解析式を導出する。 このマージンは、物体の物理的性質の不確実性に対するロバスト性を提供するためにこの安定性マージンを最大化するコントローラを設計するために、二段階軌道最適化アルゴリズムで使用される。 提案手法は6自由度マニピュレータを用いて複数の物体を操作する方法である。

Generalizable manipulation requires that robots be able to interact with novel objects and environment. This requirement makes manipulation extremely challenging as a robot has to reason about complex frictional interaction with uncertainty in physical properties of the object. In this paper, we study robust optimization for control of pivoting manipulation in the presence of uncertainties. We present insights about how friction can be exploited to compensate for the inaccuracies in the estimates of the physical properties during manipulation. In particular, we derive analytical expressions for stability margin provided by friction during pivoting manipulation. This margin is then used in a bilevel trajectory optimization algorithm to design a controller that maximizes this stability margin to provide robustness against uncertainty in physical properties of the object. We demonstrate our proposed method using a 6 DoF manipulator for manipulating several different objects.
翻訳日:2022-03-24 07:30:07 公開日:2022-03-22
# (参考訳) トランスフォーマリン機械翻訳における学習信頼度 [全文訳有]

Learning Confidence for Transformer-based Neural Machine Translation ( http://arxiv.org/abs/2203.11413v1 )

ライセンス: CC BY 4.0
Yu Lu, Jiali Zeng, Jiajun Zhang, Shuangzhi Wu and Mu Li(参考訳) 信頼度推定は、モデル予測の信頼性を定量化し、成功の期待を提供する。 適切に調整された信頼度推定は、実環境においてノイズのあるサンプルと分散データの与えられた場合に、正確な故障予測と適切なリスク測定を可能にする。 しかし、このタスクは神経機械翻訳(NMT)にとって深刻な課題であり、ソフトマックス分布の確率がモデルが誤っていることを説明できない。 この問題を解決するために,NMTモデルのトレーニングと協調して教師なし信頼度推定学習を提案する。 我々は、NMTモデルが正しい予測を行うために必要なヒントの数として、信頼性を説明し、より多くのヒントは信頼性の低いことを示す。 具体的には、NMTモデルには、わずかなペナルティを犠牲にして翻訳精度を向上させるヒントを求めるオプションが与えられる。 次に,モデルが使用するヒントの数を数えることで,信頼度レベルを近似する。 学習信頼度推定は,文/単語レベルの品質推定タスクにおいて高い精度が得られることを示す。 分析結果は,(1)ノイズのあるサンプルの発見,(2)ドメイン外データの検出の2つのシナリオにおいて,信頼度推定が基礎となるリスクを正しく評価できることを確認した。 さらに,学習された信頼度推定に基づいて,新しい信頼度に基づくインスタンス固有ラベル平滑化手法を提案する。

Confidence estimation aims to quantify the confidence of the model prediction, providing an expectation of success. A well-calibrated confidence estimate enables accurate failure prediction and proper risk measurement when given noisy samples and out-of-distribution data in real-world settings. However, this task remains a severe challenge for neural machine translation (NMT), where probabilities from softmax distribution fail to describe when the model is probably mistaken. To address this problem, we propose an unsupervised confidence estimate learning jointly with the training of the NMT model. We explain confidence as how many hints the NMT model needs to make a correct prediction, and more hints indicate low confidence. Specifically, the NMT model is given the option to ask for hints to improve translation accuracy at the cost of some slight penalty. Then, we approximate their level of confidence by counting the number of hints the model uses. We demonstrate that our learned confidence estimate achieves high accuracy on extensive sentence/word-level quality estimation tasks. Analytical results verify that our confidence estimate can correctly assess underlying risk in two real-world scenarios: (1) discovering noisy samples and (2) detecting out-of-domain data. We further propose a novel confidence-based instance-specific label smoothing approach based on our learned confidence estimate, which outperforms standard label smoothing.
翻訳日:2022-03-24 07:15:31 公開日:2022-03-22
# (参考訳) 領域一般化可能な物体検出のためのGated Domain-Invariant Feature Disentanglement [全文訳有]

Gated Domain-Invariant Feature Disentanglement for Domain Generalizable Object Detection ( http://arxiv.org/abs/2203.11432v1 )

ライセンス: CC BY 4.0
Haozhuo Zhang, Huimin Yu, Yuming Yan, Runfa Wang(参考訳) Domain Generalizable Object Detection (DGOD) では、Domain-Invariant Representation (DSR) からDomain-Invariant Representation (DIR) を明示的に切り離すことで、Disentangled Representation Learning (DRL) が多くの役に立ちます。 ドメインカテゴリが入力データの属性であることを考えると、DSRをドメイン固有の情報のみに限定した特徴チャネルにプロジェクションする特定のマッピングにネットワークが適合し、DSRからのDIRのよりクリーンな切り離しは、チャネル次元で簡単に実現できる。 このアイデアに触発されて、Gated Domain-Invariant Feature Disentanglement (GDIFD)と呼ばれるDGODの新しいDRL法を提案する。 gdifdでは、チャネルゲートモジュール(cgm)が0または1に近いチャネルゲート信号を出力することを学習し、ドメイン認識に有用なドメイン固有情報のみのチャネルをマスクする。 提案するgdifdでは,提案フレームワークのバックボーンが所望のマッピングに容易に適合するので,チャネル間の絡み合いを解消できる。 実験では,本手法が極めて有効であり,最先端のDGOD性能を実現することを実証した。

For Domain Generalizable Object Detection (DGOD), Disentangled Representation Learning (DRL) helps a lot by explicitly disentangling Domain-Invariant Representations (DIR) from Domain-Specific Representations (DSR). Considering the domain category is an attribute of input data, it should be feasible for networks to fit a specific mapping which projects DSR into feature channels exclusive to domain-specific information, and thus much cleaner disentanglement of DIR from DSR can be achieved simply on channel dimension. Inspired by this idea, we propose a novel DRL method for DGOD, which is termed Gated Domain-Invariant Feature Disentanglement (GDIFD). In GDIFD, a Channel Gate Module (CGM) learns to output channel gate signals close to either 0 or 1, which can mask out the channels exclusive to domain-specific information helpful for domain recognition. With the proposed GDIFD, the backbone in our framework can fit the desired mapping easily, which enables the channel-wise disentanglement. In experiments, we demonstrate that our approach is highly effective and achieves state-of-the-art DGOD performance.
翻訳日:2022-03-24 07:00:06 公開日:2022-03-22
# (参考訳) DeepFakesをより刺激的: 追跡除去攻撃によるディープフェイスの偽造検出を回避 [全文訳有]

Making DeepFakes more spurious: evading deep face forgery detection via trace removal attack ( http://arxiv.org/abs/2203.11433v1 )

ライセンス: CC BY 4.0
Chi Liu, Huajie Chen, Tianqing Zhu, Jun Zhang, Wanlei Zhou(参考訳) DeepFakesは重要な社会的懸念を提起している。 様々なディープフェイク検出器は法医学的な対策として開発されたが、これらの検出器は依然として攻撃に対して脆弱である。 最近、主に敵対的な攻撃を含むいくつかの攻撃は、検出を避けるためにDeepFakeイメージをクロークすることに成功している。 しかし、これらの攻撃は検出器特有の典型的な設計であり、検出器に関する事前の知識を必要とするため、転送性が劣る。 さらに、これらの攻撃は単純なセキュリティシナリオのみを考慮している。 検出器または攻撃者の知識が変化する高レベルのシナリオにおいて、それらがどの程度有効であるかは、あまり分かっていない。 本稿では,ディープフェイク対策のための新しい検出器非依存的トレース除去攻撃を提案することで,上記の課題を解決する。 検出側を調査する代わりに、私たちの攻撃はオリジナルのDeepFake生成パイプラインを調べ、検出可能なすべてのDeepFakeトレースを削除して、偽画像をより「美的」にレンダリングしようとしました。 この攻撃を実装するために、まずDeepFakeトレース発見を行い、3つの識別可能なトレースを識別する。 次に,1つのジェネレータと複数の識別器を含む逆学習フレームワークに基づいて,トレース除去ネットワーク(TR-Net)を提案する。 各識別器は、クロストレース干渉を避けるために、個々のトレース表現に責任を負う。 これらの識別器は並列に配置されており、生成器は様々なトレースを同時に除去する。 攻撃の有効性を評価するため,我々は,異なるレベルの防御と攻撃者のデータに関する背景知識を組み込んだ異種セキュリティシナリオを考案した。 実験の結果,提案した攻撃は6つの最先端のDeepFake検出器の検出精度を著しく損なうとともに,元のDeepFakeサンプルの視覚的品質を損なうことが示唆された。

DeepFakes are raising significant social concerns. Although various DeepFake detectors have been developed as forensic countermeasures, these detectors are still vulnerable to attacks. Recently, a few attacks, principally adversarial attacks, have succeeded in cloaking DeepFake images to evade detection. However, these attacks have typical detector-specific designs, which require prior knowledge about the detector, leading to poor transferability. Moreover, these attacks only consider simple security scenarios. Less is known about how effective they are in high-level scenarios where either the detectors or the attacker's knowledge varies. In this paper, we solve the above challenges with presenting a novel detector-agnostic trace removal attack for DeepFake anti-forensics. Instead of investigating the detector side, our attack looks into the original DeepFake creation pipeline, attempting to remove all detectable natural DeepFake traces to render the fake images more "authentic". To implement this attack, first, we perform a DeepFake trace discovery, identifying three discernible traces. Then a trace removal network (TR-Net) is proposed based on an adversarial learning framework involving one generator and multiple discriminators. Each discriminator is responsible for one individual trace representation to avoid cross-trace interference. These discriminators are arranged in parallel, which prompts the generator to remove various traces simultaneously. To evaluate the attack efficacy, we crafted heterogeneous security scenarios where the detectors were embedded with different levels of defense and the attackers' background knowledge of data varies. The experimental results show that the proposed attack can significantly compromise the detection accuracy of six state-of-the-art DeepFake detectors while causing only a negligible loss in visual quality to the original DeepFake samples.
翻訳日:2022-03-24 06:42:17 公開日:2022-03-22
# (参考訳) マルチヘッド融合トランスを用いたau検出のためのマルチモーダル学習 [全文訳有]

Multi-Modal Learning for AU Detection Based on Multi-Head Fused Transformers ( http://arxiv.org/abs/2203.11441v1 )

ライセンス: CC BY 4.0
Xiang Zhang and Lijun Yin(参考訳) マルチモーダル学習は近年、特に顔分析やアクション・ユニット検出への応用において強化されているが、それでも2つの主な課題がある。 1)表現のための関連する特徴学習 2)マルチモーダルの効率的な融合 近年,AU検出における注意機構の有効性を示す研究が多数報告されているが,その多くが関心領域(ROI)に特徴を結び付けているが,各AUの特徴間で注目されることはめったにない。 一方,自然言語処理やコンピュータビジョンタスクでは,より効率的な自己照査機構を用いたトランスフォーマは広く用いられてきたが,au検出タスクでは十分に検討されていない。 本稿では,異なるモダリティから特徴表現を変換器エンコーダで学習し,他のフュージョントランスモジュールでモダリティを融合する,AU検出のための新しいエンド・ツー・エンド型マルチヘッドフューズドトランス (MFT) 手法を提案する。 マルチヘッドフュージョンアテンションは、複数モードの有効融合のためのフュージョントランスフォーマーモジュールとして設計されている。 提案手法は, BP4DとBP4D+の2つの公開マルチモーダルAUデータベース上で評価され, 現状のアルゴリズムやベースラインモデルよりも優れている。 さらに、異なるモダリティからAU検出の性能を解析する。

Multi-modal learning has been intensified in recent years, especially for applications in facial analysis and action unit detection whilst there still exist two main challenges in terms of 1) relevant feature learning for representation and 2) efficient fusion for multi-modalities. Recently, there are a number of works have shown the effectiveness in utilizing the attention mechanism for AU detection, however, most of them are binding the region of interest (ROI) with features but rarely apply attention between features of each AU. On the other hand, the transformer, which utilizes a more efficient self-attention mechanism, has been widely used in natural language processing and computer vision tasks but is not fully explored in AU detection tasks. In this paper, we propose a novel end-to-end Multi-Head Fused Transformer (MFT) method for AU detection, which learns AU encoding features representation from different modalities by transformer encoder and fuses modalities by another fusion transformer module. Multi-head fusion attention is designed in the fusion transformer module for the effective fusion of multiple modalities. Our approach is evaluated on two public multi-modal AU databases, BP4D, and BP4D+, and the results are superior to the state-of-the-art algorithms and baseline models. We further analyze the performance of AU detection from different modalities.
翻訳日:2022-03-24 06:11:22 公開日:2022-03-22
# (参考訳) 分子再合成予測のためのルートアライメントスマイル [全文訳有]

Root-aligned SMILES for Molecular Retrosynthesis Prediction ( http://arxiv.org/abs/2203.11444v1 )

ライセンス: CC BY 4.0
Zipeng Zhong, Jie Song, Zunlei Feng, Tiantao Liu, Lingxiang Jia, Shaolun Liu, Min Wu, Tingjun Hou and Mingli Song(参考訳) 再合成予測は有機合成の基本的な問題であり、標的分子の合成に使用できる前駆体分子を発見することが目的である。 既存の計算逆合成法の一般的なパラダイムは、レトロ合成予測をシーケンスからシーケンスへの変換問題として定式化し、典型的なSMILES表現を反応剤と生成物の両方に採用する。 しかし、汎用SMILESはレトロ合成の特徴を無視している。 1)反応物の探索空間は非常に巨大で, 2) 分子グラフトポロジーは生成物から反応物までほとんど変化せず, 直接適用すればSMILESの準最適性能が得られる。 本稿では,より効率的なレトロシンセシスのための文字列表現の不一致を狭めるために,製品と反応対象のスマイルの間の1対1の密結合を規定するルートアライメントスマイル~(r-スマイル)を提案する。 提案したR-SMILESでは,入力と出力の最小編集距離が大幅に減少するので,計算モデルは複雑な構文の学習から解放され,逆合成のための化学知識の学習に専念する。 提案するr-smilesを様々なベンチマークにおける最先端のベースラインと比較し,提案手法の優れていることを示す。

Retrosynthesis prediction is a fundamental problem in organic synthesis, where the task is to discover precursor molecules that can be used to synthesize a target molecule. A popular paradigm of existing computational retrosynthesis methods formulate retrosynthesis prediction as a sequence-to-sequence translation problem, where the typical SMILES representations are adopted for both reactants and products. However, the general-purpose SMILES neglects the characteristics of retrosynthesis that 1) the search space of the reactants is quite huge, and 2) the molecular graph topology is largely unaltered from products to reactants, resulting in the suboptimal performance of SMILES if straightforwardly applied. In this article, we propose the root-aligned SMILES~(R-SMILES), which specifies a tightly aligned one-to-one mapping between the product and the reactant SMILES, to narrow the string representation discrepancy for more efficient retrosynthesis. As the minimum edit distance between the input and the output is significantly decreased with the proposed R-SMILES, the computational model is largely relieved from learning the complex syntax and dedicated to learning the chemical knowledge for retrosynthesis. We compare the proposed R-SMILES with various state-of-the-art baselines on different benchmarks and show that it significantly outperforms them all, demonstrating the superiority of the proposed method.
翻訳日:2022-03-24 05:57:05 公開日:2022-03-22
# (参考訳) DepthGAN: セマンティックレイアウトからのGANを用いた屋内シーンの深さ生成 [全文訳有]

DepthGAN: GAN-based Depth Generation of Indoor Scenes from Semantic Layouts ( http://arxiv.org/abs/2203.11453v1 )

ライセンス: CC BY 4.0
Yidi Li, Yiqun Wang, Zhengda Lu, and Jun Xiao(参考訳) 計算効率と精度に制限された複雑な3Dシーンを生成することは、既存の世代ネットワークにとって難しい問題である。 本研究では,意味的レイアウトのみを入力として深層マップを生成する新しい手法であるdeepganを提案する。 まず,高度に設計された変圧器ブロックのカスケードを生成器として導入し,奥行きマップの構造相関を把握し,大域的特徴の集約と局所的注意のバランスをとる。 一方,エッジ保存を効率よく深度生成に導出するクロスアテンション融合モジュールを提案する。 最後に、Structured3d Panorama データセットの視点から広範囲にわたる実験を行い、深度生成作業における定量的結果と視覚効果の両方において、私たちの深度GANが優れた性能を発揮することを示す。

Limited by the computational efficiency and accuracy, generating complex 3D scenes remains a challenging problem for existing generation networks. In this work, we propose DepthGAN, a novel method of generating depth maps with only semantic layouts as input. First, we introduce a well-designed cascade of transformer blocks as our generator to capture the structural correlations in depth maps, which makes a balance between global feature aggregation and local attention. Meanwhile, we propose a cross-attention fusion module to guide edge preservation efficiently in depth generation, which exploits additional appearance supervision information. Finally, we conduct extensive experiments on the perspective views of the Structured3d panorama dataset and demonstrate that our DepthGAN achieves superior performance both on quantitative results and visual effects in the depth generation task.Furthermore, 3D indoor scenes can be reconstructed by our generated depth maps with reasonable structure and spatial coherency.
翻訳日:2022-03-24 05:38:30 公開日:2022-03-22
# (参考訳) Federated Class-Incremental Learning [全文訳有]

Federated Class-Incremental Learning ( http://arxiv.org/abs/2203.11473v1 )

ライセンス: CC0 1.0
Jiahua Dong, Lixu Wang, Zhen Fang, Gan Sun, Shichao Xu, Xiao Wang, Qi Zhu(参考訳) フェデレートラーニング(FL)は、分散クライアント上でのデータプライベートな協調トレーニングを通じて注目を集めている。 しかし、既存のメソッドの多くは非現実的にフレームワーク全体のオブジェクトクラスが時間とともに固定されていると仮定している。 ローカルクライアントは、しばしば新しいクラスを継続的に収集し、古いクラスを保存するために非常に限られたストレージメモリを持つ。 さらに、新しいクラスを持つ新しいクライアントがflトレーニングに参加し、グローバルモデルの破滅的な忘れ方をさらに悪化させる可能性がある。 これらの課題に対処するため,我々はグローバルクラスインクリメンタルモデル(GLFC)を開発し,地域とグローバルの両方の観点から破滅的な忘れを緩和する。 具体的には, ローカルクライアントにおけるクラス不均衡による局所的忘れを解消するために, タスク間の一貫したクラス間関係を定量化するために, クラス間勾配補償損失とクラス間関係蒸留損失を設計する。 クライアント間の非i.dクラス不均衡がもたらしたグローバルな忘れを解消するため,ローカルな関係蒸留を支援するため,最も古いグローバルモデルを選択するプロキシサーバを提案する。 さらに,プライバシを保護するために,勾配に基づく通信機構の試作を行った。 本モデルは,代表的なベンチマークデータセットの平均精度の点で,最先端手法を4.4%-15.1%上回っている。

Federated learning (FL) has attracted growing attention via data-private collaborative training on decentralized clients. However, most existing methods unrealistically assume object classes of the overall framework are fixed over time. It makes the global model suffer from significant catastrophic forgetting on old classes in real-world scenarios, where local clients often collect new classes continuously and have very limited storage memory to store old classes. Moreover, new clients with unseen new classes may participate in the FL training, further aggravating the catastrophic forgetting of the global model. To address these challenges, we develop a novel Global-Local Forgetting Compensation (GLFC) model, to learn a global class incremental model for alleviating the catastrophic forgetting from both local and global perspectives. Specifically, to address local forgetting caused by class imbalance at the local clients, we design a class-aware gradient compensation loss and a class-semantic relation distillation loss to balance the forgetting of old classes and distill consistent inter-class relations across tasks. To tackle the global forgetting brought by the non-i.i.d class imbalance across clients, we propose a proxy server that selects the best old global model to assist the local relation distillation. Moreover, a prototype gradient-based communication mechanism is developed to protect privacy. Our model outperforms state-of-the-art methods by 4.4%-15.1% in terms of average accuracy on representative benchmark datasets.
翻訳日:2022-03-24 05:28:10 公開日:2022-03-22
# (参考訳) 思い出の意図:振り返り記憶に基づく軌道予測

Remember Intentions: Retrospective-Memory -based Trajectory Prediction ( http://arxiv.org/abs/2203.11474v1 )

ライセンス: CC BY 4.0
Chenxin Xu, Weibo Mao, Wenjun Zhang, Siheng Chen(参考訳) 軌道予測を実現するために、以前の手法ではパラメータベースの手法を採用しており、過去の全てのインスタンスペアをモデルパラメータにエンコードしている。 しかし、この方法では、モデルパラメータはすべての参照インスタンスから来るため、大量の無関係な参照インスタンスが現在の状況を予測し、パフォーマンスを阻害する可能性がある。 神経心理学におけるふりかえり記憶のメカニズムを模倣し、トレーニングデータに類似したシナリオを求めることにより、エージェントの動き意図を予測するインスタンスベースアプローチであるmemonetを提案する。 MemoNetでは、トレーニングセットに代表インスタンスを明示的に格納し、ニューラルネットワークで前頭前皮質として機能するメモリバンクと、ベースガングリアのように機能するメモリバンクに類似したインスタンスで現在の状況を適応的に検索するトレーニング可能なメモリアドバイザを設計する。 予測中、MemoNetはメモリバンク内の関連インスタンスをインデックスするためにメモリアドレサを使用して以前のメモリをリコールする。 さらに,2段階の軌道予測システムを提案し,第1ステップはMemoNetを利用して目的地を予測し,第2ステップは予測した目的地に従って軌道全体を満たす。 実験の結果、提案されたMemoNetは以前のSDD/ETH-UCY/NBAデータセットのベストメソッドから20.3%/10.2%/28.3%改善している。 実験によると、MemoNetは予測中に特定のインスタンスに遡り、より解釈可能性を高めることができる。

To realize trajectory prediction, most previous methods adopt the parameter-based approach, which encodes all the seen past-future instance pairs into model parameters. However, in this way, the model parameters come from all seen instances, which means a huge amount of irrelevant seen instances might also involve in predicting the current situation, disturbing the performance. To provide a more explicit link between the current situation and the seen instances, we imitate the mechanism of retrospective memory in neuropsychology and propose MemoNet, an instance-based approach that predicts the movement intentions of agents by looking for similar scenarios in the training data. In MemoNet, we design a pair of memory banks to explicitly store representative instances in the training set, acting as prefrontal cortex in the neural system, and a trainable memory addresser to adaptively search a current situation with similar instances in the memory bank, acting like basal ganglia. During prediction, MemoNet recalls previous memory by using the memory addresser to index related instances in the memory bank. We further propose a two-step trajectory prediction system, where the first step is to leverage MemoNet to predict the destination and the second step is to fulfill the whole trajectory according to the predicted destinations. Experiments show that the proposed MemoNet improves the FDE by 20.3%/10.2%/28.3% from the previous best method on SDD/ETH-UCY/NBA datasets. Experiments also show that our MemoNet has the ability to trace back to specific instances during prediction, promoting more interpretability.
翻訳日:2022-03-24 05:01:11 公開日:2022-03-22
# (参考訳) wudaomm:事前トレーニングモデルのための大規模マルチモーダルデータセット [全文訳有]

WuDaoMM: A large-scale Multi-Modal Dataset for Pre-training models ( http://arxiv.org/abs/2203.11480v1 )

ライセンス: CC BY 4.0
Sha Yuan, Zhao Shuai, Leng Jiahong, Xue Zhao, Zhao Hanyu and Tang Jie(参考訳) ドメイン固有モデルと比較して、視覚言語事前学習モデル(VLPM)は、高速な微調整プロセスで下流タスクにおいて優れた性能を示す。 例えば、ERNIE-ViL、Oscar、UNIMOは、均一なトランスフォーマースタックアーキテクチャと大量の画像テキストペアデータでVLPMを訓練し、画像テキスト参照(IRとTR)、視覚質問応答(VQA)、画像キャプション(IC)などの下流タスクで顕著な結果を得た。 トレーニングフェーズの間、VLPMは常に、大規模なケアトレーニングデータの要求を満たすために、複数のパブリックデータセットの組み合わせで供給されます。 しかし、サイズ、タスクタイプ、品質などのデータ分散の不均一さのため、モデルトレーニングに複数のデータセットを混在させることは問題となる。 本稿では,650万以上の画像テキストペアを含む大規模マルチモーダルコーパスwudaommを提案する。 具体的には、画像とキャプションの相関が弱い複数のWebページから約6億のデータを収集し、他の5000万の強い関連画像テキストペアを高品質なグラフィックWebサイトから収集する。 また、WuDaoMMのベースバージョンを500万の強相関画像テキストペアでリリースし、一般的なクロスモーダルモデル事前トレーニングをサポートするのに十分です。 さらに、データセットの有効性をテストするために、理解と世代視覚言語(VL)モデルの両方を訓練した。 その結果,WuDaoMM は VLPM の効率的なデータセットとして,特にテキスト・画像生成タスクにおけるモデルに適用可能であることがわかった。 データはhttps://data.wudaoai .cnで公開される

Compared with the domain-specific model, the vision-language pre-training models (VLPMs) have shown superior performance on downstream tasks with fast fine-tuning process. For example, ERNIE-ViL, Oscar and UNIMO trained VLPMs with a uniform transformers stack architecture and large amounts of image-text paired data, achieving remarkable results on downstream tasks such as image-text reference(IR and TR), vision question answering (VQA) and image captioning (IC) etc. During the training phase, VLPMs are always fed with a combination of multiple public datasets to meet the demand of large-scare training data. However, due to the unevenness of data distribution including size, task type and quality, using the mixture of multiple datasets for model training can be problematic. In this work, we introduce a large-scale multi-modal corpora named WuDaoMM, totally containing more than 650M image-text pairs. Specifically, about 600 million pairs of data are collected from multiple webpages in which image and caption present weak correlation, and the other 50 million strong-related image-text pairs are collected from some high-quality graphic websites. We also release a base version of WuDaoMM with 5 million strong-correlated image-text pairs, which is sufficient to support the common cross-modal model pre-training. Besides, we trained both an understanding and a generation vision-language (VL) model to test the dataset effectiveness. The results show that WuDaoMM can be applied as an efficient dataset for VLPMs, especially for the model in text-to-image generation task. The data is released at https://data.wudaoai .cn
翻訳日:2022-03-24 05:00:05 公開日:2022-03-22
# (参考訳) コンピュータビジョンにおける混合差分プライバシー [全文訳有]

Mixed Differential Privacy in Computer Vision ( http://arxiv.org/abs/2203.11481v1 )

ライセンス: CC BY 4.0
Aditya Golatkar, Alessandro Achille, Yu-Xiang Wang, Aaron Roth, Michael Kearns, Stefano Soatto(参考訳) AdaMixは、プライベートとパブリックの両方の画像データを用いて、ディープニューラルネットワーク分類器を訓練するための適応微分プライベートアルゴリズムである。 大規模な公開データセット上で事前トレーニングされた言語モデルは、精度の低下を小さく抑えながら、強い差分プライバシー(DP)を保証する一方で、同様のプラクティスは、視覚タスクにおけるトレードオフを罰する。 プライベートデータを無視する少数のあるいはゼロショットの学習ベースラインは、大きなプライベートデータセットの微調整よりも優れています。 AdaMixは、プライベートな微調整の前に公開データに、少数のショットトレーニング(クロスモーダルなゼロショット学習)を組み込んで、トレードオフを改善する。 AdaMixは、非プライベートな上限から6つのデータセットの平均167-311\%までのエラーの増加を、ユーザが選択したプライバシーレベルに応じて68-92\%に削減する。 AdaMixは、視覚的分類におけるトレードオフに取り組み、最もプライバシーに敏感なデータは、表現空間の孤立した点に対応するもので、高い分類精度においても重要である。 さらに、AdaMixには強力な理論的プライバシー保証と収束分析がある。

We introduce AdaMix, an adaptive differentially private algorithm for training deep neural network classifiers using both private and public image data. While pre-training language models on large public datasets has enabled strong differential privacy (DP) guarantees with minor loss of accuracy, a similar practice yields punishing trade-offs in vision tasks. A few-shot or even zero-shot learning baseline that ignores private data can outperform fine-tuning on a large private dataset. AdaMix incorporates few-shot training, or cross-modal zero-shot learning, on public data prior to private fine-tuning, to improve the trade-off. AdaMix reduces the error increase from the non-private upper bound from the 167-311\% of the baseline, on average across 6 datasets, to 68-92\% depending on the desired privacy level selected by the user. AdaMix tackles the trade-off arising in visual classification, whereby the most privacy sensitive data, corresponding to isolated points in representation space, are also critical for high classification accuracy. In addition, AdaMix comes with strong theoretical privacy guarantees and convergence analysis.
翻訳日:2022-03-24 04:49:42 公開日:2022-03-22
# (参考訳) 生成オラクルを用いた有限mdp解のためのターゲットq-learningについて [全文訳有]

A Note on Target Q-learning For Solving Finite MDPs with A Generative Oracle ( http://arxiv.org/abs/2203.11489v1 )

ライセンス: CC BY 4.0
Ziniu Li, Tian Xu, Yang Yu(参考訳) 関数近似によるq-learningは、オフ・ポリシー設定で分岐する可能性があり、ターゲットネットワークはこの問題に対処する強力な技術である。 本論文では,対象とするq-learningアルゴリズムのサンプル複雑性を,生成的オラクルを用いた表式ケースで検証する。 我々は[Lee and He, 2020]で誤解を招く主張を指摘し、厳密な分析を確立します。 特に、[Lee and He, 2020]における対象Q-ラーニングアルゴリズムのサンプル複雑性は、$\widetilde{\mathcal O}(|\mathcal S|^2|\mathcal A|^2 (1-\gamma)^{-5}\varepsilon^{-2})$であることを示す。 さらに、このサンプルの複雑さは$\widetilde{\mathcal O}(|\mathcal S||\mathcal A| (1-\gamma)^{-5}\varepsilon^{-2})$と$\widetilde{\mathcal O}(|\mathcal S||\mathcal A| (1-\gamma)^{-4}\varepsilon^{-2})$に改善される。 バニラQ-ラーニングと比較すると、周期的に凍結したターゲットQ-関数の導入は、サンプルの複雑さを犠牲にしない。

Q-learning with function approximation could diverge in the off-policy setting and the target network is a powerful technique to address this issue. In this manuscript, we examine the sample complexity of the associated target Q-learning algorithm in the tabular case with a generative oracle. We point out a misleading claim in [Lee and He, 2020] and establish a tight analysis. In particular, we demonstrate that the sample complexity of the target Q-learning algorithm in [Lee and He, 2020] is $\widetilde{\mathcal O}(|\mathcal S|^2|\mathcal A|^2 (1-\gamma)^{-5}\varepsilon^{-2})$. Furthermore, we show that this sample complexity is improved to $\widetilde{\mathcal O}(|\mathcal S||\mathcal A| (1-\gamma)^{-5}\varepsilon^{-2})$ if we can sequentially update all state-action pairs and $\widetilde{\mathcal O}(|\mathcal S||\mathcal A| (1-\gamma)^{-4}\varepsilon^{-2})$ if $\gamma$ is further in $(1/2, 1)$. Compared with the vanilla Q-learning, our results conclude that the introduction of a periodically-frozen target Q-function does not sacrifice the sample complexity.
翻訳日:2022-03-24 04:15:39 公開日:2022-03-22
# (参考訳) Recommender Systemsを忘れる - 老朽化したレコメンデーションのための学習と学習 [全文訳有]

Making Recommender Systems Forget: Learning and Unlearning for Erasable Recommendation ( http://arxiv.org/abs/2203.11491v1 )

ライセンス: CC BY 4.0
Yuyuan Li, Xiaolin Zheng, Chaochao Chen, Junlin Liu(参考訳) プライバシー法と規制は、個人に関するデータを消去するためにデータ駆動システム(例えばレコメンダシステム)を強制する。 機械学習モデルがトレーニングデータを記憶する可能性があるため、データ消去はモデル内のデータ系統を開放し、マシン・アンラーニング(MU)問題への関心が高まります。 しかし、既存のMUメソッドを直接推奨することはできない。 ほとんどのレコメンダシステムの基本的な考え方はコラボレーティブフィルタリングだが、既存のmuメソッドはユーザとアイテム間のコラボレーティブ情報を無視する。 本稿では,グループモジュールとSeqTrainモジュールからなる一般的な消去可能なレコメンデーションフレームワークLASERを提案する。 まず、グループモジュールは、hypergraphで学んだ共同埋め込みの類似性に基づいて、ユーザをバランスのとれたグループに分割する。 そしてseqtrainモジュールは、カリキュラム学習でモデルを全グループに順次トレーニングする。 2つの実世界のデータセットに関する理論的解析と実験は、LASERが効率的なアンラーニングを達成するだけでなく、モデルユーティリティの観点から最先端のアンラーニングフレームワークよりも優れていることを示している。

Privacy laws and regulations enforce data-driven systems, e.g., recommender systems, to erase the data that concern individuals. As machine learning models potentially memorize the training data, data erasure should also unlearn the data lineage in models, which raises increasing interest in the problem of Machine Unlearning (MU). However, existing MU methods cannot be directly applied into recommendation. The basic idea of most recommender systems is collaborative filtering, but existing MU methods ignore the collaborative information across users and items. In this paper, we propose a general erasable recommendation framework, namely LASER, which consists of Group module and SeqTrain module. Firstly, Group module partitions users into balanced groups based on their similarity of collaborative embedding learned via hypergraph. Then SeqTrain module trains the model sequentially on all groups with curriculum learning. Both theoretical analysis and experiments on two real-world datasets demonstrate that LASER can not only achieve efficient unlearning, but also outperform the state-of-the-art unlearning framework in terms of model utility.
翻訳日:2022-03-24 03:31:24 公開日:2022-03-22
# (参考訳) FrameHopper: 検出駆動リアルタイムビデオ分析におけるビデオフレームの選択処理

FrameHopper: Selective Processing of Video Frames in Detection-driven Real-Time Video Analytics ( http://arxiv.org/abs/2203.11493v1 )

ライセンス: CC BY 4.0
Md Adnan Arefeen, Sumaiya Tabassum Nimi, and Md Yusuf Sarwar Uddin(参考訳) 検出駆動リアルタイムビデオ分析では、YOLOV3やEfficientDetといったディープラーニングモデルを使用して、ビデオフレームに含まれるオブジェクトを連続的に検出する必要がある。 しかし、リソース制約されたエッジデバイスの各フレームでこれらの検出器を実行することは、計算集約的である。 連続する映像フレーム間の時間的相関を考慮に入れることで,検出出力が連続するフレームで重なり合う傾向があることに注意する。 同様の連続フレームの排除は性能の低下を招き、全体的な計算と通信コストを削減し、大幅なパフォーマンス上のメリットを提供する。 それゆえ 重要な技術的疑問は (a)対象検出器が処理するフレームの識別方法、及び (b)フレームが選択されると、連続したフレームをスキップできる回数(スキップ長と呼ばれる) プロセスの全体的な目標は、フレームのスキップによるエラーを可能な限り小さくすることです。 本稿では,エラー率とフレームフィルタの分数とのバランスをとるオブジェクト検出タスクに関して,新しいエラー対処理速度最適化問題を提案する。 その後,記録ビデオからRLエージェントの状態対応ポリシーとして,これらのスキップ長を決定するために,オフライン強化学習(RL)に基づくアルゴリズムを提案し,そのエージェントをライブビデオストリーム用にオンライン配信する。 この目的のために,カメラ上で軽量なRLエージェントを動作させ,オブジェクト検出モデルが動作しているサーバにフィルタフレームを渡す,エッジクラウド協調型ビデオ分析フレームワークであるFrameHopperを開発した。 我々は、現実のシナリオから捉えた多数のライブビデオでアプローチを検証し、FrameHopperがほんの一握りのフレームしか処理せず、オラクルソリューションに近い検出結果を生成し、ほとんどの場合、最新の最先端ソリューションよりも優れています。

Detection-driven real-time video analytics require continuous detection of objects contained in the video frames using deep learning models like YOLOV3, EfficientDet. However, running these detectors on each and every frame in resource-constrained edge devices is computationally intensive. By taking the temporal correlation between consecutive video frames into account, we note that detection outputs tend to be overlapping in successive frames. Elimination of similar consecutive frames will lead to a negligible drop in performance while offering significant performance benefits by reducing overall computation and communication costs. The key technical questions are, therefore, (a) how to identify which frames to be processed by the object detector, and (b) how many successive frames can be skipped (called skip-length) once a frame is selected to be processed. The overall goal of the process is to keep the error due to skipping frames as small as possible. We introduce a novel error vs processing rate optimization problem with respect to the object detection task that balances between the error rate and the fraction of frames filtering. Subsequently, we propose an off-line Reinforcement Learning (RL)-based algorithm to determine these skip-lengths as a state-action policy of the RL agent from a recorded video and then deploy the agent online for live video streams. To this end, we develop FrameHopper, an edge-cloud collaborative video analytics framework, that runs a lightweight trained RL agent on the camera and passes filtered frames to the server where the object detection model runs for a set of applications. We have tested our approach on a number of live videos captured from real-life scenarios and show that FrameHopper processes only a handful of frames but produces detection results closer to the oracle solution and outperforms recent state-of-the-art solutions in most cases.
翻訳日:2022-03-24 03:16:58 公開日:2022-03-22
# (参考訳) unsupervised deraining: 対照的な学習が自己相似性を満たす [全文訳有]

Unsupervised Deraining: Where Contrastive Learning Meets Self-similarity ( http://arxiv.org/abs/2203.11509v1 )

ライセンス: CC BY 4.0
Ye Yuntong, Yu Changfeng, Chang Yi, Zhu Lin, Zhao Xile, Yan Luxin and Tian Yonghong(参考訳) 画像デライン化は典型的な低レベルの画像復元作業であり、雨像をクリーンな画像層とレイン層という2つの区別可能な層に分解することを目的としている。 既存の学習に基づくデラミニング手法のほとんどは、合成雨とクリーンのペアで指導的に訓練されている。 合成雨と実際の雨のドメインギャップは、異なる実際の雨のシーンへの一般化を弱める。 さらに,既存の手法では,2層間の相互排他的関係を考慮せずに,2層間の特性を独立に利用している。 本研究では,非教師なし画像デライニングのための非局所コントラスト学習(NLCL)手法を提案する。 その結果,試料中の内在的自己相似性を利用するだけでなく,両層間の相互排他的性質を生かして,雨層と清浄な画像とをよりよく区別する。 具体的には、非局所的自己相似性画像層を正にまとめ、負に押して同様の雨層をパッチする。 したがって、元の空間に近い類似の正・負のサンプルは、より差別的な表現を豊かにする。 自己相似性サンプリング戦略とは別に、NLCLにおける適切な特徴エンコーダの選択方法を分析する。 降雨データセットの多種多様な実験により, 提案手法が実際のデレーニングにおける最先端性能を得ることを示す。

Image deraining is a typical low-level image restoration task, which aims at decomposing the rainy image into two distinguishable layers: the clean image layer and the rain layer. Most of the existing learning-based deraining methods are supervisedly trained on synthetic rainy-clean pairs. The domain gap between the synthetic and real rains makes them less generalized to different real rainy scenes. Moreover, the existing methods mainly utilize the property of the two layers independently, while few of them have considered the mutually exclusive relationship between the two layers. In this work, we propose a novel non-local contrastive learning (NLCL) method for unsupervised image deraining. Consequently, we not only utilize the intrinsic self-similarity property within samples but also the mutually exclusive property between the two layers, so as to better differ the rain layer from the clean image. Specifically, the non-local self-similarity image layer patches as the positives are pulled together and similar rain layer patches as the negatives are pushed away. Thus the similar positive/negative samples that are close in the original space benefit us to enrich more discriminative representation. Apart from the self-similarity sampling strategy, we analyze how to choose an appropriate feature encoder in NLCL. Extensive experiments on different real rainy datasets demonstrate that the proposed method obtains state-of-the-art performance in real deraining.
翻訳日:2022-03-24 03:13:12 公開日:2022-03-22
# (参考訳) スケールアウト型シストリックアレイ [全文訳有]

Scale-out Systolic Arrays ( http://arxiv.org/abs/2203.11540v1 )

ライセンス: CC BY 4.0
Ahmet Caner Y\"uz\"ug\"uler, Canberk S\"onmez, Mario Drumond, Yunho Oh, Babak Falsafi, and Pascal Frossard(参考訳) DNN推論アクセラレータにおける選択アーキテクチャとして,マルチポッドシストリックアレイが登場している。 その可能性にもかかわらず、効果的なスループット/ワット(すなわち、配列利用を考慮した場合のスループット/ワット調整)を最大化するマルチポッドシストリックアレイを設計することは、ユニークな課題である。 本研究では,マルチポッド・シストリックアレイ設計における3つの鍵柱,すなわち配列粒度,相互接続,タイリングについて検討する。 ワークロード間の最適な配列粒度を特定し、最先端の商用アクセラレータがシングルテナンシワークロードにサブ最適配列サイズを使用していることを示す。 次に、相互接続における帯域/レイテンシのトレードオフを評価し、Butterflyネットワークが多数のポッドを持つアクセラレーターに対してスケーラブルなトポロジを提供することを示す。 最後に,最適サイズのポッドの利用を最大化するために,分割サイズをカスタマイズした新しいデータタイリング方式を提案する。 本稿では,これら3つの柱をベースとしたマルチポッド推論アクセラレータであるScale-out Systolic Arraysを提案する。 我々は、最先端のDNN推論ワークロードに対して600 TeraOps/sのスケーリングを効果的に実行し、最先端のマルチポッドアクセラレータを1.5倍の性能で上回っていることを示す。

Multi-pod systolic arrays are emerging as the architecture of choice in DNN inference accelerators. Despite their potential, designing multi-pod systolic arrays to maximize effective throughput/Watt (i.e., throughput/Watt adjusted when accounting for array utilization) poses a unique set of challenges. In this work, we study three key pillars in multi-pod systolic array designs, namely array granularity, interconnect, and tiling. We identify optimal array granularity across workloads and show that state-of-the-art commercial accelerators use suboptimal array sizes for single-tenancy workloads. We, then evaluate the bandwidth/latency trade-offs in interconnects and show that Butterfly networks offer a scalable topology for accelerators with a large number of pods. Finally, we introduce a novel data tiling scheme with custom partition size to maximize utilization in optimally sized pods. We propose Scale-out Systolic Arrays, a multi-pod inference accelerator for both single- and multi-tenancy based on these three pillars. We show that SOSA exhibits scaling of up to 600 TeraOps/s in effective throughput for state-of-the-art DNN inference workloads, and outperforms state-of-the-art multi-pod accelerators by a factor of 1.5x.
翻訳日:2022-03-24 02:58:32 公開日:2022-03-22
# (参考訳) 伝達学習とデータ拡張を用いた視覚トランスフォーマによるマスク使用認識 [全文訳有]

Mask Usage Recognition using Vision Transformer with Transfer Learning and Data Augmentation ( http://arxiv.org/abs/2203.11542v1 )

ライセンス: CC BY-SA 4.0
Hensel Donato Jahja, Novanto Yudistira, Sutrisno(参考訳) 新型コロナウイルスのパンデミックは様々な社会を混乱させた。 マスクの使用は、マスクを使用する人のイメージを識別することにより、新型コロナウイルスの拡散を防ぐ上で不可欠である。 23.1%しかマスクを正しく使用していないが、CNN(Artificial Neural Networks)は、Covid-19ウイルスの拡散を遅らせるために優れたマスクの使用を分類するのに役立っている。 しかし、マスクの使用を正しく分類できるANNをトレーニングするには、大規模なデータセットが必要である。 maskedface-netは,マスク,マスクチン,マスクマウスチン,マスクノーズマウスの4種類のラベルを持つ137016のデジタルイメージからなる,適切なデータセットである。 Mask 分類トレーニングでは,ImageNet-21k 上の事前学習重みを用いたトランスファー学習手法を用いた視覚変換器 (ViT) アーキテクチャを用いる。 さらに、20エポックのトレーニングのハイパーパラメータ、学習率0.03の確率勾配(SGD)オプティマイザ、バッチサイズ64のバッチサイズ、ガウス累積分布(GeLU)アクティベーション関数、およびクロスエントロピー損失関数を用いて、ViTの3つのアーキテクチャ(Base-16, Large-16, Huge-14)のトレーニングに適用する。 さらに,増補学習と転帰学習との比較を行った。 本研究は,ViT Huge-14を用いた転帰学習と増補が最適であることを示した。 MaskedFace-Netデータセット上のこの手法を用いて、トレーニングデータでは0.9601、検証データでは0.9412、テストデータでは0.9534に達する。 本研究では,データ拡張と転送学習によるvitモデルのトレーニングにより,畳み込み型残差ネットワーク(resnet)よりもマスク使用の分類が向上することを示す。

The COVID-19 pandemic has disrupted various levels of society. The use of masks is essential in preventing the spread of COVID-19 by identifying an image of a person using a mask. Although only 23.1% of people use masks correctly, Artificial Neural Networks (ANN) can help classify the use of good masks to help slow the spread of the Covid-19 virus. However, it requires a large dataset to train an ANN that can classify the use of masks correctly. MaskedFace-Net is a suitable dataset consisting of 137016 digital images with 4 class labels, namely Mask, Mask Chin, Mask Mouth Chin, and Mask Nose Mouth. Mask classification training utilizes Vision Transformers (ViT) architecture with transfer learning method using pre-trained weights on ImageNet-21k, with random augmentation. In addition, the hyper-parameters of training of 20 epochs, an Stochastic Gradient Descent (SGD) optimizer with a learning rate of 0.03, a batch size of 64, a Gaussian Cumulative Distribution (GeLU) activation function, and a Cross-Entropy loss function are used to be applied on the training of three architectures of ViT, namely Base-16, Large-16, and Huge-14. Furthermore, comparisons of with and without augmentation and transfer learning are conducted. This study found that the best classification is transfer learning and augmentation using ViT Huge-14. Using this method on MaskedFace-Net dataset, the research reaches an accuracy of 0.9601 on training data, 0.9412 on validation data, and 0.9534 on test data. This research shows that training the ViT model with data augmentation and transfer learning improves classification of the mask usage, even better than convolutional-based Residual Network (ResNet).
翻訳日:2022-03-24 02:31:00 公開日:2022-03-22
# (参考訳) Visuo-Haptic Object Perception for Robots: An Overview [全文訳有]

Visuo-Haptic Object Perception for Robots: An Overview ( http://arxiv.org/abs/2203.11544v1 )

ライセンス: CC BY 4.0
Nicol\'as Navarro-Guerrero, Sibel Toprak, Josip Josifovski, Lorenzo Jamone(参考訳) 本稿では,ロボット応用におけるマルチモーダル物体認識の現状を要約する。 生物的なインスピレーション、センサー技術、データセット、物体認識と把持のための知覚データ処理の側面をカバーする。 まず,マルチモーダル物体知覚の生物学的基礎について概説する。 次にセンシング技術とデータ収集戦略について述べる。 次に、主な計算面の紹介を行い、オブジェクト認識、オブジェクト操作と把持、テクスチャ認識、転送学習など、主要なアプリケーション領域の代表的な記事をいくつか紹介する。 最後に、各分野の最近の進歩から、新たな研究の方向性を概説する。

This article summarizes the current state of multimodal object perception for robotic applications. It covers aspects of biological inspiration, sensor technologies, data sets, and sensory data processing for object recognition and grasping. Firstly, the biological basis of multimodal object perception is outlined. Then the sensing technologies and data collection strategies are discussed. Next, an introduction to the main computational aspects is presented, highlighting a few representative articles for each main application area, including object recognition, object manipulation and grasping, texture recognition, and transfer learning. Finally, informed by the current advancements in each area, this article outlines promising new research directions.
翻訳日:2022-03-24 02:13:52 公開日:2022-03-22
# (参考訳) 多言語事前学習言語モデルのファクチュアル整合性 [全文訳有]

Factual Consistency of Multilingual Pretrained Language Models ( http://arxiv.org/abs/2203.11552v1 )

ライセンス: CC BY 4.0
Constanza Fierro, Anders S{\o}gaard(参考訳) 事前訓練された言語モデルは、知識ベース獲得や推論を必要とするタスクに潜在的な応用を伴って、事実知識を問うことができる。 しかし、そのためには、この知識がどの程度信頼できるのかを知る必要があり、最近の研究では、事実的知識を予測する際に、単言語英語モデルには一貫性が欠けていることが示されている。 本稿では,一貫性の分析を多言語に拡張する。 リソースであるmParaRelを導入し、調査する。 i) mBERT や XLM-R のような多言語言語モデルが単言語モデルよりも一貫性があるか否か。 (ii)そのようなモデルが言語間で等しく一致している場合。 mBERT は英語のパラフレーズでは BERT と同じくらい一貫性がないが、mBERT と XLM-R はどちらも英語では高い一貫性を示しており、他の45の言語ではさらに矛盾している。

Pretrained language models can be queried for factual knowledge, with potential applications in knowledge base acquisition and tasks that require inference. However, for that, we need to know how reliable this knowledge is, and recent work has shown that monolingual English language models lack consistency when predicting factual knowledge, that is, they fill-in-the-blank differently for paraphrases describing the same fact. In this paper, we extend the analysis of consistency to a multilingual setting. We introduce a resource, mParaRel, and investigate (i) whether multilingual language models such as mBERT and XLM-R are more consistent than their monolingual counterparts; and (ii) if such models are equally consistent across languages. We find that mBERT is as inconsistent as English BERT in English paraphrases, but that both mBERT and XLM-R exhibit a high degree of inconsistency in English and even more so for all the other 45 languages.
翻訳日:2022-03-24 01:40:56 公開日:2022-03-22
# (参考訳) Hebbian context gatingと指数関数的に減衰するタスク信号を持つヒトにおける連続学習のモデル化 [全文訳有]

Modelling continual learning in humans with Hebbian context gating and exponentially decaying task signals ( http://arxiv.org/abs/2203.11560v1 )

ライセンス: CC BY 4.0
Timo Flesch, David G. Nagy, Andrew Saxe, Christopher Summerfield(参考訳) 人間は、最小限の相互干渉で連続して複数のタスクを学ぶことができるが、一度に複数のタスクを訓練すると、パフォーマンスが低下する。 逆は、標準のディープニューラルネットワークにも当てはまる。 そこで本研究では,前頭前頭前皮質のゲーティングに関する初期の研究から着想を得た,ニューラルネットワークに対する新たな計算制約を提案する。 タスクユニットとタスク関連情報をエンコードする隠れユニットとの接続を強化するヒュービアントレーニングステップといわゆるsluggishタスクユニットの2つのアルゴリズムモチーフによって、標準的な確率的勾配降下を補強する。 学習中に「スラグッシュ」ユニットがスイッチコストを導入し、コンテキストキューを無視した共同表現に対して、インターリーブドトレーニング下での表現をバイアスするのに対し、ヘビアンステップはタスクユニットから完全に干渉から保護された直交表現を生成する隠蔽層へのゲーティングスキームの形成を促進する。 これまでに公表された人間の行動データでモデルを検証することで、ブロックまたはインターリーブされたカリキュラムの訓練を受けた参加者のパフォーマンスと一致し、これらのパフォーマンスの違いは真のカテゴリ境界の誤推定によって引き起こされたことが明らかとなった。

Humans can learn several tasks in succession with minimal mutual interference but perform more poorly when trained on multiple tasks at once. The opposite is true for standard deep neural networks. Here, we propose novel computational constraints for artificial neural networks, inspired by earlier work on gating in the primate prefrontal cortex, that capture the cost of interleaved training and allow the network to learn two tasks in sequence without forgetting. We augment standard stochastic gradient descent with two algorithmic motifs, so-called "sluggish" task units and a Hebbian training step that strengthens connections between task units and hidden units that encode task-relevant information. We found that the "sluggish" units introduce a switch-cost during training, which biases representations under interleaved training towards a joint representation that ignores the contextual cue, while the Hebbian step promotes the formation of a gating scheme from task units to the hidden layer that produces orthogonal representations which are perfectly guarded against interference. Validating the model on previously published human behavioural data revealed that it matches performance of participants who had been trained on blocked or interleaved curricula, and that these performance differences were driven by misestimation of the true category boundary.
翻訳日:2022-03-24 01:30:50 公開日:2022-03-22
# (参考訳) 音声合成のためのテキスト・音声パイプライン, 評価手法, および初期微調整結果 [全文訳有]

A Text-to-Speech Pipeline, Evaluation Methodology, and Initial Fine-Tuning Results for Child Speech Synthesis ( http://arxiv.org/abs/2203.11562v1 )

ライセンス: CC BY 4.0
Rishabh Jain and Mariam Yiwere and Dan Bigioi and Peter Corcoran and Horia Cucu(参考訳) 音声合成は、現在のTTS(text-to-speech)モデルが人間の自然な音声を生成できるように、長い道のりを経ている。 しかし、tts研究のほとんどが成人音声データの利用に焦点をあてており、児童音声合成に関する研究は限られている。 本研究では,子音声データセットを用いたSOTAニューラルネットワークモデルの訓練パイプラインの開発と評価を行った。 このアプローチでは、トランスファー学習パイプラインを提供するために、マルチスピーカーのTSリチューニングワークフローを採用する。 公に入手可能な児童音声データセットは、約19時間の小さなサブセットを提供するためにクリーニングされ、我々の微調整実験の基礎を形成しました。 主観的および客観的評価は,客観的評価のための事前学習MOSNetと,平均世論スコア(MOS)評価のための新たな主観的枠組みを用いて行った。 主観評価では、音声の知性は3.92、音声の自然性は3.85、音声の一貫性は3.96である。 事前学習したMOSNetを用いた客観的評価では,実子声と合成子声の間に強い相関が認められた。 最後に訓練されたモデルは、参照オーディオサンプルから子のような音声を5秒間合成することができた。

Speech synthesis has come a long way as current text-to-speech (TTS) models can now generate natural human-sounding speech. However, most of the TTS research focuses on using adult speech data and there has been very limited work done on child speech synthesis. This study developed and validated a training pipeline for fine-tuning state-of-the-art (SOTA) neural TTS models using child speech datasets. This approach adopts a multispeaker TTS retuning workflow to provide a transfer-learning pipeline. A publicly available child speech dataset was cleaned to provide a smaller subset of approximately 19 hours, which formed the basis of our fine-tuning experiments. Both subjective and objective evaluations were performed using a pretrained MOSNet for objective evaluation and a novel subjective framework for mean opinion score (MOS) evaluations. Subjective evaluations achieved the MOS of 3.92 for speech intelligibility, 3.85 for voice naturalness, and 3.96 for voice consistency. Objective evaluation using a pretrained MOSNet showed a strong correlation between real and synthetic child voices. The final trained model was able to synthesize child-like speech from reference audio samples as short as 5 seconds.
翻訳日:2022-03-24 01:05:33 公開日:2022-03-22
# (参考訳) 低線量CT画像再構成のための多層クラスタリングによる残留スペーシング変換 [全文訳有]

Multi-layer Clustering-based Residual Sparsifying Transform for Low-dose CT Image Reconstruction ( http://arxiv.org/abs/2203.11565v1 )

ライセンス: CC BY 4.0
Xikai Yang, Zhishen Huang, Yong Long, Saiprasad Ravishankar(参考訳) 近年提案されている分散変換モデルは計算コストが低く, 医用イメージングにも応用されている。 一方、ネストしたネットワーク構造を持つ深層モデルでは、異なるレイヤでの学習機能に対して大きな可能性を秘めている。 本研究では,X線CT(Computerd Tomography)のためのネットワーク構造型スペーシング変換学習手法を提案し,これをマルチ層クラスタリングベース残留スペーシング変換(MCST)学習と呼ぶ。 提案するmcstスキームは,各レイヤの入力を複数のクラスに分割することで,各レイヤの複数の異なるユニタリ変換を学習する。 低用量CT (LDCT) 再構成にMCSTモデルを応用し, PWLS (Palalized weighted least squares) 再構成における正規化器にMCSTモデルを配置した。 我々は,XCATファントムデータとマヨクリニックデータを用いてLDCT再建実験を行い,MCSTモデルを2層(または3層),各層に5つのクラスタで訓練した。 同じ層における学習された変換はリッチな特徴を示し、表現残差から追加情報を抽出した。 シミュレーションの結果,PWLS-MCSTは従来のFBP法やEP正則化を用いたPWLSよりも画像再構成精度が高いことがわかった。 また、学習された多層残留スペーシング変換(MARS)と学習された変換(ULTRA)の結合によるPWLSや、特に鮮明なエッジの表示と微妙な詳細の保存のためのPWLSといった最近の先進的な手法よりも優れていた。

The recently proposed sparsifying transform models incur low computational cost and have been applied to medical imaging. Meanwhile, deep models with nested network structure reveal great potential for learning features in different layers. In this study, we propose a network-structured sparsifying transform learning approach for X-ray computed tomography (CT), which we refer to as multi-layer clustering-based residual sparsifying transform (MCST) learning. The proposed MCST scheme learns multiple different unitary transforms in each layer by dividing each layer's input into several classes. We apply the MCST model to low-dose CT (LDCT) reconstruction by deploying the learned MCST model into the regularizer in penalized weighted least squares (PWLS) reconstruction. We conducted LDCT reconstruction experiments on XCAT phantom data and Mayo Clinic data and trained the MCST model with 2 (or 3) layers and with 5 clusters in each layer. The learned transforms in the same layer showed rich features while additional information is extracted from representation residuals. Our simulation results demonstrate that PWLS-MCST achieves better image reconstruction quality than the conventional FBP method and PWLS with edge-preserving (EP) regularizer. It also outperformed recent advanced methods like PWLS with a learned multi-layer residual sparsifying transform prior (MARS) and PWLS with a union of learned transforms (ULTRA), especially for displaying clear edges and preserving subtle details.
翻訳日:2022-03-24 00:47:13 公開日:2022-03-22
# (参考訳) Ensemblesによる高速マルチビュークラスタリング:スケーラビリティ、スーパーオリティ、シンプル性を目指して [全文訳有]

Fast Multi-view Clustering via Ensembles: Towards Scalability, Superiority, and Simplicity ( http://arxiv.org/abs/2203.11572v1 )

ライセンス: CC BY 4.0
Dong Huang, Chang-Dong Wang, Jian-Huang Lai(参考訳) 大幅な進歩にもかかわらず、以前のマルチビュークラスタリングアルゴリズムには3つの制限がある。 まず、それらはしばしば高い計算複雑性に悩まされ、大規模なデータセットの実現可能性を制限する。 第二に、通常は一段階融合を通じて多段階情報を融合し、多段階融合の可能性を無視している。 第三に、データセット固有のハイパーパラメータチューニングが頻繁に必要であり、さらに実用性を損なう。 そこで本研究では,アンサンブル(fastmice)アプローチによる高速マルチビュークラスタリングを提案する。 特に、ランダムビュー群の概念は、効率的な多段階融合を可能にするために、早い段階のハイブリッド融合戦略が設計される、汎用的なビュー・アズ・アの関係を捉えるために提示される。 多くのビューグループに拡張された複数のビューを持つ3つのレベルの多様性(w.r.t. features, anchors, neighbors)は、初期の融合においてビュー共有二部グラフを構築するために共同で活用される。 次に、異なる視点群に対する多様化された基底クラスタリングの集合を高速グラフ分割により取得し、さらに後期融合における最終クラスタリングのための統一二部グラフに定式化する。 驚くべきことに、fastmiceはほとんど線形時間と空間の複雑さを持ち、データセット固有のチューニングがない。 20のマルチビューデータセットの実験は、スケーラビリティ(非常に大きなデータセット)、(クラスタリング性能)優越性(クラスタリング性能)、そして(適用すべき)単純さ(最先端技術)の利点を示している。

Despite significant progress, there remain three limitations to the previous multi-view clustering algorithms. First, they often suffer from high computational complexity, restricting their feasibility for large-scale datasets. Second, they typically fuse multi-view information via one-stage fusion, neglecting the possibilities in multi-stage fusions. Third, dataset-specific hyperparameter-tunin g is frequently required, further undermining their practicability. In light of this, we propose a fast multi-view clustering via ensembles (FastMICE) approach. Particularly, the concept of random view groups is presented to capture the versatile view-wise relationships, through which the hybrid early-late fusion strategy is designed to enable efficient multi-stage fusions. With multiple views extended to many view groups, three levels of diversity (w.r.t. features, anchors, and neighbors, respectively) are jointly leveraged for constructing the view-sharing bipartite graphs in the early-stage fusion. Then, a set of diversified base clusterings for different view groups are obtained via fast graph partitioning, which are further formulated into a unified bipartite graph for final clustering in the late-stage fusion. Remarkably, FastMICE has almost linear time and space complexity, and is free of dataset-specific tuning. Experiments on twenty multi-view datasets demonstrate its advantages in scalability (for extremely large datasets), superiority (in clustering performance), and simplicity (to be applied) over the state-of-the-art.
翻訳日:2022-03-24 00:25:16 公開日:2022-03-22
# (参考訳) スパース合成制御 [全文訳有]

Sparse Synthetic Controls ( http://arxiv.org/abs/2203.11576v1 )

ライセンス: CC BY 4.0
Jaume Vives-i-Bastida(参考訳) 本稿では,政策評価のための新しいペナライズド合成制御法を提案する。 提案するスパース合成制御は, 予測器の数をペナルティ化し, 処理前適合性を改善し, 最も重要な予測器を選択する。 線形因子モデルフレームワークにおいて、モデル選択一貫性結果と平均二乗誤差収束率結果とを理論的に導出する。 シミュレーション実験により, スパース合成制御は低バイアスであり, 未処理の合成制御よりも処理後適合性が高いことがわかった。 最後に,カリフォルニア州における命題99の成立の影響を,多くの予測者で検討するために,この手法を適用した。

This paper introduces a new penalized synthetic control method for policy evaluation. The proposed sparse synthetic control penalizes the number of predictors used in generating the counterfactual to improve pre-treatment fit and select the most important predictors. To motivate the method theoretically I derive, in a linear factor model framework, a model selection consistency result and a mean squared error convergence rate result. Through a simulation study, I then show that the sparse synthetic control achieves lower bias and has better post-treatment fit than the unpenalized synthetic control. Finally, I apply the method to study the effects of the passage of Proposition 99 in California in a setting with a large number of predictors.
翻訳日:2022-03-23 23:39:12 公開日:2022-03-22
# (参考訳) 局所確率因子勾配法による分散量子状態トモグラフィ [全文訳有]

Local Stochastic Factored Gradient Descent for Distributed Quantum State Tomography ( http://arxiv.org/abs/2203.11579v1 )

ライセンス: CC BY 4.0
Junhyung Lyle Kim, Mohammad Taha Toghani, C\'esar A. Uribe, Anastasios Kyrillidis(参考訳) そこで我々は,局所確率因子勾配Descent (Local SFGD) と呼ばれる分散量子状態トモグラフィー (QST) プロトコルを提案し,一組のローカルマシン上で密度行列の低ランク係数を学習する。 QSTは量子系の状態を特徴付ける標準的な手順であり、確率的非凸スムーズな最適化問題として定式化する。 物理的には、低ランク密度行列の推定は、量子計算によってもたらされる雑音量の特徴付けに役立つ。 理論的には、局所sfgdの局所収束は、制限された強凸・スムース損失関数の一般クラス、すなわち局所sfgdは、一定のステップサイズの線形速度で、大域最適の小さな近傍に局所収束するが、局所収束は、ステップサイズが小さくなる部分線形速度で正確に成立する。 適切な初期化により、局所収束結果は大域収束を暗示する。 グリーンバーガー・ホーネ・ザイリンガー状態(GHZ)におけるQSTの数値シミュレーションによる理論的結果を検証する。

We propose a distributed Quantum State Tomography (QST) protocol, named Local Stochastic Factored Gradient Descent (Local SFGD), to learn the low-rank factor of a density matrix over a set of local machines. QST is the canonical procedure to characterize the state of a quantum system, which we formulate as a stochastic nonconvex smooth optimization problem. Physically, the estimation of a low-rank density matrix helps characterizing the amount of noise introduced by quantum computation. Theoretically, we prove the local convergence of Local SFGD for a general class of restricted strongly convex/smooth loss functions, i.e., Local SFGD converges locally to a small neighborhood of the global optimum at a linear rate with a constant step size, while it locally converges exactly at a sub-linear rate with diminishing step sizes. With a proper initialization, local convergence results imply global convergence. We validate our theoretical findings with numerical simulations of QST on the Greenberger-Horne-Ze ilinger (GHZ) state.
翻訳日:2022-03-23 23:25:35 公開日:2022-03-22
# (参考訳) 勾配追従課題を用いた異なる環境下でのSwarmコントローラから生じる集団運動 [全文訳有]

Collective motion emerging from evolving swarm controllers in different environments using gradient following task ( http://arxiv.org/abs/2203.11585v1 )

ライセンス: CC BY 4.0
Fuda van Diggelen (1), Jie Luo (1), Tugay Alperen Karag\"uzel (1), Nicolas Cambier, Eliseo Ferrante, A.E. Eiben(参考訳) 人間の開発者は、個々のロボットを管理するコントローラの細部と、Swarmメンバーと環境の間の相互作用の間接的な結果であるSwarm動作の関連性をよく理解していないため、ロボット群のためのコントローラの設計は難しい。 本稿では,進化的アプローチがこの問題を緩和できるかどうかを検討する。 認識能力や通信能力に乏しいロボットが環境特性の勾配を追従し、微分進化を用いてシミュレーションされたthymio iiロボットのためのニューラルネットワークコントローラを進化させなければならない、非常に困難なタスクを考える。 本研究では,スワム内のアリーナの大きさやロボット数を変化させることで,ロバスト性やスケーラビリティを計測する体系的な研究を行う。 実験により、我々のアプローチの可能性を確認し、進化したロボットコントローラーはタスクを解決した群れの振る舞いを誘導した。 最も厳しい条件(環境手がかりが最も弱い)下でのソリューションの進化は、最も堅牢であり、スワムサイズに関してスイートスポットがあることを発見した。 さらに,Swarmの集団運動を観察し,進化過程において内在せず選択された真に創発的な行動を示した。

Designing controllers for robot swarms is challenging, because human developers have typically no good understanding of the link between the details of a controller that governs individual robots and the swarm behaviour that is an indirect result of the interactions between swarm members and the environment. In this paper we investigate whether an evolutionary approach can mitigate this problem. We consider a very challenging task where robots with limited sensing and communication abilities must follow the gradient of an environmental feature and use Differential Evolution to evolve a neural network controller for simulated Thymio II robots. We conduct a systematic study to measure the robustness and scalability of the method by varying the size of the arena and number of robots in the swarm. The experiments confirm the feasibility of our approach, the evolved robot controllers induced swarm behaviour that solved the task. We found that solutions evolved under the harshest conditions (where the environmental clues were the weakest) were the most robust and that there is a sweet spot regarding the swarm size. Furthermore, we observed collective motion of the swarm, showcasing truly emergent behavior that was not represented in- and selected for during evolution.
翻訳日:2022-03-23 23:08:44 公開日:2022-03-22
# (参考訳) スケーラブルな単一画像超解像に対する適応的パッチ抽出

Adaptive Patch Exiting for Scalable Single Image Super-Resolution ( http://arxiv.org/abs/2203.11589v1 )

ライセンス: CC BY 4.0
Shizun Wang, Ming Lu, Kaixin Chen, Xiaoqi Li, Jiaming Liu, Yandong Guo(参考訳) コンピューティングの未来は異質であるため、単一画像の超解像ではスケーラビリティが重要な問題である。 最近の作業では、1つのネットワークをトレーニングし、異なるキャパシティを持つプラットフォームにデプロイする。 しかし、ハードウェアに親しみやすく、実用的なスピードアップが制限されるピクセルワイズスパース畳み込みに依存している。 画像は様々な復元困難を伴うパッチに分割できるため、より実用的な高速化を実現するために、適応パッチ実行(APE)に基づくスケーラブルな手法を提案する。 具体的には、パッチの各レイヤの増分容量を予測するために、回帰器をトレーニングすることを提案する。 インクリメンタルなキャパシティがしきい値以下になったら、パッチは特定のレイヤから抜け出すことができる。 インクリメンタルキャパシティの閾値を変化させることで,性能と効率のトレードオフを容易に調整できる。 さらに,本手法のネットワークトレーニングを実現するための新しい戦略を提案する。 我々は,様々なバックボーン,データセット,スケーリング要因をまたいで広範な実験を行い,本手法の利点を実証する。 コードはリリースされる。

Since the future of computing is heterogeneous, scalability is a crucial problem for single image super-resolution. Recent works try to train one network, which can be deployed on platforms with different capacities. However, they rely on the pixel-wise sparse convolution, which is not hardware-friendly and achieves limited practical speedup. As image can be divided into patches, which have various restoration difficulties, we present a scalable method based on Adaptive Patch Exiting (APE) to achieve more practical speedup. Specifically, we propose to train a regressor to predict the incremental capacity of each layer for the patch. Once the incremental capacity is below the threshold, the patch can exit at the specific layer. Our method can easily adjust the trade-off between performance and efficiency by changing the threshold of incremental capacity. Furthermore, we propose a novel strategy to enable the network training of our method. We conduct extensive experiments across various backbones, datasets and scaling factors to demonstrate the advantages of our method. Code will be released.
翻訳日:2022-03-23 22:53:56 公開日:2022-03-22
# (参考訳) インド道路における迷路マッピングのための高密度残差ネットワーク [全文訳有]

Dense Residual Networks for Gaze Mapping on Indian Roads ( http://arxiv.org/abs/2203.11611v1 )

ライセンス: CC BY 4.0
Chaitanya Kapoor, Kshitij Kumar, Soumya Vishnoi and Sriram Ramanathan(参考訳) 近年、強力な計算資源へのアクセシビリティが高まり、ディープラーニングとコンピュータビジョンの分野における進歩が飛躍と限界によって成長してきた。 これは結果として、自動運転とナビゲーションシステムの領域に進歩をもたらした。 現在の研究のほとんどは、ヨーロッパやアメリカの道路での運転シナリオに焦点が当てられている。 我々の論文はインドの運転状況に特に注意を払っている。 そこで本研究では,運転者の視線を道路上にマッピングするための新しい設計であるdr-gazeを提案する。 DGAZEデータセットのこれまでの成果と最先端の結果を比較した。 私たちのコードは私たちの論文を受理して公開します。

In the recent past, greater accessibility to powerful computational resources has enabled progress in the field of Deep Learning and Computer Vision to grow by leaps and bounds. This in consequence has lent progress to the domain of Autonomous Driving and Navigation Systems. Most of the present research work has been focused on driving scenarios in the European or American roads. Our paper draws special attention to the Indian driving context. To this effect, we propose a novel architecture, DR-Gaze, which is used to map the driver's gaze onto the road. We compare our results with previous works and state-of-the-art results on the DGAZE dataset. Our code will be made publicly available upon acceptance of our paper.
翻訳日:2022-03-23 22:53:01 公開日:2022-03-22
# (参考訳) SMTソルバを用いたニューラルネットワーク等価チェックについて [全文訳有]

On Neural Network Equivalence Checking using SMT Solvers ( http://arxiv.org/abs/2203.11629v1 )

ライセンス: CC BY 4.0
Charis Eleftheriadis, Nikolaos Kekatos, Panagiotis Katsaros, Stavros Tripakis(参考訳) 2つの事前学習されたニューラルネットワークは、同じ入力に対して同様の出力を得る場合、等価であるとみなされる。 ニューラルネットワークの等価性チェックは、学習可能なコンポーネントを同等のコンポーネントに置き換える、追加の要件を満たす必要のある場合やセキュリティ上の脅威に対処する必要がある場合、例えば知識の蒸留や敵の訓練などを使用する場合など、非常に重要である。 SMTソルバは、健全で完全なニューラルネットワーク等価性チェックの問題に対する解決策を提供することができるが、期待されているように、そのようなソリューションは、チェックするニューラルネットワークのサイズに関して重要な制限に関連付けられている。 本研究は,同値チェック問題の最初のSMT符号化を行い,その実用性と限界を探求し,今後の研究への道程と,よりスケーラブルで実用的なソリューションへの改善を提案する。 ニューラルネットワークモデル(分類器と回帰ネットワーク)の多種多様な分類基準と等価性基準について、一般およびアプリケーションに依存しない等価性チェックアプローチに光を当てた実験結果を示す。

Two pretrained neural networks are deemed equivalent if they yield similar outputs for the same inputs. Equivalence checking of neural networks is of great importance, due to its utility in replacing learning-enabled components with equivalent ones, when there is need to fulfill additional requirements or to address security threats, as is the case for example when using knowledge distillation, adversarial training etc. SMT solvers can potentially provide solutions to the problem of neural network equivalence checking that will be sound and complete, but as it is expected any such solution is associated with significant limitations with respect to the size of neural networks to be checked. This work presents a first SMT-based encoding of the equivalence checking problem, explores its utility and limitations and proposes avenues for future research and improvements towards more scalable and practically applicable solutions. We present experimental results that shed light to the aforementioned issues, for diverse types of neural network models (classifiers and regression networks) and equivalence criteria, towards a general and application-independ ent equivalence checking approach.
翻訳日:2022-03-23 22:41:58 公開日:2022-03-22
# (参考訳) QS-Craft: 条件付きモーションアニメーションのための量子化、スクラブル、クラフトの学習 [全文訳有]

QS-Craft: Learning to Quantize, Scrabble and Craft for Conditional Human Motion Animation ( http://arxiv.org/abs/2203.11632v1 )

ライセンス: CC BY 4.0
Yuxin Hong and Xuelin Qian and Simian Luo and Xiangyang Xue and Yanwei Fu(参考訳) 本稿では,条件付きヒューマンモーションアニメーション(cHMA)の課題について検討する。 ソース画像とドライビングビデオが与えられた場合、モデルは新しいフレームシーケンスをアニメーション化し、ソース画像の人物がドライビングビデオのポーズシーケンスと同じような動きをするべきである。 画像合成や映像合成におけるGAN(Generative Adversarial Network)手法の成功にもかかわらず、画像やポーズなどの条件付き情報を効率的に活用し、視覚的品質の高い画像を生成するのが困難であるため、cHMAの実行は依然として非常に困難である。 そこで本研究では,条件付きモーションアニメーションのための学習モデルであるQuantize, Scrabble, and Craft(QS-Craft)を提案する。 新たな3つの重要なステップは、量子化、スクラブル、クラフトだ。 特に当社のQS-Craftでは,アテンションアーキテクチャの活用にトランスフォーマーを使用している。 誘導情報は、駆動映像から抽出されたポーズ座標列として表現される。 ヒトの運動データセットに関する大規模な実験は、我々のモデルの有効性を検証する。

This paper studies the task of conditional Human Motion Animation (cHMA). Given a source image and a driving video, the model should animate the new frame sequence, in which the person in the source image should perform a similar motion as the pose sequence from the driving video. Despite the success of Generative Adversarial Network (GANs) methods in image and video synthesis, it is still very challenging to conduct cHMA due to the difficulty in efficiently utilizing the conditional guided information such as images or poses, and generating images of good visual quality. To this end, this paper proposes a novel model of learning to Quantize, Scrabble, and Craft (QS-Craft) for conditional human motion animation. The key novelties come from the newly introduced three key steps: quantize, scrabble and craft. Particularly, our QS-Craft employs transformer in its structure to utilize the attention architectures. The guided information is represented as a pose coordinate sequence extracted from the driving videos. Extensive experiments on human motion datasets validate the efficacy of our model.
翻訳日:2022-03-23 22:24:04 公開日:2022-03-22
# (参考訳) 逆誤差解析によるフェデレーション学習に対する半ターゲットモデル中毒攻撃 [全文訳有]

Semi-Targeted Model Poisoning Attack on Federated Learning via Backward Error Analysis ( http://arxiv.org/abs/2203.11633v1 )

ライセンス: CC BY 4.0
Yuwei Sun, Hideya Ochiai, Jun Sakuma(参考訳) フェデレート学習(FL)に対するモデル中毒は、エッジモデルの妥協を通じてシステム全体に侵入し、機械学習モデルの誤動作を引き起こす。 このような侵害されたモデルは、敵意に満ちた行動を実行するために改ざんされる。 特に,ソースクラスが規定されているが,ターゲットクラスが規定されていない準ターゲットの状況について検討した。 目標は、グローバル分類器がソースクラスのデータを誤分類することである。 FLに有毒なパラメータを注入するためにラベルフリップなどの手法が採用されているが、それらの性能は、通常、異なるターゲットクラスでクラス感受性が異なることが示されている。 通常、異なるターゲットクラスに移行する場合、攻撃はより効果的になる。 この課題を克服するため,我々は,機能空間に最適化されたターゲットクラスを見つけ,中毒攻撃を強化するための攻撃距離認識攻撃(ada)を提案する。 さらに,敵がクライアントのデータに関する事前知識を限定した,より困難な状況についても検討した。 この問題に対処するためにadaは、後方誤差解析に基づいて、潜在特徴空間内の異なるクラス間のペアワイズ距離を共有モデルパラメータから推定する。 3種類の画像分類タスクにおいて,攻撃頻度の要因を変動させることにより,ADAに対して広範な実験評価を行った。 その結果、adaは攻撃頻度0.01の最も挑戦的なケースで攻撃性能を1.8倍に伸ばすことに成功した。

Model poisoning attacks on federated learning (FL) intrude in the entire system via compromising an edge model, resulting in malfunctioning of machine learning models. Such compromised models are tampered with to perform adversary-desired behaviors. In particular, we considered a semi-targeted situation where the source class is predetermined however the target class is not. The goal is to cause the global classifier to misclassify data of the source class. Though approaches such as label flipping have been adopted to inject poisoned parameters into FL, it has been shown that their performances are usually class-sensitive varying with different target classes applied. Typically, an attack can become less effective when shifting to a different target class. To overcome this challenge, we propose the Attacking Distance-aware Attack (ADA) to enhance a poisoning attack by finding the optimized target class in the feature space. Moreover, we studied a more challenging situation where an adversary had limited prior knowledge about a client's data. To tackle this problem, ADA deduces pair-wise distances between different classes in the latent feature space from shared model parameters based on the backward error analysis. We performed extensive empirical evaluations on ADA by varying the factor of attacking frequency in three different image classification tasks. As a result, ADA succeeded in increasing the attack performance by 1.8 times in the most challenging case with an attacking frequency of 0.01.
翻訳日:2022-03-23 22:09:58 公開日:2022-03-22
# (参考訳) フェデレーション知識アライメントに基づくマルチソースドメイン適応 [全文訳有]

Multi-Source Domain Adaptation Based on Federated Knowledge Alignment ( http://arxiv.org/abs/2203.11635v1 )

ライセンス: CC BY 4.0
Yuwei Sun, Ng Chong, Ochiai Hideya(参考訳) フェデレーション学習(fl)は、ユーザのプライバシを保護するために、分散モデル学習を促進する。 新たなユーザのデータに対するラベルがない場合、FLにおける知識伝達により、学習したグローバルモデルが新しいサンプルに迅速に適応できる。 FLにおけるマルチソースドメイン適応は、異なるクライアントからドメイン不変の機能を学ぶことによって、ターゲットドメインにおけるモデルの汎用性を改善することを目的としている。 本稿では,異なるクライアントと対象タスクの機能を調整するフェデレーション知識アライメント(federated knowledge alignment, fedka)を提案する。 FLのマルチソース領域適応において生じる2種類の負の移動を同定し、FedKAがグローバルな特徴分散器の助けを借りて、どのようにそのような負の移動を緩和できるかを示す。 さらに,対象課題の表現学習を容易にするために,対象領域からのサンプルのラベルを,ローカルモデルのクエリから合意を得て提供し,これらのラベル付きサンプルでグローバルモデルを微調整するフェデレート投票機構を考案した。 Digit-Fiveの画像分類タスクとAmazon Reviewのテキスト感情分類タスクに関するアブレーション研究を含む大規模な実験は、FedKAが既存のFLアルゴリズムに拡張され、新しいタスクに取り組むための学習モデルの汎用性を改善することができることを示している。

Federated Learning (FL) facilitates distributed model learning to protect users' privacy. In the absence of labels for a new user's data, the knowledge transfer in FL allows a learned global model to adapt to the new samples quickly. The multi-source domain adaptation in FL aims to improve the model's generality in a target domain by learning domain-invariant features from different clients. In this paper, we propose Federated Knowledge Alignment (FedKA) that aligns features from different clients and those of the target task. We identify two types of negative transfer arising in multi-source domain adaptation of FL and demonstrate how FedKA can alleviate such negative transfers with the help of a global features disentangler enhanced by embedding matching. To further facilitate representation learning of the target task, we devise a federated voting mechanism to provide labels for samples from the target domain via a consensus from querying local models and fine-tune the global model with these labeled samples. Extensive experiments, including an ablation study, on an image classification task of Digit-Five and a text sentiment classification task of Amazon Review, show that FedKA could be augmented to existing FL algorithms to improve the generality of the learned model for tackling a new task.
翻訳日:2022-03-23 21:53:51 公開日:2022-03-22
# (参考訳) ナレッジグラフ補完のための学習関係比表現 [全文訳有]

Learning Relation-Specific Representations for Few-shot Knowledge Graph Completion ( http://arxiv.org/abs/2203.11639v1 )

ライセンス: CC BY 4.0
Yuling Li, Kui Yu, Yuhong Zhang, and Xindong Wu(参考訳) 近年,いくつかの参照三重項を用いて,未知のクエリ三重項を数点の関係で推定することを目的としたFKGCへの関心が高まっている。 既存のfkgc手法の主な焦点は、クエリと参照トリプルによって共有される共通情報を反映した関係表現を学ぶことである。 この目的のために、これらの手法は、エンティティの直接隣人との埋め込みを学習し、エンティティの埋め込みの結合を関係表現として利用する。 しかし、直接近傍からのみ学習されたエンティティ埋め込みは、そのエンティティがスパースな隣人を持つ場合や、他のエンティティと共通のローカルな近傍を共有する場合、表現力が低い可能性がある。 さらに、2つの実体の埋め込みは、特に複数の関係を持つ場合、それらの関係の意味情報を表現するには不十分である。 そこで本研究では,関係とエンティティの意味情報を同時に捉えるために,三重項のグラフコンテキストを利用する関係特化コンテキスト学習(rscl)フレームワークを提案する。 具体的には、まず三重グラフのコンテキストを抽出し、長期のエンティティ関連依存関係を提供する。 グラフコンテキストをモデル化するために,三重項の文脈情報を取得し,実体の局所情報を組み込むことで,関係関係のグローバルおよび局所的な関係特化表現を学習する階層的関係特化学習器を開発する。 最後に,学習表現を用いてクエリトリプルの可能性を予測する。 2つの公開データセットの実験結果は、RSCLが最先端のFKGC法より優れていることを示している。

Recent years have witnessed increasing interest in few-shot knowledge graph completion (FKGC), which aims to infer unseen query triples for a few-shot relation using a handful of reference triples of the relation. The primary focus of existing FKGC methods lies in learning the relation representations that can reflect the common information shared by the query and reference triples. To this end, these methods learn the embeddings of entities with their direct neighbors, and use the concatenation of the entity embeddings as the relation representations. However, the entity embeddings learned only from direct neighborhoods may have low expressiveness when the entity has sparse neighbors or shares a common local neighborhood with other entities. Moreover, the embeddings of two entities are insufficient to represent the semantic information of their relationship, especially when they have multiple relations. To address these issues, we propose a Relation-Specific Context Learning (RSCL) framework, which exploits graph contexts of triples to capture the semantic information of relations and entities simultaneously. Specifically, we first extract graph contexts for each triple, which can provide long-term entity-relation dependencies. To model the graph contexts, we then develop a hierarchical relation-specific learner to learn global and local relation-specific representations for relations by capturing contextualized information of triples and incorporating local information of entities. Finally, we utilize the learned representations to predict the likelihood of the query triples. Experimental results on two public datasets demonstrate that RSCL outperforms state-of-the-art FKGC methods.
翻訳日:2022-03-23 21:38:02 公開日:2022-03-22
# (参考訳) 衣服操作作業における意味的状態推定 [全文訳有]

Semantic State Estimation in Cloth Manipulation Tasks ( http://arxiv.org/abs/2203.11647v1 )

ライセンス: CC BY 4.0
Georgies Tzelepis, Eren Erdal Aksoy, J\'ulia Borr\`as, and Guillem Aleny\`a(参考訳) 織物などの変形可能な物体操作を理解することは、問題の複雑さと高次元のため課題である。 特に、連続的な操作プロセス中に意味状態の一般的な表現(例えば \textit{crumpled}, \textit{diagonally fold})がないことは、操作タイプを特定するための障害をもたらす。 本稿では,布地操作作業における意味状態推定の課題を解決することを目的とする。 そこで本研究では,さまざまな複雑な布地操作の人間の実演を実演する大規模フルアノテートRGB画像データセットを提案する。 我々は,ベースライン深層ネットワークのセットを提供し,提案するデータセットを用いた意味的状態推定の問題をベンチマークする。 さらに,長く複雑な布操作を行うロボット監視作業における意味状態推定フレームワークのスケーラビリティについて検討した。

Understanding of deformable object manipulations such as textiles is a challenge due to the complexity and high dimensionality of the problem. Particularly, the lack of a generic representation of semantic states (e.g., \textit{crumpled}, \textit{diagonally folded}) during a continuous manipulation process introduces an obstacle to identify the manipulation type. In this paper, we aim to solve the problem of semantic state estimation in cloth manipulation tasks. For this purpose, we introduce a new large-scale fully-annotated RGB image dataset showing various human demonstrations of different complicated cloth manipulations. We provide a set of baseline deep networks and benchmark them on the problem of semantic state estimation using our proposed dataset. Furthermore, we investigate the scalability of our semantic state estimation framework in robot monitoring tasks of long and complex cloth manipulations.
翻訳日:2022-03-23 21:15:00 公開日:2022-03-22
# (参考訳) ナゲット域における摩擦圧接aa626262継手の硬さ判定のための機械学習アルゴリズムと田口アルゴリズムの性能評価 [全文訳有]

Performance Evaluation of Machine Learning-based Algorithm and Taguchi Algorithm for the Determination of the Hardness Value of the Friction Stir Welded AA 6262 Joints at a Nugget Zone ( http://arxiv.org/abs/2203.11649v1 )

ライセンス: CC BY-SA 4.0
Akshansh Mishra, Eyob Messele Sefene, Gopikrishna Nidigonda, Assefa Asmare Tsegaw(参考訳) 現在、工業4.0は、現代の製造システムにおけるデータ量と精度を高めるために、製造業において大きな役割を果たしている。 人工知能、特に機械学習のおかげで、ビッグデータ分析は劇的に改善され、製造業者は組織化された非組織的なデータを容易に活用できる。 本研究は, ハイブリッド最適化アルゴリズムを用いて, ナゲットゾーンにおける摩擦圧接溶接と最適硬度値を求める。 同様のAA 6262の材料がバットジョイント構成で使用され溶接された。 ツール回転速度(RPM)、ツール横速度(mm/min)、平面深度(mm)を制御可能なパラメータとして使用し、田口L9、ランダムフォレスト、XG Boost機械学習ツールを用いて最適化する。 また,有意なパラメータを特定するために95%信頼区間で分散分析を行った。 その結果,田口L9直交アレイの判定係数は0.91であり,ランダムフォレストとXGBoostアルゴリズムはそれぞれ0.62,0.65であった。

Nowadays, industry 4.0 plays a tremendous role in the manufacturing industries for increasing the amount of data and accuracy in modern manufacturing systems. Thanks to artificial intelligence, particularly machine learning, big data analytics have dramatically amended, and manufacturers easily exploit organized and unorganized data. This study utilized hybrid optimization algorithms to find friction stir welding and optimal hardness value at the nugget zone. A similar AA 6262 material was used and welded in a butt joint configuration. Tool rotational speed (RPM), tool traverse speed (mm/min), and the plane depth (mm) are used as controllable parameters and optimized using Taguchi L9, Random Forest, and XG Boost machine learning tools. Analysis of variance was also conducted at a 95% confidence interval for identifying the significant parameters. The result indicated that the coefficient of determination from Taguchi L9 orthogonal array is 0.91 obtained while Random Forest and XG Boost algorithm imparted 0.62 and 0.65, respectively.
翻訳日:2022-03-23 20:59:27 公開日:2022-03-22
# (参考訳) ポイントスーパーバイソンを用いた弱スーパーバイザ・サリアント物体検出 [全文訳有]

Weakly-Supervised Salient Object Detection Using Point Supervison ( http://arxiv.org/abs/2203.11652v1 )

ライセンス: CC BY 4.0
Shuyong Gao, Wei Zhang, Yan Wang, Qianyu Guo, Chenglong Zhang, Yangji He, Wenqiang Zhang(参考訳) 現在の最先端の精度検出モデルは、正確なピクセル単位のアノテーションの大規模なデータセットに大きく依存しているが、手動でピクセルをラベル付けするのは時間と労力を要する。 イメージラベルやバウンディングボックスラベル,スクリブルラベルなど,この問題を軽減するための弱教師付き手法がいくつか開発されているが,点ラベルについてはいまだ検討されていない。 本稿では,点監視を用いた新しい弱教師付きサルエント物体検出法を提案する。 そこで我々はまず,適応型マスク付き洪水充填アルゴリズムを設計し,擬似ラベルを生成する。 次に, 点教師付きサリエンシー検出モデルを開発し, 第1ラウンドのサリエンシーマップを作成する。 しかし,ラベルの疎度のため,弱教師付きモデルは一般的な前景検出モデルに縮退する傾向にある。 この問題に対処するため,第1ラウンドで生成した誤ったサリエンシマップを最適化し,第2ラウンドのトレーニングに活用する非サリエント抑圧法を提案する。 さらに, DUTSデータセットを緩和することにより, 新たなP-DUTSデータセットを構築する。 p-dutsでは、各salientオブジェクトのラベル付きポイントは1つだけである。 5つの大規模ベンチマークデータセットに関する包括的実験は、より強い監督の下で訓練された以前の最先端の手法よりも優れており、さらにいくつかの完全に監視された最先端のモデルを超えていることを示している。 コードはhttps://github.com/s huyonggao/psodで入手できる。

Current state-of-the-art saliency detection models rely heavily on large datasets of accurate pixel-wise annotations, but manually labeling pixels is time-consuming and labor-intensive. There are some weakly supervised methods developed for alleviating the problem, such as image label, bounding box label, and scribble label, while point label still has not been explored in this field. In this paper, we propose a novel weakly-supervised salient object detection method using point supervision. To infer the saliency map, we first design an adaptive masked flood filling algorithm to generate pseudo labels. Then we develop a transformer-based point-supervised saliency detection model to produce the first round of saliency maps. However, due to the sparseness of the label, the weakly supervised model tends to degenerate into a general foreground detection model. To address this issue, we propose a Non-Salient Suppression (NSS) method to optimize the erroneous saliency maps generated in the first round and leverage them for the second round of training. Moreover, we build a new point-supervised dataset (P-DUTS) by relabeling the DUTS dataset. In P-DUTS, there is only one labeled point for each salient object. Comprehensive experiments on five largest benchmark datasets demonstrate our method outperforms the previous state-of-the-art methods trained with the stronger supervision and even surpass several fully supervised state-of-the-art models. The code is available at: https://github.com/s huyonggao/PSOD.
翻訳日:2022-03-23 20:52:22 公開日:2022-03-22
# (参考訳) 勘違いしてるの? Facebook上のベンガルにおけるコビッド関連フェイクニュースに関する研究 [全文訳有]

Are You Misinformed? A Study of Covid-Related Fake News in Bengali on Facebook ( http://arxiv.org/abs/2203.11669v1 )

ライセンス: CC BY 4.0
Protik Bose Pranto, Syed Zami-Ul-Haque Navid, Protik Dey, Gias Uddin, Anindya Iqbal(参考訳) 私たちの意見や生活観は、Facebookのようなソーシャルメディア上で他人の意見をどう知覚するかによって形作ることができる。 この依存度は、他の人と接続する手段が少ない新型コロナウイルスの期間に増加する。 しかし、新型コロナウイルス関連の偽ニュースはFacebookにとって重大な問題となっている。 ベンガル語は世界で7番目に多く話されている言語だが、facebook上のベンガル語で新型コロナウイルスに関連した偽ニュースの流行を研究する研究は、これまでにない。 本稿では,ベンガルの偽ニュースを自動的に検出する機械学習モデルを開発した。 最高のパフォーマンスモデルは bert で、f1-score は 0.97 である。 新型コロナウイルスに関連するすべてのFacebook Bengali投稿にBERTを適用する。 新型コロナウイルス(covid-19)のベンガルの偽ニュースは、システム(医療システムなど)、信念(宗教儀式など)、社会(科学的認識など)の3つのカテゴリに分類される。

Our opinions and views of life can be shaped by how we perceive the opinions of others on social media like Facebook. This dependence has increased during COVID-19 periods when we have fewer means to connect with others. However, fake news related to COVID-19 has become a significant problem on Facebook. Bengali is the seventh most spoken language worldwide, yet we are aware of no previous research that studied the prevalence of COVID-19 related fake news in Bengali on Facebook. In this paper, we develop machine learning models to detect fake news in Bengali automatically. The best performing model is BERT, with an F1-score of 0.97. We apply BERT on all Facebook Bengali posts related to COVID-19. We find 10 topics in the COVID-19 Bengali fake news grouped into three categories: System (e.g., medical system), belief (e.g., religious rituals), and social (e.g., scientific awareness).
翻訳日:2022-03-23 20:38:47 公開日:2022-03-22
# (参考訳) ブロックレベルマスク付き畳み込みと漸近的閉ループトレーニングによる終端学習ブロックベース画像圧縮 [全文訳有]

End-to-End Learned Block-Based Image Compression with Block-Level Masked Convolutions and Asymptotic Closed Loop Training ( http://arxiv.org/abs/2203.11686v1 )

ライセンス: CC BY 4.0
Fatih Kamisli(参考訳) 学習された画像圧縮研究は、オートエンコーダベースのニューラルネットワークアーキテクチャを用いて最先端の圧縮性能を達成し、画像は畳み込みニューラルネットワーク(cnn)を介して潜在表現にマッピングされる。 CNNは入力画像全体で動作する。 一方,従来の最先端画像圧縮手法と映像圧縮方式は,様々な理由から,ブロック単位の処理アプローチで画像を処理する。 入力画像の大きなブロックにオートエンコーダアーキテクチャを使用し、空間内/空間内予測とデブロック/ポスト処理機能を実行する追加のニューラルネットワークを導入している。 本稿では,明示的内部予測ニューラルネットワークと明示的遮断ニューラルネットワークを併用しない,学習されたブロックベース画像圧縮手法を提案する。 ブロックレベルのマスク畳み込みを持つ単一オートエンコーダニューラルネットワークを使用し、ブロックサイズはより小さく(8x8)。 ブロックレベルのマスク畳み込みを用いることで、エンコーダとデコーダの両方で、隣接する左ブロックと上ブロックを再構成して処理する。 これにより、隣り合うブロック間の相互情報を圧縮中に利用し、各ブロックを隣のブロックで再構築することで、明示的な内部予測とデブロッキングニューラルネットワークの必要性を解消する。 探索システムは閉ループシステムであるため、漸近的閉ループ設計という特別な最適化手順は、標準確率勾配降下に基づくトレーニングで使用される。 実験結果から, 競合画像圧縮性能が示唆された。

Learned image compression research has achieved state-of-the-art compression performance with auto-encoder based neural network architectures, where the image is mapped via convolutional neural networks (CNN) into a latent representation that is quantized and processed again with CNN to obtain the reconstructed image. CNN operate on entire input images. On the other hand, traditional state-of-the-art image and video compression methods process images with a block-by-block processing approach for various reasons. Very recently, work on learned image compression with block based approaches have also appeared, which use the auto-encoder architecture on large blocks of the input image and introduce additional neural networks that perform intra/spatial prediction and deblocking/post-proc essing functions. This paper explores an alternative learned block-based image compression approach in which neither an explicit intra prediction neural network nor an explicit deblocking neural network is used. A single auto-encoder neural network with block-level masked convolutions is used and the block size is much smaller (8x8). By using block-level masked convolutions, each block is processed using reconstructed neighboring left and upper blocks both at the encoder and decoder. Hence, the mutual information between adjacent blocks is exploited during compression and each block is reconstructed using neighboring blocks, resolving the need for explicit intra prediction and deblocking neural networks. Since the explored system is a closed loop system, a special optimization procedure, the asymptotic closed loop design, is used with standard stochastic gradient descent based training. The experimental results indicate competitive image compression performance.
翻訳日:2022-03-23 20:11:43 公開日:2022-03-22
# (参考訳) ニューラルネットワークにおける線形特徴分散の探索 [全文訳有]

Exploring Linear Feature Disentanglement For Neural Networks ( http://arxiv.org/abs/2203.11700v1 )

ライセンス: CC BY 4.0
Tiantian He, Zhibin Li, Yongshun Gong, Yazhou Yao, Xiushan Nie, Yilong Yin(参考訳) Sigmoid、ReLU、Tanhなどの非線形活性化関数は、ニューラルネットワーク(NN)において大きな成功を収めている。 サンプルの複素非線形特性のため、これらの活性化関数の目的は、元の特徴空間から線形分離可能な特徴空間へサンプルを投影することである。 この現象は、全ての特徴が現在の典型的なnnのすべての非線形関数によって変換される必要があるかどうか、すなわち、中間層内の線形分離可能な特徴空間に到達する特徴の一部が存在するかどうか、その代わりにアフィン変換を必要とせずに検討することに関心を喚起する。 本稿では,この仮説を検証するために,ニューラルネットワークの線形特徴分散問題について検討する。 具体的には,線形特徴と非線形特徴を区別する学習可能なマスクモジュールを考案する。 設計した実験を通して、いくつかの機能は他のものよりも早く線形分離可能な空間に到達し、部分的にNNから切り離すことができることがわかった。 また,本手法は,元のモデルの性能にほとんど影響を与えない,容易に実現可能なプルーニング戦略を提供する。 4つのデータセットで実験を行い、有望な結果を示す。

Non-linear activation functions, e.g., Sigmoid, ReLU, and Tanh, have achieved great success in neural networks (NNs). Due to the complex non-linear characteristic of samples, the objective of those activation functions is to project samples from their original feature space to a linear separable feature space. This phenomenon ignites our interest in exploring whether all features need to be transformed by all non-linear functions in current typical NNs, i.e., whether there exists a part of features arriving at the linear separable feature space in the intermediate layers, that does not require further non-linear variation but an affine transformation instead. To validate the above hypothesis, we explore the problem of linear feature disentanglement for neural networks in this paper. Specifically, we devise a learnable mask module to distinguish between linear and non-linear features. Through our designed experiments we found that some features reach the linearly separable space earlier than the others and can be detached partly from the NNs. The explored method also provides a readily feasible pruning strategy which barely affects the performance of the original model. We conduct our experiments on four datasets and present promising results.
翻訳日:2022-03-23 19:19:32 公開日:2022-03-22
# (参考訳) BERT-ASC:感覚分析における暗黙の学習のための補助文構築 [全文訳有]

BERT-ASC: Auxiliary-Sentence Construction for Implicit Aspect Learning in Sentiment Analysis ( http://arxiv.org/abs/2203.11702v1 )

ライセンス: CC BY 4.0
Ahmed Murtadha, Shengfeng Pan, Bo Wen, Jianlin Su, Wenze Zhang, Yunfeng Liu(参考訳) アスペクトベース感情分析(absa:aspect-based sentiment analysis)タスクは、テキストの一部をアスペクトのセットに関連付けることを目的としている。 これまでのところ、最先端のアプローチは、さまざまな事前学習された言語モデルの微調整に基づいている。 彼らは一般的に、コーパスのアスペクト特化表現を学習することを目的としています。 残念なことに、このアスペクトは複数の代表を通して暗黙的に表現されることが多く、十分なラベル付き例がない限り、暗黙のマッピングプロセスは達成できない。 本稿では,アスペクト分類とアスペクトベースの感情サブタスクを統一フレームワークで協調的に扱うことを提案する。 具体的には,まず,意味的および構文的情報を協調して,暗黙的側面に対する補助的関係を構築する,単純かつ効果的なメカニズムを提案する。 そこで,BERTはアスペクト自体ではなく,自動構築された補助文に応答してアスペクト固有表現を学習することを推奨する。 最後に,ABSAタスクとTargeted-ABSAタスクの実際のベンチマークデータセットの比較により,提案手法の性能を実証的に評価した。 我々の広範な実験は、すべてのデータセットにおけるアスペクト分類とアスペクトベースの感情の観点から、常に最先端のパフォーマンスを達成し、改善マージンは相当に大きいことを示している。

Aspect-based sentiment analysis (ABSA) task aims to associate a piece of text with a set of aspects and meanwhile infer their respective sentimental polarities. Up to now, the state-of-the-art approaches are built upon fine-tuning of various pre-trained language models. They commonly aim to learn the aspect-specific representation in the corpus. Unfortunately, the aspect is often expressed implicitly through a set of representatives and thus renders implicit mapping process unattainable unless sufficient labeled examples. In this paper, we propose to jointly address aspect categorization and aspect-based sentiment subtasks in a unified framework. Specifically, we first introduce a simple but effective mechanism that collaborates the semantic and syntactic information to construct auxiliary-sentences for the implicit aspect. Then, we encourage BERT to learn the aspect-specific representation in response to the automatically constructed auxiliary-sentence instead of the aspect itself. Finally, we empirically evaluate the performance of the proposed solution by a comparative study on real benchmark datasets for both ABSA and Targeted-ABSA tasks. Our extensive experiments show that it consistently achieves state-of-the-art performance in terms of aspect categorization and aspect-based sentiment across all datasets and the improvement margins are considerable.
翻訳日:2022-03-23 19:10:10 公開日:2022-03-22
# (参考訳) 畳み込みニューラルネットワークによる可変安定化領域における低次元乳房共生射影の復元 [全文訳有]

Convolutional Neural Network to Restore Low-Dose Digital Breast Tomosynthesis Projections in a Variance Stabilization Domain ( http://arxiv.org/abs/2203.11722v1 )

ライセンス: CC BY 4.0
Rodrigo de Barros Vimieiro and Chuang Niu and Hongming Shan and Lucas Rodrigues Borges and Ge Wang and Marcelo Andrade da Costa Vieira(参考訳) デジタル乳房トモシンシンセプション(DBT)検査は,診断に十分な画像品質を維持しつつ,可能な限り低放射線量で行うべきである。 本研究では,低線量(ld)dbt投影を復元し,標準フル線量(fd)取得に相当する画質を実現する畳み込みニューラルネットワーク(cnn)を提案する。 提案するネットワークアーキテクチャは,分散安定化変換(VST)領域におけるネットワークの動作をトレーニングするモデルベースディープラーニングアプローチを考慮し,従来のモデルベース(MB)復元手法にインスパイアされた事前レイヤの利点がある。 復元された画像のノイズやぼかしの観点からネットワーク動作点を正確に制御するために、バイアスを最小限に抑え、入力と出力の間の残雑音にマッチする損失関数を提案する。 トレーニングデータセットは、標準fdで得られた臨床データと、量子ノイズの注入により得られた低用量対からなる。 実際のDBTプロジェクションを用いて,身体的母乳ファントムを用いて実験を行った。 提案手法は,従来のデータ駆動方式と比較して,平均正規化二乗誤差(MNSE),トレーニング時間,ノイズ空間相関の点で優れた結果を得た。 提案手法は、LD取得を必要とする他の医用画像アプリケーションにも適用可能である。

Digital breast tomosynthesis (DBT) exams should utilize the lowest possible radiation dose while maintaining sufficiently good image quality for accurate medical diagnosis. In this work, we propose a convolution neural network (CNN) to restore low-dose (LD) DBT projections to achieve an image quality equivalent to a standard full-dose (FD) acquisition. The proposed network architecture benefits from priors in terms of layers that were inspired by traditional model-based (MB) restoration methods, considering a model-based deep learning approach, where the network is trained to operate in the variance stabilization transformation (VST) domain. To accurately control the network operation point, in terms of noise and blur of the restored image, we propose a loss function that minimizes the bias and matches residual noise between the input and the output. The training dataset was composed of clinical data acquired at the standard FD and low-dose pairs obtained by the injection of quantum noise. The network was tested using real DBT projections acquired with a physical anthropomorphic breast phantom. The proposed network achieved superior results in terms of the mean normalized squared error (MNSE), training time and noise spatial correlation compared with networks trained with traditional data-driven methods. The proposed approach can be extended for other medical imaging application that requires LD acquisitions.
翻訳日:2022-03-23 18:55:35 公開日:2022-03-22
# (参考訳) progressivemotionseg :イベントベースモーションセグメンテーションのための相互強化型フレームワーク [全文訳有]

ProgressiveMotionSeg : Mutually Reinforced Framework for Event-Based Motion Segmentation ( http://arxiv.org/abs/2203.11732v1 )

ライセンス: CC BY 4.0
Jinze Chen, Yang Wang, Yang Cao, Feng Wu, Zheng-Jun Zha(参考訳) Dynamic Vision Sensor (DVS) は、マイクロ秒の解像度でオブジェクトの見かけの動きを反映したイベントを非同期に出力し、監視やその他の分野において大きな応用可能性を示す。 しかし、既存のDVSの出力イベントストリームには、暗電流とジャンクションリーク電流によるバックグラウンドアクティビティノイズ(BAノイズ)が必然的に含まれており、オブジェクトの時間的相関に影響を及ぼし、運動推定性能が劣化する。 特に,既存のフィルタに基づくデノナイズ法は,空間相関が存在しないため,イベントストリームのノイズを抑制するために直接適用できない。 本稿では,動き推定(me)モジュールとイベント・デノイジング(ed)モジュールとが協調して相互に強化された方法で最適化される,新しいプログレッシブ・フレームワークを提案する。 具体的には、最大シャープネス基準に基づいて、動作補償ワープフィールドにおける適応クラスタリングにより入力イベントを複数のセグメントに分割し、クラスタ化された動きパラメータに応じてイベントストリームの時間的相関をキャプチャする。 時間的相関をガイダンスとして、EDモジュールは各イベントが実活動イベントに属するという信頼度を算出し、MEモジュールに送信し、ノイズ抑制のための運動セグメンテーションのエネルギー関数を更新する。 2つのステップは、安定した動き分割結果が得られるまで反復的に更新される。 合成データセットと実データセットの両方に対する大規模な実験結果から,提案手法のSOTA法に対する優位性が確認された。

Dynamic Vision Sensor (DVS) can asynchronously output the events reflecting apparent motion of objects with microsecond resolution, and shows great application potential in monitoring and other fields. However, the output event stream of existing DVS inevitably contains background activity noise (BA noise) due to dark current and junction leakage current, which will affect the temporal correlation of objects, resulting in deteriorated motion estimation performance. Particularly, the existing filter-based denoising methods cannot be directly applied to suppress the noise in event stream, since there is no spatial correlation. To address this issue, this paper presents a novel progressive framework, in which a Motion Estimation (ME) module and an Event Denoising (ED) module are jointly optimized in a mutually reinforced manner. Specifically, based on the maximum sharpness criterion, ME module divides the input event into several segments by adaptive clustering in a motion compensating warp field, and captures the temporal correlation of event stream according to the clustered motion parameters. Taking temporal correlation as guidance, ED module calculates the confidence that each event belongs to real activity events, and transmits it to ME module to update energy function of motion segmentation for noise suppression. The two steps are iteratively updated until stable motion segmentation results are obtained. Extensive experimental results on both synthetic and real datasets demonstrate the superiority of our proposed approaches against the State-Of-The-Art (SOTA) methods.
翻訳日:2022-03-23 18:40:18 公開日:2022-03-22
# (参考訳) 動的シーンにおける画像復元の可能性の探索と評価 [全文訳有]

Exploring and Evaluating Image Restoration Potential in Dynamic Scenes ( http://arxiv.org/abs/2203.11754v1 )

ライセンス: CC BY 4.0
Cheng Zhang, Shaolin Su, Yu Zhu, Qingsen Yan, Jinqiu Sun, Yanning Zhang(参考訳) ダイナミックシーンでは、動きの重ね合わせや、動きを避ける際のシャッタースピードによる信号ノイズ比の低下によって、画像が動的にぼやけている場合が多い。 得られた画像から鮮明でクリーンな結果を復元することは、復元方法の能力と入力の品質に大きく依存する。 画像復元に関する既存の研究は、より良い復元結果を得るためのモデル開発に重点を置いているが、どのように、どの入力画像がより優れた復元品質をもたらすかを評価する研究は少ない。 本稿では,画像修復に有効な画像の潜在的な価値をよりよく研究するために,画像修復の可能性(IRP)を参考に,新しい概念を提案する。 具体的には,まず,複合歪みと応用画像復元プロセスを含む動的シーン画像データセットを構築し,その存在の合理性を検証する。 このデータセットに基づいて、irpのいくつかの特性を調査し、irp値を正確に予測する新しい深層モデルを提案する。 劣化特性を徐々に蒸留し, 選択的に融合させることで, IRP予測の優位性を示す。 提案モデルにより,様々な画像復元関連アプリケーションがirp予測からどのように恩恵を受けているかを検証できる。 我々は、IRPの潜在的な使用法を、価値あるフレームを選択するためのフィルタリング原則、復元モデルを改善するための補助ガイダンス、さらには動的シナリオ下でより良い画像を取得するためのカメラ設定を最適化するための指標として示す。

In dynamic scenes, images often suffer from dynamic blur due to superposition of motions or low signal-noise ratio resulted from quick shutter speed when avoiding motions. Recovering sharp and clean results from the captured images heavily depends on the ability of restoration methods and the quality of the input. Although existing research on image restoration focuses on developing models for obtaining better restored results, fewer have studied to evaluate how and which input image leads to superior restored quality. In this paper, to better study an image's potential value that can be explored for restoration, we propose a novel concept, referring to image restoration potential (IRP). Specifically, We first establish a dynamic scene imaging dataset containing composite distortions and applied image restoration processes to validate the rationality of the existence to IRP. Based on this dataset, we investigate several properties of IRP and propose a novel deep model to accurately predict IRP values. By gradually distilling and selective fusing the degradation features, the proposed model shows its superiority in IRP prediction. Thanks to the proposed model, we are then able to validate how various image restoration related applications are benefited from IRP prediction. We show the potential usages of IRP as a filtering principle to select valuable frames, an auxiliary guidance to improve restoration models, and even an indicator to optimize camera settings for capturing better images under dynamic scenarios.
翻訳日:2022-03-23 18:28:02 公開日:2022-03-22
# (参考訳) 極端音声の定義に影響を及ぼすコミュニティへのリスニング:データセットと実験 [全文訳有]

Listening to Affected Communities to Define Extreme Speech: Dataset and Experiments ( http://arxiv.org/abs/2203.11764v1 )

ライセンス: CC BY-SA 4.0
Antonis Maronikolakis, Axel Wisiorek, Leah Nann, Haris Jabbar, Sahana Udupa, Hinrich Schuetze(参考訳) 複数の言語によるヘイトスピーチ(例:ousidhoum et al. (2019))とヘイトスピーチ削減(例:sap et al. (2020))に関する現在の研究に基づいて、ブラジル、ドイツ、インド、ケニアの20,297のソーシャルメディアを含む新しいヘイトスピーチデータセットであるxtremespeechを紹介する。 企業や政府がヘイトスピーチの定義や対処をコントロールできるのとは対照的だ。 この包括的アプローチにより、実際に発生するオンラインスピーチのデータセットがより代表的になり、コミュニティが最も害をもたらすとみなすソーシャルメディアコンテンツの削除を促進する可能性がある。 我々は,XTREMESPEECHに基づいて,基本ラインに付随する新たなタスクを確立し,各国の文化的差異によりクロスカントリートレーニングが一般的に実現不可能であることを示すとともに,BERTの予測の解釈可能性分析を行う。

Building on current work on multilingual hate speech (e.g., Ousidhoum et al. (2019)) and hate speech reduction (e.g., Sap et al. (2020)), we present XTREMESPEECH, a new hate speech dataset containing 20,297 social media passages from Brazil, Germany, India and Kenya. The key novelty is that we directly involve the affected communities in collecting and annotating the data - as opposed to giving companies and governments control over defining and combatting hate speech. This inclusive approach results in datasets more representative of actually occurring online speech and is likely to facilitate the removal of the social media content that marginalized communities view as causing the most harm. Based on XTREMESPEECH, we establish novel tasks with accompanying baselines, provide evidence that cross-country training is generally not feasible due to cultural differences between countries and perform an interpretability analysis of BERT's predictions.
翻訳日:2022-03-23 18:13:09 公開日:2022-03-22
# (参考訳) バイエンコーダ変圧器混合モデルによる音声信号からの話者年齢と高さの推定 [全文訳有]

Estimation of speaker age and height from speech signal using bi-encoder transformer mixture model ( http://arxiv.org/abs/2203.11774v1 )

ライセンス: CC BY 4.0
Tarun Gupta, Duc-Tuan Truong, Tran The Anh, Chng Eng Siong(参考訳) 年齢や身長などの話者特性の推定は難しい課題であり、音声法医学的分析に多くの応用がある。 本研究では,話者年齢と高さ推定のためのバイエンコーダ変圧器混合モデルを提案する。 フォルマントと基本周波数の違いなど,男女の音声特性の広さを考慮し,男性と女性における特定の音声特徴の抽出に2つのトランスフォーマーエンコーダを用い,wav2vec 2.0を共通レベルの特徴抽出器として用いた。 このアーキテクチャはバックプロパゲーション時の干渉効果を低減し、モデルの一般化性を向上させる。 我々はtimitデータセットで実験を行い、年齢推定の現在の結果を大きく上回る結果を得た。 具体的には, 根平均二乗誤差(RMSE)は5.54年と6.49年である。 課題として, 母音が年齢推定において最も顕著であることを示すために, 異なる音韻型の相対的重要性を評価する実験を行った。

The estimation of speaker characteristics such as age and height is a challenging task, having numerous applications in voice forensic analysis. In this work, we propose a bi-encoder transformer mixture model for speaker age and height estimation. Considering the wide differences in male and female voice characteristics such as differences in formant and fundamental frequencies, we propose the use of two separate transformer encoders for the extraction of specific voice features in the male and female gender, using wav2vec 2.0 as a common-level feature extractor. This architecture reduces the interference effects during backpropagation and improves the generalizability of the model. We perform our experiments on the TIMIT dataset and significantly outperform the current state-of-the-art results on age estimation. Specifically, we achieve root mean squared error (RMSE) of 5.54 years and 6.49 years for male and female age estimation, respectively. Further experiment to evaluate the relative importance of different phonetic types for our task demonstrate that vowel sounds are the most distinguishing for age estimation.
翻訳日:2022-03-23 17:52:56 公開日:2022-03-22
# (参考訳) ニューラルシステムレベル合成:非線形システムの全ての安定化ポリシーを学習する [全文訳有]

Neural System Level Synthesis: Learning over All Stabilizing Policies for Nonlinear Systems ( http://arxiv.org/abs/2203.11812v1 )

ライセンス: CC BY 4.0
Luca Furieri, Clara Luc\'ia Galimberti, Giancarlo Ferrari-Trecate(参考訳) 非線形システムの制御ポリシーを離散時間に安定化する問題に対処し,任意のコスト関数を最小化する。 システムが線形でコストが凸である場合、システムレベル合成(SLS)アプローチは凸プログラミングに基づく正確なソリューションを提供する。 この場合以外にも、大域的最適解は、一般に、トラクタブルな方法では見つからない。 本稿では, 与えられた時間変化非線形系を安定化させる制御ポリシのみを, 複合効果の観点からパラメトリゼーションする。 1)強力な安定化ベースコントローラ及び 2)安定なSLS演算子を自由に設計する。 この結果に基づいて,パラメータ最適化の前後における閉ループ安定性を保証するニューラルSLS(Neur-SLS)手法を提案する。 本稿では,Recurrent Equilibrium Networks (RENs) に基づく最近のDeep Neural Network (DNN) モデルを用いて,非線形安定作用素の豊富なクラスについて学習し,数値例で提案手法の有効性を実証する。

We address the problem of designing stabilizing control policies for nonlinear systems in discrete-time, while minimizing an arbitrary cost function. When the system is linear and the cost is convex, the System Level Synthesis (SLS) approach offers an exact solution based on convex programming. Beyond this case, a globally optimal solution cannot be found in a tractable way, in general. In this paper, we develop a parametrization of all and only the control policies stabilizing a given time-varying nonlinear system in terms of the combined effect of 1) a strongly stabilizing base controller and 2) a stable SLS operator to be freely designed. Based on this result, we propose a Neural SLS (Neur-SLS) approach guaranteeing closed-loop stability during and after parameter optimization, without requiring any constraints to be satisfied. We exploit recent Deep Neural Network (DNN) models based on Recurrent Equilibrium Networks (RENs) to learn over a rich class of nonlinear stable operators, and demonstrate the effectiveness of the proposed approach in numerical examples.
翻訳日:2022-03-23 17:41:52 公開日:2022-03-22
# (参考訳) XOR計画グラディエントDescentを用いた確率的制約付き確率凸最適化 [全文訳有]

Provable Constrained Stochastic Convex Optimization with XOR-Projected Gradient Descent ( http://arxiv.org/abs/2203.11829v1 )

ライセンス: CC BY 4.0
Fan Ding, Yijie Wang, Jianzhu Ma, Yexiang Xue(参考訳) 確率凸最適化問題を制約で解くことは、科学、ビジネス、統計学の様々な問題に不可欠である。 最近提案されたXOR-Stochastic Gradient Descent (XOR-SGD)は、XOR-Samplingを利用して制約のない問題の解法を保証する収束速度を提供する。 しかし、追加の平等と不平等の制約を満たす必要がある場合、タスクはより困難になる。 本稿では, 線形収束速度における制約付き確率凸最適化問題を, 適切なステップサイズを選択することにより解けることを保証した, XOR-PGD と XOR サンプリング器を組み合わせた新規アルゴリズムを提案する。 XOR-PGDによって最適化されたソリューションの制約満足度は、非常に大きな探索空間における競合するアプローチよりも10\%高いことを、合成確率的在庫管理と実世界の道路ネットワーク設計の問題の両方に示す。 改良された XOR-PGD アルゴリズムは,MCMC をベースとしたサンプルと組み合わせた XOR-SGD と SGD のどちらよりも正確かつ効率的であることが示されている。 また、大規模な実験によるサンプル数やプロセッサコア数に関しても、よりスケーラブルであることが示されている。

Provably solving stochastic convex optimization problems with constraints is essential for various problems in science, business, and statistics. Recently proposed XOR-Stochastic Gradient Descent (XOR-SGD) provides a convergence rate guarantee solving the constraints-free version of the problem by leveraging XOR-Sampling. However, the task becomes more difficult when additional equality and inequality constraints are needed to be satisfied. Here we propose XOR-PGD, a novel algorithm based on Projected Gradient Descent (PGD) coupled with the XOR sampler, which is guaranteed to solve the constrained stochastic convex optimization problem still in linear convergence rate by choosing proper step size. We show on both synthetic stochastic inventory management and real-world road network design problems that the rate of constraints satisfaction of the solutions optimized by XOR-PGD is $10\%$ more than the competing approaches in a very large searching space. The improved XOR-PGD algorithm is demonstrated to be more accurate and efficient than both XOR-SGD and SGD coupled with MCMC based samplers. It is also shown to be more scalable with respect to the number of samples and processor cores via experiments with large dimensions.
翻訳日:2022-03-23 17:25:49 公開日:2022-03-22
# (参考訳) スペクトルアルゴリズムによる植込み高密度グラフの最適検索 [全文訳有]

Spectral Algorithms Optimally Recover (Censored) Planted Dense Subgraphs ( http://arxiv.org/abs/2203.11847v1 )

ライセンス: CC BY 4.0
Souvik Dhara, Julia Gaudio, Elchanan Mossel, and Colin Sandon(参考訳) 本研究では, 被植密度部分グラフ問題 (pds) のスペクトルアルゴリズムと, エッジ状態がランダムに欠落しているpdsの検閲変種 (cpds) について検討した。 より正確には、pdsモデルでは、$n$頂点と、サイズが$\omega(n)$のランダムな部分集合を考えると、2つの頂点が$s^{\star}$の場合に、確率が$p$の辺を共有し、他の辺は独立して$q$の確率を持つ。 目標は、ネットワークの1つの観測から$S^{\star}$を回収することだ。 cpdsモデルでは、エッジ状態は確率$\frac{t \log n}{n}$で明らかにされる。 pdsモデルでは、隣接行列の上位2つの固有ベクトルに基づく単純なスペクトルアルゴリズムが、情報理論のしきい値まで$s^{\star}$を回復できることが示されている。 Hajek、Wu、Xuによる以前の研究では、情報理論しきい値まで$S^{\star}$を回復するために、より効率的なSDPベースのアルゴリズムが必要だった。 CDPSモデルでは、回復問題に対する情報理論限界を求め、さらに、符号付き隣接行列と呼ばれる特別な行列に基づくスペクトルアルゴリズムが情報理論しきい値まで$S^{\star}$を回復することを示す。

We study spectral algorithms for the planted dense subgraph problem (PDS), as well as for a censored variant (CPDS) of PDS, where the edge statuses are missing at random. More precisely, in the PDS model, we consider $n$ vertices and a random subset of vertices $S^{\star}$ of size $\Omega(n)$, such that two vertices share an edge with probability $p$ if both of them are in $S^{\star}$, and all other edges are present with probability $q$, independently. The goal is to recover $S^{\star}$ from one observation of the network. In the CPDS model, edge statuses are revealed with probability $\frac{t \log n}{n}$. For the PDS model, we show that a simple spectral algorithm based on the top two eigenvectors of the adjacency matrix can recover $S^{\star}$ up to the information theoretic threshold. Prior work by Hajek, Wu and Xu required a less efficient SDP based algorithm to recover $S^{\star}$ up to the information theoretic threshold. For the CDPS model, we obtain the information theoretic limit for the recovery problem, and further show that a spectral algorithm based on a special matrix called the signed adjacency matrix recovers $S^{\star}$ up to the information theoretic threshold.
翻訳日:2022-03-23 16:59:52 公開日:2022-03-22
# (参考訳) SPRITE: 産業用IoTのためのスケーラブルなプライバシ保護と検証可能なコラボレーション学習 [全文訳有]

SPRITE: A Scalable Privacy-Preserving and Verifiable Collaborative Learning for Industrial IoT ( http://arxiv.org/abs/2203.11914v1 )

ライセンス: CC BY 4.0
Jayasree Sengupta and Sushmita Ruj and Sipra Das Bit(参考訳) 近年の協調学習は、産業用IoT(Industrial IoT)で生成されたモデルセンシティブなデータに広く適用されている。 多数のデバイスが、それぞれの前提でデータセットを保持しながら、サーバとコラボレーションすることで、グローバルなモデルを総合的にトレーニングすることができる。 しかし、既存のアプローチは高いオーバーヘッドによって制限され、悪意のあるサーバによって返される偽の集約結果にも苦しむ可能性がある。 そこで本稿では,IIoTの線形回帰モデルとロジスティック回帰モデルをトレーニングするための,スケーラブルでプライバシ保護,検証可能なCollaboraTive lEarning(SPRITE)アルゴリズムを提案する。 我々は,ミドルウエアとしてフォグを導入することにより,リソース制限されたIIoTデバイスによる負担軽減とクラウドへの信頼度の向上を目指す。 SPRITEは、しきい値秘密共有を使用して、IIoTデバイスのドロップアウトに対するプライバシー保護と堅牢性を保証する一方で、モデルアグリゲーション時の検証可能性を保証するために、付加的同型秘密共有を検証する。 我々はSPRITEのセキュリティを、クラウドが信頼できない、誠実だが信頼できる環境で証明する。 2つの実世界の産業データセットを持つIIoTユースケースにおける理論的オーバーヘッド分析と広範なテストベッド実験を通じて、SPRITEがスケーラブルで軽量であることを検証する。 大規模産業環境では、spriteは競合製品に比べて線形回帰とロジスティック回帰の性能を65%と55%向上させ、iiotデバイスの通信オーバーヘッドを90%削減した。

Recently collaborative learning is widely applied to model sensitive data generated in Industrial IoT (IIoT). It enables a large number of devices to collectively train a global model by collaborating with a server while keeping the datasets on their respective premises. However, existing approaches are limited by high overheads and may also suffer from falsified aggregated results returned by a malicious server. Hence, we propose a Scalable, Privacy-preserving and veRIfiable collaboraTive lEarning (SPRITE) algorithm to train linear and logistic regression models for IIoT. We aim to reduce burden from resource-constrained IIoT devices and trust dependence on cloud by introducing fog as a middleware. SPRITE employs threshold secret sharing to guarantee privacy-preservation and robustness to IIoT device dropout whereas verifiable additive homomorphic secret sharing to ensure verifiability during model aggregation. We prove the security of SPRITE in an honest-but-curious setting where the cloud is untrustworthy. We validate SPRITE to be scalable and lightweight through theoretical overhead analysis and extensive testbed experimentation on an IIoT use-case with two real-world industrial datasets. For a large-scale industrial setup, SPRITE records 65% and 55% improved performance over its competitor for linear and logistic regressions respectively while reducing communication overhead for an IIoT device by 90%.
翻訳日:2022-03-23 16:26:10 公開日:2022-03-22
# (参考訳) MetaMorph: トランスフォーマーによるユニバーサルコントローラの学習 [全文訳有]

MetaMorph: Learning Universal Controllers with Transformers ( http://arxiv.org/abs/2203.11931v1 )

ライセンス: CC BY 4.0
Agrim Gupta, Linxi Fan, Surya Ganguli, Li Fei-Fei(参考訳) 視覚、自然言語、オーディオといった複数のドメインは、大規模な事前トレーニングにTransformerを活用し、タスク固有の微調整を施すことによって、非常に進歩している。 対照的に、ロボット工学では、1つのタスクのために1つのロボットを訓練します。 しかし、モジュール型ロボットシステムでは、汎用的なビルディングブロックをタスク最適化形態に柔軟に組み合わせることができる。 しかし、指数関数的に多くの可能なロボット形態を考えると、新しい設計ごとにコントローラーを訓練するのは現実的ではない。 本研究では,モジュール型ロボット設計空間上でユニバーサルコントローラを学習するためのトランスフォーマーベースアプローチであるMetaMorphを提案する。 MetaMorphは、ロボット形態学はトランスフォーマーの出力を条件付けできる別のモダリティである、という洞察に基づいている。 様々なロボット形態の大規模事前学習により、ゼロショットの一般化から見えないロボット形態への一般化を含む組合せ一般化能力を持つポリシーが導かれることを示す。 さらに,新たなロボット形態やタスクへのサンプル効率の高い移行に,事前学習したポリシを活用できることを実証する。

Multiple domains like vision, natural language, and audio are witnessing tremendous progress by leveraging Transformers for large scale pre-training followed by task specific fine tuning. In contrast, in robotics we primarily train a single robot for a single task. However, modular robot systems now allow for the flexible combination of general-purpose building blocks into task optimized morphologies. However, given the exponentially large number of possible robot morphologies, training a controller for each new design is impractical. In this work, we propose MetaMorph, a Transformer based approach to learn a universal controller over a modular robot design space. MetaMorph is based on the insight that robot morphology is just another modality on which we can condition the output of a Transformer. Through extensive experiments we demonstrate that large scale pre-training on a variety of robot morphologies results in policies with combinatorial generalization capabilities, including zero shot generalization to unseen robot morphologies. We further demonstrate that our pre-trained policy can be used for sample-efficient transfer to completely new robot morphologies and tasks.
翻訳日:2022-03-23 16:04:36 公開日:2022-03-22
# Dazzle: セキュリティデータクラスの不均衡問題に対処するために,最適化されたジェネレータネットワークを使用する

Dazzle: Using Optimized Generative Adversarial Networks to Address Security Data Class Imbalance Issue ( http://arxiv.org/abs/2203.11410v1 )

ライセンス: Link先を確認
Rui Shu, Tianpei Xia, Laurie Williams, Tim Menzies(参考訳) 背景: 機械学習の技術は広く使われ、ソフトウェア脆弱性予測のような多くのソフトウェアセキュリティタスクで有望なパフォーマンスを示している。 しかしながら、ソフトウェア脆弱性データセット内のクラス比率は、しばしば非常に不均衡である(観察された脆弱性の割合は通常非常に低い)。 Goal: セキュリティ実践者がソフトウェアセキュリティデータクラスの不均衡の問題に対処するのを支援し、さらにデータセットを再サンプリングした予測モデルの構築を支援します。 方法: 勾配ペナルティ付き条件付きWasserstein生成適応ネットワーク(cWGAN-GP)の最適化版であるDazzleを提案する。 Dazzleは、ベイズ最適化と呼ばれる新しい最適化器を用いて、cWGAN-GPのアーキテクチャハイパーパラメータを探索する。 Dazzleを使ってマイノリティクラスのサンプルを生成し、元の不均衡なトレーニングデータセットを再サンプリングします。 結果: dazzle は3つのソフトウェアセキュリティデータセット,すなわち moodle 脆弱性ファイル, ambari バグレポート,javascript 関数コードで評価した。 私たちは、Dazleが実用的で、SMOTEのような既存の最先端のオーバーサンプリング技術(例えば、すべてのデータセットの中で、SMOTEよりも平均約60%改善率で)よりも有望な改善を示す。 結論: 本研究に基づいて, セキュリティ脆弱性データクラス不均衡問題の代替手段として, 最適化gansの利用を提案する。

Background: Machine learning techniques have been widely used and demonstrate promising performance in many software security tasks such as software vulnerability prediction. However, the class ratio within software vulnerability datasets is often highly imbalanced (since the percentage of observed vulnerability is usually very low). Goal: To help security practitioners address software security data class imbalanced issues and further help build better prediction models with resampled datasets. Method: We introduce an approach called Dazzle which is an optimized version of conditional Wasserstein Generative Adversarial Networks with gradient penalty (cWGAN-GP). Dazzle explores the architecture hyperparameters of cWGAN-GP with a novel optimizer called Bayesian Optimization. We use Dazzle to generate minority class samples to resample the original imbalanced training dataset. Results: We evaluate Dazzle with three software security datasets, i.e., Moodle vulnerable files, Ambari bug reports, and JavaScript function code. We show that Dazzle is practical to use and demonstrates promising improvement over existing state-of-the-art oversampling techniques such as SMOTE (e.g., with an average of about 60% improvement rate over SMOTE in recall among all datasets). Conclusion: Based on this study, we would suggest the use of optimized GANs as an alternative method for security vulnerability data class imbalanced issues.
翻訳日:2022-03-23 15:39:55 公開日:2022-03-22
# BigBird: ハイブリッドクラウドにおけるビッグデータストレージと大規模分析

BigBird: Big Data Storage and Analytics at Scale in Hybrid Cloud ( http://arxiv.org/abs/2203.11472v1 )

ライセンス: Link先を確認
Saurabh Deochake, Vrushali Channapattan, Gary Steelman(参考訳) 大規模にビッグデータストレージを実装するのは複雑な作業であり、高度なインフラストラクチャを必要とする。 パブリッククラウドコンピューティングの台頭により、さまざまなビッグデータ管理サービスが容易に利用できるようになる。 Twitterの"Project Partly Cloudy"の重要な部分として、コールドストレージデータと分析システムがパブリッククラウドに移行されている。 本稿では,Google Cloud PlatformのBigQueryを用いて,スケーラブルなビッグデータストレージと分析管理フレームワークを設計し,セキュリティ,プライバシ,データ保護を確保するためのアプローチを紹介する。 また、パブリッククラウドリソースの制限と、大規模にビッグデータストレージと分析ソリューションを設計する場合に効果的に克服できる方法について論じる。 この記事では、Google Cloud Platformのフレームワーク実装について論じるが、主要なクラウドプロバイダすべてに簡単に適用できる。

Implementing big data storage at scale is a complex and arduous task that requires an advanced infrastructure. With the rise of public cloud computing, various big data management services can be readily leveraged. As a critical part of Twitter's "Project Partly Cloudy", the cold storage data and analytics systems are being moved to the public cloud. This paper showcases our approach in designing a scalable big data storage and analytics management framework using BigQuery in Google Cloud Platform while ensuring security, privacy, and data protection. The paper also discusses the limitations on the public cloud resources and how they can be effectively overcome when designing a big data storage and analytics solution at scale. Although the paper discusses the framework implementation in Google Cloud Platform, it can easily be applied to all major cloud providers.
翻訳日:2022-03-23 15:39:31 公開日:2022-03-22
# 残差誘導非侵入音声品質評価

Residual-Guided Non-Intrusive Speech Quality Assessment ( http://arxiv.org/abs/2203.11499v1 )

ライセンス: Link先を確認
Zhe Ye, Jiahao Chen, Diqun Yan(参考訳) 本稿では,音声障害と強調音声の残差に着目し,非インタラクティブ音声品質評価(ni-sqa)の改善手法を提案する。 我々の課題の難しさは、特に情報不足であり、対応する参照音声が欠落している。 音声の欠落を補うために,障害音声の強調音声を生成し,残差情報と障害音声とをペアリングする。 モデルに障害のある音声を直接供給するのに比べ、残差は強調のコントラストからさらに有用な情報をもたらす可能性がある。 人間の耳は特定のノイズに敏感だが、深層学習モデルとは異なる。 平均オピニオンスコア(MOS)を用いて予測したモデルでは、主観的感度がよく適合し、偏差を引き起こすには不十分である。 これらの残差は参照音声と密接な関係を持ち、MOSを予測する深層学習モデルの能力を向上させる。 トレーニング段階で実験の結果, 残留物とのペアが同一条件下で評価指標を迅速に得ることが示された。 さらに, PLCCおよびRMSEでは, 最終結果はそれぞれ31.3%, 14.1%改善した。

This paper proposes an approach to improve Non-Intrusive speech quality assessment(NI-SQA) based on the residuals between impaired speech and enhanced speech. The difficulty in our task is particularly lack of information, for which the corresponding reference speech is absent. We generate an enhanced speech on the impaired speech to compensate for the absence of the reference audio, then pair the information of residuals with the impaired speech. Compared to feeding the impaired speech directly into the model, residuals could bring some extra helpful information from the contrast in enhancement. The human ear is sensitive to certain noises but different to deep learning model. Causing the Mean Opinion Score(MOS) the model predicted is not enough to fit our subjective sensitive well and causes deviation. These residuals have a close relationship to reference speech and then improve the ability of the deep learning models to predict MOS. During the training phase, experimental results demonstrate that paired with residuals can quickly obtain better evaluation indicators under the same conditions. Furthermore, our final results improved 31.3 percent and 14.1 percent, respectively, in PLCC and RMSE.
翻訳日:2022-03-23 15:39:18 公開日:2022-03-22
# 勾配流とランダム化しきい値:スパース反転と分類

Gradient flows and randomised thresholding: sparse inversion and classification ( http://arxiv.org/abs/2203.11555v1 )

ライセンス: Link先を確認
Jonas Latz(参考訳) スパース反転と分類問題は、現代のデータサイエンスとイメージングにおいてユビキタスである。 これらはしばしば非スムース最小化問題として定式化される。 スパース反転では、例えばデータ忠実度項の和とL1/LASSO正規化器を最小化する。 分類において、例えば、データ忠実性項と非スムースギンツブルク-ランダウエネルギーの和を考える。標準(sub)勾配降下法は、そのような問題に近づくと非効率であることが示されている。分割技術はより有用である。ここで、対象関数は2つの部分対象関数の和に分割され、それぞれを効率的に最適化することができる。 2つのサブターゲット関数のそれぞれについて、最適化ステップを交互に実行する。 本研究では,確率的連続時間の観点からの分割について検討する。 実際、各点における2つの部分ターゲット関数の負の下位勾配の1つに従う差分包含を定義する。 サブターゲット関数の選択はバイナリ連続時間マルコフプロセスによって制御される。 結果として生じる力学系は、下降流の確率的近似である。 本稿では,L1規則化スパース逆流の確率近似と,ギンズバーグ-ランダウエネルギーを最小化する離散アレン-カーン方程式について検討する。 いずれの場合においても,確率力学系の長期挙動と,その基礎となる準次流を任意の精度で近似する能力について検討した。 我々は,単純なスパース推定問題と低次元分類問題において,理論的な知見を示す。

Sparse inversion and classification problems are ubiquitous in modern data science and imaging. They are often formulated as non-smooth minimisation problems. In sparse inversion, we minimise, e.g., the sum of a data fidelity term and an L1/LASSO regulariser. In classification, we consider, e.g., the sum of a data fidelity term and a non-smooth Ginzburg--Landau energy. Standard (sub)gradient descent methods have shown to be inefficient when approaching such problems. Splitting techniques are much more useful: here, the target function is partitioned into a sum of two subtarget functions -- each of which can be efficiently optimised. Splitting proceeds by performing optimisation steps alternately with respect to each of the two subtarget functions. In this work, we study splitting from a stochastic continuous-time perspective. Indeed, we define a differential inclusion that follows one of the two subtarget function's negative subgradient at each point in time. The choice of the subtarget function is controlled by a binary continuous-time Markov process. The resulting dynamical system is a stochastic approximation of the underlying subgradient flow. We investigate this stochastic approximation for an L1-regularised sparse inversion flow and for a discrete Allen-Cahn equation minimising a Ginzburg--Landau energy. In both cases, we study the longtime behaviour of the stochastic dynamical system and its ability to approximate the underlying subgradient flow at any accuracy. We illustrate our theoretical findings in a simple sparse estimation problem and also in a low-dimensional classification problem.
翻訳日:2022-03-23 15:37:26 公開日:2022-03-22
# 臨床音声データセットのための条件付き生成データ拡張

Conditional Generative Data Augmentation for Clinical Audio Datasets ( http://arxiv.org/abs/2203.11570v1 )

ライセンス: Link先を確認
Matthias Seibold, Armando Hoch, Mazda Farshad, Nassir Navab, Philipp F\"urnstahl(参考訳) 本研究では,ログメルスペクトルを用いた条件付きWasserstein Generative Adversarial Network with Gradient Penalty (cWGAN-GP)に基づく臨床オーディオデータセットの新たなデータ拡張手法を提案する。 本手法の有効性を検証するため,THA(Total Hip Arthroplasty, THA)術中に実環境の手術室で記録された臨床オーディオデータセットを作成し, 介入の相違に類似した典型的な音を収録した。 提案手法は,データセット分布からリアルなクラス条件付きサンプルを生成する能力を示し,生成した拡張サンプルを用いたトレーニングは,分類精度の観点から古典的なオーディオ拡張法よりも優れていることを示す。 提案手法を用いた5倍のクロス検証実験において,クラス毎の平均精度が1.51%向上したResNet-18分類器を用いて評価を行った。 臨床データを取得するのにはしばしば費用がかかるため、特に安全クリティカルな医療応用において重要な学習アルゴリズムの堅牢性と一般化能力を向上させるために、現実的で高品質なデータ拡張手法の開発が不可欠である。 したがって,本手法は,臨床音声ベースの機械学習システムにおけるデータボトルネックを改善するための重要なステップである。 コードとデータセットは受理時に公開される。

In this work, we propose a novel data augmentation method for clinical audio datasets based on a conditional Wasserstein Generative Adversarial Network with Gradient Penalty (cWGAN-GP), operating on log-mel spectrograms. To validate our method, we created a clinical audio dataset which was recorded in a real-world operating room during Total Hip Arthroplasty (THA) procedures and contains typical sounds which resemble the different phases of the intervention. We demonstrate the capability of the proposed method to generate realistic class-conditioned samples from the dataset distribution and show that training with the generated augmented samples outperforms classical audio augmentation methods in terms of classification accuracy. The performance was evaluated using a ResNet-18 classifier which shows a mean per-class accuracy improvement of 1.51% in a 5-fold cross validation experiment using the proposed augmentation method. Because clinical data is often expensive to acquire, the development of realistic and high-quality data augmentation methods is crucial to improve the robustness and generalization capabilities of learning-based algorithms which is especially important for safety-critical medical applications. Therefore, the proposed data augmentation method is an important step towards improving the data bottleneck for clinical audio-based machine learning systems. The code and dataset will be published upon acceptance.
翻訳日:2022-03-23 15:36:59 公開日:2022-03-22
# 有限地平線連続時間確率制御問題に対するポリシー勾配法の線形収束

Linear convergence of a policy gradient method for finite horizon continuous time stochastic control problems ( http://arxiv.org/abs/2203.11758v1 )

ライセンス: Link先を確認
Christoph Reisinger, Wolfgang Stockinger, Yufei Zhang(参考訳) 強化学習コミュニティでの人気にもかかわらず、一般的な連続時空確率制御問題に対する有理収束型政策勾配法が解明されている。 本稿では,有限時間地平線確率制御問題のフィードバック制御のための近位勾配アルゴリズムを提案することでギャップを閉じる。 状態ダイナミクスは、制御ドリフトと潜在的に縮退するノイズを伴う連続時間非線形拡散であり、その目的は、状態の非凸と制御の非滑らかである。 適切な条件下では、アルゴリズムが制御問題の定常点に線形収束し、近似勾配ステップによってポリシー更新に関して安定であることが証明される。 収束結果は、最適化目的にエントロピー正規化を追加することで、政策勾配法の収束を加速する最近の強化学習ヒューリスティックを正当化する。 この証明は後方確率微分方程式の注意的な正則性推定を利用する。

Despite its popularity in the reinforcement learning community, a provably convergent policy gradient method for general continuous space-time stochastic control problems has been elusive. This paper closes the gap by proposing a proximal gradient algorithm for feedback controls of finite-time horizon stochastic control problems. The state dynamics are continuous time nonlinear diffusions with controlled drift and possibly degenerate noise, and the objectives are nonconvex in the state and nonsmooth in the control. We prove under suitable conditions that the algorithm converges linearly to a stationary point of the control problem, and is stable with respect to policy updates by approximate gradient steps. The convergence result justifies the recent reinforcement learning heuristics that adding entropy regularization to the optimization objective accelerates the convergence of policy gradient methods. The proof exploits careful regularity estimates of backward stochastic differential equations.
翻訳日:2022-03-23 15:36:37 公開日:2022-03-22
# コード表現によるプログラム意味論の学習 : 実証的研究

Learning Program Semantics with Code Representations: An Empirical Study ( http://arxiv.org/abs/2203.11790v1 )

ライセンス: Link先を確認
Jing Kai Siow and Shangqing Liu and Xiaofei Xie, Guozhu Meng, Yang Liu(参考訳) プログラムセマンティクス学習は、脆弱性検出、クローン検出など、様々なコード知能タスクのコアであり基礎である。 既存の作品の多くは、異なるタスクのプログラムの意味を学ぶための多様なアプローチを提案しており、これらの作品は最先端のパフォーマンスを達成している。 しかし、現在、様々なタスクにまたがる異なるプログラム表現技術を評価するための包括的で体系的な研究はいまだに欠落している。 この出発点から,本論文では,プログラム表現の異なる手法を評価するための経験的研究を行う。 具体的には、現在主流となっているコード表現テクニックを、機能ベース、シーケンスベース、ツリーベース、グラフベースのプログラム表現技術という4つのカテゴリに分類し、そのパフォーマンスを3つの多種多様なコードインテリジェントなタスク、すなわち、{Code Classification}, Vulnerability Detection, Clone Detection on the public released benchmarkで評価する。 さらに,3つの<research questions(rqs)をデザインし,その性能を総合的に分析する。 より広範な実験結果から,(1)グラフに基づく表現は,これらのタスクにまたがる他の選択手法よりも優れていると結論づける。 2)木に基づく表現やグラフに基づく表現で使われるノードタイプ情報と比較すると,プログラムの意味を学習するためには,ノードテキスト情報の方が重要となる。 (3) タスクごとにタスク固有のセマンティクスが要求されるが、制御依存性などの異なる次元のプログラムセマンティクスを組み合わせることで、データ依存は期待できる結果を生み出すことができる。

Program semantics learning is the core and fundamental for various code intelligent tasks e.g., vulnerability detection, clone detection. A considerable amount of existing works propose diverse approaches to learn the program semantics for different tasks and these works have achieved state-of-the-art performance. However, currently, a comprehensive and systematic study on evaluating different program representation techniques across diverse tasks is still missed. From this starting point, in this paper, we conduct an empirical study to evaluate different program representation techniques. Specifically, we categorize current mainstream code representation techniques into four categories i.e., Feature-based, Sequence-based, Tree-based, and Graph-based program representation technique and evaluate its performance on three diverse and popular code intelligent tasks i.e., {Code Classification}, Vulnerability Detection, and Clone Detection on the public released benchmark. We further design three {research questions (RQs)} and conduct a comprehensive analysis to investigate the performance. By the extensive experimental results, we conclude that (1) The graph-based representation is superior to the other selected techniques across these tasks. (2) Compared with the node type information used in tree-based and graph-based representations, the node textual information is more critical to learning the program semantics. (3) Different tasks require the task-specific semantics to achieve their highest performance, however combining various program semantics from different dimensions such as control dependency, data dependency can still produce promising results.
翻訳日:2022-03-23 15:36:23 公開日:2022-03-22
# ニューラルキャパシティ推定の展望:生存可能性と信頼性

A Perspective on Neural Capacity Estimation: Viability and Reliability ( http://arxiv.org/abs/2203.11793v1 )

ライセンス: Link先を確認
Farhad Mirkarimi, Stefano Rini(参考訳) 近年,深層ニューラルネットワークを用いてサンプルデータから相互情報を推定する手法が提案されている。 このタイプの推定器は神経相互情報推定器(NMIE)と呼ばれる。 本稿では,キャパシティ推定問題に適用した場合に文献で提案する異なるnmieの性能について検討する。 特に、相互情報ニューラル推定器(MINE)、スムーズな相互情報ローバウンド推定器(SMILE)、有向情報ニューラル推定器(DINE)の性能について検討する。 上記のNMIEでは、キャパシティ推定は2つのディープニューラルネットワーク(DNN)に依存している。 i)1つのDNNが学習した分布からサンプルを生成し、 2)チャネル入力とチャネル出力との間のMIを推定するDNN。 これらのNMIEを3つのシナリオでベンチマークします。 (i)AWGNチャネル容量の推定と評価 (II)キャパシティの不明なチャネルと連続入力、すなわち光強度とピークパワー制約AWGNチャネル (iii)未知の容量と離散的な質量点を持つチャネル、すなわちポアソンチャネル。 さらに 私たちも (4) AWGNと光MACモデルを考慮してMAC容量問題の拡張を考える。

Recently, several methods have been proposed for estimating the mutual information from sample data using deep neural networks and without the knowledge of closed-form distribution of the data. This class of estimators is referred to as neural mutual information estimators (NMIE). In this paper, we investigate the performance of different NMIE proposed in the literature when applied to the capacity estimation problem. In particular, we study the performance of mutual information neural estimator (MINE), smoothed mutual information lower-bound estimator (SMILE), and directed information neural estimator (DINE). For the NMIE above, capacity estimation relies on two deep neural networks (DNN): (i) one DNN generates samples from a distribution that is learned, and (ii) a DNN to estimate the MI between the channel input and the channel output. We benchmark these NMIE in three scenarios: (i) AWGN channel capacity estimation and (ii) channels with unknown capacity and continuous inputs i.e., optical intensity and peak-power constrained AWGN channel (iii) channels with unknown capacity and a discrete number of mass points i.e., Poisson channel. Additionally, we also (iv) consider the extension to the MAC capacity problem by considering the AWGN and optical MAC models.
翻訳日:2022-03-23 15:35:55 公開日:2022-03-22
# 信号分解における領域知識支援 : 累積式給湯器の例

Domain Knowledge Aids in Signal Disaggregation; the Example of the Cumulative Water Heater ( http://arxiv.org/abs/2203.11268v1 )

ライセンス: Link先を確認
Alexander Belikov, Guillaume Matheron, Johan Sassi(参考訳) 本稿では,住宅における累積給湯器(CWH)の電力の検出と分散を目的とした教師なし低周波手法を提案する。 本モデルでは,パワースパイクの形状と発生時刻を両立させて,CWHの寄与を確実に同定することにより,教師なし信号の分解の難しさを回避する。 実際、フランスの多くのCHWは、オフピーク時間のみに自動的にオンに設定されており、サンプリング頻度が低いにもかかわらず、このドメイン知識をピーク識別に役立てることができる。 モデルをテストするために、私たちは、給湯器の地中消費を記録するためのセンサーを備えた家を用意しました。 そして、このモデルを、30分間の解像度で5万世帯の1ヶ月の消費データからなるHello Wattユーザのエネルギー消費のデータセットに適用する。 このデータセットでは、コンシューマがCWHの使用を宣言するほとんどのケースで、CWHの識別に成功しました。 残りの部分は、オフピーク時のトリガーは家の電気パネルの特定の配線を必要とするため、cwhsが誤って構成される可能性があるためである。 我々のモデルは、単純さに拘わらず、有望なアプリケーションを提供する: オフピーク契約における設定ミスの検出と性能劣化の遅さ。

In this article we present an unsupervised low-frequency method aimed at detecting and disaggregating the power used by Cumulative Water Heaters (CWH) in residential homes. Our model circumvents the inherent difficulty of unsupervised signal disaggregation by using both the shape of a power spike and its time of occurrence to identify the contribution of CWH reliably. Indeed, many CHWs in France are configured to turn on automatically during off-peak hours only, and we are able to use this domain knowledge to aid peak identification despite the low sampling frequency. In order to test our model, we equipped a home with sensors to record the ground-truth consumption of a water heater. We then apply the model to a larger dataset of energy consumption of Hello Watt users consisting of one month of consumption data for 5k homes at 30-minute resolution. In this dataset we successfully identified CWHs in the majority of cases where consumers declared using them. The remaining part is likely due to possible misconfiguration of CWHs, since triggering them during off-peak hours requires specific wiring in the electrical panel of the house. Our model, despite its simplicity, offers promising applications: detection of mis-configured CWHs on off-peak contracts and slow performance degradation.
翻訳日:2022-03-23 15:34:00 公開日:2022-03-22
# (参考訳) 非線形フィルタリングアルゴリズムにおけるベイズの法則の最適輸送定式化 [全文訳有]

An Optimal Transport Formulation of Bayes' Law for Nonlinear Filtering Algorithms ( http://arxiv.org/abs/2203.11869v1 )

ライセンス: CC BY 4.0
Amirhossein Taghvaei and Bamdad Hosseini(参考訳) 本稿では,最適な輸送理論を用いたベイズ法則の変分表現を提案する。 変分表現は、(状態、観測)の結合分布とそれらの独立結合の間の最適な輸送の観点で表される。 輸送マップ上の特定の構造を付与することにより、変動問題に対する解を用いて、観測信号の任意の値に対して先行分布を後部分布に伝達するブレニエ型写像を構築する。 新しい定式化は、離散時間フィルタリング問題に対するエンサンブルカルマンフィルタ(EnKF)の最適輸送形式を導出するために用いられ、入力凸ニューラルネットワークを利用した非ガウス的セッティングに対するEnKFの新たな拡張を提案する。 最後に, 非線形フィルタ式やベイズの法則を明示的に使わずに最初の変分構成を構成する連続時間極限におけるフィードバック粒子充填器(fpf)の最適輸送形式を導出する手法を提案する。

This paper presents a variational representation of the Bayes' law using optimal transportation theory. The variational representation is in terms of the optimal transportation between the joint distribution of the (state, observation) and their independent coupling. By imposing certain structure on the transport map, the solution to the variational problem is used to construct a Brenier-type map that transports the prior distribution to the posterior distribution for any value of the observation signal. The new formulation is used to derive the optimal transport form of the Ensemble Kalman filter (EnKF) for the discrete-time filtering problem and propose a novel extension of EnKF to the non-Gaussian setting utilizing input convex neural networks. Finally, the proposed methodology is used to derive the optimal transport form of the feedback particle filler (FPF) in the continuous-time limit, which constitutes its first variational construction without explicitly using the nonlinear filtering equation or Bayes' law.
翻訳日:2022-03-23 15:33:12 公開日:2022-03-22
# メモリ拡張型多レベルクロスアテンショナルマスクオートエンコーダを用いた医用画像の教師なし異常検出

Unsupervised Anomaly Detection in Medical Images with a Memory-augmented Multi-level Cross-attentional Masked Autoencoder ( http://arxiv.org/abs/2203.11725v1 )

ライセンス: Link先を確認
Yu Tian and Guansong Pang and Yuyuan Liu and Chong Wang and Yuanhong Chen and Fengbei Liu and Rajvinder Singh and Johan W Verjans and Gustavo Carneiro(参考訳) 教師なし異常検出(unsupervised anomaly detection, uad)は、通常画像のみを含むトレーニングセットを使用して検出器を最適化することで異常画像を見つけることを目的としている。 UADアプローチは、再構成方法、自己教師付きアプローチ、およびImagenet事前訓練モデルに基づくことができる。 画像再構成誤差から異常を検出するリコンストラクション手法は、自己監督的アプローチが必要とする問題固有のプリテキストタスクや、非医学的データセットから事前訓練されたモデルの信頼できない翻訳に依存しないため、有利である。 しかし, 異常画像においても再構成誤差が低いため, 再構成手法は失敗する可能性がある。 本稿では,この低再構成誤差問題に対処する再構成に基づく新しいUDA手法を提案する。 マルチレベルクロスアテンション・マスク・オートエンコーダ(memmc-mae, memory-augmented multi-level cross-attentional masked autoencoder, memmc-mae)は、エンコーダ用の新しいメモリアテンション・セルフ・アテンション・オペレータと、デコーダ用の新しいマルチレベル・クロス・アテンション・オペレータから構成されるトランスフォーマー方式である。 MemMC-MAEは、その再構築中に入力画像の大部分をマスクし、異常が隠蔽され、再構成できないため、低い再構成エラーが発生するリスクを低減する。 しかし、異常がマスクされていない場合、エンコーダのメモリに格納された通常のパターンとデコーダのマルチレベルクロスアテンションの組み合わせは、異常の正確な再構成を制約する。 本手法は大腸内視鏡およびCovid-19 Chest X-rayデータセット上でのSOTA異常検出と局在化を実現する。

Unsupervised anomaly detection (UAD) aims to find anomalous images by optimising a detector using a training set that contains only normal images. UAD approaches can be based on reconstruction methods, self-supervised approaches, and Imagenet pre-trained models. Reconstruction methods, which detect anomalies from image reconstruction errors, are advantageous because they do not rely on the design of problem-specific pretext tasks needed by self-supervised approaches, and on the unreliable translation of models pre-trained from non-medical datasets. However, reconstruction methods may fail because they can have low reconstruction errors even for anomalous images. In this paper, we introduce a new reconstruction-based UAD approach that addresses this low-reconstruction error issue for anomalous images. Our UAD approach, the memory-augmented multi-level cross-attentional masked autoencoder (MemMC-MAE), is a transformer-based approach, consisting of a novel memory-augmented self-attention operator for the encoder and a new multi-level cross-attention operator for the decoder. MemMC-MAE masks large parts of the input image during its reconstruction, reducing the risk that it will produce low reconstruction errors because anomalies are likely to be masked and cannot be reconstructed. However, when the anomaly is not masked, then the normal patterns stored in the encoder's memory combined with the decoder's multi-level cross-attention will constrain the accurate reconstruction of the anomaly. We show that our method achieves SOTA anomaly detection and localisation on colonoscopy and Covid-19 Chest X-ray datasets.
翻訳日:2022-03-23 15:19:51 公開日:2022-03-22
# 実戦環境下での学習ベース検出器評価のための新しいフレームワークとディープフェイク検出への応用

A Novel Framework for Assessment of Learning-based Detectors in Realistic Conditions with Application to Deepfake Detection ( http://arxiv.org/abs/2203.11797v1 )

ライセンス: Link先を確認
Yuhang Lu, Ruizhi Luo, Touradj Ebrahimi(参考訳) 深い畳み込みニューラルネットワークは、複数の検出タスクで顕著な結果を示している。 著しい進歩にもかかわらず、そのような検出器の性能はしばしば非現実的条件下での公開ベンチマークで評価される。 具体的には、従来の歪みや圧縮、ノイズ、エンハンスメントなどの処理操作の影響は十分に研究されていない。 本稿では,より現実的な状況下での学習ベース検出器の性能を評価するための厳密な枠組みを提案する。 ディープフェイク検出コンテキスト(deepfake detection context)の下の例を示す。 評価結果に触発されて,2つのディープフェイク検出器の一般化能力を大幅に向上させる自然画像劣化過程に基づくデータ拡張戦略を考案した。

Deep convolutional neural networks have shown remarkable results on multiple detection tasks. Despite the significant progress, the performance of such detectors are often assessed in public benchmarks under non-realistic conditions. Specifically, impact of conventional distortions and processing operations such as compression, noise, and enhancement are not sufficiently studied. This paper proposes a rigorous framework to assess performance of learning-based detectors in more realistic situations. An illustrative example is shown under deepfake detection context. Inspired by the assessment results, a data augmentation strategy based on natural image degradation process is designed, which significantly improves the generalization ability of two deepfake detectors.
翻訳日:2022-03-23 15:19:16 公開日:2022-03-22
# AP-BSN:非対称PDとBlind-Spotネットワークによる実世界画像の自己監視デノーミング

AP-BSN: Self-Supervised Denoising for Real-World Images via Asymmetric PD and Blind-Spot Network ( http://arxiv.org/abs/2203.11799v1 )

ライセンス: Link先を確認
Wooseok Lee, Sanghyun Son, Kyoung Mu Lee(参考訳) ブラインド・スポット・ネットワーク(BSN)とその変種は、自己監督型デノナイジングにおいて大きな進歩を遂げた。 それでも、ピクセル単位の独立ノイズのような実用性に乏しい仮定のため、合成ノイズ入力に縛られている。 したがって、自己教師付きBSNを用いて空間的に相関した実世界の雑音に対処することは困難である。 近年,実世界の雑音の空間相関を解消するために,ピクセルシャッフルダウンサンプリング(pd)が提案されている。 しかし,PDとBSNを直接統合することは容易ではないため,実世界の画像上での完全自己教師型復調モデルを回避することができる。 本稿では,この問題に対処するために,訓練と推論のための異なるpdストライド因子を導入する非対称pd(ap)を提案する。 提案手法は,特定のPDストライド要因による固有トレードオフを解消し,BSNを実用シナリオに適用できることを系統的に実証する。 この目的のために,実世界のsRGB画像に対する最先端の自己教師型デノケーション手法であるAP-BSNを開発した。 さらに、追加パラメータなしでAP-BSNの性能を大幅に改善するランダムリプレース改善を提案する。 広範囲な研究により,提案手法は,雑音レベルなどの追加知識を使わずに,他の自己教師なし・非ペア化手法よりも大きなマージンを越えていることが示された。

Blind-spot network (BSN) and its variants have made significant advances in self-supervised denoising. Nevertheless, they are still bound to synthetic noisy inputs due to less practical assumptions like pixel-wise independent noise. Hence, it is challenging to deal with spatially correlated real-world noise using self-supervised BSN. Recently, pixel-shuffle downsampling (PD) has been proposed to remove the spatial correlation of real-world noise. However, it is not trivial to integrate PD and BSN directly, which prevents the fully self-supervised denoising model on real-world images. We propose an Asymmetric PD (AP) to address this issue, which introduces different PD stride factors for training and inference. We systematically demonstrate that the proposed AP can resolve inherent trade-offs caused by specific PD stride factors and make BSN applicable to practical scenarios. To this end, we develop AP-BSN, a state-of-the-art self-supervised denoising method for real-world sRGB images. We further propose random-replacing refinement, which significantly improves the performance of our AP-BSN without any additional parameters. Extensive studies demonstrate that our method outperforms the other self-supervised and even unpaired denoising methods by a large margin, without using any additional knowledge, e.g., noise level, regarding the underlying unknown noise.
翻訳日:2022-03-23 15:19:06 公開日:2022-03-22
# 現実的条件下での学習型ディープフェイク検出のための新しいアプローチ

A New Approach to Improve Learning-based Deepfake Detection in Realistic Conditions ( http://arxiv.org/abs/2203.11807v1 )

ライセンス: Link先を確認
Yuhang Lu, Touradj Ebrahimi(参考訳) 深層畳み込みニューラルネットワークは、複数の検出および認識タスクにおいて例外的な結果を得た。 しかし、そのような検出器の性能は、制約のある非現実的な状況下での公開ベンチマークでしばしば評価される。 圧縮,ノイズ,エンハンスメントなどの画像ワークフローにおける従来の歪みや処理操作の影響は十分に研究されていない。 現在、検出器のロバスト性を改善するためのいくつかの研究しか行われていない。 本稿では,実世界の画像劣化過程に基づくより効率的なデータ拡張手法を提案する。 この手法はディープフェイク検出タスクに応用され,より現実的な評価フレームワークによって評価されている。 広範な実験により,提案手法は予測不能なデータ歪みや見当たらないデータセットに対する一般化能力を向上させることが示された。

Deep convolutional neural networks have achieved exceptional results on multiple detection and recognition tasks. However, the performance of such detectors are often evaluated in public benchmarks under constrained and non-realistic situations. The impact of conventional distortions and processing operations found in imaging workflows such as compression, noise, and enhancement are not sufficiently studied. Currently, only a few researches have been done to improve the detector robustness to unseen perturbations. This paper proposes a more effective data augmentation scheme based on real-world image degradation process. This novel technique is deployed for deepfake detection tasks and has been evaluated by a more realistic assessment framework. Extensive experiments show that the proposed data augmentation scheme improves generalization ability to unpredictable data distortions and unseen datasets.
翻訳日:2022-03-23 15:18:43 公開日:2022-03-22
# クロスビューパノラマ画像合成

Cross-View Panorama Image Synthesis ( http://arxiv.org/abs/2203.11832v1 )

ライセンス: Link先を確認
Songsong Wu, Hao Tang, Xiao-Yuan Jing, Haifeng Zhao, Jianjun Qian, Nicu Sebe, and Yan Yan(参考訳) 本稿では,2つの画像領域の異なる視点領域間のギャップが大きいため,トップビュー空中画像に条件づけられたグランドビューパノラマ画像の合成の問題に対処する。 フィードフォワードパスでクロスビューマッピングを学習する代わりに、PanoGANという名前の新たな逆フィードバックGANフレームワークを2つの重要なコンポーネントとして提案する。 まず, 目標パノラマ画像とその関連するセグメンテーションマップを生成するために, 航空機画像がジェネレータに入力され, レイアウトセマンティクスを用いたモデルトレーニングが好まれる。 第2に、我々の敵フィードバックモジュールで符号化された識別器の特徴応答をジェネレータにフィードバックして中間表現を洗練させ、反復生成プロセスを通じて生成性能を継続的に向上させる。 第3に,生成したパノラマ画像の忠実性と意味的一貫性を追求するために,2つの分岐弁別戦略に基づく画素セグメンテーション機構を提案する。 2つの挑戦的なクロスビュー画像データセットの大規模な実験結果から、パノGANは最先端のアプローチよりもより精確な詳細で高品質なパノラマ画像生成を可能にしている。 ソースコードとトレーニングされたモデルは \url{https://github.com/s swuai/panogan} で入手できる。

In this paper, we tackle the problem of synthesizing a ground-view panorama image conditioned on a top-view aerial image, which is a challenging problem due to the large gap between the two image domains with different view-points. Instead of learning cross-view mapping in a feedforward pass, we propose a novel adversarial feedback GAN framework named PanoGAN with two key components: an adversarial feedback module and a dual branch discrimination strategy. First, the aerial image is fed into the generator to produce a target panorama image and its associated segmentation map in favor of model training with layout semantics. Second, the feature responses of the discriminator encoded by our adversarial feedback module are fed back to the generator to refine the intermediate representations, so that the generation performance is continually improved through an iterative generation process. Third, to pursue high-fidelity and semantic consistency of the generated panorama image, we propose a pixel-segmentation alignment mechanism under the dual branch discrimiantion strategy to facilitate cooperation between the generator and the discriminator. Extensive experimental results on two challenging cross-view image datasets show that PanoGAN enables high-quality panorama image generation with more convincing details than state-of-the-art approaches. The source code and trained models are available at \url{https://github.com/s swuai/PanoGAN}.
翻訳日:2022-03-23 15:18:34 公開日:2022-03-22
# Gated Recurrent Connections を用いた視覚皮質の神経予測性の改善

Improving Neural Predictivity in the Visual Cortex with Gated Recurrent Connections ( http://arxiv.org/abs/2203.11910v1 )

ライセンス: Link先を確認
Simone Azeglio, Simone Poetto, Luca Savant Aira, Marco Nurisso(参考訳) 視覚の計算モデルは伝統的にボトムアップ方式で開発され、視覚皮質の単純で複雑な細胞をエミュレートすることを目的とした一連の単純な操作(畳み込みとプーリング)を階層的に構成することで、ディープ畳み込みニューラルネットワーク(CNN)が導入された。 しかし、近年の神経記録技術により得られたデータは、腹側視覚ストリームで実行される計算の性質が、現在の深部CNNモデルによって完全には捉えられていないことを裏付けている。 腹側視覚ストリームと深層モデルのギャップを埋めるために、Brain-Scoreプラットフォームにいくつかのベンチマークが設計され、組織化され、マルチレイヤ(V1、V2、V4、IT)と2つのモデル間の行動比較を行う手段が与えられた。 本研究の目的は,腹側視覚ストリームのユビキタスな特徴である横方向の再帰的接続を考慮したアーキテクチャに焦点を移し,適応受容野を考案することである。 繰り返し接続により、入力sの長距離空間依存性を局所的多段階的に捉えることができ、ゲートリカレントcnn(grcnn)で導入されたように、ゲートを用いてニューロンs受容野の無界拡大を調節することができる。 我々のアプローチの堅牢性とアクティベーションの生物学的忠実性を高めるために、我々はいくつかのスコア付けベンチマークに従って、特定のデータ拡張技術を用いる。 ある種の不変性を実施することは、ヒューリスティックスを通じて、より優れた神経予測に有用であることが判明した。

Computational models of vision have traditionally been developed in a bottom-up fashion, by hierarchically composing a series of straightforward operations - i.e. convolution and pooling - with the aim of emulating simple and complex cells in the visual cortex, resulting in the introduction of deep convolutional neural networks (CNNs). Nevertheless, data obtained with recent neuronal recording techniques support that the nature of the computations carried out in the ventral visual stream is not completely captured by current deep CNN models. To fill the gap between the ventral visual stream and deep models, several benchmarks have been designed and organized into the Brain-Score platform, granting a way to perform multi-layer (V1, V2, V4, IT) and behavioral comparisons between the two counterparts. In our work, we aim to shift the focus on architectures that take into account lateral recurrent connections, a ubiquitous feature of the ventral visual stream, to devise adaptive receptive fields. Through recurrent connections, the input s long-range spatial dependencies can be captured in a local multi-step fashion and, as introduced with Gated Recurrent CNNs (GRCNN), the unbounded expansion of the neuron s receptive fields can be modulated through the use of gates. In order to increase the robustness of our approach and the biological fidelity of the activations, we employ specific data augmentation techniques in line with several of the scoring benchmarks. Enforcing some form of invariance, through heuristics, was found to be beneficial for better neural predictivity.
翻訳日:2022-03-23 15:18:12 公開日:2022-03-22
# 物理学に基づく変形モデルを用いた形状からテンプレートへ

{\phi}-SfT: Shape-from-Template with a Physics-Based Deformation Model ( http://arxiv.org/abs/2203.11938v1 )

ライセンス: Link先を確認
Navami Kairanda and Edith Tretschk and Mohamed Elgharib and Christian Theobalt and Vladislav Golyanik(参考訳) Shape-from-Template (SfT) 法では、事前に知られている3D状態(テンプレート)を仮定しながら、単一の単眼RGBカメラから3次元表面の変形を推定する。 これは単眼的設定の制約が低く、かつ困難な問題である。 既存のSfT技術は主に幾何学的および単純化された変形モデルを使用し、しばしば再構成能力を制限する。 従来の研究とは対照的に,力と材料特性を考慮した物理シミュレーションによる2次元観察を記述した新しいSfT手法を提案する。 微分可能な物理シミュレータは表面進化を定式化し,曲げ係数,伸び剛性,密度などの弾性特性を最適化する。 微分可能レンダラを用いて,推定した3d状態と入力画像との密な再投影誤差を最小化し,適応勾配に基づく最適化を用いて変形パラメータを復元する。 評価のために,RGB-Dカメラを用いて,様々な材料特性とテクスチャを持つ物理的力に曝露した実際の表面を撮影する。 提案手法は,複数の競合手法と比較して3次元復元誤差を大幅に低減する。 ソースコードとデータはhttps://4dqv.mpi-inf .mpg.de/phi-sft/を参照。

Shape-from-Template (SfT) methods estimate 3D surface deformations from a single monocular RGB camera while assuming a 3D state known in advance (a template). This is an important yet challenging problem due to the under-constrained nature of the monocular setting. Existing SfT techniques predominantly use geometric and simplified deformation models, which often limits their reconstruction abilities. In contrast to previous works, this paper proposes a new SfT approach explaining 2D observations through physical simulations accounting for forces and material properties. Our differentiable physics simulator regularises the surface evolution and optimises the material elastic properties such as bending coefficients, stretching stiffness and density. We use a differentiable renderer to minimise the dense reprojection error between the estimated 3D states and the input images and recover the deformation parameters using an adaptive gradient-based optimisation. For the evaluation, we record with an RGB-D camera challenging real surfaces exposed to physical forces with various material properties and textures. Our approach significantly reduces the 3D reconstruction error compared to multiple competing methods. For the source code and data, see https://4dqv.mpi-inf .mpg.de/phi-SfT/.
翻訳日:2022-03-23 15:17:45 公開日:2022-03-22
# gaussian belief propagationを用いた協調型マルチロボット計画の分散

Distributing Collaborative Multi-Robot Planning with Gaussian Belief Propagation ( http://arxiv.org/abs/2203.11618v1 )

ライセンス: Link先を確認
Aalok Patwardhan, Riku Murai and Andrew J. Davison(参考訳) 正確な協調計画では、多くのロボットが密な空間で一緒に作業する必要がある場合、安全で高効率な動作を可能にするが、これは通常、スケーリングが難しいすべてのデバイスを集中的に制御する必要がある。 動的および衝突制約を定義する汎用因子グラフにより定式化されたマルチロボット計画問題に対するガウス的信念伝搬に基づく新しい純粋分散手法を実証する。 提案手法は,多車線の交差点で車両が相互に交差し,他の分散計画手法よりもはるかに高い平均速度を維持できるシミュレート道路交通シナリオにおいて,極めて高性能な協調計画が可能となることを示す。 読者は、この作品に付随するビデオデモをhttps://youtu.be/5d4 lxbxgxay.com/で見ることをお勧めします。

Precise coordinated planning enables safe and highly efficient motion when many robots must work together in tight spaces, but this would normally require centralised control of all devices which is difficult to scale. We demonstrate a new purely distributed technique based on Gaussian Belief Propagation on multi-robot planning problems formulated by a generic factor graph defining dynamics and collision constraints. We show that our method allows extremely high performance collaborative planning in a simulated road traffic scenario, where vehicles are able to cross each other at a busy multi-lane junction while maintaining much higher average speeds than alternative distributed planning techniques. We encourage the reader to view the accompanying video demonstration to this work at https://youtu.be/5d4 LXbxgxaY.
翻訳日:2022-03-23 15:17:29 公開日:2022-03-22
# 混合エントロピー基準の最小化による適応クラスタリング

Adaptative clustering by minimization of the mixing entropy criterion ( http://arxiv.org/abs/2203.11517v1 )

ライセンス: Link先を確認
Thierry Dumont (UPN, FP2M, MODAL'X)(参考訳) 本稿では,1990年代以降の応用統計学で発生した現象をクラスタリングし,理論的解析および説明する。 この現象は、有名なEMアルゴリズムから導かれたクラスタリング法を使用する際の順序の自然な適応性である。 対象分布におけるクランプ数を表す新しい統計量である相対エントロピー順序を定義する。 特に、この相対エントロピー順序の経験的バージョンは一貫したものであることを証明している。 私たちのアプローチは実装が容易で、アプリケーションの可能性も高い。 この研究の視点はアルゴリズム的かつ理論的であり、従属データや多次元データのような様々な場合への自然な拡張が可能である。

We present a clustering method and provide a theoretical analysis and an explanation to a phenomenon encountered in the applied statistical literature since the 1990's. This phenomenon is the natural adaptability of the order when using a clustering method derived from the famous EM algorithm. We define a new statistic, the relative entropic order, that represents the number of clumps in the target distribution. We prove in particular that the empirical version of this relative entropic order is consistent. Our approach is easy to implement and has a high potential of applications. Perspectives of this works are algorithmic and theoretical, with possible natural extensions to various cases such as dependent or multidimensional data.
翻訳日:2022-03-23 15:17:16 公開日:2022-03-22
# 独立サンプルを用いた連続分布間のワッサースタイン距離の境界

Bounds on Wasserstein distances between continuous distributions using independent samples ( http://arxiv.org/abs/2203.11627v1 )

ライセンス: Link先を確認
Tam\'as Papp and Chris Sherlock(参考訳) ワッサーシュタイン距離のプラグイン推定器は保守的であることが知られているが、分布が類似している場合、そのバイアスが真のワッサーシュタイン距離でゼロに減衰しないため、その有用性は著しく制限されている。 正方形2-ワッサーシュタイン距離に対するプラグイン推定器の線形結合と、真の距離で0に減衰するバイアスの低減を提案する。 新たな推定器は、一方の分布が他方に対して適切に分散し、かつ、分布が等しければ偏りがない場合に、確実に保守的である。 マルコフ連鎖モンテカルロにおける目標分布と電流分布との間の2-wasserstein距離の上から大まかに限って適用し、目標に対して過剰に分散する複数の同一分散鎖を運用する。 私たちのバウンドは、結合を使用し、最大1桁までの混合時間バウンドを改善する現在の最先端バウンドよりも一貫して優れています。

The plug-in estimator of the Wasserstein distance is known to be conservative, however its usefulness is severely limited when the distributions are similar as its bias does not decay to zero with the true Wasserstein distance. We propose a linear combination of plug-in estimators for the squared 2-Wasserstein distance with a reduced bias that decays to zero with the true distance. The new estimator is provably conservative provided one distribution is appropriately overdispersed with respect the other, and is unbiased when the distributions are equal. We apply it to approximately bound from above the 2-Wasserstein distance between the target and current distribution in Markov chain Monte Carlo, running multiple identically distributed chains which start, and remain, overdispersed with respect to the target. Our bound consistently outperforms the current state-of-the-art bound, which uses coupling, improving mixing time bounds by up to an order of magnitude.
翻訳日:2022-03-23 15:16:54 公開日:2022-03-22
# ジャーナル軸受における軸中心位置のベイズ的アプローチ

A Bayesian Approach for Shaft Centre Localisation in Journal Bearings ( http://arxiv.org/abs/2203.11719v1 )

ライセンス: Link先を確認
Christopher A. Lindley, Scott Beamish, Rob Dwyer-Joyce, Nikolaos Dervilis and Keith Worden(参考訳) 超音波法は, ジャーナル軸受の油膜厚分布のオンライン測定に有効であることが示されているが, 残念ながら, 測定範囲によって制限され, 軸受周囲の膜の詳細を把握できない。 ベアリングの全範囲にわたって膜厚をモデル化しようとする試みは決定論的アプローチに依存しており、絶対的な確実性で観察が真であると仮定する。 膜厚の不確かさは、その後の流体力学パラメータの計算に対する不正確な予測のカスケードにつながる可能性がある。 本研究では,ガウス過程を用いて膜厚をモデル化する確率的枠組みを提案する。 その結果, 各種操作条件下での軸受の位置を推定した。 このプロセスにおけるさらなるステップは、新たに構築されたデータセットを使用して、軸方向の回転速度と静的荷重を考慮し、軸心の位置を示すラピッドマップを生成することである。 結果は、予測の信頼性を可視化し、軸受のボア内で高い確率の領域内で真の位置を見つけることができる。

It has been shown that ultrasonic techniques work well for online measuring of circumferential oil film thickness profile in journal bearings; unfortunately, they can be limited by their measuring range and unable to capture details of the film all around the bearing circumference. Attempts to model the film thickness over the full range of the bearing rely on deterministic approaches, which assume the observations to be true with absolute certainty. Unaccounted uncertainties of the film thickness may lead to a cascade of inaccurate predictions for subsequent calculations of hydrodynamic parameters. In the present work, a probabilistic framework is proposed to model the film thickness with Gaussian Processes. The results are then used to estimate the location of the bearing shaft under various operational conditions. A further step in the process involves using the newly-constructed dataset to generate likelihood maps displaying the probable location of the shaft centre, given the bearing rotational speed and applied static load. The results offer the possibility to visualise the confidence of the predictions and allow the true location to be found within an area of high probability within the bearing's bore.
翻訳日:2022-03-23 15:13:21 公開日:2022-03-22
# 自動アルゴリズム性能予測における説明可能な景観解析

Explainable Landscape Analysis in Automated Algorithm Performance Prediction ( http://arxiv.org/abs/2203.11828v1 )

ライセンス: Link先を確認
Risto Trajanov and Stefan Dimeski and Martin Popovski and Peter Koro\v{s}ec and Tome Eftimov(参考訳) 新しい問題インスタンス上での最適化アルゴリズムの性能予測は、その問題インスタンスを解決するのに最適なアルゴリズムを選択するために不可欠である。 この目的のために,近年,最適化アルゴリズムが達成した性能に関連する問題ランドスケープ特徴のセットを用いて教師付き機械学習(ml)モデルを学習した。 しかし、これらのモデルはブラックボックスであり、最適化アルゴリズムによって達成される性能の予測に最も寄与するランドスケープの特徴を説明することなく、優れた予測性能を達成するための唯一の目標である。 本研究では,アルゴリズムの自動性能予測において,異なる教師付きMLモデルを用いた問題景観特徴の表現性について検討する。 実験の結果,教師付きML手法の選択は,異なる教師付きML回帰モデルが問題ランドスケープの特徴を異なる方法で活用しているため,どのランドスケープの特徴が最も有益かという共通パターンが存在しないため,極めて重要であることが示された。

Predicting the performance of an optimization algorithm on a new problem instance is crucial in order to select the most appropriate algorithm for solving that problem instance. For this purpose, recent studies learn a supervised machine learning (ML) model using a set of problem landscape features linked to the performance achieved by the optimization algorithm. However, these models are black-box with the only goal of achieving good predictive performance, without providing explanations which landscape features contribute the most to the prediction of the performance achieved by the optimization algorithm. In this study, we investigate the expressiveness of problem landscape features utilized by different supervised ML models in automated algorithm performance prediction. The experimental results point out that the selection of the supervised ML method is crucial, since different supervised ML regression models utilize the problem landscape features differently and there is no common pattern with regard to which landscape features are the most informative.
翻訳日:2022-03-23 15:13:03 公開日:2022-03-22
# データの表現バイアスを識別・解決する手法に関する調査研究

A Survey on Techniques for Identifying and Resolving Representation Bias in Data ( http://arxiv.org/abs/2203.11852v1 )

ライセンス: Link先を確認
Nima Shahbazi, Yin Lin, Abolfazl Asudeh, H. V. Jagadish(参考訳) データ駆動意思決定の最大の目標は、簡単かつ大規模にだけでなく、賢く、正確に、そして単に意思決定を支援することです。 しかし、データ駆動アルゴリズムは、それらが扱うデータに匹敵するに過ぎず、データセット、特にソーシャルデータはしばしばマイノリティを欠いている。 データの表現バイアスは、データ取得および準備方法において、歴史的識別から選択およびサンプリングバイアスまで、さまざまな理由により起こり得る。 AIベースの社会ソリューションが、表現バイアスに対処することなく、平等な結果をもたらすとは期待できない。 本稿では,データの表現バイアスに関する既存の文献を調査した。 複数の設計次元に基づいて研究手法を分類し、それらの特性を並べて比較する分類法を提案する。 データの表現バイアス問題を完全に解決するには、まだまだ長い道のりがあります。 著者らは、この調査が研究者に、それぞれの領域における既存の研究を観察することで、将来これらの課題に取り組む動機を与えることを期待している。

The grand goal of data-driven decision-making is to help humans make decisions, not only easily and at scale but also wisely, accurately, and just. However, data-driven algorithms are only as good as the data they work with, while data sets, especially social data, often miss representing minorities. Representation Bias in data can happen due to various reasons ranging from historical discrimination to selection and sampling biases in the data acquisition and preparation methods. One cannot expect AI-based societal solutions to have equitable outcomes without addressing the representation bias. This paper surveys the existing literature on representation bias in the data. It presents a taxonomy to categorize the studied techniques based on multiple design dimensions and provide a side-by-side comparison of their properties. There is still a long way to fully address representation bias issues in data. The authors hope that this survey motivates researchers to approach these challenges in the future by observing existing work within their respective domains.
翻訳日:2022-03-23 15:12:49 公開日:2022-03-22
# (参考訳) X-MEN: XOR-Maximum Entropy Constrained Inverse Reinforcement Learning [全文訳有]

X-MEN: Guaranteed XOR-Maximum Entropy Constrained Inverse Reinforcement Learning ( http://arxiv.org/abs/2203.11842v1 )

ライセンス: CC BY 4.0
Fan Ding, Yeiang Xue(参考訳) 逆強化学習(IRL)はデモから学ぶ強力な方法である。 本稿では,適切なポリシーが一定の制約に反することはないという事前知識の活用によるIRL問題に対処する。 これらの制約を無視した従来のアプローチは、収束するために多くのデモを必要とする。 本稿では,学習イテレーション数に対して線形レートの最適ポリシに収束することが保証される,XOR-Maximum Entropy Constrained Inverse Reinforcement Learning (X-MEN)を提案する。 x-menはxor-sampling(#p完全サンプリング問題をnp oracleにクエリに変換する証明可能なサンプリングアプローチ)を最大エントロピーirlのフレームワークに組み込んでいる。 X-MENはまた、学習ポリシーが制約に反するトラジェクトリを決して生成しないことを保証する。 ナビゲーションにおける経験的な結果は、X-MENはベースラインアプローチと比較して最適ポリシーに早く収束し、多状態組合せ制約を満たす軌道を生成することを示している。

Inverse Reinforcement Learning (IRL) is a powerful way of learning from demonstrations. In this paper, we address IRL problems with the availability of prior knowledge that optimal policies will never violate certain constraints. Conventional approaches ignoring these constraints need many demonstrations to converge. We propose XOR-Maximum Entropy Constrained Inverse Reinforcement Learning (X-MEN), which is guaranteed to converge to the optimal policy in linear rate w.r.t. the number of learning iterations. X-MEN embeds XOR-sampling -- a provable sampling approach that transforms the #P complete sampling problem into queries to NP oracles -- into the framework of maximum entropy IRL. X-MEN also guarantees the learned policy will never generate trajectories that violate constraints. Empirical results in navigation demonstrate that X-MEN converges faster to the optimal policies compared to baseline approaches and always generates trajectories that satisfy multi-state combinatorial constraints.
翻訳日:2022-03-23 15:09:49 公開日:2022-03-22
# 高次元特徴空間からの教師付き特徴選択について

On Supervised Feature Selection from High Dimensional Feature Spaces ( http://arxiv.org/abs/2203.11924v1 )

ライセンス: Link先を確認
Yijing Yang, Wei Wang, Hongyu Fu and C.-C. Jay Kuo(参考訳) 画像およびビデオデータへの機械学習の適用は、しばしば高次元の特徴空間をもたらす。 効率的な特徴選択技術は、性能劣化の少ない計算コストとモデリングコストを下げる識別可能な特徴部分空間を識別する。 本研究における機械学習決定のための新しい教師付き特徴選択手法を提案する。 得られたテストは、それぞれ分類問題と回帰問題に対する識別的特徴テスト(DFT)と関連する特徴テスト(RFT)と呼ばれる。 DFTとRFTの手順は詳細に記述されている。 さらに,DFTとRFTの有効性を,いくつかの古典的特徴選択法と比較した。 この目的のために、MNISTデータセットとFashion-MNISTデータセットに対してLeNet-5で得られた深い特徴を例に挙げる。 DFTとRFTは,高判定性能を維持しつつ,低次元特徴部分空間を明瞭かつ頑健に選択できることを示した。

The application of machine learning to image and video data often yields a high dimensional feature space. Effective feature selection techniques identify a discriminant feature subspace that lowers computational and modeling costs with little performance degradation. A novel supervised feature selection methodology is proposed for machine learning decisions in this work. The resulting tests are called the discriminant feature test (DFT) and the relevant feature test (RFT) for the classification and regression problems, respectively. The DFT and RFT procedures are described in detail. Furthermore, we compare the effectiveness of DFT and RFT with several classic feature selection methods. To this end, we use deep features obtained by LeNet-5 for MNIST and Fashion-MNIST datasets as illustrative examples. It is shown by experimental results that DFT and RFT can select a lower dimensional feature subspace distinctly and robustly while maintaining high decision performance.
翻訳日:2022-03-23 14:48:18 公開日:2022-03-22
# 責任ある自律性の基盤としての同意

Consent as a Foundation for Responsible Autonomy ( http://arxiv.org/abs/2203.11420v1 )

ライセンス: Link先を確認
Munindar P. Singh(参考訳) 本稿では,自律責任の動的側面,すなわちインテリジェントエージェントが実行時に責任を負わせることに焦点を当てる。 すなわち、エージェントによる意思決定が他のエージェントが知覚する結果に影響を及ぼすような設定を考える。 エージェントが責任を持って行動するためには、そのユーザの欲求やその他の態度、および他のエージェントを通じて、そのユーザの欲求を満たさなければならない。 この論文の貢献は2つある。 まず、同意の概念的な分析、その利益と誤用、そして同意の理解が責任ある自主性を達成するのにどのように役立つかを提供する。 第2に、AI(特にエージェントとマルチエージェントシステム)が、マルチエージェントシステムにおける同意をモデル化し、責任ある自律性を達成するために同意を適用するための基盤として、調査に貢献する課題を概説する。

This paper focuses on a dynamic aspect of responsible autonomy, namely, to make intelligent agents be responsible at run time. That is, it considers settings where decision making by agents impinges upon the outcomes perceived by other agents. For an agent to act responsibly, it must accommodate the desires and other attitudes of its users and, through other agents, of their users. The contribution of this paper is twofold. First, it provides a conceptual analysis of consent, its benefits and misuses, and how understanding consent can help achieve responsible autonomy. Second, it outlines challenges for AI (in particular, for agents and multiagent systems) that merit investigation to form as a basis for modeling consent in multiagent systems and applying consent to achieve responsible autonomy.
翻訳日:2022-03-23 14:47:13 公開日:2022-03-22
# 強化学習における説明可能性:視点と位置

Explainability in reinforcement learning: perspective and position ( http://arxiv.org/abs/2203.11547v1 )

ライセンス: Link先を確認
Agneza Krajna, Mario Brcic, Tomislav Lipic and Juraj Doncevic(参考訳) 人工知能(AI)は人々の日常生活の多くの側面に埋め込まれており、AIが意思決定を行うのが普通になっている。 強化学習(RL)モデルは、他の機械学習パラダイムに関して解決可能な問題の空間を増大させる。 最も興味深い応用は、未知または未定義の環境で動作する非微分可能な期待報酬関数の状況や、任意の教師のパフォーマンスを超えるアルゴリズムによる発見であり、エージェントは実験的な経験から単純なフィードバックを通じて学習する。 ゲノミクス、ゲームプレイング(チェス、Goなど)、一般的な最適化、金融投資、政府政策、自動運転車、レコメンデーションシステムなどだ。 したがって、説明を通じてRLベースのシステムの信頼性と透明性を向上させることが不可欠である。 人工知能における説明可能性を扱うほとんどの記事は、教師付き学習を扱う方法を提供しており、RLの領域でこれを扱う記事はほとんどない。 この原因は、信用割当問題、遅延報酬、データが独立して同一に分散されていると仮定できないこと(すなわち、d)である。 本稿は, 説明可能なRL領域における既存手法を体系的に概説し, 既存の手法を構築・拡張する新しい統合分類法を提案する。 ポジションセクションでは、説明可能性の観察方法に関する実践的な側面を記述している。 説明を受け入れて生成する当事者間のギャップは特に強調される。 ギャップを減らし,説明の誠実さと誠実さを達成するために,積極性,リスク態度,認識論的制約という3つの柱を設定した。 そこで本研究では,最短経路問題の単純変種について述べる。

Artificial intelligence (AI) has been embedded into many aspects of people's daily lives and it has become normal for people to have AI make decisions for them. Reinforcement learning (RL) models increase the space of solvable problems with respect to other machine learning paradigms. Some of the most interesting applications are in situations with non-differentiable expected reward function, operating in unknown or underdefined environment, as well as for algorithmic discovery that surpasses performance of any teacher, whereby agent learns from experimental experience through simple feedback. The range of applications and their social impact is vast, just to name a few: genomics, game-playing (chess, Go, etc.), general optimization, financial investment, governmental policies, self-driving cars, recommendation systems, etc. It is therefore essential to improve the trust and transparency of RL-based systems through explanations. Most articles dealing with explainability in artificial intelligence provide methods that concern supervised learning and there are very few articles dealing with this in the area of RL. The reasons for this are the credit assignment problem, delayed rewards, and the inability to assume that data is independently and identically distributed (i.i.d.). This position paper attempts to give a systematic overview of existing methods in the explainable RL area and propose a novel unified taxonomy, building and expanding on the existing ones. The position section describes pragmatic aspects of how explainability can be observed. The gap between the parties receiving and generating the explanation is especially emphasized. To reduce the gap and achieve honesty and truthfulness of explanations, we set up three pillars: proactivity, risk attitudes, and epistemological constraints. To this end, we illustrate our proposal on simple variants of the shortest path problem.
翻訳日:2022-03-23 14:46:58 公開日:2022-03-22
# 大規模多重テストのための局所適応移動学習アルゴリズム

Locally Adaptive Transfer Learning Algorithms for Large-Scale Multiple Testing ( http://arxiv.org/abs/2203.11461v1 )

ライセンス: Link先を確認
Ziyi Liang, T. Tony Cai, Wenguang Sun, Yin Xia(参考訳) 転送学習は、さまざまなビッグデータアプリケーションで人気が高まっている。 大規模多重テストのコンテキストでは、関連するソースドメインから学んだ知識を抽出し、転送することで、ターゲットドメイン内の多数の仮説を同時にテストする精度を向上させることが目標だ。 本稿では,複数検定のための伝達学習のための局所適応変換学習アルゴリズム (LATLA) を提案する。 同じテストユニット上の一次データと並行して補助共変量の収集を必要とする既存の共変量支援複数のテスト方法とは対照的に、latlaは、関連するソースドメインから、おそらく異なる次元/構造および多様な集団から補助データの複数のサンプルを組み込むことができる、原則付きで汎用的な転送学習フレームワークを提供する。 理論的および数値的な結果は、LATLAが誤った発見率を制御し、既存の方法よりも優れていることを示している。 LATLAは、関連リンケージ解析から補助データを相互利用することにより、疾患関連SNPの同定のためのゲノムワイドアソシエーション研究への応用を通して説明される。

Transfer learning has enjoyed increasing popularity in a range of big data applications. In the context of large-scale multiple testing, the goal is to extract and transfer knowledge learned from related source domains to improve the accuracy of simultaneously testing of a large number of hypotheses in the target domain. This article develops a locally adaptive transfer learning algorithm (LATLA) for transfer learning for multiple testing. In contrast with existing covariate-assisted multiple testing methods that require the auxiliary covariates to be collected alongside the primary data on the same testing units, LATLA provides a principled and generic transfer learning framework that is capable of incorporating multiple samples of auxiliary data from related source domains, possibly in different dimensions/structure s and from diverse populations. Both the theoretical and numerical results show that LATLA controls the false discovery rate and outperforms existing methods in power. LATLA is illustrated through an application to genome-wide association studies for the identification of disease-associated SNPs by cross-utilizing the auxiliary data from a related linkage analysis.
翻訳日:2022-03-23 14:46:31 公開日:2022-03-22
# 音声認識と合成のモデリング : 音声データに直接アクセスしない音声に語彙的・語彙的意味情報をエンコード・デコードする

Modeling speech recognition and synthesis simultaneously: Encoding and decoding lexical and sublexical semantic information into speech with no direct access to speech data ( http://arxiv.org/abs/2203.11476v1 )

ライセンス: Link先を確認
Ga\v{s}per Begu\v{s}, Alan Zhou(参考訳) 人間の話者は情報を生の音声にエンコードし、リスナーによってデコードされる。 このエンコーディング(プロダクション)とデコーディング(パーセプション)の間の複雑な関係は、しばしば別々にモデル化される。 本稿では,生成と知覚の原則を結合した教師なし生成型深層畳み込みネットワークにおいて,語彙的意味情報の復号が生の音声から自動的に発生するかを検証した。 我々は,教師なし語彙学習における最も困難な目標である知識について紹介する。教師なしネットワークは,学習データに直接アクセスすることなく語彙項目に対してユニークな表現を割り当てることを学ぶ必要がある。 我々は,いくつかのモデル (ciwGAN と fiwGAN by [1]) を訓練し,未観測試験データにおける生音響語彙項目の分類方法をテストする。 語彙学習を支持する強い証拠が現れる。 生産と知覚の原則を組み合わせたアーキテクチャは、実際のトレーニングデータにアクセスすることなく、教師なしの方法で生の音響データからユニークな情報を復号することができる。 分類器ネットワークにおける語彙および語彙の学習表現を探索する手法を提案する。 その結果、言語モデルがテキストをバイパスし、生の音響から操作するにつれて、教師なし音声合成と認識と教師なし意味モデリングの両方に意味がある。

Human speakers encode information into raw speech which is then decoded by the listeners. This complex relationship between encoding (production) and decoding (perception) is often modeled separately. Here, we test how decoding of lexical and sublexical semantic information can emerge automatically from raw speech in unsupervised generative deep convolutional networks that combine both the production and perception principle. We introduce, to our knowledge, the most challenging objective in unsupervised lexical learning: an unsupervised network that must learn to assign unique representations for lexical items with no direct access to training data. We train several models (ciwGAN and fiwGAN by [1]) and test how the networks classify raw acoustic lexical items in the unobserved test data. Strong evidence in favor of lexical learning emerges. The architecture that combines the production and perception principles is thus able to learn to decode unique information from raw acoustic data in an unsupervised manner without ever accessing real training data. We propose a technique to explore lexical and sublexical learned representations in the classifier network. The results bear implications for both unsupervised speech synthesis and recognition as well as for unsupervised semantic modeling as language models increasingly bypass text and operate from raw acoustics.
翻訳日:2022-03-23 14:45:01 公開日:2022-03-22
# 乗算器の近似交互方向法による多重凸物体画像分割

Multiple Convex Objects Image Segmentation via Proximal Alternating Direction Method of Multipliers ( http://arxiv.org/abs/2203.11395v1 )

ライセンス: Link先を確認
Shousheng Luo, Jinfeng Chen, Yunhai Xiao and Xue-Cheng Tai(参考訳) 本稿では,凸形状が先行する画像分割の問題に着目する。 まず、convex object(s)を表すためにバイナリ関数を使用します。 前述した凸形状は、各対象に関連付けられた二進指標関数上の単純な二次不等式制約であることが判明した。 確率に基づく手法に先行して凸形状を組み込んだ画像分割モデルを提案する。 第二に,2次不等式制約により問題となる最適化問題を解くために,新しいアルゴリズムが設計された。 このような問題に対処するため,2次不等式制約を緩和・線形化して,凸最小化問題を解く。 各凸問題に対して,乗算器の高効率な近位交互方向法を開発した。 アルゴリズムの収束は、最適化文献における既存の結果に従う。 さらに、セグメント化の精度を徐々に向上させるために、インタラクティブな手順を導入する。 自然画像と医用画像の数値実験により,提案手法は分割精度や計算時間の観点から既存の手法よりも優れていることが示された。

This paper focuses on the issue of image segmentation with convex shape prior. Firstly, we use binary function to represent convex object(s). The convex shape prior turns out to be a simple quadratic inequality constraint on the binary indicator function associated with each object. An image segmentation model incorporating convex shape prior into a probability-based method is proposed. Secondly, a new algorithm is designed to solve involved optimization problem, which is a challenging task because of the quadratic inequality constraint. To tackle this difficulty, we relax and linearize the quadratic inequality constraint to reduce it to solve a sequence of convex minimization problems. For each convex problem, an efficient proximal alternating direction method of multipliers is developed to solve it. The convergence of the algorithm follows some existing results in the optimization literature. Moreover, an interactive procedure is introduced to improve the accuracy of segmentation gradually. Numerical experiments on natural and medical images demonstrate that the proposed method is superior to some existing methods in terms of segmentation accuracy and computational time.
翻訳日:2022-03-23 14:44:22 公開日:2022-03-22
# (参考訳) ニューラルネットワークにおけるクラスタリングユニット:上流と下流の情報 [全文訳有]

Clustering units in neural networks: upstream vs downstream information ( http://arxiv.org/abs/2203.11815v1 )

ライセンス: CC BY 4.0
Richard D. Lange, David S. Rolnick, Konrad P. Kording(参考訳) ニューラルネットワークにおけるある種の「モジュラー」構造は、学習、構成性、一般化に有用であると仮定されている。 しかし、モジュラリティの定義と定量化は未解決の問題である。 我々は,類似機能ユニットのクラスタ検出の問題に,機能モジュール検出の問題を取り入れた。 このことは、2つのユニットが機能的に類似していることに疑問を投げかける。 そこで本研究では,入力における構造的変動に反応する単位の類似性(アップストリーム)と,隠れた単位活性化の変動が出力にどのように影響するか(ダウンストリーム)に基づいて類似性を定義する方法を検討する。 我々は,複数のハイパーパラメータにわたって,単純なフィードフォワード,完全連結ネットワークの隠蔽層表現のモジュラリティを定量化する実証的研究を行った。 各モデルについて、上流と下流の両方の測度を用いて各層の隠れた単位間のペアワイズ関係を定量化し、ネットワーク科学の確立したツールを用いて「モジュラリティスコア」を最大化してクラスタ化する。 第一に、ドロップアウトはモジュール性を大幅に増加させ、他の形態の重み正規化はより穏やかな効果を持っていた。 第二に、上流メソッドと下流メソッドの両方には通常、クラスタに関する合意があるが、これら2つのメソッドのファミリーにまたがるクラスタ割り当てに関する合意はほとんどない。 これは表現学習にとって重要な意味を持ち、入力(例えば、乱れ)の構造を反映するモジュラー表現を見つけることは、出力の構造を反映するモジュラー表現を学習すること(例えば合成性)の明確な目標であることを示唆している。

It has been hypothesized that some form of "modular" structure in artificial neural networks should be useful for learning, compositionality, and generalization. However, defining and quantifying modularity remains an open problem. We cast the problem of detecting functional modules into the problem of detecting clusters of similar-functioning units. This begs the question of what makes two units functionally similar. For this, we consider two broad families of methods: those that define similarity based on how units respond to structured variations in inputs ("upstream"), and those based on how variations in hidden unit activations affect outputs ("downstream"). We conduct an empirical study quantifying modularity of hidden layer representations of simple feedforward, fully connected networks, across a range of hyperparameters. For each model, we quantify pairwise associations between hidden units in each layer using a variety of both upstream and downstream measures, then cluster them by maximizing their "modularity score" using established tools from network science. We find two surprising results: first, dropout dramatically increased modularity, while other forms of weight regularization had more modest effects. Second, although we observe that there is usually good agreement about clusters within both upstream methods and downstream methods, there is little agreement about the cluster assignments across these two families of methods. This has important implications for representation-learn ing, as it suggests that finding modular representations that reflect structure in inputs (e.g. disentanglement) may be a distinct goal from learning modular representations that reflect structure in outputs (e.g. compositionality).
翻訳日:2022-03-23 14:41:14 公開日:2022-03-22
# Hilbert Simplex Geometryにおける非線形埋め込み

Non-linear Embeddings in Hilbert Simplex Geometry ( http://arxiv.org/abs/2203.11434v1 )

ライセンス: Link先を確認
Frank Nielsen and Ke Sun(参考訳) 機械学習とコンピュータビジョンの重要なテクニックは、さらに下流処理のために離散重み付きグラフを連続空間に埋め込むことである。 双曲幾何学に離散階層構造を埋め込むことは、任意の低歪みを持つ重み付き木をその幾何学に埋め込むことが示され、非常に成功した。 双曲幾何学の共通モデルに基づく双曲埋め込みの様々な最適化手法が研究されている。 本稿では、変分ポリトープノルムを備えたベクトル空間に等尺な標準単純集合に対してヒルベルト幾何学を考える。 グラフの距離行列の埋め込みによるヒルベルト単純幾何学の表現力について検討する。 以上の結果から,ヒルベルトの単純幾何幾何学はポアンカーの双曲球やユークリッド幾何学のような代替幾何学と競合し,高速かつ数値的に頑健であることを示す。

A key technique of machine learning and computer vision is to embed discrete weighted graphs into continuous spaces for further downstream processing. Embedding discrete hierarchical structures in hyperbolic geometry has proven very successful since it was shown that any weighted tree can be embedded in that geometry with arbitrary low distortion. Various optimization methods for hyperbolic embeddings based on common models of hyperbolic geometry have been studied. In this paper, we consider Hilbert geometry for the standard simplex which is isometric to a vector space equipped with the variation polytope norm. We study the representation power of this Hilbert simplex geometry by embedding distance matrices of graphs. Our findings demonstrate that Hilbert simplex geometry is competitive to alternative geometries such as the Poincar\'e hyperbolic ball or the Euclidean geometry for embedding tasks while being fast and numerically robust.
翻訳日:2022-03-23 14:20:25 公開日:2022-03-22
# 統合失調症の診断 : 総合的評価

Diagnosis of Schizophrenia: A comprehensive evaluation ( http://arxiv.org/abs/2203.11610v1 )

ライセンス: Link先を確認
M. Tanveer, Jatin Jangir, M.A. Ganaie, Iman Beheshti, M. Tabish, Nikunj Chhabra(参考訳) 機械学習モデルは精神分裂病の診断に成功している。 統合失調症の診断における分類モデルと特徴選択手法の影響は評価されていない。 そこで我々は,構造磁気共鳴画像データにおける特徴選択手法とともに,分類モデルの性能にアクセスしようとした。 対象は統合失調症72名と健常者74名であった。 サポートベクターマシン(svm)、ランダムフォレスト、カーネルリッジ回帰、ランダムニューラルネットワークに基づいて、異なる分類アルゴリズムを評価した。 さらに,T-Test,Receer Operator Characteristics (ROC), Wilcoxon, Entropy, Bhattacharyya, Minimum Redundancy Maximum Relevance (MRMR) and Neighbourhood Component Analysis (NCA) を特徴選択手法として評価した。 評価結果から、ガウスカーネルを用いたSVMベースのモデルは他の分類モデルよりも優れており、Wilcoxonの機能選択が最高の特徴選択手法として登場した。 さらに,データモダリティの面では,灰白質と白質を個別に比較すると,灰白質と白質の一体化性能が良好であることが判明した。 以上の結果から,分類アルゴリズムと特徴選択法が統合失調症の診断に影響を及ぼすことが明らかとなった。 これは、特徴の適切な選択と分類モデルが統合失調症の診断を改善することを示している。

Machine learning models have been successfully employed in the diagnosis of Schizophrenia disease. The impact of classification models and the feature selection techniques on the diagnosis of Schizophrenia have not been evaluated. Here, we sought to access the performance of classification models along with different feature selection approaches on the structural magnetic resonance imaging data. The data consist of 72 subjects with Schizophrenia and 74 healthy control subjects. We evaluated different classification algorithms based on support vector machine (SVM), random forest, kernel ridge regression and randomized neural networks. Moreover, we evaluated T-Test, Receiver Operator Characteristics (ROC), Wilcoxon, entropy, Bhattacharyya, Minimum Redundancy Maximum Relevance (MRMR) and Neighbourhood Component Analysis (NCA) as the feature selection techniques. Based on the evaluation, SVM based models with Gaussian kernel proved better compared to other classification models and Wilcoxon feature selection emerged as the best feature selection approach. Moreover, in terms of data modality the performance on integration of the grey matter and white matter proved better compared to the performance on the grey and white matter individually. Our evaluation showed that classification algorithms along with the feature selection approaches impact the diagnosis of Schizophrenia disease. This indicates that proper selection of the features and the classification models can improve the diagnosis of Schizophrenia.
翻訳日:2022-03-23 14:20:11 公開日:2022-03-22
# Twin Weisfeiler-Lehman:グラフ分類のための高表現型GNN

Twin Weisfeiler-Lehman: High Expressive GNNs for Graph Classification ( http://arxiv.org/abs/2203.11683v1 )

ライセンス: Link先を確認
Zhaohui Wang, Qi Cao, Huawei Shen, Bingbing Xu and Xueqi Cheng(参考訳) メッセージパッシングGNNの表現力はWeisfeiler-Lehman (WL) テストによって上界される。 WLテスト以外の高表現性GNNを実現するために,ノードラベルのみをWLとして渡すのではなく,ノードラベルとノードIDを同時に渡す新しいグラフ同型テスト手法Twin-WLを提案する。 恒等パス機構はルート付き部分グラフの完全な構造情報を符号化するので、ツイン-WLはグラフ構造を区別するWLを超えて余分なパワーを提供できる。 Twin-WLに基づいて、ルート付き部分グラフ上の読み出し関数を定義することによってグラフ分類のための2つのツイン-GNNを実装した。 2つのツインGNNは従来のメッセージパッシングGNNよりも表現力が高いことが証明された。 また、Twin-GNNsはグラフ分類のタスクにおいて最先端の手法を著しく上回ることを示した。

The expressive power of message passing GNNs is upper-bounded by Weisfeiler-Lehman (WL) test. To achieve high expressive GNNs beyond WL test, we propose a novel graph isomorphism test method, namely Twin-WL, which simultaneously passes node labels and node identities rather than only passes node label as WL. The identity-passing mechanism encodes complete structure information of rooted subgraph, and thus Twin-WL can offer extra power beyond WL at distinguishing graph structures. Based on Twin-WL, we implement two Twin-GNNs for graph classification via defining readout function over rooted subgraph: one simply readouts the size of rooted subgraph and the other readouts rich structure information of subgraph following a GNN-style. We prove that the two Twin-GNNs both have higher expressive power than traditional message passing GNNs. Experiments also demonstrate the Twin-GNNs significantly outperform state-of-the-art methods at the task of graph classification.
翻訳日:2022-03-23 14:19:48 公開日:2022-03-22
# 収縮型ハミルトニアンニューラルオデムを用いたロバスト分類について

On Robust Classification using Contractive Hamiltonian Neural ODEs ( http://arxiv.org/abs/2203.11805v1 )

ライセンス: Link先を確認
Muhammad Zakwan, Liang Xu, Giancarlo Ferrari-Trecate(参考訳) 深層ニューラルネットワークは脆弱で小さな入力摂動に敏感であり、出力に大きな変化を引き起こす可能性がある。 本稿では,ニューラルネットワーク(NODE)のロバスト性を改善するために収縮理論を用いる。 力学系は、異なる初期条件を持つすべての解が漸近的に互いに収束すると収縮する。 その結果、初期条件における摂動は時間とともに重要度が低下する。 NODEでは、入力データは力学系の初期状態に対応するため、収縮度は入力摂動の影響を軽減することができる。 より正確には、ハミルトン力学を持つNODEsにインスパイアされ、契約型ハミルトンNODE(CH-NODEs)のクラスを提案する。 スカラーパラメータを適切に調整することにより、CH-NODEは設計による収縮性を確保し、標準のバックプロパゲーションと勾配降下アルゴリズムを用いて訓練することができる。 さらに、CH-NODEは非拡散勾配の組込み保証を享受し、適切なトレーニングプロセスを保証する。 最後に,ノイズテストデータセットを用いたmnist画像分類問題に対するchノードのロバスト性を示す。

Deep neural networks can be fragile and sensitive to small input perturbations that might cause a significant change in the output. In this paper, we employ contraction theory to improve the robustness of neural ODEs (NODEs). A dynamical system is contractive if all solutions with different initial conditions converge to each other asymptotically. As a consequence, perturbations in initial conditions become less and less relevant over time. Since in NODEs, the input data corresponds to the initial condition of dynamical systems, we show contractivity can mitigate the effect of input perturbations. More precisely, inspired by NODEs with Hamiltonian dynamics, we propose a class of contractive Hamiltonian NODEs (CH-NODEs). By properly tuning a scalar parameter, CH-NODEs ensure contractivity by design and can be trained using standard backpropagation and gradient descent algorithms. Moreover, CH-NODEs enjoy built-in guarantees of non-exploding gradients, which ensures a well-posed training process. Finally, we demonstrate the robustness of CH-NODEs on the MNIST image classification problem with noisy test datasets.
翻訳日:2022-03-23 14:19:29 公開日:2022-03-22
# (参考訳) 直接パッチ分布マッチングによる自然画像の生成

Generating natural images with direct Patch Distributions Matching ( http://arxiv.org/abs/2203.11862v1 )

ライセンス: CC BY 4.0
Ariel Elnekave, Yair Weiss(参考訳) 多くの伝統的なコンピュータビジョンアルゴリズムは、生成された画像の各パッチがトレーニング画像のパッチに似ており、その逆で現実的な画像を生成する。 近年、この古典的なアプローチは、パッチ判別器による敵の訓練に置き換えられている。 敵対的アプローチは、近接するパッチを見つける際の計算上の負担を回避するが、しばしば非常に長い訓練時間を必要とし、パッチの分布と一致しない可能性がある。 本稿では,最近開発されたSliced Wasserstein Distanceを活用し,2つの画像におけるパッチ分布間の距離を明示的にかつ効率的に最小化するアルゴリズムを開発する。 本手法は概念的に単純であり,トレーニングを必要とせず,数行のコードで実装できる。 画像生成タスクでは、その結果がシングルイメージGANよりも優れている場合が多く、トレーニングを必要とせず、数秒で高品質な画像を生成することができる。 私たちの実装はhttps://github.com/a riel415el/GPDMで利用可能です。

Many traditional computer vision algorithms generate realistic images by requiring that each patch in the generated image be similar to a patch in a training image and vice versa. Recently, this classical approach has been replaced by adversarial training with a patch discriminator. The adversarial approach avoids the computational burden of finding nearest neighbors of patches but often requires very long training times and may fail to match the distribution of patches. In this paper we leverage the recently developed Sliced Wasserstein Distance and develop an algorithm that explicitly and efficiently minimizes the distance between patch distributions in two images. Our method is conceptually simple, requires no training and can be implemented in a few lines of codes. On a number of image generation tasks we show that our results are often superior to single-image-GANs, require no training, and can generate high quality images in a few seconds. Our implementation is available at https://github.com/a riel415el/GPDM
翻訳日:2022-03-23 14:18:11 公開日:2022-03-22
# 長期音声認識のための再バランス型シームズコントラストマイニング

Rebalanced Siamese Contrastive Mining for Long-Tailed Recognition ( http://arxiv.org/abs/2203.11506v1 )

ライセンス: Link先を確認
Zhisheng Zhong, Jiequan Cui, Eric Lo, Zeming Li, Jian Sun, Jiaya Jia(参考訳) ディープニューラルネットワークは、クラス不均衡なデータセットではパフォーマンスが劣る。 コントラスト学習の有望な性能を考えると、不均衡認識に取り組むために、$\mathbf{Re}$ Balanced $\mathbf{S}$iamese $\mathbf{Co}$ntrastive $\mathbf{m}$ining ($\mathbf{ResCom}$)を提案する。 数学的解析とシミュレーションの結果から,教師付きコントラスト学習は,従来のバッチレベルとシャム語バッチレベルの両方において,二重クラス不均衡問題に陥っていることが示唆された。 本稿では,本論文のバッチレベルでは,異なるクラスに対して適応重みを割り当てるために,教師付きコントラスト損失をクラスバランスで導入する。 siameseバッチレベルでは、すべてのクラスで同じ数のキーを保持するクラスバランスキューを示します。 さらに、対比ロジットに対する対照的な損失勾配は、正と負に分解することができ、容易な正と容易な負は、対照的な勾配を消滅させる。 コントラスト計算のための情報的ペアを抽出し,表現学習を改善するために,教師付き強正・負のペアマイニングを提案する。 最後に,両視点間の相互情報をほぼ最大化するために,一段階訓練における対照損失とシアームバランスソフトマックスを提案する。 rescomは、複数のロングテールの認識ベンチマークにおいて、以前の手法を大きなマージンで上回っている。 私たちのコードは、https://github.com/d vlab-research/ResCom で公開されます。

Deep neural networks perform poorly on heavily class-imbalanced datasets. Given the promising performance of contrastive learning, we propose $\mathbf{Re}$balanced $\mathbf{S}$iamese $\mathbf{Co}$ntrastive $\mathbf{m}$ining ( $\mathbf{ResCom}$) to tackle imbalanced recognition. Based on the mathematical analysis and simulation results, we claim that supervised contrastive learning suffers a dual class-imbalance problem at both the original batch and Siamese batch levels, which is more serious than long-tailed classification learning. In this paper, at the original batch level, we introduce a class-balanced supervised contrastive loss to assign adaptive weights for different classes. At the Siamese batch level, we present a class-balanced queue, which maintains the same number of keys for all classes. Furthermore, we note that the contrastive loss gradient with respect to the contrastive logits can be decoupled into the positives and negatives, and easy positives and easy negatives will make the contrastive gradient vanish. We propose supervised hard positive and negative pairs mining to pick up informative pairs for contrastive computation and improve representation learning. Finally, to approximately maximize the mutual information between the two views, we propose Siamese Balanced Softmax and joint it with the contrastive loss for one-stage training. ResCom outperforms the previous methods by large margins on multiple long-tailed recognition benchmarks. Our code will be made publicly available at: https://github.com/d vlab-research/ResCom .
翻訳日:2022-03-23 14:16:51 公開日:2022-03-22
# 非符号距離場を用いた畳み込みニューラルネットワークに基づく高効率高密度点雲生成

Convolutional Neural Network-based Efficient Dense Point Cloud Generation using Unsigned Distance Fields ( http://arxiv.org/abs/2203.11537v1 )

ライセンス: Link先を確認
Abol Basher and Jani Boutellier(参考訳) 3dコンピュータビジョンとコンピュータグラフィックスにおいて、希薄あるいは不完全な点クラウドからの密集した点クラウドの生成は、重要かつ困難な問題である。 今のところ、既存の手法は計算コストが高すぎるか、解像度が限られているか、両方である。 加えて、いくつかの手法は水密面に厳格に制限されている。 これらの問題に対処するために,最近登場した暗黙的関数学習の概念を用いて,任意の3次元形状に対する符号なし距離場を学習し,予測する軽量畳み込みニューラルネットワークを提案する。 実験により、提案されたアーキテクチャは87%のモデルパラメータと40%のgpuメモリ使用率で、最先端技術よりも少し品質が良いことが示されている。

Dense point cloud generation from a sparse or incomplete point cloud is a crucial and challenging problem in 3D computer vision and computer graphics. So far, the existing methods are either computationally too expensive, suffer from limited resolution, or both. In addition, some methods are strictly limited to watertight surfaces -- another major obstacle for a number of applications. To address these issues, we propose a lightweight Convolutional Neural Network that learns and predicts the unsigned distance field for arbitrary 3D shapes for dense point cloud generation using the recently emerged concept of implicit function learning. Experiments demonstrate that the proposed architecture achieves slightly better quality results than the state of the art with 87% less model parameters and 40% less GPU memory usage.
翻訳日:2022-03-23 14:16:26 公開日:2022-03-22
# ラベル効率の良い衛星画像変化検出のための仮想例のフルーガーラーニング

Frugal Learning of Virtual Exemplars for Label-Efficient Satellite Image Change Detection ( http://arxiv.org/abs/2203.11559v1 )

ライセンス: Link先を確認
Hichem Sahbi, Sebastien Deschamps(参考訳) 本稿では,アクティブラーニングに基づくインタラクティブ衛星画像変化検出アルゴリズムを考案する。 提案するフレームワークは反復的であり,最も情報に富むディスプレイ(クリティカル画像のサブセット)について,神託(ユーザ)に質問する質問と回答モデルに依存し,ユーザの反応に応じて変更検出を更新する。 このフレームワークの寄与は、学習した変化検出機能に悪影響を及ぼす最も代表的で多様な仮想見本を選択できる新しい表示モデルに留まり、その後のアクティブラーニングの反復において高い差別化機能をもたらす。 インタラクティブ衛星画像変化検出の課題として実施した広範な実験により,提案する仮想ディスプレイモデルの関連課題に対する優位性が示された。

In this paper, we devise a novel interactive satellite image change detection algorithm based on active learning. The proposed framework is iterative and relies on a question and answer model which asks the oracle (user) questions about the most informative display (subset of critical images), and according to the user's responses, updates change detections. The contribution of our framework resides in a novel display model which selects the most representative and diverse virtual exemplars that adversely challenge the learned change detection functions, thereby leading to highly discriminating functions in the subsequent iterations of active learning. Extensive experiments, conducted on the challenging task of interactive satellite image change detection, show the superiority of the proposed virtual display model against the related work.
翻訳日:2022-03-23 14:16:12 公開日:2022-03-22
# 衛星画像変化検出のための強化に基づくフラガーラーニング

Reinforcement-based frugal learning for satellite image change detection ( http://arxiv.org/abs/2203.11564v1 )

ライセンス: Link先を確認
Sebastien Deschamps, Hichem Sahbi(参考訳) 本稿では,能動学習に基づく対話型衛星画像変化検出アルゴリズムを提案する。 提案したアプローチは反復的であり、ターゲットとする変更についてユーザ(オークル)に質問し、オラクルのレスポンスによって変更検出が更新される。 我々は、各ラベルのないサンプルにアサインする確率的フレームワークについて検討する。 変更検出機能のトレーニングにおいて、そのサンプルがどの程度重要かをモデル化する。 これらの関連度は、多様性、表現性、不確実性を混合する目的関数を最小化する。 これらの基準を組み合わせることで、異なるデータモードの探索と変更検出の精査が可能になる。 この目的関数の可能性をさらに探究するため,我々は,インタラクティブな衛星画像変化検出実験による一般化に繋がる活発な学習反復を通じて,多様性,表現性,不確かさの最良の組み合わせを見出す強化学習手法を検討する。

In this paper, we introduce a novel interactive satellite image change detection algorithm based on active learning. The proposed approach is iterative and asks the user (oracle) questions about the targeted changes and according to the oracle's responses updates change detections. We consider a probabilistic framework which assigns to each unlabeled sample a relevance measure modeling how critical is that sample when training change detection functions. These relevance measures are obtained by minimizing an objective function mixing diversity, representativity and uncertainty. These criteria when combined allow exploring different data modes and also refining change detections. To further explore the potential of this objective function, we consider a reinforcement learning approach that finds the best combination of diversity, representativity and uncertainty, through active learning iterations, leading to better generalization as corroborated through experiments in interactive satellite image change detection.
翻訳日:2022-03-23 14:15:58 公開日:2022-03-22
# 顔認識のための特徴空間に対する統一負対生成

Unified Negative Pair Generation toward Well-discriminative Feature Space for Face Recognition ( http://arxiv.org/abs/2203.11593v1 )

ライセンス: Link先を確認
Junuk Jung, Seonhoon Lee, Heung-Seon Oh, Yongjun Park, Joochan Park, Sungbin Son(参考訳) 顔認識(fr)の目標は対の類似性最適化問題と見なすことができ、対の類似性集合 $\mathcal{s}^p$ を正の対より最大化し、一方、類似性集合 $\mathcal{s}^n$ を負の対より最小化する。 理想的には、frモデルが、$\inf{\mathcal{s}^p} > \sup{\mathcal{s}^n}$を満たす well-discriminative feature space (wdfs) を形成することが期待される。 WDFSに関して、既存の深い特徴学習パラダイム(メートル法と分類の損失)は、異なるペア生成(PG)戦略の統一的な視点として表現できる。 残念ながら、メートル法損失(ML)では、最小バッチサイズが制限されているため、各イテレーションですべてのクラスを考慮に入れた負のペアを生成することができない。 対照的に、分類損失(CL)では、クラス重みベクトルが中心に収束するため、非常に硬い負の対を生成することは困難である。 これにより、サンプル対と全ての負対の2つの類似性分布が一致しない。 そこで本稿では,2つのPG戦略(MLPGとCLPG)を統一的な視点から組み合わせ,ミスマッチを緩和する統一負対生成(UNPG)を提案する。 UNPGは、CLPG欠損を克服するためにMLPGを使用して負のペアに関する有用な情報を導入する。 さらに、ノイズ負対の類似性をフィルタリングして、信頼性の高い収束と性能の向上を保証する。 公的なベンチマークデータセット上での最近の損失関数にまたがる最先端性能を達成することにより、UNPGの優位性を示す。 私たちのコードと事前トレーニングされたモデルは公開されています。

The goal of face recognition (FR) can be viewed as a pair similarity optimization problem, maximizing a similarity set $\mathcal{S}^p$ over positive pairs, while minimizing similarity set $\mathcal{S}^n$ over negative pairs. Ideally, it is expected that FR models form a well-discriminative feature space (WDFS) that satisfies $\inf{\mathcal{S}^p} > \sup{\mathcal{S}^n}$. With regard to WDFS, the existing deep feature learning paradigms (i.e., metric and classification losses) can be expressed as a unified perspective on different pair generation (PG) strategies. Unfortunately, in the metric loss (ML), it is infeasible to generate negative pairs taking all classes into account in each iteration because of the limited mini-batch size. In contrast, in classification loss (CL), it is difficult to generate extremely hard negative pairs owing to the convergence of the class weight vectors to their center. This leads to a mismatch between the two similarity distributions of the sampled pairs and all negative pairs. Thus, this paper proposes a unified negative pair generation (UNPG) by combining two PG strategies (i.e., MLPG and CLPG) from a unified perspective to alleviate the mismatch. UNPG introduces useful information about negative pairs using MLPG to overcome the CLPG deficiency. Moreover, it includes filtering the similarities of noisy negative pairs to guarantee reliable convergence and improved performance. Exhaustive experiments show the superiority of UNPG by achieving state-of-the-art performance across recent loss functions on public benchmark datasets. Our code and pretrained models are publicly available.
翻訳日:2022-03-23 14:15:43 公開日:2022-03-22
# カモフラージュ物体検出のための高分解能反復フィードバックネットワーク

High-resolution Iterative Feedback Network for Camouflaged Object Detection ( http://arxiv.org/abs/2203.11624v1 )

ライセンス: Link先を確認
Xiaobin Hu, Deng-Ping Fan, Xuebin Qin, Hang Dai, Wenqi Ren, Ying Tai, Chengjie Wang, Ling Shao(参考訳) 背景に視覚的に同化されているカモフラージュされた物体を見つけることは、物体検出アルゴリズムと、通常、前景の物体と背景の環境との完全な本質的な類似性によって混乱または騙されている人間の両方にとって難しい。 この課題に取り組むため,我々は,エッジやバウンダリのぼやけた視覚を引き起こすディテール劣化を回避するために,高解像度テクスチャの詳細を抽出することを目指している。 我々は,高解像度特徴量による低解像度表現を反復的フィードバック方式で洗練するために,HitNetを導入した。 さらに、各フィードバック接続により多くの制約を課すため、反復的なフィードバック損失が提案される。 4つの挑戦的なデータセットに関する広範囲な実験によって、私たちの \ourmodel~はパフォーマンスボトルネックを解消し、29の最先端のメソッドと比較して大幅な改善を達成しています。 カモフラージュされたシナリオにおけるデータの不足に対処するために、クロスドメイン学習を使用して、カモフラージュされたオブジェクトプロパティを反映できる機能を抽出し、その機能をサルトオブジェクトに埋め込むことで、さまざまなサルトオブジェクトデータセットからカモフラージュされたトレーニングサンプルを生成する。

Spotting camouflaged objects that are visually assimilated into the background is tricky for both object detection algorithms and humans who are usually confused or cheated by the perfectly intrinsic similarities between the foreground objects and the background surroundings. To tackle this challenge, we aim to extract the high-resolution texture details to avoid the detail degradation that causes blurred vision in edges and boundaries. We introduce a novel HitNet to refine the low-resolution representations by high-resolution features in an iterative feedback manner, essentially a global loop-based connection among the multi-scale resolutions. In addition, an iterative feedback loss is proposed to impose more constraints on each feedback connection. Extensive experiments on four challenging datasets demonstrate that our \ourmodel~breaks the performance bottleneck and achieves significant improvements compared with 29 state-of-the-art methods. To address the data scarcity in camouflaged scenarios, we provide an application example by employing cross-domain learning to extract the features that can reflect the camouflaged object properties and embed the features into salient objects, thereby generating more camouflaged training samples from the diverse salient object datasets The code will be available at https://github.com/H Uuxiaobin/HitNet.
翻訳日:2022-03-23 14:15:13 公開日:2022-03-22
# 変化を探る:未編集のWebビデオからオブジェクト状態と状態修正アクションを学ぶ

Look for the Change: Learning Object States and State-Modifying Actions from Untrimmed Web Videos ( http://arxiv.org/abs/2203.11637v1 )

ライセンス: Link先を確認
Tom\'a\v{s} Sou\v{c}ek, Jean-Baptiste Alayrac, Antoine Miech, Ivan Laptev, Josef Sivic(参考訳) 人間の行動は、しばしば「リンゴを切る」、「クリーニングシューズ」、または「ポウイングコーヒー」といった物体の状態の変化を引き起こす。 本稿では,オブジェクトの状態(例えば「空」や「フル」カップ」など)と対応する状態修飾アクション(「コーヒーを浸す」)を,最小限の監督で長い未調整ビデオで時間的ローカライズすることを目指す。 この作品の貢献は3倍である。 まず,インターネット上の未作成の映像から,対応する対象状態と協調して状態修正動作を学習する自己教師付きモデルを開発した。 このモデルは、因果順序付け信号、すなわち初期オブジェクト状態 $\rightarrow$ 操作アクション $\rightarrow$ エンド状態によって自己監視される。 第二に、ノイズのない未処理のトレーニングデータに対処するために、少数の注釈付静止画像によって教師されるノイズ適応重み付けモジュールを組み込むことにより、トレーニング中に無関係な映像を効率的にフィルタリングすることができる。 第三に、2600時間以上のビデオと34万回のオブジェクト状態の変化を持つ新しいデータセットを収集し、このデータの一部を手動でアノテートしてアプローチを検証する。 ビデオにおける動作状態認識とオブジェクト状態認識の両面で,先行作業よりも大幅に改善した。

Human actions often induce changes of object states such as "cutting an apple", "cleaning shoes" or "pouring coffee". In this paper, we seek to temporally localize object states (e.g. "empty" and "full" cup) together with the corresponding state-modifying actions ("pouring coffee") in long uncurated videos with minimal supervision. The contributions of this work are threefold. First, we develop a self-supervised model for jointly learning state-modifying actions together with the corresponding object states from an uncurated set of videos from the Internet. The model is self-supervised by the causal ordering signal, i.e. initial object state $\rightarrow$ manipulating action $\rightarrow$ end state. Second, to cope with noisy uncurated training data, our model incorporates a noise adaptive weighting module supervised by a small number of annotated still images, that allows to efficiently filter out irrelevant videos during training. Third, we collect a new dataset with more than 2600 hours of video and 34 thousand changes of object states, and manually annotate a part of this data to validate our approach. Our results demonstrate substantial improvements over prior work in both action and object state-recognition in video.
翻訳日:2022-03-23 14:13:46 公開日:2022-03-22
# オンライン知識蒸留におけるチャンネル自己スーパービジョン

Channel Self-Supervision for Online Knowledge Distillation ( http://arxiv.org/abs/2203.11660v1 )

ライセンス: Link先を確認
Shixiao Fan, Xuan Cheng, Xiaomin Wang, Chun Yang, Pan Deng, Minghui Liu, Jiali Deng, Ming Liu(参考訳) 近年,オンライン知識蒸留への関心が高まっている。 オンライン知識蒸留は、ワンステージとエンドツーエンドのトレーニング手法を採用し、複数のピアモデルの集約された中間予測を使用してトレーニングを行う。 しかし、強力な教師モデルがないことは、グループ仲間間の均質性の問題を引き起こし、グループ蒸留の有効性に悪影響を及ぼす可能性がある。 本稿では,オンライン知識蒸留のための新しいオンライン知識蒸留法である \textbf{c}hannel \textbf{s}elf-\textbf{s}upervision for online knowledge distillation (css)を提案する。 具体的には,デュアルネットワークのマルチブランチ構造を構築し,自己教師付き学習によるブランチ間多様性を高める。 一方、二重ネットワーク構造は蒸留時の均質化問題に抵抗する独立したパラメータの空間が大きい。 CIFAR-100の大規模定量実験により,本手法はOKDDipよりも多様性が高く,PCLのような最先端技術でも高い性能向上が得られた。 StanfordDogs,Stanfor dCars,CUB-200-211の3つの詳細なデータセットの結果も,我々のアプローチの大幅な一般化能力を示している。

Recently, researchers have shown an increased interest in the online knowledge distillation. Adopting an one-stage and end-to-end training fashion, online knowledge distillation uses aggregated intermediated predictions of multiple peer models for training. However, the absence of a powerful teacher model may result in the homogeneity problem between group peers, affecting the effectiveness of group distillation adversely. In this paper, we propose a novel online knowledge distillation method, \textbf{C}hannel \textbf{S}elf-\textbf{S}upervision for Online Knowledge Distillation (CSS), which structures diversity in terms of input, target, and network to alleviate the homogenization problem. Specifically, we construct a dual-network multi-branch structure and enhance inter-branch diversity through self-supervised learning, adopting the feature-level transformation and augmenting the corresponding labels. Meanwhile, the dual network structure has a larger space of independent parameters to resist the homogenization problem during distillation. Extensive quantitative experiments on CIFAR-100 illustrate that our method provides greater diversity than OKDDip and we also give pretty performance improvement, even over the state-of-the-art such as PCL. The results on three fine-grained datasets (StanfordDogs, StanfordCars, CUB-200-211) also show the significant generalization capability of our approach.
翻訳日:2022-03-23 14:13:24 公開日:2022-03-22
# 領域一般化と適応のための事前学習に関する広域研究

A Broad Study of Pre-training for Domain Generalization and Adaptation ( http://arxiv.org/abs/2203.11819v1 )

ライセンス: Link先を確認
Donghyun Kim, Kaihong Wang, Stan Sclaroff, Kate Saenko(参考訳) 深層モデルは、新しいドメインでうまく機能するために、堅牢で転送可能な表現を学ばなければならない。 ドメイン転送メソッド(ドメイン適応、ドメイン一般化など)はドメイン間で転送可能な表現を学ぶために提案されているが、通常はimagenetで事前トレーニングされたバックボーンに適用される。 したがって、既存の作業はドメイン転送タスクに対する事前トレーニングの影響にはほとんど注意を払わない。 本稿では,ネットワークアーキテクチャ,サイズ,事前学習損失,データセットなど,ドメイン適応と一般化のための事前学習に関する広範な研究と詳細な分析を行う。 最先端のバックボーンの使用は、既存の最先端のドメイン適応ベースラインを上回り、Office-HomeとDomainNetに新しいベースラインを10.7\%と5.5\%改善する。 この研究が今後のドメイン転送研究にさらなる洞察をもたらすことを願っています。

Deep models must learn robust and transferable representations in order to perform well on new domains. While domain transfer methods (e.g., domain adaptation, domain generalization) have been proposed to learn transferable representations across domains, they are typically applied to ResNet backbones pre-trained on ImageNet. Thus, existing works pay little attention to the effects of pre-training on domain transfer tasks. In this paper, we provide a broad study and in-depth analysis of pre-training for domain adaptation and generalization, namely: network architectures, size, pre-training loss, and datasets. We observe that simply using a state-of-the-art backbone outperforms existing state-of-the-art domain adaptation baselines and set new baselines on Office-Home and DomainNet improving by 10.7\% and 5.5\%. We hope that this work can provide more insights for future domain transfer research.
翻訳日:2022-03-23 14:13:00 公開日:2022-03-22
# 軌道予測のための変圧器ネットワークのフッド下

Under the Hood of Transformer Networks for Trajectory Forecasting ( http://arxiv.org/abs/2203.11878v1 )

ライセンス: Link先を確認
Luca Franco, Leonardo Placidi, Francesco Giuliari, Irtiza Hasan, Marco Cristani, Fabio Galasso(参考訳) トランスフォーマー・ネットワークは、トラジェクティブ・予測のためのデファクト・ステート・オブ・ザ・アーティファクトとしての地位を確立してきたが、現在、他の個人や社会的文脈と相互作用することなく、人々の動作パターンをモデル化する能力について体系的な研究は行われていない。 本稿では,鐘や笛を使わずに個人の動きを予測するためのトランスフォーマーネットワーク(TF)と双方向トランスフォーマー(BERT)の詳細な研究を提案する。 入力/出力表現,問題定式化,シーケンスモデリングの徹底的な評価を行い,マルチモーダル未来を予測する能力の新しい分析を行った。 ETH+UCYベンチマークの比較評価のうち、TFとBERTはいずれも個々の動作を予測する上でトップパフォーマーであり、確実にRNNとLSTMに勝っている。 さらに、社会的相互作用とシーンコンテキストの両方を含む、より複雑なテクニックの狭い範囲に留まっている。 ソースコードはすべての実験のためにリリースされる。

Transformer Networks have established themselves as the de-facto state-of-the-art for trajectory forecasting but there is currently no systematic study on their capability to model the motion patterns of people, without interactions with other individuals nor the social context. This paper proposes the first in-depth study of Transformer Networks (TF) and Bidirectional Transformers (BERT) for the forecasting of the individual motion of people, without bells and whistles. We conduct an exhaustive evaluation of input/output representations, problem formulations and sequence modeling, including a novel analysis of their capability to predict multi-modal futures. Out of comparative evaluation on the ETH+UCY benchmark, both TF and BERT are top performers in predicting individual motions, definitely overcoming RNNs and LSTMs. Furthermore, they remain within a narrow margin wrt more complex techniques, which include both social interactions and scene contexts. Source code will be released for all conducted experiments.
翻訳日:2022-03-23 14:12:41 公開日:2022-03-22
# 検出、認識、追跡:調査

Detection, Recognition, and Tracking: A Survey ( http://arxiv.org/abs/2203.11900v1 )

ライセンス: Link先を確認
Shiyao Chen and Dale Chen-Song(参考訳) 人間にとって、物体の検出、認識、追跡は生まれつきである。 これらは、人間が環境と環境内の物体を知覚する能力を提供する。 しかし、この能力はコンピュータではうまく翻訳できない。 コンピュータビジョンやマルチメディアでは、画像やビデオのオブジェクトを検出し、認識し、追跡することがますます重要になっている。 顔認識、監視、アニメーションなど、これらのアプリケーションの多くは、機能や人追跡に使われている。 しかし、これらのタスクは、大量のデータを解析する必要があるため、コンピュータが効果的に行うことが困難であることが証明されている。 したがって、多くの技術やアルゴリズムが必要であり、人間のような知覚を達成するために研究されている。 本稿では,物体の検出と認識に関する新しい手法と,物体の動きを追跡するために検出された特徴に追跡アルゴリズムを適用する方法について述べる。

For humans, object detection, recognition, and tracking are innate. These provide the ability for human to perceive their environment and objects within their environment. This ability however doesn't translate well in computers. In Computer Vision and Multimedia, it is becoming increasingly more important to detect, recognize and track objects in images and/or videos. Many of these applications, such as facial recognition, surveillance, animation, are used for tracking features and/or people. However, these tasks prove challenging for computers to do effectively, as there is a significant amount of data to parse through. Therefore, many techniques and algorithms are needed and therefore researched to try to achieve human like perception. In this literature review, we focus on some novel techniques on object detection and recognition, and how to apply tracking algorithms to the detected features to track the objects' movements.
翻訳日:2022-03-23 14:12:22 公開日:2022-03-22
# 4d-or: ドメインモデリングのためのセマンティックシーングラフ

4D-OR: Semantic Scene Graphs for OR Domain Modeling ( http://arxiv.org/abs/2203.11937v1 )

ライセンス: Link先を確認
Ege \"Ozsoy, Evin P{\i}nar \"Ornek, Ulrich Eck, Tobias Czempiel, Federico Tombari, Nassir Navab(参考訳) 手術手順は、異なるアクター、デバイス、相互作用からなる非常に複雑な手術室(OR)で行われる。 これまでのところ、医療訓練を受けた人間専門家だけが、このような厳しい環境の中で、すべてのリンクと相互作用を理解することができる。 本稿では、ORドメインの自動化、総合的、セマンティックな理解とモデリングにコミュニティを一歩近付けることを目的とする。 この目的に向けて, 外科的シーンを記述・要約するために, 意味的シーングラフ (ssg) を用いることを初めて提案する。 シーングラフのノードは、医療スタッフ、患者、医療機器など、部屋内のさまざまなアクターやオブジェクトを表していますが、エッジはそれらの関係です。 提案する表現の可能性を検証するため,6つのRGB-Dセンサで記録された人工膝置換手術をリアルなORシミュレーションセンターで行う4D-ORを作成した。 4D-ORは6734フレームを含み、SSG、ヒトおよびオブジェクトのポーズ、臨床的な役割に富んでいる。 本稿では,ニューラルネットワークを用いたSSG生成パイプラインを提案する。その成功率は0.75マクロF1であり,ORにおける意味論的推論を推測することができる。 さらに, 臨床的役割予測の問題に利用することにより, シーングラフの表現力を示し, 0.85マクロf1を達成した。 コードとデータセットは、受け入れ次第利用可能になる。

Surgical procedures are conducted in highly complex operating rooms (OR), comprising different actors, devices, and interactions. To date, only medically trained human experts are capable of understanding all the links and interactions in such a demanding environment. This paper aims to bring the community one step closer to automated, holistic and semantic understanding and modeling of OR domain. Towards this goal, for the first time, we propose using semantic scene graphs (SSG) to describe and summarize the surgical scene. The nodes of the scene graphs represent different actors and objects in the room, such as medical staff, patients, and medical equipment, whereas edges are the relationships between them. To validate the possibilities of the proposed representation, we create the first publicly available 4D surgical SSG dataset, 4D-OR, containing ten simulated total knee replacement surgeries recorded with six RGB-D sensors in a realistic OR simulation center. 4D-OR includes 6734 frames and is richly annotated with SSGs, human and object poses, and clinical roles. We propose an end-to-end neural network-based SSG generation pipeline, with a rate of success of 0.75 macro F1, indeed being able to infer semantic reasoning in the OR. We further demonstrate the representation power of our scene graphs by using it for the problem of clinical role prediction, where we achieve 0.85 macro F1. The code and dataset will be made available upon acceptance.
翻訳日:2022-03-23 14:12:11 公開日:2022-03-22
# (参考訳) Su-NLP at SemEval-2022 Task 11: Complex Named Entity Recognition with Entity Linking [全文訳有]

SU-NLP at SemEval-2022 Task 11: Complex Named Entity Recognition with Entity Linking ( http://arxiv.org/abs/2203.11841v1 )

ライセンス: CC BY 4.0
Buse \c{C}ar{\i}k, Fatih Beyhan and Reyyan Yeniterzi(参考訳) 本稿では,Sabanc{\i} University Natural Language Processing Groupが提案するSemEval-2022 MultiCoNERタスクについて述べる。 我々は、wikipediaの助けを借りて、潜在的なエンティティ参照を検出する教師なしのエンティティリンクパイプラインを開発し、それに対応するwikipediaコンテキストを使用して、その名前付きエンティティタイプを見つけるのに役立つようにしました。 その結果,低コンテキスト環境での複雑なエンティティでは,パイプラインの性能が大幅に向上した。

This paper describes the system proposed by Sabanc{\i} University Natural Language Processing Group in the SemEval-2022 MultiCoNER task. We developed an unsupervised entity linking pipeline that detects potential entity mentions with the help of Wikipedia and also uses the corresponding Wikipedia context to help the classifier in finding the named entity type of that mention. Our results showed that our pipeline improved performance significantly, especially for complex entities in low-context settings.
翻訳日:2022-03-23 14:09:52 公開日:2022-03-22
# 機械学習による静止年齢の高速・高信頼性評価の実現

Enabling faster and more reliable sonographic assessment of gestational age through machine learning ( http://arxiv.org/abs/2203.11903v1 )

ライセンス: Link先を確認
Chace Lee, Angelica Willis, Christina Chen, Marcin Sieniek, Akib Uddin, Jonny Wong, Rory Pilgrim, Katherine Chou, Daniel Tse, Shravya Shetty, Ryan G. Gomes(参考訳) 胎児超音波は出生前治療の不可欠な部分であり、妊娠年齢(GA)を推定するために用いられる。 妊娠中における適切な妊娠前ケアの提供と胎児成長障害などの合併症の特定には,正確なGA評価が重要である。 手動胎児計測(頭部,腹部,大腿骨)からのGAの導出は操作者に依存し,時間を要するため,標準的な生体計測画像を用いてGAを推定するために人工知能(AI)モデルを用いた研究が数多く行われているが,これらのAIシステムの精度と信頼性を広く採用するためには,依然として改善の余地がある。 GA推定を改善するために、プロバイダのワークフローに大きな変更を加えることなく、AIを活用して標準平面超音波画像と、静止画像がキャプチャされる前の標準ケアの一部として自動的に記録される5-10sビデオである「フライ・トゥ」超音波映像を解釈する。 我々は,標準平面画像を用いた画像モデル,フライトビデオを用いたビデオモデル,アンサンブルモデル(画像とビデオの組み合わせ)の3つのAIモデルを開発し,検証した。 3つとも、標準胎児バイオメトリに基づくga推定より統計的に優れており、404人の被験者からなるテストセットにおいて、臨床標準胎児バイオメトリ (-1.51$\pm$ 3.96日、95% ci [-1.9, -1.1]) と比較して、アンサンブルモデルは最低平均絶対誤差 (mae) である。 以上の結果より, GAでは小さかった胎児に対して, 標準バイオメトリよりも有意差が認められた。 我々のAIモデルは、訓練されたオペレーターに、測定取得に必要な時間とユーザの多様性を低減しつつ、高い精度でGAを推定する能力を持つ。

Fetal ultrasounds are an essential part of prenatal care and can be used to estimate gestational age (GA). Accurate GA assessment is important for providing appropriate prenatal care throughout pregnancy and identifying complications such as fetal growth disorders. Since derivation of GA from manual fetal biometry measurements (head, abdomen, femur) are operator-dependent and time-consuming, there have been a number of research efforts focused on using artificial intelligence (AI) models to estimate GA using standard biometry images, but there is still room to improve the accuracy and reliability of these AI systems for widescale adoption. To improve GA estimates, without significant change to provider workflows, we leverage AI to interpret standard plane ultrasound images as well as 'fly-to' ultrasound videos, which are 5-10s videos automatically recorded as part of the standard of care before the still image is captured. We developed and validated three AI models: an image model using standard plane images, a video model using fly-to videos, and an ensemble model (combining both image and video). All three were statistically superior to standard fetal biometry-based GA estimates derived by expert sonographers, the ensemble model has the lowest mean absolute error (MAE) compared to the clinical standard fetal biometry (mean difference: -1.51 $\pm$ 3.96 days, 95% CI [-1.9, -1.1]) on a test set that consisted of 404 participants. We showed that our models outperform standard biometry by a more substantial margin on fetuses that were small for GA. Our AI models have the potential to empower trained operators to estimate GA with higher accuracy while reducing the amount of time required and user variability in measurement acquisition.
翻訳日:2022-03-23 14:03:43 公開日:2022-03-22
# すべての車から学ぶ

Learning from All Vehicles ( http://arxiv.org/abs/2203.11934v1 )

ライセンス: Link先を確認
Dian Chen, Philipp Kr\"ahenb\"uhl(参考訳) 本稿では,エゴ車から収集した経験から,その観察するすべての車両から,運転方針を訓練するシステムを提案する。 このシステムは、他のエージェントの動作を利用して、追加のデータを集めることなく、より多様な運転シナリオを作成する。 他の車両から学ぶことの難しさは、センサー情報がないことである。 我々は,制御車両の観点で不変な中間表現を学習するために,一連の監督タスクを用いる。 これは訓練時によりリッチな信号を提供するだけでなく、推論中により複雑な推論を可能にする。 すべての車両の運転方法を学ぶことは、テスト時に行動を予測するのに役立ち、衝突を避けることができる。 本システムは閉ループ運転シミュレーションで評価する。 提案方式は,一般のcarlaリーダボードの従来の手法を大差で上回り,運転スコアを25点,経路完成率を24点改善した。 2021年のCARLA自動運転チャレンジで優勝した。 デモビデオはhttps://dotchen.gith ub.io/LAV/で公開されている。

In this paper, we present a system to train driving policies from experiences collected not just from the ego-vehicle, but all vehicles that it observes. This system uses the behaviors of other agents to create more diverse driving scenarios without collecting additional data. The main difficulty in learning from other vehicles is that there is no sensor information. We use a set of supervisory tasks to learn an intermediate representation that is invariant to the viewpoint of the controlling vehicle. This not only provides a richer signal at training time but also allows more complex reasoning during inference. Learning how all vehicles drive helps predict their behavior at test time and can avoid collisions. We evaluate this system in closed-loop driving simulations. Our system outperforms all prior methods on the public CARLA Leaderboard by a wide margin, improving driving score by 25 and route completion rate by 24 points. Our method won the 2021 CARLA Autonomous Driving challenge. Demo videos are available at https://dotchen.gith ub.io/LAV/.
翻訳日:2022-03-23 14:03:08 公開日:2022-03-22
# VLSP 2021共有タスク:ベトナムの機械読解システム

VLSP 2021 Shared Task: Vietnamese Machine Reading Comprehension ( http://arxiv.org/abs/2203.11400v1 )

ライセンス: Link先を確認
Kiet Van Nguyen, Son Quoc Tran, Luan Thanh Nguyen, Tin Van Huynh, Son T. Luu, Ngan Luu-Thuy Nguyen(参考訳) 自然言語理解における新たな研究トレンドの1つは、テキストデータに基づく人間の質問に対する答えを見つけるタスクである機械読解(mrc)である。 MRC研究のためのベトナムの既存のデータセットは、回答可能な質問にのみ焦点をあてている。 しかし、実際には、与えられたテキストデータで正しい答えが述べられないような質問は不可能である。 この弱点に対処するため、ベトナム語に対するMCCタスクと質問応答システムを評価するためのUIT-ViQuAD 2.0というベンチマークデータセットを研究コミュニティに提供する。 ベトナム語・音声処理に関する第8回ワークショップ(VLSP 2021)において,ベトナム MRC における共有タスクのベンチマークデータセットとして UIT-ViQuAD 2.0 を用いた。 この作業は、34の大学や他の組織から77の参加者チームを引き寄せた。 本稿では,共有タスクの組織の詳細,共有タスク参加者が使用するメソッドの概要,その結果について述べる。 最高性能は77.24%のemと67.43%のf1-scoreである。 上位3チームによって提案されたベトナムのMRCシステムは、トランスフォーマーアーキテクチャを使用した強力な事前訓練言語モデルであるXLM-RoBERTaを使用している。 UIT-ViQuAD 2.0データセットは、ベトナムの機械読解、質問応答、質問生成を研究するためのより多くの研究者を動機付けている。

One of the emerging research trends in natural language understanding is machine reading comprehension (MRC) which is the task to find answers to human questions based on textual data. Existing Vietnamese datasets for MRC research concentrate solely on answerable questions. However, in reality, questions can be unanswerable for which the correct answer is not stated in the given textual data. To address the weakness, we provide the research community with a benchmark dataset named UIT-ViQuAD 2.0 for evaluating the MRC task and question answering systems for the Vietnamese language. We use UIT-ViQuAD 2.0 as a benchmark dataset for the shared task on Vietnamese MRC at the Eighth Workshop on Vietnamese Language and Speech Processing (VLSP 2021). This task attracted 77 participant teams from 34 universities and other organizations. In this article, we present details of the organization of the shared task, an overview of the methods employed by shared-task participants, and the results. The highest performances are 77.24% EM and 67.43% F1-score on the private test set. The Vietnamese MRC systems proposed by the top 3 teams use XLM-RoBERTa, a powerful pre-trained language model using the transformer architecture. The UIT-ViQuAD 2.0 dataset motivates more researchers to explore Vietnamese machine reading comprehension, question answering, and question generation.
翻訳日:2022-03-23 14:02:19 公開日:2022-03-22
# 事前学習型言語モデルのためのタスク誘導型アンタングル型チューニング

Task-guided Disentangled Tuning for Pretrained Language Models ( http://arxiv.org/abs/2203.11431v1 )

ライセンス: Link先を確認
Jiali Zeng, Yufan Jiang, Shuangzhi Wu, Yongjing Yin, Mu Li(参考訳) 大規模未ラベルコーパスでトレーニングされた事前学習言語モデル(PLM)は、通常、タスク固有の下流データセットに基づいて微調整される。 しかし、ドメインとスケールにおけるデータの相違は、微調整が特に低いデータ構造において、タスク固有のパターンを効率的に捉えるのに失敗する。 この問題に対処するため, PLM のタスク誘導型非絡み付きチューニング (TDT) を提案し, 絡み合った表現からタスク関連信号をアンタングルすることで表現の一般化を促進する。 与えられたタスクに対して,文脈からの指示的指示を検出するための学習可能な信頼モデルを導入し,さらに,過度に依存する問題を緩和するための不連続正則化を提案する。 GLUE と CLUE のベンチマークによる実験結果から,TDT は異なる PLM を用いた微調整よりも一貫した結果が得られることが示された。 コードはhttps://github.com/l emon0830/TDTで入手できる。

Pretrained language models (PLMs) trained on large-scale unlabeled corpus are typically fine-tuned on task-specific downstream datasets, which have produced state-of-the-art results on various NLP tasks. However, the data discrepancy issue in domain and scale makes fine-tuning fail to efficiently capture task-specific patterns, especially in the low data regime. To address this issue, we propose Task-guided Disentangled Tuning (TDT) for PLMs, which enhances the generalization of representations by disentangling task-relevant signals from the entangled representations. For a given task, we introduce a learnable confidence model to detect indicative guidance from context, and further propose a disentangled regularization to mitigate the over-reliance problem. Experimental results on GLUE and CLUE benchmarks show that TDT gives consistently better results than fine-tuning with different PLMs, and extensive analysis demonstrates the effectiveness and robustness of our method. Code is available at https://github.com/l emon0830/TDT.
翻訳日:2022-03-23 14:01:58 公開日:2022-03-22
# 言語分野データ管理・分析システムのデモ --ライフ-

Demo of the Linguistic Field Data Management and Analysis System -- LiFE ( http://arxiv.org/abs/2203.11443v1 )

ライセンス: Link先を確認
Siddharth Singh and Ritesh Kumar and Shyam Ratan and Sonal Sinha(参考訳) 提案するデモでは、新しいソフトウェアであるlanguageal field data management and analysis system - life(https://github. com/kmi-linguistics/ life)を紹介する。これはオープンソースの言語データ管理および分析アプリケーションで、現場から収集された言語データの体系的な保存、管理、共有、利用を可能にする。 このアプリケーションでは、語彙項目、文、段落、豊富な光沢やアノテーションを備えた視聴覚コンテンツ、インタラクティブで印刷された辞書の生成、そして、このデータを使用して様々な目的のために自然言語処理ツールやモデルをトレーニングおよび利用することができる。 Webベースのアプリケーションなので、複数の人とのシームレスなコラボレーションや、データやモデルなどを共有することもできる。 このシステムはPythonベースのFraskフレームワークとバックエンドのMongoDB、フロントエンドのHTML、CSS、JavaScriptを使用している。 インターフェースにより、他のユーザと共有できる複数のプロジェクトを作成することができる。 バックエンドでは、アプリケーションはデータをrdf形式で保存し、セマンティックweb技術を使用してweb上のリンクデータとしてリリースできるようにします - 現時点では、辞書データを格納するためのonlex-lemonと、インターリニアな光沢テキストを格納し、dbpediaやwordnetなどの他のリンクされたレキシコンやデータベースに内部リンクするligtを使っています。 Furthermore it provides support for training the NLP systems using scikit-learn and HuggingFace Transformers libraries as well as make use of any model trained using these libraries - while the user interface itself provides limited options for tuning the system, an externally-trained model could be easily incorporated within the application; similarly the dataset itself could be easily exported into a standard machine-readable format like JSON or CSV that could be consumed by other programs and pipelines.

In the proposed demo, we will present a new software - Linguistic Field Data Management and Analysis System - LiFE (https://github.com/ kmi-linguistics/life ) - an open-source, web-based linguistic data management and analysis application that allows for systematic storage, management, sharing and usage of linguistic data collected from the field. The application allows users to store lexical items, sentences, paragraphs, audio-visual content with rich glossing / annotation; generate interactive and print dictionaries; and also train and use natural language processing tools and models for various purposes using this data. Since its a web-based application, it also allows for seamless collaboration among multiple persons and sharing the data, models, etc with each other. The system uses the Python-based Flask framework and MongoDB in the backend and HTML, CSS and Javascript at the frontend. The interface allows creation of multiple projects that could be shared with the other users. At the backend, the application stores the data in RDF format so as to allow its release as Linked Data over the web using semantic web technologies - as of now it makes use of the OntoLex-Lemon for storing the lexical data and Ligt for storing the interlinear glossed text and then internally linking it to the other linked lexicons and databases such as DBpedia and WordNet. Furthermore it provides support for training the NLP systems using scikit-learn and HuggingFace Transformers libraries as well as make use of any model trained using these libraries - while the user interface itself provides limited options for tuning the system, an externally-trained model could be easily incorporated within the application; similarly the dataset itself could be easily exported into a standard machine-readable format like JSON or CSV that could be consumed by other programs and pipelines.
翻訳日:2022-03-23 14:01:39 公開日:2022-03-22
# トランスフォーマーを用いた感情検出のためのアンサンブル

Transformer based ensemble for emotion detection ( http://arxiv.org/abs/2203.11899v1 )

ライセンス: Link先を確認
Aditya Kane, Shantanu Patankar, Sahil Khose, Neeraja Kirtane(参考訳) 言語における感情の検出は、人間と機械の完全な相互作用を達成するために重要である。 本稿では,この感情検出の重要なタスクを扱うWASSA 2022共有タスクへの貢献について述べる。 悲しみ、驚き、中立、怒り、恐怖、嫌悪、喜びといった感情は、与えられたエッセイのテキストに基づいて識別する必要があります。 ELECTRAとBERTモデルのアンサンブルを使用してこの問題に対処し、F1スコア62.76%を達成した。 私たちのコードベース(https://bit.ly/WASS A_shared_task)とWandBプロジェクト(https://wandb.ai/ac l_wassa_pictxmanipal /acl_wassa)が利用可能です。

Detecting emotions in languages is important to accomplish a complete interaction between humans and machines. This paper describes our contribution to the WASSA 2022 shared task which handles this crucial task of emotion detection. We have to identify the following emotions: sadness, surprise, neutral, anger, fear, disgust, joy based on a given essay text. We are using an ensemble of ELECTRA and BERT models to tackle this problem achieving an F1 score of 62.76%. Our codebase (https://bit.ly/WASS A_shared_task) and our WandB project (https://wandb.ai/ac l_wassa_pictxmanipal /acl_wassa) is available.
翻訳日:2022-03-23 13:59:46 公開日:2022-03-22
# スタンフォード大学のドローンデータセットは、想像以上に複雑だ: 重要な特徴の分析

The Stanford Drone Dataset is More Complex than We Think: An Analysis of Key Characteristics ( http://arxiv.org/abs/2203.11743v1 )

ライセンス: Link先を確認
Joshua Andle, Nicholas Soucy, Simon Socolow, Salimeh Yasaei Sekeh(参考訳) 個人軌跡の注釈付き情報を含むいくつかのデータセットが存在する。 このようなデータセットは、軌道予測や自律ナビゲーションなど、多くの現実世界のアプリケーションにとって不可欠である。 現在使用されている注目すべきデータセットは、Stanford Drone Dataset (SDD)である。 しかし,このデータセットの特徴に関する議論は不十分である。 この不便さがユーザに提供する情報を減らし,パフォーマンスに与える影響を実証する。 コントリビューションには、SDDの重要な特徴の概要、これらの特徴を明確に視覚化するための情報理論測度とカスタムメトリックの使用、予測性能に対する特徴の概略的影響を示すPECNetとY-Net軌道予測モデルの実装、最後にSDDとIntersection Drone(inD)データセットの比較などが含まれる。 利用可能なデータセットに関する十分な情報がなければ、ユーザがそれぞれのメソッドに最も適したデータセットを選択し、お互いの結果を再現し、自身の結果を解釈する能力が妨げられるため、SDDの重要な特徴について分析することが重要である。 この分析によって得られた観察は、SDDの使用を計画する人々にとって、容易にアクセス可能で解釈可能な情報ソースを提供する。 当社の意図は、今後このデータセットに適用されるメソッドのパフォーマンスと再現性を高めると同時に、新規ユーザのためのデータセットの明確な特徴を明確化することにあります。

Several datasets exist which contain annotated information of individuals' trajectories. Such datasets are vital for many real-world applications, including trajectory prediction and autonomous navigation. One prominent dataset currently in use is the Stanford Drone Dataset (SDD). Despite its prominence, discussion surrounding the characteristics of this dataset is insufficient. We demonstrate how this insufficiency reduces the information available to users and can impact performance. Our contributions include the outlining of key characteristics in the SDD, employment of an information-theoreti c measure and custom metric to clearly visualize those characteristics, the implementation of the PECNet and Y-Net trajectory prediction models to demonstrate the outlined characteristics' ; impact on predictive performance, and lastly we provide a comparison between the SDD and Intersection Drone (inD) Dataset. Our analysis of the SDD's key characteristics is important because without adequate information about available datasets a user's ability to select the most suitable dataset for their methods, to reproduce one another's results, and to interpret their own results are hindered. The observations we make through this analysis provide a readily accessible and interpretable source of information for those planning to use the SDD. Our intention is to increase the performance and reproducibility of methods applied to this dataset going forward, while also clearly detailing less obvious features of the dataset for new users.
翻訳日:2022-03-23 13:59:28 公開日:2022-03-22
# 一番弱い者からでも何が学べる? プログラム戦略のためのスケッチの学習

What can we Learn Even From the Weakest? Learning Sketches for Programmatic Strategies ( http://arxiv.org/abs/2203.11912v1 )

ライセンス: Link先を確認
Leandro C. Medeiros, David S. Aleixo, and Levi H. S. Lelis(参考訳) 本稿では,プログラム戦略の効果的なスケッチを学習するために,行動クローニングが利用できることを示す。 弱いプレイヤーの行動のクローン化によって学んだスケッチでさえ、プログラム戦略の合成に役立つことを示す。 これは、弱いプレイヤーでさえ、例えばプレイヤーがゲームのターンでアクションを選択するなど、有益な情報を提供することができるためである。 動作的クローンが採用されない場合、シンセサイザーは、計算コストのかかるゲームをすることで、最も基本的な情報さえも学習する必要がある。 シミュレーションアニーリングとUTTシンセサイザーを用いたスケッチ学習手法の利点を実証的に実証した。 我々は,Can't StopとMicroRTSのゲームにおけるシンセサイザーの評価を行った。 スケッチベースのシンセサイザーは、オリジナルのものよりも強力なプログラム戦略を学ぶことができる。 我々のシンセサイザーは、ゲームの伝統的なプログラム戦略を破るCan't Stopの戦略を生成する。 彼らはまた、最新のMicroRTSコンペティションから最高のパフォーマンスメソッドを倒す戦略を合成する。

In this paper we show that behavioral cloning can be used to learn effective sketches of programmatic strategies. We show that even the sketches learned by cloning the behavior of weak players can help the synthesis of programmatic strategies. This is because even weak players can provide helpful information, e.g., that a player must choose an action in their turn of the game. If behavioral cloning is not employed, the synthesizer needs to learn even the most basic information by playing the game, which can be computationally expensive. We demonstrate empirically the advantages of our sketch-learning approach with simulated annealing and UCT synthesizers. We evaluate our synthesizers in the games of Can't Stop and MicroRTS. The sketch-based synthesizers are able to learn stronger programmatic strategies than their original counterparts. Our synthesizers generate strategies of Can't Stop that defeat a traditional programmatic strategy for the game. They also synthesize strategies that defeat the best performing method from the latest MicroRTS competition.
翻訳日:2022-03-23 13:59:07 公開日:2022-03-22
# マルチモーダル変分推論による自己教師付き表現学習

Self-Supervised Representation Learning as Multimodal Variational Inference ( http://arxiv.org/abs/2203.11437v1 )

ライセンス: Link先を確認
Hiroki Nakamura, Masashi Okada and Tadahiro Taniguchi(参考訳) 本稿では,最近の自己教師付き学習(SSL)手法であるSimSiamの確率的拡張を提案する。 SimSiamは、同じ画像の異なる拡張ビューのイメージ表現の類似性を最大化することによってモデルをトレーニングする。 不確実性を認識した機械学習は、深いばらつき推論のように一般的なものになっているが、SimSiamや他のSSLは不確実性を認識しているため、その可能性の制限につながる可能性がある。 提案する拡張は、変分推論に基づくシムシムの不確実性を認識することである。 まず,非contrastive sslとマルチモーダル変分推論の理論的関係を明らかにする。 第2に、球面後部分布を含む不確実性を含む変分推論SimSiam(VI-SimSiam)と呼ばれる新しいSSLを導入する。 実験の結果, 画像Nette と ImageWoof の分類作業において, VI-SimSiam がSimSiam より優れており, 表現の不確実性の推定に成功していることがわかった。

This paper proposes a probabilistic extension of SimSiam, a recent self-supervised learning (SSL) method. SimSiam trains a model by maximizing the similarity between image representations of different augmented views of the same image. Although uncertainty-aware machine learning has been getting general like deep variational inference, SimSiam and other SSL are insufficiently uncertainty-aware, which could lead to limitations on its potential. The proposed extension is to make SimSiam uncertainty-aware based on variational inference. Our main contributions are twofold: Firstly, we clarify the theoretical relationship between non-contrastive SSL and multimodal variational inference. Secondly, we introduce a novel SSL called variational inference SimSiam (VI-SimSiam), which incorporates the uncertainty by involving spherical posterior distributions. Our experiment shows that VI-SimSiam outperforms SimSiam in classification tasks in ImageNette and ImageWoof by successfully estimating the representation uncertainty.
翻訳日:2022-03-23 13:58:15 公開日:2022-03-22
# ビデオオブジェクトセグメンテーションのためのスケーラブルトランスフォーマーとオブジェクトを関連付ける

Associating Objects with Scalable Transformers for Video Object Segmentation ( http://arxiv.org/abs/2203.11442v1 )

ライセンス: Link先を確認
Zongxin Yang, Jiaxu Miao, Xiaohan Wang, Yunchao Wei, Yi Yang(参考訳) 本稿では,マルチオブジェクトシナリオに挑戦しながら,半教師付き映像オブジェクトセグメンテーションに取り組むための,より良く効率的な組込み学習を実現する方法について検討する。 最先端のメソッドは、1つの正のオブジェクトで機能をデコードし、複数のオブジェクトのシナリオで各ターゲットをマッチして分割し、複数の計算リソースを消費する。 そこで本研究では,複数のオブジェクトを協調的かつ協調的にマッチング・復号するAssociating Objects with Transformers (AOT)アプローチを提案する。 詳しくは、aotは複数のターゲットを同一の高次元埋め込み空間に関連付ける識別機構を採用している。 したがって、複数のオブジェクトのマッチングとセグメンテーションデコーディングを同時に処理できると同時に、単一のオブジェクトを処理できる。 多目的アソシエーションを十分にモデル化するために、Long Short-Term Transformer (LSTT) を考案し、階層的マッチングと伝播を構築する。 aotに基づいて、より柔軟でロバストなフレームワークを提案し、スケーラブルなlsttのバージョンが精度と効率のトレードオフをランタイムに適応できるように設計されているスケーラブルなトランスフォーマー(aost)とオブジェクトを関連付ける。 さらにaostは、識別と視覚埋め込みを結合する、より優れたレイヤ指向の方法も導入している。 我々は、AOTシリーズのフレームワークを調べるために、マルチオブジェクトとシングルオブジェクトのベンチマークに関する広範な実験を行う。 最先端の競合と比較すると,本手法は実行時の効率を向上し,性能を向上することができる。 特に、YouTube-VOS (86.5%)、DAVIS 2017 Val/Test (87.0%/84.7%)、DAVIS 2016 (93.0%)の3つの人気のあるベンチマークで、最先端のパフォーマンスを実現しています。 プロジェクトページ: https://github.com/z -x-yang/AOT.com

This paper investigates how to realize better and more efficient embedding learning to tackle the semi-supervised video object segmentation under challenging multi-object scenarios. The state-of-the-art methods learn to decode features with a single positive object and thus have to match and segment each target separately under multi-object scenarios, consuming multiple times computation resources. To solve the problem, we propose an Associating Objects with Transformers (AOT) approach to match and decode multiple objects jointly and collaboratively. In detail, AOT employs an identification mechanism to associate multiple targets into the same high-dimensional embedding space. Thus, we can simultaneously process multiple objects' matching and segmentation decoding as efficiently as processing a single object. To sufficiently model multi-object association, a Long Short-Term Transformer (LSTT) is devised to construct hierarchical matching and propagation. Based on AOT, we further propose a more flexible and robust framework, Associating Objects with Scalable Transformers (AOST), in which a scalable version of LSTT is designed to enable run-time adaptation of accuracy-efficiency trade-offs. Besides, AOST introduces a better layer-wise manner to couple identification and vision embeddings. We conduct extensive experiments on multi-object and single-object benchmarks to examine AOT series frameworks. Compared to the state-of-the-art competitors, our methods can maintain times of run-time efficiency with superior performance. Notably, we achieve new state-of-the-art performance on three popular benchmarks, i.e., YouTube-VOS (86.5%), DAVIS 2017 Val/Test (87.0%/84.7%), and DAVIS 2016 (93.0%). Project page: https://github.com/z -x-yang/AOT.
翻訳日:2022-03-23 13:56:47 公開日:2022-03-22
# 衛星モデル訓練・校正・試験のためのUAV画像の操作

Manipulating UAV Imagery for Satellite Model Training, Calibration and Testing ( http://arxiv.org/abs/2203.11447v1 )

ライセンス: Link先を確認
Jasper Brown, Cameron Clark, Sabrina Lomax, Khalid Rafique, Salah Sukkarieh(参考訳) 現代の家畜農業はますますデータ駆動化が進んでおり、広範囲にわたるデータ収集に効率的なリモートセンシングを頻繁に使っている。 高解像度衛星画像はそのようなデータソースの1つであり、カバー範囲が増加しコストが低下するにつれて、農家がアクセスしやすくなっている。 このような画像は、動物の検出と追跡、牧草の変化の監視、土地利用の理解に利用できる。 これらのタスクに適用されるデータ駆動モデルの多くは、衛星が提供できる以上の解像度で地上の真実性を必要とする。 同時に、牧草地の動きなど、数日から数週間にわたって起こる農地の変化に焦点を当てた航空画像が不足している。 この目標を念頭に、衛星データの品質に合わせるために人工的に劣化した高解像度UAV画像のマルチ時間データセットを提案する。 経験的なぼやけた計量は、地域の実際の衛星画像に対する劣化過程を校正するために用いられる。 UAV調査は数週間にわたって、特定の農場で繰り返し行われた。 この5cm/ピクセルデータは、真理の牛の位置を正確に把握するのに十分な解像度である。 33回のUAV調査から、1869個のパッチを抽出し、正確な衛星光学モデルを用いて人工衛星データをシミュレートした。 複数期間の地理的パッチは、セットとして整列され、ファームの変更を検出するために使用できる、複数時間データセットを提供する。 地理参照画像と27,853個の手作業による牛のラベルが公開されている。

Modern livestock farming is increasingly data driven and frequently relies on efficient remote sensing to gather data over wide areas. High resolution satellite imagery is one such data source, which is becoming more accessible for farmers as coverage increases and cost falls. Such images can be used to detect and track animals, monitor pasture changes, and understand land use. Many of the data driven models being applied to these tasks require ground truthing at resolutions higher than satellites can provide. Simultaneously, there is a lack of available aerial imagery focused on farmland changes that occur over days or weeks, such as herd movement. With this goal in mind, we present a new multi-temporal dataset of high resolution UAV imagery which is artificially degraded to match satellite data quality. An empirical blurring metric is used to calibrate the degradation process against actual satellite imagery of the area. UAV surveys were flown repeatedly over several weeks, for specific farm locations. This 5cm/pixel data is sufficiently high resolution to accurately ground truth cattle locations, and other factors such as grass cover. From 33 wide area UAV surveys, 1869 patches were extracted and artificially degraded using an accurate satellite optical model to simulate satellite data. Geographic patches from multiple time periods are aligned and presented as sets, providing a multi-temporal dataset that can be used for detecting changes on farms. The geo-referenced images and 27,853 manually annotated cattle labels are made publicly available.
翻訳日:2022-03-23 13:56:15 公開日:2022-03-22
# ファイングラインドドメインのゼロショット理解におけるテクスチャの活用

Leveraging Textures in Zero-shot Understanding of Fine-Grained Domains ( http://arxiv.org/abs/2203.11449v1 )

ライセンス: Link先を確認
Chenyun Wu and Subhransu Maji(参考訳) テクスチャは、広範囲のきめ細かいドメインにおけるオブジェクトの出現を記述するのに用いられる。 テクスチャはローカライズされ、しばしばオブジェクトのアイデンティティとは独立な方法でそれらのプロパティを参照することができる。 さらに、その色、パターン、構造、周期性、確率性などの特性に対応するテクスチャを記述するための豊富な語彙が存在する。 そこで本研究では,大規模言語と視覚モデル(例えばCLIP)による自然画像のテクスチャ特性の認識の有効性について検討する。 筆者らはまず,CLIPをテクスチャデータセット上で体系的に研究し,幅広いテクスチャ用語に好適なカバレッジがあることを見出した。 CLIPは、色とパターンの用語(赤い点や黄色のストライプなど)からなる構成句も扱うことができる。 次に、これらの属性が既存のデータセットに対してゼロショットのきめ細かな分類を可能にする方法を示す。

Textures can be used to describe the appearance of objects in a wide range of fine-grained domains. Textures are localized and one can often refer to their properties in a manner that is independent of the object identity. Moreover, there is a rich vocabulary to describe textures corresponding to properties such as their color, pattern, structure, periodicity, stochasticity, and others. Motivated by this, we study the effectiveness of large-scale language and vision models (e.g., CLIP) at recognizing texture attributes in natural images. We first conduct a systematic study of CLIP on texture datasets where we find that it has good coverage for a wide range of texture terms. CLIP can also handle compositional phrases that consist of color and pattern terms (e.g., red dots or yellow stripes). We then show how these attributes allow for zero-shot fine-grained categorization on existing datasets.
翻訳日:2022-03-23 13:55:54 公開日:2022-03-22
# ray3d: 単眼的絶対3次元位置推定のためのレイベース3次元人物ポーズ推定

Ray3D: ray-based 3D human pose estimation for monocular absolute 3D localization ( http://arxiv.org/abs/2203.11471v1 )

ライセンス: Link先を確認
Yu Zhan, Fenghai Li, Renliang Weng, Wongun Choi(参考訳) 本稿では,キャリブレーションカメラを用いた,新しい単眼線ベース3d (ray3d) 絶対人間のポーズ推定法を提案する。 単眼2次元ポーズ入力からの高精度で一般化可能な絶対3次元ポーズ推定は不適切な問題である。 この課題に対処するために、入力をピクセル空間から3d正規化線に変換する。 この変換は、カメラ固有のパラメータの変更に対して、我々のアプローチを堅牢にする。 カメラ外在パラメータのバリエーションに対処するため、Ray3Dはカメラ外在パラメータを入力として用いて、3Dポーズ線とカメラ外在パラメータの分布を共同でモデル化する。 この新しいネットワーク設計は、Ray3Dアプローチの卓越した一般化の鍵となる。 カメラ内外パラメータ変動が絶対3次元キーポイント位置決めの精度に与える影響を包括的に理解するために,3人の個人3次元ベンチマークと1つの合成ベンチマークについて詳細な系統的実験を行った。 これらの実験により,本手法が既存の最先端モデルを大きく上回ることを示した。 私たちのコードと合成データセットは、https://github.com/y xzhxn/ray3dで利用可能です。

In this paper, we propose a novel monocular ray-based 3D (Ray3D) absolute human pose estimation with calibrated camera. Accurate and generalizable absolute 3D human pose estimation from monocular 2D pose input is an ill-posed problem. To address this challenge, we convert the input from pixel space to 3D normalized rays. This conversion makes our approach robust to camera intrinsic parameter changes. To deal with the in-the-wild camera extrinsic parameter variations, Ray3D explicitly takes the camera extrinsic parameters as an input and jointly models the distribution between the 3D pose rays and camera extrinsic parameters. This novel network design is the key to the outstanding generalizability of Ray3D approach. To have a comprehensive understanding of how the camera intrinsic and extrinsic parameter variations affect the accuracy of absolute 3D key-point localization, we conduct in-depth systematic experiments on three single person 3D benchmarks as well as one synthetic benchmark. These experiments demonstrate that our method significantly outperforms existing state-of-the-art models. Our code and the synthetic dataset are available at https://github.com/Y xZhxn/Ray3D .
翻訳日:2022-03-23 13:55:39 公開日:2022-03-22
# 適応相関を考慮したカスケードリカレントネットワークによる実用的なステレオマッチング

Practical Stereo Matching via Cascaded Recurrent Network with Adaptive Correlation ( http://arxiv.org/abs/2203.11483v1 )

ライセンス: Link先を確認
Jiankun Li, Peisen Wang, Pengfei Xiong, Tao Cai, Ziwei Yan, Lei Yang, Jiangyu Liu, Haoqiang Fan, Shuaicheng Liu(参考訳) 畳み込みニューラルネットワークの出現により、ステレオマッチングアルゴリズムは近年、大きな進歩を遂げている。 しかし、細い構造、非理想的整合性、カメラモジュールの不整合、さまざまなハードケースシーンなど、現実的な複雑な要素のために、スマートフォンのようなコンシューマレベルのデバイスから、現実のイメージペアを正確に抽出することは依然として大きな課題である。 本稿では,実用的なステレオマッチングの問題に対処する革新的な設計法を提案する。 1) より詳細な詳細を回復するために, 粗大な方法で不一致を更新する再帰的な改良を施した階層型ネットワークを設計し, 推論のためのカスケードアーキテクチャを積み重ねた。 2) 誤算の影響を軽減するために, 適応群相関層を提案する。 3) 現実のシーンをより一般化するために, 難解ケースに特に注目する新しい合成データセットを導入する。 私たちの結果は、MiddleburyベンチマークとETH3Dベンチマークの両方で第1位にランクされ、既存の最先端の手法よりも顕著なマージンで優れています。

With the advent of convolutional neural networks, stereo matching algorithms have recently gained tremendous progress. However, it remains a great challenge to accurately extract disparities from real-world image pairs taken by consumer-level devices like smartphones, due to practical complicating factors such as thin structures, non-ideal rectification, camera module inconsistencies and various hard-case scenes. In this paper, we propose a set of innovative designs to tackle the problem of practical stereo matching: 1) to better recover fine depth details, we design a hierarchical network with recurrent refinement to update disparities in a coarse-to-fine manner, as well as a stacked cascaded architecture for inference; 2) we propose an adaptive group correlation layer to mitigate the impact of erroneous rectification; 3) we introduce a new synthetic dataset with special attention to difficult cases for better generalizing to real-world scenes. Our results not only rank 1st on both Middlebury and ETH3D benchmarks, outperforming existing state-of-the-art methods by a notable margin, but also exhibit high-quality details for real-life photos, which clearly demonstrates the efficacy of our contributions.
翻訳日:2022-03-23 13:55:21 公開日:2022-03-22
# SSD-KD:皮膚画像を用いた軽量皮膚病変分類のための自己教師付き逆知識蒸留法

SSD-KD: A Self-supervised Diverse Knowledge Distillation Method for Lightweight Skin Lesion Classification Using Dermoscopic Images ( http://arxiv.org/abs/2203.11490v1 )

ライセンス: Link先を確認
Yongwei Wang, Yuheng Wang, Tim K. Lee, Chunyan Miao, Z. Jane Wang(参考訳) 皮膚がんは最も一般的な悪性腫瘍の1つであり、人口に影響を与え、世界中で経済的な重荷を負っている。 ここ数年、人工知能の進歩により、コンピュータ支援診断が急速に発展し、医療や医療において大きな進歩を遂げてきた。 しかし, 皮膚がん検出におけるほとんどの研究は, 携帯機器の計算資源の制限を考慮せずに, 高い予測精度を追求している。 この場合、知識蒸留(KD)は限られた資源下での軽量モデルの適応性を向上し、高いレベルの表現能力を保ちながら、効率的なツールとして証明されている。 このギャップを埋めるために、本研究では、多様な知識を皮膚疾患分類のための一般的なKDフレームワークに統合する、SSD-KDと呼ばれる新しい手法を提案する。 提案手法は,既存のKD研究と統合したインスタンス内関係特徴表現をモデル化する。 双対関係知識蒸留アーキテクチャは自己指導型であり、加重軟化出力も活用され、学生モデルが教師モデルからより豊かな知識を捉えることができる。 本手法の有効性を実証するため,ISIC 2019において皮膚疾患皮膚画像の大規模オープンアクセスベンチマーク実験を行った。 実験の結果, 蒸留軽量モデルは8種類の皮膚疾患の分類タスクにおいて, 最小パラメータと計算要件で最大85%の精度が得られることがわかった。 アブレーション研究は,インスタンス内およびインタースタンス間リレーショナル知識統合戦略の有効性を確認した。 提案手法は,最新の知識蒸留技術と比較し,大規模皮膚内視鏡データベースを用いたマルチディセーゼ分類の性能向上を実証する。

Skin cancer is one of the most common types of malignancy, affecting a large population and causing a heavy economic burden worldwide. Over the last few years, computer-aided diagnosis has been rapidly developed and make great progress in healthcare and medical practices due to the advances in artificial intelligence. However, most studies in skin cancer detection keep pursuing high prediction accuracies without considering the limitation of computing resources on portable devices. In this case, knowledge distillation (KD) has been proven as an efficient tool to help improve the adaptability of lightweight models under limited resources, meanwhile keeping a high-level representation capability. To bridge the gap, this study specifically proposes a novel method, termed SSD-KD, that unifies diverse knowledge into a generic KD framework for skin diseases classification. Our method models an intra-instance relational feature representation and integrates it with existing KD research. A dual relational knowledge distillation architecture is self-supervisedly trained while the weighted softened outputs are also exploited to enable the student model to capture richer knowledge from the teacher model. To demonstrate the effectiveness of our method, we conduct experiments on ISIC 2019, a large-scale open-accessed benchmark of skin diseases dermoscopic images. Experiments show that our distilled lightweight model can achieve an accuracy as high as 85% for the classification tasks of 8 different skin diseases with minimal parameters and computing requirements. Ablation studies confirm the effectiveness of our intra- and inter-instance relational knowledge integration strategy. Compared with state-of-the-art knowledge distillation techniques, the proposed method demonstrates improved performances for multi-diseases classification on the large-scale dermoscopy database.
翻訳日:2022-03-23 13:54:58 公開日:2022-03-22
# トランスフォーマーを用いた3次元物体検出のためのロバストlidarカメラ融合

TransFusion: Robust LiDAR-Camera Fusion for 3D Object Detection with Transformers ( http://arxiv.org/abs/2203.11496v1 )

ライセンス: Link先を確認
Xuyang Bai, Zeyu Hu, Xinge Zhu, Qingqiu Huang, Yilun Chen, Hongbo Fu, Chiew-Lan Tai(参考訳) LiDARとカメラは、自動運転における3Dオブジェクト検出のための2つの重要なセンサーである。 この分野でのセンサフュージョンの人気は高まっているが、劣等な画像条件(例えば、悪い照明やセンサーの誤認)に対する堅牢性は過小評価されている。 既存の融合法は, キャリブレーション行列によって確立されたLiDAR点と画像画素のハードな関連により, このような条件で容易に影響を受ける。 そこで本研究では,LiDAR-カメラ融合に対するソフトアソシエーション機構による堅牢な解であるTransFusionを提案する。 具体的には、TransFusionは、畳み込みバックボーンと、トランスフォーマーデコーダに基づく検出ヘッドで構成される。 デコーダの第1層は、オブジェクトクエリのスパースセットを使用して、lidarポイントクラウドから初期バウンディングボックスを予測し、第2のデコーダ層は、空間的および文脈的な関係を利用して、オブジェクトクエリと有用な画像特徴を適応的に融合する。 トランスの注意機構により,画像からどの情報を取り出すべきかを適応的に決定し,ロバストで効果的な融合戦略を実現する。 さらに,ポイントクラウドでは検出が難しいオブジェクトを扱うために,画像誘導クエリ初期化戦略も設計した。 TransFusionは大規模データセット上で最先端のパフォーマンスを実現する。 画像品質劣化と校正誤差に対するロバスト性を示すため,広範な実験を行った。 また,提案手法を3次元追跡タスクに拡張し,nuscenes追跡のリーダボードにおいて,その効果と一般化能力を示す第1位を達成する。

LiDAR and camera are two important sensors for 3D object detection in autonomous driving. Despite the increasing popularity of sensor fusion in this field, the robustness against inferior image conditions, e.g., bad illumination and sensor misalignment, is under-explored. Existing fusion methods are easily affected by such conditions, mainly due to a hard association of LiDAR points and image pixels, established by calibration matrices. We propose TransFusion, a robust solution to LiDAR-camera fusion with a soft-association mechanism to handle inferior image conditions. Specifically, our TransFusion consists of convolutional backbones and a detection head based on a transformer decoder. The first layer of the decoder predicts initial bounding boxes from a LiDAR point cloud using a sparse set of object queries, and its second decoder layer adaptively fuses the object queries with useful image features, leveraging both spatial and contextual relationships. The attention mechanism of the transformer enables our model to adaptively determine where and what information should be taken from the image, leading to a robust and effective fusion strategy. We additionally design an image-guided query initialization strategy to deal with objects that are difficult to detect in point clouds. TransFusion achieves state-of-the-art performance on large-scale datasets. We provide extensive experiments to demonstrate its robustness against degenerated image quality and calibration errors. We also extend the proposed method to the 3D tracking task and achieve the 1st place in the leaderboard of nuScenes tracking, showing its effectiveness and generalization capability.
翻訳日:2022-03-23 13:54:32 公開日:2022-03-22
# (参考訳) 新型コロナウイルス感染拡大に伴う流し込みにおける長期記憶人工ニューラルネットワークの性能 [全文訳有]

Performance of long short-term memory artificial neural networks in nowcasting during the COVID-19 crisis ( http://arxiv.org/abs/2203.11872v1 )

ライセンス: CC BY 4.0
Daniel Hopp(参考訳) 新型コロナウイルス(covid-19)のパンデミックは、マクロ経済変数をタイムリーに見積もる政策立案者のニーズの高まりを示している。 UNCTAD以前の研究論文は、この性質を経済的に活用するための長期記憶人工ニューラルネットワーク(LSTM)の適合性を検討した。 ここでは、COVID-19パンデミックにおけるLSTMのパフォーマンスを、この分野で一般的に使用されているダイナミックファクターモデル(DFM)のパフォーマンスと比較し、対比する。 また、2020年第2四半期、第3四半期、第4四半期、2021年第1四半期、第2四半期の3つの別変数、グローバル輸出価値、ボリューム、グローバルサービス輸出が評価された。 平均絶対誤差と根平均二乗誤差の両方の観点から、LSTMは変数/四分法の組み合わせの3分の2でより良い性能を得た。 さらに、LSTMに解釈可能性を導入する方法論が導入され、対応する nowcast_lstm Python ライブラリで利用可能になった。

The COVID-19 pandemic has demonstrated the increasing need of policymakers for timely estimates of macroeconomic variables. A prior UNCTAD research paper examined the suitability of long short-term memory artificial neural networks (LSTM) for performing economic nowcasting of this nature. Here, the LSTM's performance during the COVID-19 pandemic is compared and contrasted with that of the dynamic factor model (DFM), a commonly used methodology in the field. Three separate variables, global merchandise export values and volumes and global services exports, were nowcast with actual data vintages and performance evaluated for the second, third, and fourth quarters of 2020 and the first and second quarters of 2021. In terms of both mean absolute error and root mean square error, the LSTM obtained better performance in two-thirds of variable/quarter combinations, as well as displayed more gradual forecast evolutions with more consistent narratives and smaller revisions. Additionally, a methodology to introduce interpretability to LSTMs is introduced and made available in the accompanying nowcast_lstm Python library, which is now also available in R, MATLAB, and Julia.
翻訳日:2022-03-23 13:52:25 公開日:2022-03-22
# 女の子には名前があり、それは... 難読化のための敵対的権威の帰属

A Girl Has A Name, And It's ... Adversarial Authorship Attribution for Deobfuscation ( http://arxiv.org/abs/2203.11849v1 )

ライセンス: Link先を確認
Wanyue Zhai, Jonathan Rusert, Zubair Shafiq, Padmini Srinivasan(参考訳) 自然言語処理の最近の進歩は、強力なプライバシーを侵害する権威の帰属を可能にした。 著者の帰属に対抗するために、研究者は様々なルールベースおよび学習ベースのテキスト難読化アプローチを提案した。 しかし、既存のオーサシップ難読化アプローチは、敵の脅威モデルを考慮していない。 具体的には、潜在的な難読化に気づいている敵の訓練を受けた著作家に対して評価されない。 このギャップを埋めるために, 難読化に対する敵対的著作者帰属の問題を検討する。 その結果,既存の難読化者の有効性を20~30%から5~10%に低下させることができた。 また, オーファシエータの使用の有無に関する誤った仮定をアトリビュータが行なった場合の, 逆行訓練の有効性も評価した。 帰属精度は明らかに低下するが、この劣化は相変わらず敵意的に訓練されていない帰属者の帰属精度以上であることは注目に値する。 私たちの結果は、難読化に抵抗するより強固な難読化アプローチの必要性を強調する

Recent advances in natural language processing have enabled powerful privacy-invasive authorship attribution. To counter authorship attribution, researchers have proposed a variety of rule-based and learning-based text obfuscation approaches. However, existing authorship obfuscation approaches do not consider the adversarial threat model. Specifically, they are not evaluated against adversarially trained authorship attributors that are aware of potential obfuscation. To fill this gap, we investigate the problem of adversarial authorship attribution for deobfuscation. We show that adversarially trained authorship attributors are able to degrade the effectiveness of existing obfuscators from 20-30% to 5-10%. We also evaluate the effectiveness of adversarial training when the attributor makes incorrect assumptions about whether and which obfuscator was used. While there is a a clear degradation in attribution accuracy, it is noteworthy that this degradation is still at or above the attribution accuracy of the attributor that is not adversarially trained at all. Our results underline the need for stronger obfuscation approaches that are resistant to deobfuscation
翻訳日:2022-03-23 13:33:23 公開日:2022-03-22
# 薬物標的結合親和性の予測のための階層グラフ表現学習

Hierarchical Graph Representation Learning for the Prediction of Drug-Target Binding Affinity ( http://arxiv.org/abs/2203.11458v1 )

ライセンス: Link先を確認
Zhaoyang Chu, Shichao Liu, Wen Zhang(参考訳) 薬物標的結合親和性(dta)の同定は、二元相互作用予測よりも特定の解釈により、創薬プロセスにおいて注目を集めている。 近年, 薬物と標的との結合親和性を予測するための深層学習に基づく計算手法が数多く提案されている。 しかし、以前の研究は、主に薬物や標的の生物学的特徴や化学構造をエンコードすることに焦点を当てており、薬物標的親和性ネットワークの本質的なトポロジー情報を活用していない。 本稿では,薬物結合親和性予測,すなわちHGRL-DTAのための新しい階層グラフ表現学習モデルを提案する。 本モデルの主な貢献は、薬物・標的分子の内在的性質と薬物・標的対のトポロジ的親和性を組み込む階層的なグラフ学習アーキテクチャを確立することである。 本アーキテクチャでは,グローバルレベルアフィニティグラフと局所レベル分子グラフから学習した階層表現を統合するためのメッセージブロードキャスティング機構を採用する。 さらに,類似性に基づく埋め込みマップを設計し,未発見の薬物や標的の表現を推測するコールドスタート問題を解決する。 異なるシナリオによる包括的な実験結果から、hgrl-dtaは最先端モデルを大きく上回り、すべてのシナリオにおいてより優れたモデル一般化を示している。

The identification of drug-target binding affinity (DTA) has attracted increasing attention in the drug discovery process due to the more specific interpretation than binary interaction prediction. Recently, numerous deep learning-based computational methods have been proposed to predict the binding affinities between drugs and targets benefiting from their satisfactory performance. However, the previous works mainly focus on encoding biological features and chemical structures of drugs and targets, with a lack of exploiting the essential topological information from the drug-target affinity network. In this paper, we propose a novel hierarchical graph representation learning model for the drug-target binding affinity prediction, namely HGRL-DTA. The main contribution of our model is to establish a hierarchical graph learning architecture to incorporate the intrinsic properties of drug/target molecules and the topological affinities of drug-target pairs. In this architecture, we adopt a message broadcasting mechanism to integrate the hierarchical representations learned from the global-level affinity graph and the local-level molecular graph. Besides, we design a similarity-based embedding map to solve the cold start problem of inferring representations for unseen drugs and targets. Comprehensive experimental results under different scenarios indicate that HGRL-DTA significantly outperforms the state-of-the-art models and shows better model generalization among all the scenarios.
翻訳日:2022-03-23 13:32:36 公開日:2022-03-22
# バニラ政策のグラディエントは見落としているか? 花びの深層強化学習の分析

Is Vanilla Policy Gradient Overlooked? Analyzing Deep Reinforcement Learning for Hanabi ( http://arxiv.org/abs/2203.11656v1 )

ライセンス: Link先を確認
Bram Grooten, Jelle Wemmenhove, Maurice Poot, Jim Portegies(参考訳) マルチエージェント協調の強化を追求するため,最近発表されたhanabiベンチマークで,複数のオンポリシー深層強化学習アルゴリズムを分析した。 本研究は,多種多様なランダム種に対するバニラ政策勾配によって,ppo(近位政策最適化)が勝る,多種間協調カードゲームにおける簡易な環境下での反直観的な発見を示唆する。 この挙動を解析し、ハナビ固有の指標を考察し、PPOの台地の原因を仮説化する。 さらに、完全ゲーム(71ターン)と任意のゲーム(89ターン)の最大長さの証明を提供する。 私たちのコードは、https://github.com/b ramgrooten/DeepRL-fo r-Hanabiで見つけることができます。

In pursuit of enhanced multi-agent collaboration, we analyze several on-policy deep reinforcement learning algorithms in the recently published Hanabi benchmark. Our research suggests a perhaps counter-intuitive finding, where Proximal Policy Optimization (PPO) is outperformed by Vanilla Policy Gradient over multiple random seeds in a simplified environment of the multi-agent cooperative card game. In our analysis of this behavior we look into Hanabi-specific metrics and hypothesize a reason for PPO's plateau. In addition, we provide proofs for the maximum length of a perfect game (71 turns) and any game (89 turns). Our code can be found at: https://github.com/b ramgrooten/DeepRL-fo r-Hanabi
翻訳日:2022-03-23 13:32:14 公開日:2022-03-22
# Sionna: 次世代物理層研究のためのオープンソースライブラリ

Sionna: An Open-Source Library for Next-Generation Physical Layer Research ( http://arxiv.org/abs/2203.11854v1 )

ライセンス: Link先を確認
Jakob Hoydis, Sebastian Cammerer, Fay\c{c}al Ait Aoudia, Avinash Vem, Nikolaus Binder, Guillermo Marcus, Alexander Keller(参考訳) Sionnaは、TensorFlowに基づいたリンクレベルのシミュレーションのための、GPUアクセラレーションされたオープンソースライブラリである。 複雑な通信システムのアーキテクチャの迅速なプロトタイピングを可能にし、ニューラルネットワークの統合に対するネイティブサポートを提供する。 Sionnaは、ベンチマークやエンドツーエンドのパフォーマンス評価に使用できる、注意深くテストされた最先端のアルゴリズムを幅広く実装している。 これにより、研究者は研究に集中し、より影響を受けやすく再現できると同時に、専門分野外のコンポーネントを実装する時間を節約できる。 このホワイトペーパーでは、Sionnaの設計原則と機能、および統合されたレイトレーシングやカスタムCUDAカーネルなどの将来の拡張を簡潔に紹介する。 Sionnaは6Gのような次世代通信システムの研究に有用なツールであり、コミュニティからのコントリビューションを歓迎します。

Sionna is a GPU-accelerated open-source library for link-level simulations based on TensorFlow. It enables the rapid prototyping of complex communication system architectures and provides native support for the integration of neural networks. Sionna implements a wide breadth of carefully tested state-of-the-art algorithms that can be used for benchmarking and end-to-end performance evaluation. This allows researchers to focus on their research, making it more impactful and reproducible, while saving time implementing components outside their area of expertise. This white paper provides a brief introduction to Sionna, explains its design principles and features, as well as future extensions, such as integrated ray tracing and custom CUDA kernels. We believe that Sionna is a valuable tool for research on next-generation communication systems, such as 6G, and we welcome contributions from our community.
翻訳日:2022-03-23 13:30:48 公開日:2022-03-22
# 学習オプティマイザにおけるメモリ、計算、性能の実践的トレードオフ

Practical tradeoffs between memory, compute, and performance in learned optimizers ( http://arxiv.org/abs/2203.11860v1 )

ライセンス: Link先を確認
Luke Metz, C. Daniel Freeman, James Harrison, Niru Maheswaranathan, Jascha Sohl-Dickstein(参考訳) 最適化は、機械学習システムの開発において高価かつ重要な役割を果たす。 学習オプティマイザでは、AdamやSGDといった手動設計オプティマイザのいくつかのハイパーパラメータがフレキシブルパラメトリック関数に置き換えられる。 これらの関数のパラメータは最適化され、得られた学習オプティマイザは選択したモデルのクラスでターゲット損失を最小限に抑える。 学習したオプティマイザは、必要なトレーニングステップの数を減らし、最終テスト損失を改善することができる。 しかし、トレーニングにはコストがかかり、一度トレーニングすれば、オプティマイザ自体の計算とメモリオーバーヘッドのため、使用するのに費用がかかります。 本研究では,多くの学習および手作り最適化器におけるメモリ,計算,性能上のトレードオフを規定する設計特徴を特定し,定量化する。 さらに分析を活用して,従来の作業よりも高速かつメモリ効率の高い学習最適化器を構築します。

Optimization plays a costly and crucial role in developing machine learning systems. In learned optimizers, the few hyperparameters of commonly used hand-designed optimizers, e.g. Adam or SGD, are replaced with flexible parametric functions. The parameters of these functions are then optimized so that the resulting learned optimizer minimizes a target loss on a chosen class of models. Learned optimizers can both reduce the number of required training steps and improve the final test loss. However, they can be expensive to train, and once trained can be expensive to use due to computational and memory overhead for the optimizer itself. In this work, we identify and quantify the design features governing the memory, compute, and performance trade-offs for many learned and hand-designed optimizers. We further leverage our analysis to construct a learned optimizer that is both faster and more memory efficient than previous work.
翻訳日:2022-03-23 13:30:17 公開日:2022-03-22
# (参考訳) 機械学習に基づくリアルタイムジャンク食品認識システム [全文訳有]

A Real-time Junk Food Recognition System based on Machine Learning ( http://arxiv.org/abs/2203.11836v1 )

ライセンス: CC0 1.0
Sirajum Munira Shifat, Takitazwar Parthib, Sabikunnahar Talukder Pyaasa, Nila Maitra Chaity, Niloy Kumar, Md. Kishor Morol(参考訳) 悪い食生活の結果、人類は破壊されるかもしれない。 人々は常においしい食べ物を探し求めており、ジャンクフードが最も一般的なソースです。 その結果、私たちの食事パターンは変わりつつあり、私たちは今まで以上にジャンクフードに力を入れています。 機械学習の原則は私たちの生活のあらゆる面に適用され、そのうちの1つは画像処理によるオブジェクト認識です。 しかし、食品は自然に異なるため、この手順は不可欠であり、従来のANN、SVM、KNN、PLSなどの手法では、精度が低い。 これらの問題はすべて、ディープニューラルネットワークによって破られた。 本研究では、20のジャンクフード分類から1万点のデータセットを作成し,ジャンクフードの認識を試みた。 データセット内のすべてのデータは、googleの検索エンジンを使って収集された。 この目標は、画像処理で有名な畳み込みニューラルネットワーク(CNN)技術を用いて達成された。 研究全体で98.05\%の精度を達成し,満足できた。 また,実生活イベントに基づくテストを実施し,その結果は異例であった。 私たちの目標は、この研究を次のレベルに進めることです。 究極の目標は、人々がジャンクフードを食べるのを避け、健康に配慮するよう促すシステムを作ることです。 キーワード{ Machine Learning \and junk food \and object detection \and YOLOv3 \and custom food dataset。 }

$ $As a result of bad eating habits, humanity may be destroyed. People are constantly on the lookout for tasty foods, with junk foods being the most common source. As a consequence, our eating patterns are shifting, and we're gravitating toward junk food more than ever, which is bad for our health and increases our risk of acquiring health problems. Machine learning principles are applied in every aspect of our lives, and one of them is object recognition via image processing. However, because foods vary in nature, this procedure is crucial, and traditional methods like ANN, SVM, KNN, PLS etc., will result in a low accuracy rate. All of these issues were defeated by the Deep Neural Network. In this work, we created a fresh dataset of 10,000 data points from 20 junk food classifications to try to recognize junk foods. All of the data in the data set was gathered using the Google search engine, which is thought to be one-of-a-kind in every way. The goal was achieved using Convolution Neural Network (CNN) technology, which is well-known for image processing. We achieved a 98.05\% accuracy rate throughout the research, which was satisfactory. In addition, we conducted a test based on a real-life event, and the outcome was extraordinary. Our goal is to advance this research to the next level, so that it may be applied to a future study. Our ultimate goal is to create a system that would encourage people to avoid eating junk food and to be health-conscious. \keywords{ Machine Learning \and junk food \and object detection \and YOLOv3 \and custom food dataset.}
翻訳日:2022-03-23 13:27:13 公開日:2022-03-22
# 最大因果エントロピー逆強化学習におけるプライマー

A Primer on Maximum Causal Entropy Inverse Reinforcement Learning ( http://arxiv.org/abs/2203.11409v1 )

ライセンス: Link先を確認
Adam Gleave, Sam Toyer(参考訳) 逆強化学習(IRL: Inverse Reinforcement Learning)アルゴリズムは、環境の専門家によって提供される実演を説明する報酬関数を推論する。 最大因果エントロピー (MCE) IRLは現在、IRLの最も一般的な定式化であり、多くの拡張がある。 本チュートリアルでは、MCE IRLの圧縮導出と、MCE IRLアルゴリズムの現代実装による重要な結果について述べる。 この分野に新規参入した人たちの入門リソースとして、またこれらのトピックに精通した人たちの簡潔な参照としての役割を果たすことを願っています。

Inverse Reinforcement Learning (IRL) algorithms infer a reward function that explains demonstrations provided by an expert acting in the environment. Maximum Causal Entropy (MCE) IRL is currently the most popular formulation of IRL, with numerous extensions. In this tutorial, we present a compressed derivation of MCE IRL and the key results from contemporary implementations of MCE IRL algorithms. We hope this will serve both as an introductory resource for those new to the field, and as a concise reference for those already familiar with these topics.
翻訳日:2022-03-23 13:14:15 公開日:2022-03-22
# ロバストグラフ構造学習のための高次構造探索

Exploring High-Order Structure for Robust Graph Structure Learning ( http://arxiv.org/abs/2203.11492v1 )

ライセンス: Link先を確認
Guangqian Yang, Yibing Zhan, Jinlong Li, Baosheng Yu, Liu Liu, Fengxiang He(参考訳) 最近の研究では、グラフニューラルネットワーク(gnn)は敵の攻撃に弱いこと、すなわち、知覚不能な構造摂動はgnnを騙して誤った予測をする可能性がある。 いくつかの研究は、攻撃を防御するための特徴の滑らかさのようなクリーングラフの特定の性質を調査しているが、その分析はよく研究されていない。 本稿では,特徴の滑らかさの観点からグラフに対する対角攻撃を解析し,GNNに対する効率的な新しい対角防御アルゴリズムを提案する。 高次グラフ構造の効果はグラフ構造を処理するためのスムーズなフィルタであることが判明した。 直感的には、高階グラフ構造はノード間の経路数を表し、大きな数字はより近い接続を示すので、自然に逆摂動の防御に寄与する。 さらに,高次構造情報をグラフ構造学習に組み込む新しいアルゴリズムを提案する。 Cora, Citeseer, Polblogsの3つの人気のあるベンチマークデータセットで実験を行った。 広範な実験により,グラフ攻撃に対する防御手法の有効性が実証された。

Recent studies show that Graph Neural Networks (GNNs) are vulnerable to adversarial attack, i.e., an imperceptible structure perturbation can fool GNNs to make wrong predictions. Some researches explore specific properties of clean graphs such as the feature smoothness to defense the attack, but the analysis of it has not been well-studied. In this paper, we analyze the adversarial attack on graphs from the perspective of feature smoothness which further contributes to an efficient new adversarial defensive algorithm for GNNs. We discover that the effect of the high-order graph structure is a smoother filter for processing graph structures. Intuitively, the high-order graph structure denotes the path number between nodes, where larger number indicates closer connection, so it naturally contributes to defense the adversarial perturbation. Further, we propose a novel algorithm that incorporates the high-order structural information into the graph structure learning. We perform experiments on three popular benchmark datasets, Cora, Citeseer and Polblogs. Extensive experiments demonstrate the effectiveness of our method for defending against graph adversarial attacks.
翻訳日:2022-03-23 13:14:03 公開日:2022-03-22
# 離散的・連続的な行動課題に対する行動候補駆動型ダブルQ-ラーニング

Action Candidate Driven Clipped Double Q-learning for Discrete and Continuous Action Tasks ( http://arxiv.org/abs/2203.11526v1 )

ライセンス: Link先を確認
Haobo Jiang, Jin Xie, and Jian Yang(参考訳) 二重Q学習はマルコフ決定過程(MDP)問題において一般的な強化学習アルゴリズムである。 clipped double q-learning は double q-learning の効果的な変種であり、最大期待アクション値の近似に clipped double estimator を用いる。 クリッピングされた二重推定器の過小評価バイアスのため、クリッピングされた二重Q-ラーニングの性能は確率的な環境で低下する可能性がある。 本稿では,過大評価バイアスを軽減するために,ダブルq学習のためのアクション候補ベースのクリップ型2重推定器を提案する。 具体的には,まず,一組の推定器から高い行動値を持つエリート行動候補を選定する。 そして、これらの候補の中から、他の評価指標から最も価値の高い行動を選択する。 最後に,第2の推定器の最大値を用いて第1の推定器における選択された動作の動作値をクリップし,そのクリップ値を用いて最大期待動作値を近似する。 理論的には、クリップされたダブルq学習における過大評価バイアスは、アクション候補の数の減少とともに単調に減少する。 さらに、アクション候補の数は過大評価と過小評価バイアスの間のトレードオフを制御する。 さらに私たちは,エリートな継続的アクション候補を近似することで,クリップされたダブルq-ラーニングを継続的アクションタスクにも拡張しています。 実験により,本アルゴリズムが玩具環境における最大動作値をより正確に推定し,いくつかのベンチマーク問題に対して良好な性能が得られることを検証した。

Double Q-learning is a popular reinforcement learning algorithm in Markov decision process (MDP) problems. Clipped Double Q-learning, as an effective variant of Double Q-learning, employs the clipped double estimator to approximate the maximum expected action value. Due to the underestimation bias of the clipped double estimator, the performance of clipped Double Q-learning may be degraded in some stochastic environments. In this paper, in order to reduce the underestimation bias, we propose an action candidate-based clipped double estimator for Double Q-learning. Specifically, we first select a set of elite action candidates with high action values from one set of estimators. Then, among these candidates, we choose the highest valued action from the other set of estimators. Finally, we use the maximum value in the second set of estimators to clip the action value of the chosen action in the first set of estimators and the clipped value is used for approximating the maximum expected action value. Theoretically, the underestimation bias in our clipped Double Q-learning decays monotonically as the number of action candidates decreases. Moreover, the number of action candidates controls the trade-off between the overestimation and underestimation biases. In addition, we also extend our clipped Double Q-learning to continuous action tasks via approximating the elite continuous action candidates. We empirically verify that our algorithm can more accurately estimate the maximum expected action value on some toy environments and yield good performance on several benchmark problems.
翻訳日:2022-03-23 13:13:48 公開日:2022-03-22
# feddc:局所ドリフト分離と補正による非iidデータによるフェデレーション学習

FedDC: Federated Learning with Non-IID Data via Local Drift Decoupling and Correction ( http://arxiv.org/abs/2203.11751v1 )

ライセンス: Link先を確認
Liang Gao and Huazhu Fu and Li Li and Yingwen Chen and Ming Xu and Cheng-Zhong Xu(参考訳) フェデレーション学習(fl)は、複数のクライアントがプライベートデータを共有せずに、パフォーマンスの高いグローバルモデルを総合的にトレーニングできる。 しかし、フェデレートラーニングにおける重要な課題は、クライアントがそれぞれのローカルデータ分布間に有意な統計的不均一性を持ち、クライアント側で不整合最適化されたローカルモデルを引き起こすことである。 この基本的なジレンマに対処するために,局所ドリフト分離補正(feddc)を用いた新しいフェデレート学習アルゴリズムを提案する。 私たちのfedcは、各クライアントがローカルモデルパラメータとグローバルモデルパラメータの間のギャップを追跡するために補助ローカルドリフト変数を使用するローカルトレーニングフェーズでのみ、軽量な修正を導入します。 FedDCの鍵となる考え方は、この学習された局所的ドリフト変数を使用してギャップを埋めることである。 実験結果と解析結果から,federcは,画像分類タスクの高速化とパフォーマンスの向上,部分参加設定の堅牢性,非iidデータ,ヘテロジニアスクライアントを実現した。

Federated learning (FL) allows multiple clients to collectively train a high-performance global model without sharing their private data. However, the key challenge in federated learning is that the clients have significant statistical heterogeneity among their local data distributions, which would cause inconsistent optimized local models on the client-side. To address this fundamental dilemma, we propose a novel federated learning algorithm with local drift decoupling and correction (FedDC). Our FedDC only introduces lightweight modifications in the local training phase, in which each client utilizes an auxiliary local drift variable to track the gap between the local model parameter and the global model parameters. The key idea of FedDC is to utilize this learned local drift variable to bridge the gap, i.e., conducting consistency in parameter-level. The experiment results and analysis demonstrate that FedDC yields expediting convergence and better performance on various image classification tasks, robust in partial participation settings, non-iid data, and heterogeneous clients.
翻訳日:2022-03-23 13:13:03 公開日:2022-03-22
# 因果不変変換を用いた分布外一般化

Out-of-distribution Generalization with Causal Invariant Transformations ( http://arxiv.org/abs/2203.11528v1 )

ライセンス: Link先を確認
Ruoyu Wang, Mingyang Yi, Zhitang Chen, Shengyu Zhu(参考訳) 現実世界のアプリケーションでは、アウト・オブ・ディストリビューション(OOD)データでうまく機能するモデルを学ぶことが重要かつ望ましい。 近年、因果性はood一般化問題に取り組むための強力なツールとなり、関心領域にまたがって不変な因果メカニズムに基づくアイデアが定着している。 一般に知られていない因果的メカニズムを活用するために、既存の著作物は因果的特徴の線形形式をとるか、あるいは十分に多くの多様な訓練領域を必要とする。 本研究では,これらの仮定を排除し,因果的特徴を明示的に回復することなくOOD問題に取り組む。 このアプローチは、非因果的特徴を変更するが因果部分は変更しない変換に基づいており、事前の知識から得られるか、あるいはマルチドメインシナリオでトレーニングデータから学ぶことができる。 不変因果機構の設定の下では、そのような変換がすべて利用可能であれば、単一のドメインデータのみを用いて、各ドメインにまたがる最小限の最適モデルを学習できることが理論的に示される。 これらの因果不変変換の完全な集合が非現実的であることを知ることは、これらの変換のサブセットのみを知るのに十分であることを示す。 理論的な知見に基づいて,OODの一般化能力を向上させるための正規化訓練手法を提案する。 合成データと実データの両方に関する広範な実験の結果は、数個の因果不変量変換であっても、提案アルゴリズムの有効性を検証する。

In real-world applications, it is important and desirable to learn a model that performs well on out-of-distribution (OOD) data. Recently, causality has become a powerful tool to tackle the OOD generalization problem, with the idea resting on the causal mechanism that is invariant across domains of interest. To leverage the generally unknown causal mechanism, existing works assume a linear form of causal feature or require sufficiently many and diverse training domains, which are usually restrictive in practice. In this work, we obviate these assumptions and tackle the OOD problem without explicitly recovering the causal feature. Our approach is based on transformations that modify the non-causal feature but leave the causal part unchanged, which can be either obtained from prior knowledge or learned from the training data in the multi-domain scenario. Under the setting of invariant causal mechanism, we theoretically show that if all such transformations are available, then we can learn a minimax optimal model across the domains using only single domain data. Noticing that knowing a complete set of these causal invariant transformations may be impractical, we further show that it suffices to know only a subset of these transformations. Based on the theoretical findings, a regularized training procedure is proposed to improve the OOD generalization capability. Extensive experimental results on both synthetic and real datasets verify the effectiveness of the proposed algorithm, even with only a few causal invariant transformations.
翻訳日:2022-03-23 13:11:19 公開日:2022-03-22
# 異なる学習環境における2層ニューラルネットワークの(非)ロバスト性について

On the (Non-)Robustness of Two-Layer Neural Networks in Different Learning Regimes ( http://arxiv.org/abs/2203.11864v1 )

ライセンス: Link先を確認
Elvis Dohmatob, Alberto Bietti(参考訳) ニューラルネットワークは敵の例に非常に敏感であることが知られている。 これらは、ランダム初期化や学習問題のスプリアス相関など、さまざまな要因によって生じる可能性がある。 これらの要因をより深く理解するために,初期化からトレーニング終了までのさまざまなシナリオにおけるロバストネスと一般化,さらには初期化が"怠慢"なトレーニングによって依然として役割を担っている中間シナリオについて,より正確な研究を行う。 2次目標と無限サンプルを持つ高次元の過パラメータネットワークを考える。 私たちの分析によって、一般化と堅牢性の間の新たなトレードオフを特定し、一般化が改善すればロバスト性が悪化するだけでなく、その逆も起こり得るのです。 また,線形化遅延学習制度が不適切にスケールしたランダム初期化のために頑健さを悪化させることを示す。 我々の理論結果は数値実験で示される。

Neural networks are known to be highly sensitive to adversarial examples. These may arise due to different factors, such as random initialization, or spurious correlations in the learning problem. To better understand these factors, we provide a precise study of robustness and generalization in different scenarios, from initialization to the end of training in different regimes, as well as intermediate scenarios, where initialization still plays a role due to "lazy" training. We consider over-parameterized networks in high dimensions with quadratic targets and infinite samples. Our analysis allows us to identify new trade-offs between generalization and robustness, whereby robustness can only get worse when generalization improves, and vice versa. We also show how linearized lazy training regimes can worsen robustness, due to improperly scaled random initialization. Our theoretical results are illustrated with numerical experiments.
翻訳日:2022-03-23 13:10:56 公開日:2022-03-22
# そんなに大変だったの? 分類困難度の推定

Was that so hard? Estimating human classification difficulty ( http://arxiv.org/abs/2203.11824v1 )

ライセンス: Link先を確認
Morten Rieger Hannemose, Josefine Vilsb{\o}ll Sundgaard, Niels Kvorning Ternov, Rasmus R. Paulsen, Anders Nymark Christensen(参考訳) 医師が特定の疾患を診断する訓練を受けると、困難を増すためにケースを提示するとより早く学習する。 これにより、医師が特定のケースを分類するのがどれだけ難しいかを自動的に見積もる必要が生じる。 本稿では,医師が医療画像に代表される症例を,基礎的真理の難易度とそうでない場合の両方で診断することがいかに困難であるかを推定する手法を提案する。 本手法は,深層メトリック学習により得られた埋め込みに基づく。 さらに,自己評価された確信を用いてデータセット内の各画像ケースに対して,基礎的真理の人間的難易度を得るための実践的手法を提案する。 提案手法を2つの異なる医学データセットに適用し,高いKendallランク相関係数を達成し,既存の手法を問題とデータに大きな差で上回ることを示す。

When doctors are trained to diagnose a specific disease, they learn faster when presented with cases in order of increasing difficulty. This creates the need for automatically estimating how difficult it is for doctors to classify a given case. In this paper, we introduce methods for estimating how hard it is for a doctor to diagnose a case represented by a medical image, both when ground truth difficulties are available for training, and when they are not. Our methods are based on embeddings obtained with deep metric learning. Additionally, we introduce a practical method for obtaining ground truth human difficulty for each image case in a dataset using self-assessed certainty. We apply our methods to two different medical datasets, achieving high Kendall rank correlation coefficients, showing that we outperform existing methods by a large margin on our problem and data.
翻訳日:2022-03-23 13:09:55 公開日:2022-03-22
# フラットミニマの探索によるフェデレーション学習の一般化

Improving Generalization in Federated Learning by Seeking Flat Minima ( http://arxiv.org/abs/2203.11834v1 )

ライセンス: Link先を確認
Debora Caldarola, Barbara Caputo, Marco Ciccone(参考訳) フェデレーション設定でトレーニングされたモデルは、しばしばパフォーマンスが低下し、特に不均一なシナリオに直面した場合、一般化に失敗する。 本研究では、損失の幾何とヘッセン固有スペクトルのレンズを通してそのような挙動を調査し、モデルの一般化能力の欠如と解の鋭さを関連付ける。 損失面のシャープネスと一般化ギャップを接続する先行研究により、我々は、そのことを示す。 一 シャープネス・アウェア・ミニミゼーション(SAM)又はその適応版(ASAM)でローカルにクライアントを訓練すること 二 サーバ側の確率重み(SWA)の平均化は、フェデレートラーニングにおける一般化を著しく改善し、集中型モデルとのギャップを埋めるのに役立つ。 均一な低損失の近傍でのパラメータを求めることにより、モデルは平らなミニマへ収束し、その一般化は均質シナリオと不均一シナリオの両方において著しく改善される。 実証的な結果は、様々なベンチマークビジョンデータセット(例えば、CIFAR10/100、Landmarks-User-160k、IDDA)とタスク(大規模な分類、セマンティックセグメンテーション、ドメインの一般化)におけるそれらの最適化の有効性を示す。

Models trained in federated settings often suffer from degraded performances and fail at generalizing, especially when facing heterogeneous scenarios. In this work, we investigate such behavior through the lens of geometry of the loss and Hessian eigenspectrum, linking the model's lack of generalization capacity to the sharpness of the solution. Motivated by prior studies connecting the sharpness of the loss surface and the generalization gap, we show that i) training clients locally with Sharpness-Aware Minimization (SAM) or its adaptive version (ASAM) and ii) averaging stochastic weights (SWA) on the server-side can substantially improve generalization in Federated Learning and help bridging the gap with centralized models. By seeking parameters in neighborhoods having uniform low loss, the model converges towards flatter minima and its generalization significantly improves in both homogeneous and heterogeneous scenarios. Empirical results demonstrate the effectiveness of those optimizers across a variety of benchmark vision datasets (e.g. CIFAR10/100, Landmarks-User-160k, IDDA) and tasks (large scale classification, semantic segmentation, domain generalization).
翻訳日:2022-03-23 13:09:43 公開日:2022-03-22
# (参考訳) redditからメンタルヘルスを理解するための計算的アプローチ:知識を意識したマルチタスク学習フレームワーク [全文訳有]

A Computational Approach to Understand Mental Health from Reddit: Knowledge-aware Multitask Learning Framework ( http://arxiv.org/abs/2203.11856v1 )

ライセンス: CC BY 4.0
Usha Lokala, Aseem Srivastava, Triyasha Ghosh Dastidar, Tanmoy Chakraborty, Md Shad Akthar, Maryam Panahiazar, and Amit Sheth(参考訳) 性分析は、CVD(心血管疾患)の精神保健(MH)サポートを研究する上で重要である。 MH症状の抽出にソーシャルメディアを用いた研究は、症状の検出を考慮し、ユーザのコンテキスト、病気、性別を無視する傾向がある。 本研究は, CVDに関連するMH症状が, ソーシャルメディア上での性別によってどのように表現されるかを把握するシステムの設計と評価を目的としている。 本研究は, 心疾患患者に発症するMH症状の信頼性は, 同一のポストに同一のMH症状が存在すること, 性別による症状記述の変動が原因で, 難易度が高いことが示唆された。 サブレディットラベルとトランスファーラーニングアプローチを使用して注釈付けされた150k$アイテム(ポストとコメント)のコーパスを収集します。 CVD患者のMH症状を性別に基づいて識別するタスク適応型マルチタスク学習手法であるGeMを提案する。 具体的には,知識支援型RoBERTaを用いたバイエンコーダモデルを適用し,CVD関連MH症状を捉える。 さらに,mh症状における性言語分化の信頼性を,最先端言語モデルと比較して高めている。 我々のモデルは高い(統計的に重要な)性能を達成し、4つのMH問題と2つの性別ラベルを予測し、RoBERTaを上回り、症状識別タスクでは2.14%、性別識別タスクでは2.55%改善する。

Analyzing gender is critical to study mental health (MH) support in CVD (cardiovascular disease). The existing studies on using social media for extracting MH symptoms consider symptom detection and tend to ignore user context, disease, or gender. The current study aims to design and evaluate a system to capture how MH symptoms associated with CVD are expressed differently with the gender on social media. We observe that the reliable detection of MH symptoms expressed by persons with heart disease in user posts is challenging because of the co-existence of (dis)similar MH symptoms in one post and due to variation in the description of symptoms based on gender. We collect a corpus of $150k$ items (posts and comments) annotated using the subreddit labels and transfer learning approaches. We propose GeM, a novel task-adaptive multi-task learning approach to identify the MH symptoms in CVD patients based on gender. Specifically, we adapt a knowledge-assisted RoBERTa based bi-encoder model to capture CVD-related MH symptoms. Moreover, it enhances the reliability for differentiating the gender language in MH symptoms when compared to the state-of-art language models. Our model achieves high (statistically significant) performance and predicts four labels of MH issues and two gender labels, which outperforms RoBERTa, improving the recall by 2.14% on the symptom identification task and by 2.55% on the gender identification task.
翻訳日:2022-03-23 13:07:03 公開日:2022-03-22
# Suum Cuique:コミュニティから見たタブー検出におけるバイアスの研究

Suum Cuique: Studying Bias in Taboo Detection with a Community Perspective ( http://arxiv.org/abs/2203.11401v1 )

ライセンス: Link先を確認
Osama Khalid, Jonathan Rusert, Padmini Srinivasan(参考訳) 先行研究では、タブー言語を研究する際、コミュニティレベルで言語規範を考える必要性を議論し、示してきた。 しかし、コミュニティ言語規範に基づいてしっかりと確立された、それを行う方法論は、いまだにほとんど欠落している。 これはタブーテキストの分類におけるバイアスと、バイアスの原因を理解することの限界の両方につながる可能性がある。 本研究では,コミュニティの視点が前後にあるタブー分類とアノテーションのバイアスを調査する手法を提案する。 これは、各コミュニティの言語に合わせて調整された特別な分類器を使用することで達成される。 本質的に、これらの分類器はコミュニティレベルの言語規範を表している。 例えば、偏見はアフリカ系アメリカ人に対して最大である(7/10データセットと3つの分類器すべて)。 以前の論文とは対照的に、他のコミュニティも調査し、例えば、南アジア人に対する強い偏見を見つける。 小規模ユーザスタディでは,コミュニティとの協調度が高い人(コミュニティ分類子信頼度スコア)はタブーとはみなされない,という共通発話の鍵となる概念を提示する。 コミュニティメンバーである注釈家は、ほとんどの例でタブーの分類決定とアノテーションと矛盾している。 本稿は,マイノリティコミュニティを害する偽陽性タブー意思決定を減らすための重要なステップである。

Prior research has discussed and illustrated the need to consider linguistic norms at the community level when studying taboo (hateful/offensive/t oxic etc.) language. However, a methodology for doing so, that is firmly founded on community language norms is still largely absent. This can lead both to biases in taboo text classification and limitations in our understanding of the causes of bias. We propose a method to study bias in taboo classification and annotation where a community perspective is front and center. This is accomplished by using special classifiers tuned for each community's language. In essence, these classifiers represent community level language norms. We use these to study bias and find, for example, biases are largest against African Americans (7/10 datasets and all 3 classifiers examined). In contrast to previous papers we also study other communities and find, for example, strong biases against South Asians. In a small scale user study we illustrate our key idea which is that common utterances, i.e., those with high alignment scores with a community (community classifier confidence scores) are unlikely to be regarded taboo. Annotators who are community members contradict taboo classification decisions and annotations in a majority of instances. This paper is a significant step toward reducing false positive taboo decisions that over time harm minority communities.
翻訳日:2022-03-23 12:48:16 公開日:2022-03-22
# バングラデシュにおけるフェイクニュース検出の性能向上のためのアプローチ:不均衡ハンドリングとモデルスタッキング

Approaches for Improving the Performance of Fake News Detection in Bangla: Imbalance Handling and Model Stacking ( http://arxiv.org/abs/2203.11486v1 )

ライセンス: Link先を確認
Md Muzakker Hossain, Zahin Awosaf, Md. Salman Hossan Prottoy, Abu Saleh Muhammod Alvy, Md. Kishor Morol(参考訳) 不均衡なデータセットは偽ニュースの検出に偏りをもたらす可能性がある。 本稿では,バングラデシュにおける偽ニュース検出の不均衡問題を解決するためのいくつかの戦略について,提案手法の比較評価を行った。 さらに,データセットが不均衡であっても性能を向上させる手法を提案する。 提案手法をbanfakenewsに適用した。banfakenewsは、バングラで50万のインスタンスからなる偽ニュースを検出する目的で開発されたデータセットで、大多数のインスタンスの97%で著しく歪んでいる。 smoteのようなデータ操作操作技術を用いて93.1%のf1-scoreを、スタック一般化のようなデータ操作アプローチを使わずに79.1%のf1-scoreを得た。 これらの技術がなければ、F1スコアは67.6%のベースラインモデルであった。 この作業は、バングラで偽ニュースを検出するための重要なステップだと考えています。 これらの戦略を実装することで、不均衡データセットの障害を取り除き、パフォーマンスを改善することができる。

Imbalanced datasets can lead to biasedness into the detection of fake news. In this work, we present several strategies for resolving the imbalance issue for fake news detection in Bangla with a comparative assessment of proposed methodologies. Additionally, we propose a technique for improving performance even when the dataset is imbalanced. We applied our proposed approaches to BanFakeNews, a dataset developed for the purpose of detecting fake news in Bangla comprising of 50K instances but is significantly skewed, with 97% of majority instances. We obtained a 93.1% F1-score using data manipulation manipulation techniques such as SMOTE, and a 79.1% F1-score using without data manipulation approaches such as Stacked Generalization. Without implementing these techniques, the F1-score would have been 67.6% for baseline models. We see this work as an important step towards paving the way of fake news detection in Bangla. By implementing these strategies the obstacles of imbalanced dataset can be removed and improvement in the performance can be achieved.
翻訳日:2022-03-23 12:47:56 公開日:2022-03-22
# マルチターン対話におけるコントラスト学習による発話書き換え

Utterance Rewriting with Contrastive Learning in Multi-turn Dialogue ( http://arxiv.org/abs/2203.11587v1 )

ライセンス: Link先を確認
Zhihao Wang, Tangjian Duan, Zihao Wang, Minghui Yang, Zujie Wen, Yongliang Wang(参考訳) コンテキストモデリングはマルチターン対話システムの構築において重要な役割を果たす。 コンテクスト情報を完全に活用するために、システムはIncomplete Utterance Rewriting(IUR)メソッドを使用して、現在の発話とコンテキスト情報を自己完結した発話にマージすることで、マルチターン対話を単一ターンに単純化することができる。 しかし、以前のアプローチでは、元のクエリと書き直されたクエリ間の意図的な一貫性は無視されていた。 元のクエリにおける省略または中核的な位置の検出をさらに改善することができる。 本稿では,比較学習とマルチタスク学習を導入し,問題をモデル化する。 提案手法は,文レベルでもトークンレベルでも意味を捉える補助タスクとして機能する,注意深く設計された自己教師付き目標の恩恵を受ける。 実験により,提案モデルがいくつかの公開データセット上で最先端の性能を達成することを示す。

Context modeling plays a significant role in building multi-turn dialogue systems. In order to make full use of context information, systems can use Incomplete Utterance Rewriting(IUR) methods to simplify the multi-turn dialogue into single-turn by merging current utterance and context information into a self-contained utterance. However, previous approaches ignore the intent consistency between the original query and rewritten query. The detection of omitted or coreferred locations in the original query can be further improved. In this paper, we introduce contrastive learning and multi-task learning to jointly model the problem. Our method benefits from carefully designed self-supervised objectives, which act as auxiliary tasks to capture semantics at both sentence-level and token-level. The experiments show that our proposed model achieves state-of-the-art performance on several public datasets.
翻訳日:2022-03-23 12:47:40 公開日:2022-03-22
# メモリ模倣による低リソーステキスト分類と生成のためのメタ学習の改善

Improving Meta-learning for Low-resource Text Classification and Generation via Memory Imitation ( http://arxiv.org/abs/2203.11670v1 )

ライセンス: Link先を確認
Yingxiu Zhao, Zhiliang Tian, Huaxiu Yao, Yinhe Zheng, Dongkyu Lee, Yiping Song, Jian Sun, Nevin L. Zhang(参考訳) 自然言語処理(NLP)のモデルの構築は、限られたデータしか利用できない低リソースのシナリオでは難しい。 最適化に基づくメタ学習アルゴリズムは、十分に一般化されたモデル初期化を新しいタスクに適応することにより、低リソースシナリオで有望な結果を得る。 にもかかわらず、これらのアプローチは、新しいタスクに適応する際のサポートセットを無視しながら、メタトレーニングタスクを記憶する傾向にある、記憶過剰な問題に悩まされる。 そこで本研究では,タスク適応支援セットへの依存度を高めるメモリ模倣メタラーニング(memiml)手法を提案する。 具体的には、サポートセット情報を格納し、クエリセットにメモリに格納されている代表的サポートセットの振る舞いを模倣するよう強制する模倣モジュールを構築するタスク特化メモリモジュールを提案する。 また,本手法の有効性を証明する理論的解析を行い,本手法がテキスト分類と生成タスクの両面での競争ベースラインよりも優れていることを示す。

Building models of natural language processing (NLP) is challenging in low-resource scenarios where only limited data are available. Optimization-based meta-learning algorithms achieve promising results in low-resource scenarios by adapting a well-generalized model initialization to handle new tasks. Nonetheless, these approaches suffer from the memorization overfitting issue, where the model tends to memorize the meta-training tasks while ignoring support sets when adapting to new tasks. To address this issue, we propose a memory imitation meta-learning (MemIML) method that enhances the model's reliance on support sets for task adaptation. Specifically, we introduce a task-specific memory module to store support set information and construct an imitation module to force query sets to imitate the behaviors of some representative support-set samples stored in the memory. A theoretical analysis is provided to prove the effectiveness of our method, and empirical results also demonstrate that our method outperforms competitive baselines on both text classification and generation tasks.
翻訳日:2022-03-23 12:47:26 公開日:2022-03-22
# (参考訳) プロンプトアレイはバイアスを遠ざける: 逆学習による視覚言語モデルの偏り

A Prompt Array Keeps the Bias Away: Debiasing Vision-Language Models with Adversarial Learning ( http://arxiv.org/abs/2203.11933v1 )

ライセンス: CC BY 4.0
Hugo Berg, Siobhan Mackenzie Hall, Yash Bhalgat, Wonsuk Yang, Hannah Rose Kirk, Aleksandar Shtedritski, Max Bain(参考訳) 視覚言語モデルは社会バイアスやステレオタイプをエンコードできるが、これらの害を計測し緩和するための課題がある。 先行したバイアス測定では、事前トレーニングデータにアクセスせずにバイアスを緩和する場合、ロバスト性が欠如し、特徴劣化が発生する。 本稿では,これら2つの課題に対処する。まず,異なるバイアス尺度を評価し,バイアス測定フレームワークを用いた画像テキスト表現における検索指標の利用を提案する。 第2に, 学習可能なトークン埋め込みによる逆損失の最適化は, 特徴表現を著しく劣化させることなく, 種々のバイアス対策を最小化することを示した。

Vision-language models can encode societal biases and stereotypes, but there are challenges to measuring and mitigating these harms. Prior proposed bias measurements lack robustness and feature degradation occurs when mitigating bias without access to pretraining data. We address both of these challenges in this paper: First, we evaluate different bias measures and propose the use of retrieval metrics to image-text representations via a bias measuring framework. Second, we investigate debiasing methods and show that optimizing for adversarial loss via learnable token embeddings minimizes various bias measures without substantially degrading feature representations.
翻訳日:2022-03-23 12:45:56 公開日:2022-03-22
# ドメイン内ラベルを使わずにテキストによるドメイン外検出をめざして

Towards Textual Out-of-Domain Detection without In-Domain Labels ( http://arxiv.org/abs/2203.11396v1 )

ライセンス: Link先を確認
Di Jin, Shuyang Gao, Seokhwan Kim, Yang Liu, and Dilek Hakkani-Tur(参考訳) 多くの実世界の環境では、機械学習モデルは間違ったアクションの実行を避けるために、ドメイン外(OOD)のユーザ入力を特定する必要がある。 本研究は、ドメイン内データのラベルにアクセスできない(例えば、インテント分類タスクのインテントラベルがない)ood検出の難しいケースに焦点を当てている。 そこで我々はまず,トークン列の確率を予測する異なる言語モデルに基づくアプローチを評価する。 さらに,教師なしクラスタリングとコントラスト学習を組み合わせた新しい表現学習手法を提案し,OOD検出のためのより良いデータ表現を学習できるようにした。 広範な実験を通じて,この手法は確率に基づく手法を著しく上回ることができ,ラベル情報を用いた最先端の教師付きアプローチにも対抗できることを実証する。

In many real-world settings, machine learning models need to identify user inputs that are out-of-domain (OOD) so as to avoid performing wrong actions. This work focuses on a challenging case of OOD detection, where no labels for in-domain data are accessible (e.g., no intent labels for the intent classification task). To this end, we first evaluate different language model based approaches that predict likelihood for a sequence of tokens. Furthermore, we propose a novel representation learning based method by combining unsupervised clustering and contrastive learning so that better data representations for OOD detection can be learned. Through extensive experiments, we demonstrate that this method can significantly outperform likelihood-based methods and can be even competitive to the state-of-the-art supervised approaches with label information.
翻訳日:2022-03-23 12:44:39 公開日:2022-03-22
# VQ-Flows:ベクトル量子化局所正規化フロー

VQ-Flows: Vector Quantized Local Normalizing Flows ( http://arxiv.org/abs/2203.11556v1 )

ライセンス: Link先を確認
Sahil Sidheekh, Chris B. Dock, Tushar Jain, Radu Balan, Maneesh K. Singh(参考訳) フローの正規化は、未知のデータ分布の効率的なサンプリングと正確な密度評価を可能にする生成モデリングへのエレガントなアプローチを提供する。 しかし、現在の手法は、低次元多様体上でのデータ分布がサポートされたり、非自明な位相を持つ場合、その表現性に大きな制限がある。 データ多様体上の「チャートマップ」として局所正規化フローの混合を学習するための新しい統計フレームワークを導入する。 本フレームワークは, 正規化フローのシグネチャ特性を保ちながら, 最近の手法の表現性を向上し, 正確な密度評価を行う。 ベクトル量子化オートエンコーダ(vq-ae)を介してデータ多様体に適したチャートのアトラスと条件付きフローを用いてそれらの上の分布を学習する。 我々は,我々の確率的フレームワークが複素多様体上のデータ分布をモデル化するための既存のアプローチを可能にすることを実験的に検証した。

Normalizing flows provide an elegant approach to generative modeling that allows for efficient sampling and exact density evaluation of unknown data distributions. However, current techniques have significant limitations in their expressivity when the data distribution is supported on a low-dimensional manifold or has a non-trivial topology. We introduce a novel statistical framework for learning a mixture of local normalizing flows as "chart maps" over the data manifold. Our framework augments the expressivity of recent approaches while preserving the signature property of normalizing flows, that they admit exact density evaluation. We learn a suitable atlas of charts for the data manifold via a vector quantized auto-encoder (VQ-AE) and the distributions over them using a conditional flow. We validate experimentally that our probabilistic framework enables existing approaches to better model data distributions over complex manifolds.
翻訳日:2022-03-23 12:44:25 公開日:2022-03-22
# 訓練軌跡のマッチングによるデータセット蒸留

Dataset Distillation by Matching Training Trajectories ( http://arxiv.org/abs/2203.11932v1 )

ライセンス: Link先を確認
George Cazenavette and Tongzhou Wang and Antonio Torralba and Alexei A. Efros and Jun-Yan Zhu(参考訳) データセット蒸留は、合成データセットでトレーニングされたモデルが、完全なデータセットでトレーニングされたモデルのテスト精度と一致するように、小さなデータセットを合成するタスクである。 本稿では,蒸留したデータを最適化し,実データ上で訓練されたものと同様の状態に誘導する新しい定式化手法を提案する。 ネットワークが与えられたら、蒸留データを何回か繰り返して訓練し、合成訓練されたパラメータと実データで訓練されたパラメータとの距離に関して蒸留データを最適化する。 大規模データセットの初期および対象のネットワークパラメータを効率的に取得するため、実データセットでトレーニングされた専門家ネットワークのトレーニングトラジェクトリを事前計算し、保存する。 提案手法は既存の手法を巧みに上回り,高分解能の視覚データを蒸留できる。

Dataset distillation is the task of synthesizing a small dataset such that a model trained on the synthetic set will match the test accuracy of the model trained on the full dataset. In this paper, we propose a new formulation that optimizes our distilled data to guide networks to a similar state as those trained on real data across many training steps. Given a network, we train it for several iterations on our distilled data and optimize the distilled data with respect to the distance between the synthetically trained parameters and the parameters trained on real data. To efficiently obtain the initial and target network parameters for large-scale datasets, we pre-compute and store training trajectories of expert networks trained on the real dataset. Our method handily outperforms existing methods and also allows us to distill higher-resolution visual data.
翻訳日:2022-03-23 12:43:52 公開日:2022-03-22
# 焦点変調ネットワーク

Focal Modulation Networks ( http://arxiv.org/abs/2203.11926v1 )

ライセンス: Link先を確認
Jianwei Yang, Chunyuan Li, Jianfeng Gao(参考訳) 本研究では,トークンの相互作用をモデル化する上で,より効率的かつ効率的に自己アテンション(SA)を焦点変調モジュールに置き換えた焦点変調ネットワーク(FocalNet)を提案する。 Focal modulationは3つのコンポーネントから構成される。 (i)$階層的コンテキスト化(階層的コンテキスト化) 奥行き方向の畳み込み層を使って実装され、異なる粒度レベルで短い範囲から長い範囲の視覚的コンテキストをエンコードする。 (ii)$ gateアグリゲーションは、そのコンテンツに基づいて、各ビジュアルトークン(クエリ)のコンテキスト特徴を選択的に集約する。 (iii)$ modulation または element-wise affine transformation は、集約された機能をクエリベクトルに融合する。 大規模な実験により、FocalNetsは、画像分類、オブジェクト検出、セマンティックセグメンテーションのタスクにおいて、同様の時間とメモリコストで最先端のSA(例えばSwin Transformers)よりも優れていることが示された。 具体的には、小さくてベースサイズのFocalNetsは、ImageNet-1Kで82.3%、83.9%の精度を実現している。 imagenet-22kで事前トレーニングした後、解像度224$\times$224と384$\times$384で微調整すると、86.5%と87.3%のtop-1精度が得られる。 FocalNetsは下流のタスクに転送する際、顕著な優位性を示す。 Mask R-CNNを使ったオブジェクト検出では、1$\times$でトレーニングされたFocalNetベースが3$\times$スケジュール(49.0 v.s. 48.5)でトレーニングされたSwinを超えています。 upernet を用いたセマンティクスセグメンテーションでは、focalnet ベースがマルチスケール (50.5 v.s. 49.7) で評価されるシングルスケールのオーバーフォームで評価される。 これらの結果は、実世界のアプリケーションにおいて、効果的かつ効率的な視覚モデリングのためのSAの代替として焦点変調が好ましいものである。 コードはhttps://github.com/m icrosoft/FocalNetで入手できる。

In this work, we propose focal modulation network (FocalNet in short), where self-attention (SA) is completely replaced by a focal modulation module that is more effective and efficient for modeling token interactions. Focal modulation comprises three components: $(i)$ hierarchical contextualization, implemented using a stack of depth-wise convolutional layers, to encode visual contexts from short to long ranges at different granularity levels, $(ii)$ gated aggregation to selectively aggregate context features for each visual token (query) based on its content, and $(iii)$ modulation or element-wise affine transformation to fuse the aggregated features into the query vector. Extensive experiments show that FocalNets outperform the state-of-the-art SA counterparts (e.g., Swin Transformers) with similar time and memory cost on the tasks of image classification, object detection, and semantic segmentation. Specifically, our FocalNets with tiny and base sizes achieve 82.3% and 83.9% top-1 accuracy on ImageNet-1K. After pretrained on ImageNet-22K, it attains 86.5% and 87.3% top-1 accuracy when finetuned with resolution 224$\times$224 and 384$\times$384, respectively. FocalNets exhibit remarkable superiority when transferred to downstream tasks. For object detection with Mask R-CNN, our FocalNet base trained with 1$\times$ already surpasses Swin trained with 3$\times$ schedule (49.0 v.s. 48.5). For semantic segmentation with UperNet, FocalNet base evaluated at single-scale outperforms Swin evaluated at multi-scale (50.5 v.s. 49.7). These results render focal modulation a favorable alternative to SA for effective and efficient visual modeling in real-world applications. Code is available at https://github.com/m icrosoft/FocalNet.
翻訳日:2022-03-23 12:43:25 公開日:2022-03-22
# NeurIPS 2021 NetHack Challengeからの洞察

Insights From the NeurIPS 2021 NetHack Challenge ( http://arxiv.org/abs/2203.11889v1 )

ライセンス: Link先を確認
Eric Hambro, Sharada Mohanty, Dmitrii Babaev, Minwoo Byeon, Dipam Chakraborty, Edward Grefenstette, Minqi Jiang, Daejin Jo, Anssi Kanervisto, Jongmin Kim, Sungwoong Kim, Robert Kirk, Vitaly Kurin, Heinrich K\"uttler, Taehwon Kwon, Donghoon Lee, Vegard Mella, Nantas Nardelli, Ivan Nazarov, Nikita Ovsov, Jack Parker-Holder, Roberta Raileanu, Karolis Ramanauskas, Tim Rockt\"aschel, Danielle Rothermel, Mikayel Samvelyan, Dmitry Sorokin, Maciej Sypetkowski, Micha{\l} Sypetkowski(参考訳) 本稿では,第1回NeurIPS 2021 NetHack Challengeの概要を紹介する。 参加者はnethack learning environment (nle)、スケーラブルで手続き的な生成、強化学習(rl)のための挑戦的なジム環境と対話することで、nethackのダンジョンクローラーゲームで勝利できるプログラムやエージェントの開発に携わった。 この課題は、多くの多様なアプローチを持つAIにおけるコミュニティ主導の進歩を示し、これまでNetHackで最良の結果を上回った。 さらに、ニューラル(ディープRLなど)とシンボリックAIとハイブリッドシステムとの直接比較として機能し、NetHackのシンボリックボットでは、現在ディープRLを大きなマージンで上回っていることを示した。 最後に、どのエージェントもゲームに勝つことに近づき、AI研究の長期ベンチマークとしてのNetHackの適合性を示した。

In this report, we summarize the takeaways from the first NeurIPS 2021 NetHack Challenge. Participants were tasked with developing a program or agent that can win (i.e., 'ascend' in) the popular dungeon-crawler game of NetHack by interacting with the NetHack Learning Environment (NLE), a scalable, procedurally generated, and challenging Gym environment for reinforcement learning (RL). The challenge showcased community-driven progress in AI with many diverse approaches significantly beating the previously best results on NetHack. Furthermore, it served as a direct comparison between neural (e.g., deep RL) and symbolic AI, as well as hybrid systems, demonstrating that on NetHack symbolic bots currently outperform deep RL by a large margin. Lastly, no agent got close to winning the game, illustrating NetHack's suitability as a long-term benchmark for AI research.
翻訳日:2022-03-23 12:42:54 公開日:2022-03-22
# GradViT: 視覚変換器のグラディエントインバージョン

GradViT: Gradient Inversion of Vision Transformers ( http://arxiv.org/abs/2203.11894v1 )

ライセンス: Link先を確認
Ali Hatamizadeh, Hongxu Yin, Holger Roth, Wenqi Li, Jan Kautz, Daguang Xu and Pavlo Molchanov(参考訳) 本研究は,視力変換器(ViT)の勾配型逆転攻撃に対する脆弱性を実証する。 この攻撃の間、元のデータバッチはモデル重みと対応する勾配によって再構成される。 そこで本研究では,自然に見える画像にランダムノイズを最適化するGradViTを提案する。 最適化の目的は (i)勾配の一致による損失 (ii)事前訓練されたcnnモデルのバッチ正規化統計量と距離の形で先行する画像、及び (iii)適切な回復場所を導くパッチの総変動正規化。 最適化時に局所最小化を克服する一意な損失スケジューリング関数を提案する。 我々は、ImageNet1KおよびMS-Celeb-1Mデータセット上でGadViTを評価し、元の(隠された)データに対する前例のない高い忠実性と近接性を観測した。 分析中、視覚トランスフォーマーは注意機構の存在により、以前研究したcnnよりも著しく脆弱であることが判明した。 本手法は,定性的,定量的両指標の勾配インバージョンのための新しい最先端結果を示す。 プロジェクトページ: https://gradvit.gith ub.io/

In this work we demonstrate the vulnerability of vision transformers (ViTs) to gradient-based inversion attacks. During this attack, the original data batch is reconstructed given model weights and the corresponding gradients. We introduce a method, named GradViT, that optimizes random noise into naturally looking images via an iterative process. The optimization objective consists of (i) a loss on matching the gradients, (ii) image prior in the form of distance to batch-normalization statistics of a pretrained CNN model, and (iii) a total variation regularization on patches to guide correct recovery locations. We propose a unique loss scheduling function to overcome local minima during optimization. We evaluate GadViT on ImageNet1K and MS-Celeb-1M datasets, and observe unprecedentedly high fidelity and closeness to the original (hidden) data. During the analysis we find that vision transformers are significantly more vulnerable than previously studied CNNs due to the presence of the attention mechanism. Our method demonstrates new state-of-the-art results for gradient inversion in both qualitative and quantitative metrics. Project page at https://gradvit.gith ub.io/.
翻訳日:2022-03-23 12:41:51 公開日:2022-03-22
# ポッドキャスト原稿の要約的要約に向けて

Towards Abstractive Grounded Summarization of Podcast Transcripts ( http://arxiv.org/abs/2203.11425v1 )

ライセンス: Link先を確認
Kaiqiang Song, Chen Li, Xiaoyang Wang, Dong Yu, Fei Liu(参考訳) ポッドキャストは、最近急速に人気が高まっている。 ポッドキャストの書き起こしの要約は、コンテンツ提供者と消費者の両方にとって実用的な利益である。 消費者がポッドキャストを聴くかどうかを素早く判断し、要約を書くためのコンテンツ提供者の認知的負荷を減らすのに役立つ。 それでもポッドキャストの要約は、入力に関する事実上の矛盾を含む重大な課題に直面している。 この問題は、音声言語の文字起こしにおける音声の拡散と認識誤りによって悪化する。 本稿では,これらの課題を解決するために,抽象的な要約手法を提案する。 具体的には,要約文の特定部分に要約文を接地しながら要約文を生成することで,要約文の完全検査を可能にする。 本研究では,大規模ポッドキャストデータセット上で提案手法の一連の分析を行い,提案手法が有望な結果が得られることを示す。 グラウンデッドサマリーは、一貫性のない情報を含む要約と転写セグメントの特定において明らかな利点をもたらし、その結果、自動評価指標と人的評価指標の両方において、要約品質を著しく向上させる。

Podcasts have recently shown a rapid rise in popularity. Summarization of podcast transcripts is of practical benefit to both content providers and consumers. It helps consumers to quickly decide whether they will listen to the podcasts and reduces the cognitive load of content providers to write summaries. Nevertheless, podcast summarization faces significant challenges including factual inconsistencies with respect to the inputs. The problem is exacerbated by speech disfluencies and recognition errors in transcripts of spoken language. In this paper, we explore a novel abstractive summarization method to alleviate these challenges. Specifically, our approach learns to produce an abstractive summary while grounding summary segments in specific portions of the transcript to allow for full inspection of summary details. We conduct a series of analyses of the proposed approach on a large podcast dataset and show that the approach can achieve promising results. Grounded summaries bring clear benefits in locating the summary and transcript segments that contain inconsistent information, and hence significantly improve summarization quality in both automatic and human evaluation metrics.
翻訳日:2022-03-23 12:41:34 公開日:2022-03-22
# HOP: 視覚・言語ナビゲーションのための事前学習

HOP: History-and-Order Aware Pre-training for Vision-and-Language Navigation ( http://arxiv.org/abs/2203.11591v1 )

ライセンス: Link先を確認
Yanyuan Qiao, Yuankai Qi, Yicong Hong, Zheng Yu, Peng Wang, Qi Wu(参考訳) 事前学習は、VLN(Vision-and-Langu age Navigation)の最近の研究で採用されている。 しかしながら、VLNの以前の事前学習手法には、将来の行動を予測する能力が欠けているか、航法プロセスに不可欠な軌跡を無視する能力がある。 本研究では,時空間的視覚・テキスト対応の学習とエージェントの意思決定能力を促進するため,過去の観察を活用し,今後の行動予測を支援するvln固有の目標を持つ新しい履歴・順序対応事前学習パラダイムを提案する。 具体的には,MLM(Masked Language Modeling)とTIM(Torjectory-Instr uction Matching)に加えて,時間次情報(Torjectory Order Modeling,TOM)とグループ次数モデリング(Group Order Modeling,GOM)の2つのプロキシタスクを設計する。 また,過去の視覚知覚を考慮した行動予測タスク(task of action prediction with history, aph)を導入することで,ナビゲーション行動予測も強化した。 4つの下流VLNタスク(R2R,REVERIE,NDH,RxR )の大規模な実験結果から,提案手法の有効性が示された。

Pre-training has been adopted in a few of recent works for Vision-and-Language Navigation (VLN). However, previous pre-training methods for VLN either lack the ability to predict future actions or ignore the trajectory contexts, which are essential for a greedy navigation process. In this work, to promote the learning of spatio-temporal visual-textual correspondence as well as the agent's capability of decision making, we propose a novel history-and-order aware pre-training paradigm (HOP) with VLN-specific objectives that exploit the past observations and support future action prediction. Specifically, in addition to the commonly used Masked Language Modeling (MLM) and Trajectory-Instructi on Matching (TIM), we design two proxy tasks to model temporal order information: Trajectory Order Modeling (TOM) and Group Order Modeling (GOM). Moreover, our navigation action prediction is also enhanced by introducing the task of Action Prediction with History (APH), which takes into account the history visual perceptions. Extensive experimental results on four downstream VLN tasks (R2R, REVERIE, NDH, RxR) demonstrate the effectiveness of our proposed method compared against several state-of-the-art agents.
翻訳日:2022-03-23 12:41:19 公開日:2022-03-22
# IDEA-Net: ディープ埋め込みアライメントによる動的3Dポイントクラウド補間

IDEA-Net: Dynamic 3D Point Cloud Interpolation via Deep Embedding Alignment ( http://arxiv.org/abs/2203.11590v1 )

ライセンス: Link先を確認
Yiming Zeng, Yue Qian, Qijian Zhang, Junhui Hou, Yixuan Yuan, Ying He(参考訳) 本稿では, 動的3次元点雲を非剛性変形の大きな時間的補間問題について検討する。 我々は、点軌道(すなわち滑らかな曲線)の推定として問題を定式化し、さらに時間的不規則性とアンダーサンプリングが2つの大きな課題であるとする。 この課題に対処するため,我々は,学習した時間的一貫性の助けを借りて問題を解消するエンドツーエンドのディープラーニングフレームワークであるIDEA-Netを提案する。 具体的には、線形補間を用いて粗い軌跡を得るために、2つの連続する点雲フレームをポイントワイズに整列させる時間整合学習モジュールを提案する。 トラジェクトリの高次非線形成分を補うために、局所幾何学特性を符号化した整列した特徴埋め込みを、粗い推定と組み合わせた逆ポイントワイドインクリメントに適用する。 各種点群における本手法の有効性を実証し, 定量的かつ視覚的に, 最先端の手法を大きく改善した。 我々のフレームワークは3Dモーションデータ取得に恩恵をもたらすことができる。 ソースコードはhttps://github.com/Z ENGYIMING-EAMON/IDEA -Net.gitで公開されている。

This paper investigates the problem of temporally interpolating dynamic 3D point clouds with large non-rigid deformation. We formulate the problem as estimation of point-wise trajectories (i.e., smooth curves) and further reason that temporal irregularity and under-sampling are two major challenges. To tackle the challenges, we propose IDEA-Net, an end-to-end deep learning framework, which disentangles the problem under the assistance of the explicitly learned temporal consistency. Specifically, we propose a temporal consistency learning module to align two consecutive point cloud frames point-wisely, based on which we can employ linear interpolation to obtain coarse trajectories/in-betw een frames. To compensate the high-order nonlinear components of trajectories, we apply aligned feature embeddings that encode local geometry properties to regress point-wise increments, which are combined with the coarse estimations. We demonstrate the effectiveness of our method on various point cloud sequences and observe large improvement over state-of-the-art methods both quantitatively and visually. Our framework can bring benefits to 3D motion data acquisition. The source code is publicly available at https://github.com/Z ENGYIMING-EAMON/IDEA -Net.git.
翻訳日:2022-03-23 12:38:18 公開日:2022-03-22
# データ転送による細粒度シーングラフ生成

Fine-Grained Scene Graph Generation with Data Transfer ( http://arxiv.org/abs/2203.11654v1 )

ライセンス: Link先を確認
Ao Zhang, Yuan Yao, Qianyu Chen, Wei Ji, Zhiyuan Liu, Maosong Sun, Tat-Seng Chua(参考訳) scene graph generation (sgg) は画像中の(サブジェクト、述語、オブジェクト)トリプレットを抽出することを目的としている。 最近の研究はSGGを着実に進歩させ、高レベルの視覚と言語理解に有用なツールを提供している。 しかしながら、ロングテール分布やセマンティクス曖昧性を含むデータ分布の問題により、現在のsggモデルの予測は、ダウンストリームタスクにおけるこれらのモデルの実用的適用を制限するいくつかの頻繁だが非形式的な述語(例えば、 \textit{on}, \textit{at})に崩壊する傾向がある。 上記の問題に対処するために,遊びとプラグで適用可能な新しい内部・外部データ転送(IETrans)手法を提案し,1,807の述語クラスを持つ大規模SGGに拡張した。 当社のIETransは、すべての述語に対してより十分かつ一貫性のあるアノテーションを提供する拡張データセットを自動生成することで、データ分散問題を解消しようとしています。 移行データセットのトレーニングにより、Neural Motifモデルは、競合するマイクロパフォーマンスを維持しながら、マクロパフォーマンスを2倍にする。 本論文のデータとコードは \url{https://github.com/w axnkw/IETrans-SGG.py torch} で公開されている。

Scene graph generation (SGG) aims to extract (subject, predicate, object) triplets in images. Recent works have made a steady progress on SGG, and provide useful tools for high-level vision and language understanding. However, due to the data distribution problems including long-tail distribution and semantic ambiguity, the predictions of current SGG models tend to collapse to several frequent but uninformative predicates (e.g., \textit{on}, \textit{at}), which limits practical application of these models in downstream tasks. To deal with the problems above, we propose a novel Internal and External Data Transfer (IETrans) method, which can be applied in a play-and-plug fashion and expanded to large SGG with 1,807 predicate classes. Our IETrans tries to relieve the data distribution problem by automatically creating an enhanced dataset that provides more sufficient and coherent annotations for all predicates. By training on the transferred dataset, a Neural Motif model doubles the macro performance while maintaining competitive micro performance. The data and code for this paper are publicly available at \url{https://github.com/w axnkw/IETrans-SGG.py torch}
翻訳日:2022-03-23 12:37:55 公開日:2022-03-22
# ViT支援型連続学習のためのメタアテンション

Meta-attention for ViT-backed Continual Learning ( http://arxiv.org/abs/2203.11684v1 )

ライセンス: Link先を確認
Mengqi Xue, Haofei Zhang, Jie Song, Mingli Song(参考訳) 継続的学習は、継続的に到着するタスクに取り組む上で重要な役割を担っているため、長年にわたる研究テーマである。 現在まで、コンピュータビジョンにおける連続学習の研究は主に畳み込みニューラルネットワーク(cnns)に限られている。 しかし、近年、新たに出現したビジョントランスフォーマー(vits)が、コンピュータビジョンの分野を徐々に支配している傾向があり、vitsに直接適用すれば、深刻なパフォーマンス低下に苦しむ可能性があるため、cnnベースの継続的な学習が遅れている。 本稿では,近年のViTの進歩にともなって,ViTをベースとした連続学習を用いて,より高性能な乗馬を目指す。 CNNにおけるマスクベースの連続学習手法に着想を得て、学習済みのViTを新しいタスクに適応させるためにタスク毎のマスクを学習し、学習済みのタスクの性能を犠牲にすることなく、学習済みのViTを新しいタスクに適応させるMeta-Atention(MEAT)を提案する。 全てのパラメータが対応するマスクに関連付けられているPiggybackのような従来のマスクベースの方法とは異なり、MEATはViTの特性を活用し、パラメータの一部だけをマスクする。 MEATはより効率的で効率が良く、オーバーヘッドも少なく、精度も高い。 大規模な実験により、MEATは最先端のCNNに比べて大きな優位性を示し、精度は4.0~6.0%向上した。 私たちのコードはhttps://github.com/z ju-vipa/MEAT-TILで公開されています。

Continual learning is a longstanding research topic due to its crucial role in tackling continually arriving tasks. Up to now, the study of continual learning in computer vision is mainly restricted to convolutional neural networks (CNNs). However, recently there is a tendency that the newly emerging vision transformers (ViTs) are gradually dominating the field of computer vision, which leaves CNN-based continual learning lagging behind as they can suffer from severe performance degradation if straightforwardly applied to ViTs. In this paper, we study ViT-backed continual learning to strive for higher performance riding on recent advances of ViTs. Inspired by mask-based continual learning methods in CNNs, where a mask is learned per task to adapt the pre-trained ViT to the new task, we propose MEta-ATtention (MEAT), i.e., attention to self-attention, to adapt a pre-trained ViT to new tasks without sacrificing performance on already learned tasks. Unlike prior mask-based methods like Piggyback, where all parameters are associated with corresponding masks, MEAT leverages the characteristics of ViTs and only masks a portion of its parameters. It renders MEAT more efficient and effective with less overhead and higher accuracy. Extensive experiments demonstrate that MEAT exhibits significant superiority to its state-of-the-art CNN counterparts, with 4.0~6.0% absolute boosts in accuracy. Our code has been released at https://github.com/z ju-vipa/MEAT-TIL.
翻訳日:2022-03-23 12:37:35 公開日:2022-03-22
# cp2: 意味セグメンテーションのためのコピー・ペースト・コントラスト・プリトレーニング

CP2: Copy-Paste Contrastive Pretraining for Semantic Segmentation ( http://arxiv.org/abs/2203.11709v1 )

ライセンス: Link先を確認
Feng Wang, Huiyu Wang, Chen Wei, Alan Yuille, Wei Shen(参考訳) 近年の自己教師付きコントラスト学習の進歩は、分類タスクを好むが、通常はピクセルレベルの詳細な情報を無視し、セマンティックセグメンテーションのような密度の高い予測タスクに不満足な転送性能をもたらす。 本研究では,画像レベルと画素レベルの両方の表現学習を容易にするcp2(copy-paste contrastive pretraining)と呼ばれるピクセル単位のコントラスト学習手法を提案する。 詳細は、画像(前景)から異なる背景画像にランダムな作物をコピー・ペーストし、目的のセグメンテーションモデルを事前訓練する。 1)前景画素と背景画素とを区別し, 2)同じ前景を共有する合成画像の同定。実験では、下流意味セグメンテーションにおけるcp2の強力な性能を示す: pascal voc 2012で事前学習されたcp2モデルを微調整することで、resnet-50で78.6%miou、vit-sで79.5%を得る。

Recent advances in self-supervised contrastive learning yield good image-level representation, which favors classification tasks but usually neglects pixel-level detailed information, leading to unsatisfactory transfer performance to dense prediction tasks such as semantic segmentation. In this work, we propose a pixel-wise contrastive learning method called CP2 (Copy-Paste Contrastive Pretraining), which facilitates both image- and pixel-level representation learning and therefore is more suitable for downstream dense prediction tasks. In detail, we copy-paste a random crop from an image (the foreground) onto different background images and pretrain a semantic segmentation model with the objective of 1) distinguishing the foreground pixels from the background pixels, and 2) identifying the composed images that share the same foreground.Experimen ts show the strong performance of CP2 in downstream semantic segmentation: By finetuning CP2 pretrained models on PASCAL VOC 2012, we obtain 78.6% mIoU with a ResNet-50 and 79.5% with a ViT-S.
翻訳日:2022-03-23 12:37:08 公開日:2022-03-22
# 条件付きマッチングを伴う開語彙detr

Open-Vocabulary DETR with Conditional Matching ( http://arxiv.org/abs/2203.11876v1 )

ライセンス: Link先を確認
Yuhang Zang, Wei Li, Kaiyang Zhou, Chen Huang, Chen Change Loy(参考訳) 自然言語に導かれる新しい物体の検出の問題にかかわるオープンボキャブラリー物体検出は,コミュニティから注目を集めている。 理想的には、自然言語または例示画像の形式でユーザの入力に基づいて境界ボックス予測を作成できるように、オープンボキャブラリー検出器を拡張したいと思います。 これは人間とコンピュータのインタラクションに優れた柔軟性とユーザエクスペリエンスを提供する。 そこで,本研究では,detrに基づく新しいオープンボキャブラリー検出器を提案する。ov-detrという名称は,一度訓練すると,そのクラス名や例示画像から任意の物体を検出できる。 DETRをオープン語彙検出器に変える最大の課題は、ラベル付き画像にアクセスせずに新しいクラスの分類コスト行列を計算することは不可能である。 この課題を克服するために、我々は、入力クエリ(クラス名または例画像)と対応するオブジェクトとのバイナリマッチングとして学習目標を定式化し、テスト中に目に見えないクエリに一般化するために有用な対応を学習する。 トレーニングでは、テキストクエリと画像クエリの両方のマッチングを可能にするために、CLIPのようなトレーニング済みの視覚言語モデルから得られた入力埋め込みに対してTransformerデコーダを条件付けする。 LVISとCOCOデータセットに関する広範な実験により、最初のエンドツーエンドのTransformerベースのオープンボキャブラリ検出器であるOV-DETRが、現在の芸術状況よりも簡単な改善を実現していることを示す。

Open-vocabulary object detection, which is concerned with the problem of detecting novel objects guided by natural language, has gained increasing attention from the community. Ideally, we would like to extend an open-vocabulary detector such that it can produce bounding box predictions based on user inputs in form of either natural language or exemplar image. This offers great flexibility and user experience for human-computer interaction. To this end, we propose a novel open-vocabulary detector based on DETR -- hence the name OV-DETR -- which, once trained, can detect any object given its class name or an exemplar image. The biggest challenge of turning DETR into an open-vocabulary detector is that it is impossible to calculate the classification cost matrix of novel classes without access to their labeled images. To overcome this challenge, we formulate the learning objective as a binary matching one between input queries (class name or exemplar image) and the corresponding objects, which learns useful correspondence to generalize to unseen queries during testing. For training, we choose to condition the Transformer decoder on the input embeddings obtained from a pre-trained vision-language model like CLIP, in order to enable matching for both text and image queries. With extensive experiments on LVIS and COCO datasets, we demonstrate that our OV-DETR -- the first end-to-end Transformer-based open-vocabulary detector -- achieves non-trivial improvements over current state of the arts.
翻訳日:2022-03-23 12:36:46 公開日:2022-03-22
# (参考訳) CRISPnet:カラーレンタルISPネット [全文訳有]

CRISPnet: Color Rendition ISP Net ( http://arxiv.org/abs/2203.10562v2 )

ライセンス: CC BY 4.0
Matheus Souza, Wolfgang Heidrich(参考訳) 画像信号プロセッサ(ISP)は、ノイズの多い生センサ測定からカラーイメージを再構築するための、歴史的に成長したソフトウェアシステムである。 それらは通常、装飾、解体、色復元のための多くのヒューリスティックブロックで構成されている。 この文脈での色再現は特に重要であり、生の色はしばしばひどく歪められ、各携帯電話メーカーは、肌色やその他の視覚的に重要な色などの色調を改善するために独自の特徴的ヒューリスティックを開発した。 近年では、歴史的に成長したISPシステムをディープラーニングパイプラインに置き換えることへの関心が高まっている。 このような学習モデルによるレガシーISPの近似には、多くの進歩があった。 しかし、これらの取り組みの焦点は画像の構造的特徴の再現であり、色調にはあまり注意が払われていない。 ここでは、複雑でレガシなスマートフォンISPと比較して色再現精度を特に目標とする、最初の学習ISPモデルであるCRISPnetを紹介する。 我々は、画像メタデータ(レガシISPのような)と、画像分類に基づく単純なグローバルセマンティクス(レガシISPがシーンタイプを決定するために何をしているかに似たもの)の両方を活用することで、これを実現する。 また,高ダイナミックレンジモニタデータと実世界のデータの両方からなるISPイメージデータセットを,様々な照明条件,露光時間,ゲイン設定の下で,実際の携帯電話ISPパイプラインでキャプチャした。

Image signal processors (ISPs) are historically grown legacy software systems for reconstructing color images from noisy raw sensor measurements. They are usually composited of many heuristic blocks for denoising, demosaicking, and color restoration. Color reproduction in this context is of particular importance, since the raw colors are often severely distorted, and each smart phone manufacturer has developed their own characteristic heuristics for improving the color rendition, for example of skin tones and other visually important colors. In recent years there has been strong interest in replacing the historically grown ISP systems with deep learned pipelines. Much progress has been made in approximating legacy ISPs with such learned models. However, so far the focus of these efforts has been on reproducing the structural features of the images, with less attention paid to color rendition. Here we present CRISPnet, the first learned ISP model to specifically target color rendition accuracy relative to a complex, legacy smart phone ISP. We achieve this by utilizing both image metadata (like a legacy ISP would), as well as by learning simple global semantics based on image classification -- similar to what a legacy ISP does to determine the scene type. We also contribute a new ISP image dataset consisting of both high dynamic range monitor data, as well as real-world data, both captured with an actual cell phone ISP pipeline under a variety of lighting conditions, exposure times, and gain settings.
翻訳日:2022-03-23 11:55:44 公開日:2022-03-22
# (参考訳) フィードフォワードニューラルネットワークにおける活動重双対性:一般化の幾何学的決定因子 [全文訳有]

The activity-weight duality in feed forward neural networks: The geometric determinants of generalization ( http://arxiv.org/abs/2203.10736v2 )

ライセンス: CC BY 4.0
Yu Feng and Yuhai Tu(参考訳) 機械学習の基本的な問題の1つは一般化である。 多くの重み(パラメータ)を持つニューラルネットワークモデルでは、多くの解がトレーニングデータに等しく適合していることが分かる。 鍵となる問題は、どのソリューションがトレーニングセットにないテストデータを記述することができるかである。 本稿では、ニューロンの特定の層における活動の変化と、任意のフィードフォワード神経ネットワーク内の密結合層内のニューロンの次の層に接続する重みの変化の正確な双対性(等価性)を発見したことを報告する。 アクティビティー重み(a-w)の双対性により、入力(データ)のバリエーションを対応する双対重みのバリエーションにマップできる。 この写像を用いることで、一般化損失は重み空間の解における損失関数のヘッセン行列の異なる固有方向からの寄与の和に分解できることを示した。 与えられた固有方向からの寄与は、2つの幾何学的要因(決定要因)の積である:損失の風景の鋭さと双対重みの標準偏差であり、これは解の重みのノルムでスケールすることが分かる。 提案手法は,定式化手法の違い(バッチサイズや学習率の異なる確率勾配降下,ドロップアウト,トレーニングデータサイズ,ラベル付けノイズ)が,一般化のためにこれらの2つの幾何学的行列式のいずれかを制御することによって,一般化性能にどのように影響するかを明らかにするものである。 これらの洞察は、過度にパラメータ化されたニューラルネットワークでより一般化可能なソリューションを見つけるアルゴリズムの開発を導くために使用できる。

One of the fundamental problems in machine learning is generalization. In neural network models with a large number of weights (parameters), many solutions can be found to fit the training data equally well. The key question is which solution can describe testing data not in the training set. Here, we report the discovery of an exact duality (equivalence) between changes in activities in a given layer of neurons and changes in weights that connect to the next layer of neurons in a densely connected layer in any feed forward neural network. The activity-weight (A-W) duality allows us to map variations in inputs (data) to variations of the corresponding dual weights. By using this mapping, we show that the generalization loss can be decomposed into a sum of contributions from different eigen-directions of the Hessian matrix of the loss function at the solution in weight space. The contribution from a given eigen-direction is the product of two geometric factors (determinants): the sharpness of the loss landscape and the standard deviation of the dual weights, which is found to scale with the weight norm of the solution. Our results provide an unified framework, which we used to reveal how different regularization schemes (weight decay, stochastic gradient descent with different batch sizes and learning rates, dropout), training data size, and labeling noise affect generalization performance by controlling either one or both of these two geometric determinants for generalization. These insights can be used to guide development of algorithms for finding more generalizable solutions in overparametrized neural networks.
翻訳日:2022-03-23 11:29:02 公開日:2022-03-22
# (参考訳) XTREME-S: 言語間音声表現の評価 [全文訳有]

XTREME-S: Evaluating Cross-lingual Speech Representations ( http://arxiv.org/abs/2203.10752v2 )

ライセンス: CC BY 4.0
Alexis Conneau, Ankur Bapna, Yu Zhang, Min Ma, Patrick von Platen, Anton Lozhkov, Colin Cherry, Ye Jia, Clara Rivera, Mihir Kale, Daan Van Esch, Vera Axelrod, Simran Khanuja, Jonathan H. Clark, Orhan Firat, Michael Auli, Sebastian Ruder, Jason Riesa, Melvin Johnson(参考訳) XTREME-Sは,言語間の共通言語表現を評価するための新しいベンチマークである。 XTREME-Sは、音声認識、分類、音声からテキストへの翻訳、検索の4つのタスクファミリーをカバーする。 XTREME-Sは,10以上の言語ファミリー,3つの異なるドメイン,4つのタスクファミリーから102言語をカバーし,多言語言語表現の評価を簡素化するとともに,"普遍的"言語表現学習における研究を触媒することを目的としている。 本稿では,新しいベンチマークについて述べるとともに,xls-r と mslam を用いた最初の音声のみベースラインと音声テキストベースラインを確立する。 デザインの選択を動機付け、ベンチマークの使い方を詳しく説明します。 データセットと微調整スクリプトはhttps://hf.co/datase ts/google/xtreme_sで簡単にアクセスできる。

We introduce XTREME-S, a new benchmark to evaluate universal cross-lingual speech representations in many languages. XTREME-S covers four task families: speech recognition, classification, speech-to-text translation and retrieval. Covering 102 languages from 10+ language families, 3 different domains and 4 task families, XTREME-S aims to simplify multilingual speech representation evaluation, as well as catalyze research in "universal" speech representation learning. This paper describes the new benchmark and establishes the first speech-only and speech-text baselines using XLS-R and mSLAM on all downstream tasks. We motivate the design choices and detail how to use the benchmark. Datasets and fine-tuning scripts are made easily accessible at https://hf.co/datase ts/google/xtreme_s.
翻訳日:2022-03-23 11:10:53 公開日:2022-03-22
# ase:不均衡データセットのための異常スコアに基づくアンサンブル学習

ASE: Anomaly Scoring Based Ensemble Learning for Imbalanced Datasets ( http://arxiv.org/abs/2203.10769v2 )

ライセンス: Link先を確認
Xiayu Liang, Ying Gao, Shanrong Xu(参考訳) 今日では、金融、医療、製造業などビジネス上の問題を解決するために、多くの業界が分類アルゴリズムを適用している。 しかしながら、現実のシナリオでは、ポジティブな例がすべてのインスタンスのごく一部を占めるだけで、データセットは高い不均衡率に苦しめられ、既存の分類モデルのパフォーマンスが低下します。 この問題を解決するために,異常検出スコアリングシステムに基づく,袋詰めアンサンブル学習フレームワークを考案した。 我々のアンサンブル学習モデルは,ベース推定器(例えば,決定木,多層パーセプトロン,KNN)の性能を劇的に向上させ,不均衡比,データスケール,データ次元の幅の広い既存手法よりも効率的であることを確認した。

Nowadays, many industries have applied classification algorithms to help them solve problems in their business, like finance, medicine, manufacturing industry and so on. However, in real-life scenarios, positive examples only make up a small part of all instances and our datasets suffer from high imbalance ratio which leads to poor performance of existing classification models. To solve this problem, we come up with a bagging ensemble learning framework based on an anomaly detection scoring system. We test out that our ensemble learning model can dramatically improve performance of base estimators (e.g. Decision Tree, Multilayer perceptron, KNN) and is more efficient than other existing methods under a wide range of imbalance ratio, data scale and data dimension.
翻訳日:2022-03-23 10:47:53 公開日:2022-03-22
# 双曲視覚トランスフォーマー:計量学習の改善を組み合わせる

Hyperbolic Vision Transformers: Combining Improvements in Metric Learning ( http://arxiv.org/abs/2203.10833v2 )

ライセンス: Link先を確認
Aleksandr Ermolov, Leyla Mirvakhabova, Valentin Khrulkov, Nicu Sebe and Ivan Oseledets(参考訳) メトリック学習は、類似クラスの埋め込みが選択したメトリクスに近づいたり、異なるメトリクスにプッシュされたりすることを奨励する、非常に差別的なモデルを学ぶことを目的としている。 一般的なレシピは、エンコーダを使って埋め込みを抽出し、表現にマッチする距離ベースの損失関数を使用することである。 双曲的データ埋め込みの学習への関心は、双曲的幾何学が自然データにとって有益であることを示している。 そこで本研究では, 計量学習のための新しい双曲型モデルを提案する。 本手法の中核は双曲空間に写像された出力埋め込みを持つ視覚トランスフォーマである。 これらの埋め込みは、修正されたペアワイズクロスエントロピー損失を用いて直接最適化される。 提案モデルを4つのデータセット上で6つの異なる定式化で評価し,最新性能を得た。 ソースコードはhttps://github.com/h tdt/hyp_metricで入手できる。

Metric learning aims to learn a highly discriminative model encouraging the embeddings of similar classes to be close in the chosen metrics and pushed apart for dissimilar ones. The common recipe is to use an encoder to extract embeddings and a distance-based loss function to match the representations -- usually, the Euclidean distance is utilized. An emerging interest in learning hyperbolic data embeddings suggests that hyperbolic geometry can be beneficial for natural data. Following this line of work, we propose a new hyperbolic-based model for metric learning. At the core of our method is a vision transformer with output embeddings mapped to hyperbolic space. These embeddings are directly optimized using modified pairwise cross-entropy loss. We evaluate the proposed model with six different formulations on four datasets achieving the new state-of-the-art performance. The source code is available at https://github.com/h tdt/hyp_metric.
翻訳日:2022-03-23 10:47:38 公開日:2022-03-22
# 人間-ロボット協調におけるタスクデリゲートのための計算エルゴノミクス:接触なしジェスチャー認識によるロボットの人間への時空間適応

Computational ergonomics for task delegation in Human-Robot Collaboration: spatiotemporal adaptation of the robot to the human through contactless gesture recognition ( http://arxiv.org/abs/2203.11007v2 )

ライセンス: Link先を確認
Brenda Elizabeth Olivas-Padilla, Dimitris Papanagiotou, Gavriela Senteri, Sotiris Manitsaris, and Alina Glushkova(参考訳) 作業関連筋骨格障害 (wmsds) の高頻度化は, 人間-ロボット協調 (hrc) フレームワークの最適化により解決できる。 本稿では,エルゴノミカルに有効なタスクデリゲーションとhrcの2つの仮説を提案する。 第1の仮説では、縮小されたセンサー群からのモーションデータを用いて人間工学的なタスクを定量化することが可能である。 そして、最も危険なタスクを協調ロボットに委譲することができる。 2つめの仮説は、ジェスチャー認識と空間適応を含めることで、オペレーターが人間工学的リスクにさらす必要のない動きを避け、オペレーターに必要な物理的労力を下げることで、hrcシナリオの人間工学を改善することができる、ということである。 テレビ製造プロセスのhrcシナリオは、両方の仮説をテストするために最適化される。 エルゴノミクス評価では, エルゴノミクスリスクが既知の運動プリミティブを, 専門業務における検出と欧州議会ワークシート(EAWS)に基づくリスクスコアの推定のためにモデル化した。 自己中心型テレビ組立データを用いて学習したディープラーニングジェスチャー認識モジュールを用いて,人間とロボットの協調を補完した。 さらに、スケルトン追跡アルゴリズムは、ロボットにオペレータのポーズに関する情報を提供し、その動きをオペレータのヒューマンメトリックスに空間的に適応させることを可能にした。 ジェスチャー認識と空間適応が操作者の動作範囲に与える影響を判定する3つの実験を行った。 本論文では,空間適応率をキーパフォーマンス指標(kpi)として使用し,オペレータの動きの低減度を測定するための新しいkpiを提案する。

The high prevalence of work-related musculoskeletal disorders (WMSDs) could be addressed by optimizing Human-Robot Collaboration (HRC) frameworks for manufacturing applications. In this context, this paper proposes two hypotheses for ergonomically effective task delegation and HRC. The first hypothesis states that it is possible to quantify ergonomically professional tasks using motion data from a reduced set of sensors. Then, the most dangerous tasks can be delegated to a collaborative robot. The second hypothesis is that by including gesture recognition and spatial adaptation, the ergonomics of an HRC scenario can be improved by avoiding needless motions that could expose operators to ergonomic risks and by lowering the physical effort required of operators. An HRC scenario for a television manufacturing process is optimized to test both hypotheses. For the ergonomic evaluation, motion primitives with known ergonomic risks were modeled for their detection in professional tasks and to estimate a risk score based on the European Assembly Worksheet (EAWS). A Deep Learning gesture recognition module trained with egocentric television assembly data was used to complement the collaboration between the human operator and the robot. Additionally, a skeleton-tracking algorithm provided the robot with information about the operator's pose, allowing it to spatially adapt its motion to the operator's anthropometrics. Three experiments were conducted to determine the effect of gesture recognition and spatial adaptation on the operator's range of motion. The rate of spatial adaptation was used as a key performance indicator (KPI), and a new KPI for measuring the reduction in the operator's motion is presented in this paper.
翻訳日:2022-03-23 10:47:25 公開日:2022-03-22
# 生体磁気共鳴のための物理駆動合成データ学習

Physics-driven Synthetic Data Learning for Biomedical Magnetic Resonance ( http://arxiv.org/abs/2203.11178v2 )

ライセンス: Link先を確認
Qinqin Yang, Zi Wang, Kunyuan Guo, Congbo Cai, Xiaobo Qu(参考訳) ディープラーニングは計算イメージングの分野を革新した。 そのボトルネックの1つは、利用できない、あるいは不十分なトレーニングデータである。 本稿では,バイオメディカル磁気共鳴における膨大なトレーニングデータを提供する,物理に基づく画像データ合成(IPADS)の新たなパラダイムを概観する。 磁気共鳴の物理法則に従って、IPADSは微分方程式や解析解モデルから信号を生成し、学習をよりスケーラブルで説明可能で、プライバシーを保護できる。 信号生成モデル,基本深層学習ネットワーク構造,データ生成の強化,学習方法など,IPADS学習の重要な要素について論じる。 IPADSの大きなポテンシャルは、高速イメージング、超高速信号再構成、正確なパラメータ定量化における代表的応用によって実証されている。 最後に,オープン質問と今後の課題について論じた。

Deep learning has innovated the field of computational imaging. One of its bottlenecks is unavailable or insufficient training data. This article reviews an emerging paradigm, imaging physics-based data synthesis (IPADS), that can provide huge training data in biomedical magnetic resonance without or with few real data. Following the physical law of magnetic resonance, IPADS generates signals from differential equations or analytical solution models, making the learning more scalable, explainable, and better protecting privacy. Key components of IPADS learning, including signal generation models, basic deep learning network structures, enhanced data generation, and learning methods are discussed. Great potentials of IPADS have been demonstrated by representative applications in fast imaging, ultrafast signal reconstruction and accurate parameter quantification. Finally, open questions and future work have been discussed.
翻訳日:2022-03-23 10:46:55 公開日:2022-03-22
# ディープアンロールネットワークのためのオペレータスケッチ

Operator Sketching for Deep Unrolling Networks ( http://arxiv.org/abs/2203.11156v2 )

ライセンス: Link先を確認
Junqi Tang(参考訳) 本研究では,演算子スケッチを用いた効率的なディープ・アンローリング・ネットワークの設計手法を提案する。 ディープアンロールネットワークは現在、逆問題を画像化するための最先端のソリューションである。 しかし、高次元イメージングタスク、特に3次元コーンビームX線CTと4次元MRIでは、ディープ・アンローリング・スキームは、高次元フォワード・アジョイント演算子を複数回計算する必要があるため、メモリと計算の両面で非効率になる。 近年、そのような制限は、確率的一階最適化の成功に触発されて、作用素のサブセットによる確率的展開によって部分的に対処できることがわかった。 本研究では,高次元画像空間の積を近似するためにスケッチ技術を用いて,確率的アンロールの高速化を提案する。 オペレータのスケッチは、最高の加速度および圧縮性能のために確率的アンロールと共同で適用することができる。 X線CT画像再構成に関する数値実験により,スケッチ・アンロール方式の有効性が示された。

In this work we propose a new paradigm for designing efficient deep unrolling networks using operator sketching. The deep unrolling networks are currently the state-of-the-art solutions for imaging inverse problems. However, for high-dimensional imaging tasks, especially the 3D cone-beam X-ray CT and 4D MRI imaging, the deep unrolling schemes typically become inefficient both in terms of memory and computation, due to the need of computing multiple times the high-dimensional forward and adjoint operators. Recently researchers have found that such limitations can be partially addressed by stochastic unrolling with subsets of operators, inspired by the success of stochastic first-order optimization. In this work, we propose a further acceleration upon stochastic unrolling, using sketching techniques to approximate products in the high-dimensional image space. The operator sketching can be jointly applied with stochastic unrolling for the best acceleration and compression performance. Our numerical experiments on X-ray CT image reconstruction demonstrate the remarkable effectiveness of our sketched unrolling schemes.
翻訳日:2022-03-23 10:46:42 公開日:2022-03-22
# TVConv: レイアウト対応ビジュアル処理のための効率的な翻訳バリアント変換

TVConv: Efficient Translation Variant Convolution for Layout-aware Visual Processing ( http://arxiv.org/abs/2203.10489v2 )

ライセンス: Link先を確認
Jierun Chen, Tianlang He, Weipeng Zhuo, Li Ma, Sangtae Ha, S.-H. Gary Chan(参考訳) 畳み込みが多くのスマートアプリケーションに力を与えているため、動的畳み込みは様々な入力に適応する能力をさらに備えている。 しかし、静的および動的畳み込みはレイアウトに依存しないか計算量が多いため、例えば顔認識や医用画像のセグメンテーションなど、レイアウト固有のアプリケーションには適さない。 これらの応用は,大きな画像内分散(空間的)と小さな画像間分散の特徴を自然に示している。 この観察は、レイアウト対応の視覚処理のための効率的な翻訳変種畳み込み(TVConv)を動機付ける。 技術的には、TVConvは親和性マップと重量発生ブロックで構成されている。 親和性マップは画素対関係を優雅に表現する一方で、重み付けブロックは、効率のよい推論を維持しながら、より優れたトレーニングのために明示的に過度にパラメータ化することができる。 概念的には単純だが、TVConvは畳み込みの効率を大幅に改善し、様々なネットワークアーキテクチャに簡単に接続できる。 顔認識に関する大規模な実験により、TVConvは計算コストを最大3.1倍に削減し、スループットを2.3倍改善し、奥行きの畳み込みよりも高い精度を維持した。 さらに,同じ計算コストで平均精度を最大4.21%向上させる。 また,視ディスク/カップセグメンテーションタスクの実験を行い,より優れた一般化性能を得ることにより,重要データ不足の軽減に寄与する。 コードはhttps://github.com/J ierunChen/TVConv.com で入手できる。

As convolution has empowered many smart applications, dynamic convolution further equips it with the ability to adapt to diverse inputs. However, the static and dynamic convolutions are either layout-agnostic or computation-heavy, making it inappropriate for layout-specific applications, e.g., face recognition and medical image segmentation. We observe that these applications naturally exhibit the characteristics of large intra-image (spatial) variance and small cross-image variance. This observation motivates our efficient translation variant convolution (TVConv) for layout-aware visual processing. Technically, TVConv is composed of affinity maps and a weight-generating block. While affinity maps depict pixel-paired relationships gracefully, the weight-generating block can be explicitly overparameterized for better training while maintaining efficient inference. Although conceptually simple, TVConv significantly improves the efficiency of the convolution and can be readily plugged into various network architectures. Extensive experiments on face recognition show that TVConv reduces the computational cost by up to 3.1x and improves the corresponding throughput by 2.3x while maintaining a high accuracy compared to the depthwise convolution. Moreover, for the same computation cost, we boost the mean accuracy by up to 4.21%. We also conduct experiments on the optic disc/cup segmentation task and obtain better generalization performance, which helps mitigate the critical data scarcity issue. Code is available at https://github.com/J ierunChen/TVConv.
翻訳日:2022-03-23 10:46:24 公開日:2022-03-22
# スマートフォンをデジタル一眼レフカメラに変える

Transform your Smartphone into a DSLR Camera: Learning the ISP in the Wild ( http://arxiv.org/abs/2203.10636v2 )

ライセンス: Link先を確認
Ardhendu Shekhar Tripathi, Martin Danelljan, Samarth Shukla, Radu Timofte, Luc Van Gool(参考訳) 本稿では,スマートフォンが取得したRAW画像に対して,DSLRの品質画像を生成するトレーニング可能な画像信号処理(ISP)フレームワークを提案する。 トレーニング画像ペア間の色ずれに対処するために、カラー条件ISPネットワークを使用し、各入力RAWと基準DSLR画像間の新しいパラメトリック色マッピングを最適化する。 推定中,効率的なグローバルコンテキストトランスフォーマーモジュールを用いたカラー予測ネットワークの設計により,ターゲットカラー画像の予測を行う。 後者は、グローバル情報を利用して一貫性のある色とトーンマッピングを学ぶ。 さらに,トレーニング中の不正確な動作推定を伴う領域を識別・破棄するために,ロバストなマスク付きアライメント損失を提案する。 最後に、弱いペアの電話RAWとDSLR sRGB画像からなるWild(ISPW)データセットにISPを導入する。 2つのデータセットに新しい最先端技術を設定することで、我々の手法を広く評価する。

We propose a trainable Image Signal Processing (ISP) framework that produces DSLR quality images given RAW images captured by a smartphone. To address the color misalignments between training image pairs, we employ a color-conditional ISP network and optimize a novel parametric color mapping between each input RAW and reference DSLR image. During inference, we predict the target color image by designing a color prediction network with efficient Global Context Transformer modules. The latter effectively leverage global information to learn consistent color and tone mappings. We further propose a robust masked aligned loss to identify and discard regions with inaccurate motion estimation during training. Lastly, we introduce the ISP in the Wild (ISPW) dataset, consisting of weakly paired phone RAW and DSLR sRGB images. We extensively evaluate our method, setting a new state-of-the-art on two datasets.
翻訳日:2022-03-23 10:44:44 公開日:2022-03-22
# 樹木のエネルギー損失 : 希薄な注釈付き意味セグメンテーションに向けて

Tree Energy Loss: Towards Sparsely Annotated Semantic Segmentation ( http://arxiv.org/abs/2203.10739v2 )

ライセンス: Link先を確認
Zhiyuan Liang, Tiancai Wang, Xiangyu Zhang, Jian Sun, Jianbing Shen(参考訳) わずかに注釈付きセマンティックセグメンテーション(SASS)は、粗い粒度(ポイント、スクリブル、ブロックワイド)でセグメンテーションネットワークをトレーニングすることを目的としており、各画像にわずかにピクセルがラベル付けされている。 本稿では,未ラベル画素のセマンティックガイダンスを提供することにより,SASSの新たなツリーエネルギー損失を提案する。 ツリーエネルギー損失は、低レベルおよび高レベルなペアワイズアフィニティの両方をモデル化する最小のスパンディングツリーとしてイメージを表す。 これらのアフィニティをネットワーク予測に順次適用することにより、ラベルなし画素に対するソフト擬似ラベルを粗い方法で生成し、動的オンライン自己学習を実現する。 ツリーエネルギー損失は、従来のセグメンテーション損失と組み合わせることで、効果的で既存のフレームワークに組み込むのが容易です。 従来のsass法と比較して,多段階のトレーニング戦略,最適化手順の交替,教師付きデータの追加,時間を要する後処理を必要とせず,すべてのsass設定でそれを上回らせる。 コードはhttps://github.com/m egvii-research/TreeE nergyLossで入手できる。

Sparsely annotated semantic segmentation (SASS) aims to train a segmentation network with coarse-grained (i.e., point-, scribble-, and block-wise) supervisions, where only a small proportion of pixels are labeled in each image. In this paper, we propose a novel tree energy loss for SASS by providing semantic guidance for unlabeled pixels. The tree energy loss represents images as minimum spanning trees to model both low-level and high-level pair-wise affinities. By sequentially applying these affinities to the network prediction, soft pseudo labels for unlabeled pixels are generated in a coarse-to-fine manner, achieving dynamic online self-training. The tree energy loss is effective and easy to be incorporated into existing frameworks by combining it with a traditional segmentation loss. Compared with previous SASS methods, our method requires no multistage training strategies, alternating optimization procedures, additional supervised data, or time-consuming post-processing while outperforming them in all SASS settings. Code is available at https://github.com/m egvii-research/TreeE nergyLoss.
翻訳日:2022-03-23 10:44:29 公開日:2022-03-22
# 最大初期化を伴う架空の遊び

Fictitious Play with Maximin Initialization ( http://arxiv.org/abs/2203.10774v2 )

ライセンス: Link先を確認
Sam Ganzfried(参考訳) 近年,マルチプレイヤーゲームにおけるナッシュ均衡戦略を近似する最も正確なスケーラブルアルゴリズムとして,架空のプレイが登場している。 本研究では,初期戦略を慎重に選択することで,架空の遊びの平衡近似誤差を著しく低減できることを示す。 戦略初期化のための新しい手順をいくつか提示し、これらを古典的アプローチと比較し、全ての純粋な戦略を同じ確率で初期化する。 マクシミンと呼ばれる最良の性能のアプローチは、初期戦略を計算するために非凸二次プログラムを解き、5つの初期化を使用する場合に比べて近似誤差が75%近く減少する。

Fictitious play has recently emerged as the most accurate scalable algorithm for approximating Nash equilibrium strategies in multiplayer games. We show that the degree of equilibrium approximation error of fictitious play can be significantly reduced by carefully selecting the initial strategies. We present several new procedures for strategy initialization and compare them to the classic approach, which initializes all pure strategies to have equal probability. The best-performing approach, called maximin, solves a nonconvex quadratic program to compute initial strategies and results in a nearly 75% reduction in approximation error compared to the classic approach when 5 initializations are used.
翻訳日:2022-03-23 10:44:06 公開日:2022-03-22