このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220418となっている論文です。

PDF登録状況(公開日: 20220418)

TitleAuthorsAbstract論文公表日・翻訳日
# (参考訳) SynopSet:DNAナノテクノロジーシミュレーションの解説解析のためのマルチスケールビジュアル抽象化セット [全文訳有]

SynopSet: Multiscale Visual Abstraction Set for Explanatory Analysis of DNA Nanotechnology Simulations ( http://arxiv.org/abs/2205.01628v1 )

ライセンス: CC BY-SA 4.0
Deng Luo, Alexandre Kouyoumdjian, Ond\v{r}ej Strnad, Haichao Miao, Ivan Bari\v{s}i\'c, Ivan Viola(参考訳) DNAナノテクノロジー領域における分子動力学シミュレーション(MDS)の説明的解析のための視覚表現の連続性を持つ新しい抽象集合(SynopSet)を提案する。 一般的に使われているプログレッシブバーを再購入し、新しいビジュアルを設計し、ドメインフォーマットから新しく設計されたビジュアルに適合するフォーマットにデータを変換することで、この新しい表現セットを構成する。 このセットは、すべての空間的および時間的詳細を示し、全ての構造的複雑さを様々な程度に抽象化できるように設計されており、詳細な検査のためのシミュレーションの遅い再生と、興味のある事象を効率的に識別するのに役立つ概要のための非常に速い再生の両方を可能にする。 連続表現の任意のペアに対して、スムーズな連続的な遷移を示し、ユーザーは関連する情報をある表現から次の表現へ追跡することができる。 異なる時間分解能に適合し、滑らかな遷移によって接続される複数の表現を提供することにより、時間効率の良いシミュレーション解析を可能にし、ユーザが重要なフェーズを詳細に調べ、提示する機会を得る。 ドメインの専門家は、シミュレーションに関する実用的な洞察を得て、より短い時間でそれを伝達することができる。 さらに、新しい表現はより直感的で、MDS分析グラフに精通していない研究者がシミュレーション結果をよりよく理解できるようにする。 ドメインエキスパートとともに12個のDNAナノ構造シミュレーションにおけるSynopSetの有効性を評価した。 また、我々の表現の集合は、SynopSpaceと呼ばれる可視化空間に体系的に配置できることを示した。

We propose a new abstraction set (SynopSet) that has a continuum of visual representations for the explanatory analysis of molecular dynamics simulations (MDS) in the DNA nanotechnology domain. By re-purposing the commonly used progress bar and designing novel visuals, as well as transforming the data from the domain format to a format that better fits the newly designed visuals, we compose this new set of representations. This set is also designed to be capable of showing all spatial and temporal details, and all structural complexity, or abstracting these to various degrees, enabling both the slow playback of the simulation for detailed examinations or very fast playback for an overview that helps to efficiently identify events of interest, as well as several intermediate levels between these two extremes. For any pair of successive representations, we demonstrate smooth, continuous transitions, enabling users to keep track of relevant information from one representation to the next. By providing multiple representations suited to different temporal resolutions and connected by smooth transitions, we enable time-efficient simulation analysis, giving users the opportunity to examine and present important phases in great detail, or leverage abstract representations to go over uneventful phases much faster. Domain experts can thus gain actionable insight about their simulations and communicate it in a much shorter time. Further, the novel representations are more intuitive and also enable researchers unfamiliar with MDS analysis graphs to better understand the simulation results. We assessed the effectiveness of SynopSet on 12 DNA nanostructure simulations together with a domain expert. We have also shown that our set of representations can be systematically located in a visualization space, dubbed SynopSpace.
翻訳日:2022-05-09 04:38:34 公開日:2022-04-18
# Equity Framework: 平等な予測結果を超える公平性

The Equity Framework: Fairness Beyond Equalized Predictive Outcomes ( http://arxiv.org/abs/2205.01072v1 )

ライセンス: Link先を確認
Keziah Naggita and J. Ceasar Aguma(参考訳) 機械学習(ml)意思決定アルゴリズムは、例えば、誰が承認し、融資するかを決定するために、予測的意思決定に広く使われている。 彼らの幅広い使用状況と個人への影響により、mlコミュニティは、アルゴリズムが異なる人々やコミュニティにどのように影響するかを疑問視し、懸念を提起した。 本稿では,意思決定者が決定を行う物理的・社会的環境(意図的モデル)を描写するモデルから逸脱するモデル(プロキシモデル)を使用する場合に生じる公平性の問題について検討する。 また,モデルの個々のアクセスと利用に対する障害の影響を強調した。 この目的のために、モデルへの平等なアクセス、モデルからの平等な結果、モデルの平等な利用を考慮したEquity Frameworkを定式化し、平等を目指す現在の公正概念よりも公平で高い社会福祉を実現する。 フレームワークの3つの主要な側面がいかに結びついているかを示し、公平な意思決定に向けて意思決定者を支援するための評価アルゴリズムと質問を提供する。 我々は、アクセス、結果、利用の失敗が、不正確で不完全な基底真理のキュレーションを通じて構造的不等式を強化する無限の不等式ループにつながるプロキシギャップを悪化させることを示す。 したがって、モデル設計とその株式への影響についてより批判的な見方をし、予測的意思決定モデルを達成するための株式へのシフトを推奨する。

Machine Learning (ML) decision-making algorithms are now widely used in predictive decision-making, for example, to determine who to admit and give a loan. Their wide usage and consequential effects on individuals led the ML community to question and raise concerns on how the algorithms differently affect different people and communities. In this paper, we study fairness issues that arise when decision-makers use models (proxy models) that deviate from the models that depict the physical and social environment in which the decisions are situated (intended models). We also highlight the effect of obstacles on individual access and utilization of the models. To this end, we formulate an Equity Framework that considers equal access to the model, equal outcomes from the model, and equal utilization of the model, and consequentially achieves equity and higher social welfare than current fairness notions that aim for equality. We show how the three main aspects of the framework are connected and provide an equity scoring algorithm and questions to guide decision-makers towards equitable decision-making. We show how failure to consider access, outcome, and utilization would exacerbate proxy gaps leading to an infinite inequity loop that reinforces structural inequities through inaccurate and incomplete ground truth curation. We, therefore, recommend a more critical look at the model design and its effect on equity and a shift towards equity achieving predictive decision-making models.
翻訳日:2022-05-09 00:12:03 公開日:2022-04-18
# (参考訳) NFT評価予測:検索トレンド,公開市場データ,線形回帰,リカレントニューラルネットワークの利用 [全文訳有]

NFT Appraisal Prediction: Utilizing Search Trends, Public Market Data, Linear Regression and Recurrent Neural Networks ( http://arxiv.org/abs/2204.12932v1 )

ライセンス: CC BY 4.0
Shrey Jain, Camille Bruckmann, Chase McDougall(参考訳) 本稿では,NFTの評価値と,公開市場データ,NFTメタデータ,ソーシャルトレンドデータという3つの主要カテゴリの特徴の相関について検討する。

In this paper we investigate the correlation between NFT valuations and various features from three primary categories: public market data, NFT metadata, and social trends data.
翻訳日:2022-05-01 09:40:02 公開日:2022-04-18
# 局所的タイトプログラムの検証

Verification of Locally Tight Programs ( http://arxiv.org/abs/2204.10789v1 )

ライセンス: Link先を確認
Jorge Fandinno, Vladimir Lifschitz(参考訳) ANTHEMは、一階式で表される仕様に関して、回答セットグラウンドGRINGOの入力言語におけるタイトなプログラムの正しさを検証するために使用できる証明アシスタントである。 本稿では,局所的に厳密なプログラムの概念を定義し,ANTHEMが使用する検証プロセスがより一般的な設定で適用可能であることを示す。 タイトネスとは異なり、局所的タイトネス条件はいくつかの再帰を許容する。 特に、行動の効果を記述するプログラムは局所的に厳密である。 論理プログラミングの理論と実践における出版の考察

ANTHEM is a proof assistant that can be used for verifying the correctness of tight programs in the input language of the answer set grounder GRINGO with respect to specifications expressed by first-order formulas. We define the concept of a locally tight program and prove that the verification process used by ANTHEM is applicable in this more general setting. Unlike tightness, the local tightness condition allows some forms of recursion. In particular, some programs describing effects of actions are locally tight. Under consideration for publication in Theory and Practice of Logic Programming
翻訳日:2022-05-01 09:28:15 公開日:2022-04-18
# ロバストディープハッシュのための集中型対向学習

Centralized Adversarial Learning for Robust Deep Hashing ( http://arxiv.org/abs/2204.10779v1 )

ライセンス: Link先を確認
Xunguang Wang, Xu Yuan, Zheng Zhang, Guangming Lu, Xiaomeng Li(参考訳) ディープハッシュは、その効率性と有効性のため、大規模な画像検索に広く利用されている。 近年、深いハッシュモデルにセキュリティ上の課題をもたらす敵の事例を研究することがホットな問題となっている。 しかし、依然として重要なボトルネックがある: 深いハッシュに基づく検索において、敵の攻撃と防御をさらに強化するためのガイドとして、優れた正確な意味的代表者を見つける方法。 我々は初めてmin-maxパラダイムを用いた効果的な対向学習をデザインし,生成した対向サンプルを用いてハッシュネットワークのロバスト性を向上させることを試みた。 具体的には, 正のサンプルと意味的類似性, 負のサンプルとの類似性を保持する連続ハッシュ中心法(chcm)により, 最適解(中心符号と呼ばれる)を得る。 本稿では,攻撃例のハッシュコードと中心コードとの間のハミング距離を最大化することにより,ハッシュ検索に対する効率的な攻撃を行うためのディープ・ハッシング・セントラル・アタック(dhca)を提案する。 一方,本研究では,中央コードへのハミング距離を最小化することにより,防御のためのハッシュネットワークを最適化するためのDHCAT(Deep Hashing Central Adversarial Training)を提案する。 ベンチマークデータセットに関する広範囲な実験により,攻撃手法が最先端技術よりも優れた性能を達成できることが検証され,防御アルゴリズムは逆摂動の効果を効果的に軽減することができる。

Deep hashing has been extensively utilized in massive image retrieval because of its efficiency and effectiveness. Recently, it becomes a hot issue to study adversarial examples which poses a security challenge to deep hashing models. However, there is still a critical bottleneck: how to find a superior and exact semantic representative as the guide to further enhance the adversarial attack and defense in deep hashing based retrieval. We, for the first time, attempt to design an effective adversarial learning with the min-max paradigm to improve the robustness of hashing networks by using the generated adversarial samples. Specifically, we obtain the optimal solution (called center code) through a proved Continuous Hash Center Method (CHCM), which preserves the semantic similarity with positive samples and dissimilarity with negative samples. On one hand, we propose the Deep Hashing Central Attack (DHCA) for efficient attack on hashing retrieval by maximizing the Hamming distance between the hash code of adversarial example and the center code. On the other hand, we present the Deep Hashing Central Adversarial Training (DHCAT) to optimize the hashing networks for defense, by minimizing the Hamming distance to the center code. Extensive experiments on the benchmark datasets verify that our attack method can achieve better performance than the state-of-the-arts, and our defense algorithm can effectively mitigate the effects of adversarial perturbations.
翻訳日:2022-05-01 08:51:49 公開日:2022-04-18
# 大規模MIMO CSIフィードバックのためのマルチタスクディープニューラルネットワーク

Multi-task Deep Neural Networks for Massive MIMO CSI Feedback ( http://arxiv.org/abs/2204.12442v1 )

ライセンス: Link先を確認
Boyuan Zhang, Haozhen Li, Xin Liang, Xinyu Gu, Lin Zhang(参考訳) 周波数分割多重化 (fdd) 多重入力多重出力 (mimo) システムにおけるチャネル状態情報 (csi) フィードバックにディープラーニングが広く適用されている。 フィードバックモデルの典型的な教師付きトレーニングでは、大量のタスク固有のラベル付きデータの要求を満足できないため、複数のシナリオにおけるモデルの膨大なトレーニングコストとストレージ使用がモデルアプリケーションにとって障害となる。 本稿では,フィードバックネットワークの実現可能性を高めるために,マルチタスク学習に基づくアプローチを提案する。 さらに,マルチタスク学習手法の実装を容易にするために,エンコーダ共有型フィードバックアーキテクチャとそれに対応するトレーニングスキームを提案する。 実験結果から,提案手法は,フィードバックモデルのトレーニングコストとストレージ使用量を大幅に削減し,総合的なフィードバック性能を達成できることが示唆された。

Deep learning has been widely applied for the channel state information (CSI) feedback in frequency division duplexing (FDD) massive multiple-input multiple-output (MIMO) system. For the typical supervised training of the feedback model, the requirements of large amounts of task-specific labeled data can hardly be satisfied, and the huge training costs and storage usage of the model in multiple scenarios are hindrance for model application. In this letter, a multi-task learning-based approach is proposed to improve the feasibility of the feedback network. An encoder-shared feedback architecture and the corresponding training scheme are further proposed to facilitate the implementation of the multi-task learning approach. The experimental results indicate that the proposed multi-task learning approach can achieve comprehensive feedback performance with considerable reduction of training cost and storage usage of the feedback model.
翻訳日:2022-05-01 08:49:18 公開日:2022-04-18
# (参考訳) 目標指向対話システムのための文脈認識言語モデリング [全文訳有]

Context-Aware Language Modeling for Goal-Oriented Dialogue Systems ( http://arxiv.org/abs/2204.10198v1 )

ライセンス: CC BY 4.0
Charlie Snell, Sherry Yang, Justin Fu, Yi Su, Sergey Levine(参考訳) ゴール指向の対話システムは、フルーレント言語生成とタスク固有の制御のトレードオフに直面します。 大規模言語モデルによる教師付き学習は、現実的なテキストを生成することができるが、言語品質を犠牲にすることなく、特定のタスクを完了するための対応をいかに行うかは、未解決の問題である。 本研究では,目標指向対話を部分的に観察されたマルコフ決定プロセスとして定式化し,言語モデルをダイナミクスとポリシーの表現として解釈する。 この視点は,タスク・レバーベリングのような学習に基づく制御から,目標を意識して言語モデルを微調整するためのシンプルで効果的な手法へと拡張し,タスク性能を著しく向上させる。 さらに,タスクにモデルをより集中させるための,数多くのトレーニング戦略も導入しています。 本研究では,AirDialogue を用いた実践的なフライト予約作業における文脈認識言語モデル (CALM) の評価を行った。 実証的に、CALMはタスク成功の点で最先端の手法を7%上回り、人間レベルのタスクパフォーマンスと一致する。

Goal-oriented dialogue systems face a trade-off between fluent language generation and task-specific control. While supervised learning with large language models is capable of producing realistic text, how to steer such responses towards completing a specific task without sacrificing language quality remains an open question. In this work, we formulate goal-oriented dialogue as a partially observed Markov decision process, interpreting the language model as a representation of both the dynamics and the policy. This view allows us to extend techniques from learning-based control, such as task relabeling, to derive a simple and effective method to finetune language models in a goal-aware way, leading to significantly improved task performance. We additionally introduce a number of training strategies that serve to better focus the model on the task at hand. We evaluate our method, Context-Aware Language Models (CALM), on a practical flight-booking task using AirDialogue. Empirically, CALM outperforms the state-of-the-art method by 7% in terms of task success, matching human-level task performance.
翻訳日:2022-04-23 09:16:46 公開日:2022-04-18
# ロボット対話におけるターンテイク予測のためのコントラスト学習を用いたゲーテッドマルチモーダルフュージョン

Gated Multimodal Fusion with Contrastive Learning for Turn-taking Prediction in Human-robot Dialogue ( http://arxiv.org/abs/2204.10172v1 )

ライセンス: Link先を確認
Jiudong Yang, Peiying Wang, Yi Zhu, Mingchao Feng, Meng Chen, Xiaodong He(参考訳) 次の話者が話し始めるタイミングを決定するターンテイクは、人間とロボットの対話システムを構築する上で欠かせない要素である。 これまでの研究では、マルチモーダルな手がかりがこの困難なタスクを促進できることが示されている。 しかし、公共のマルチモーダルデータセットが多用されているため、現在の手法は非モーダル特徴を利用するか、単純化されたマルチモーダルアンサンブルモデルを使用するかに限られている。 さらに、実シナリオにおける固有のクラス不均衡(例えば、短い停止で終わる文は、主にターンの終わりと見なされる)は、ターンテイクの決定に大きな挑戦をもたらす。 本稿では,まず,5000以上の人間-ロボット対話を音声とテキストのモーダルで行うターンテイクのための大規模注釈付きコーパスを収集する。 そして,新しいゲート型マルチモーダル融合機構を考案し,ターンテイク予測に様々な情報をシームレスに利用する。 さらに,データ不均衡問題に対処するために,教師なしの負のインスタンス構築のための簡易かつ効果的なデータ拡張手法を設計し,コントラスト学習を適用して優れた特徴表現を得る。 広範な実験を行い,本モデルが最先端のベースラインよりも優れていること,および競争力があることを実証した。

Turn-taking, aiming to decide when the next speaker can start talking, is an essential component in building human-robot spoken dialogue systems. Previous studies indicate that multimodal cues can facilitate this challenging task. However, due to the paucity of public multimodal datasets, current methods are mostly limited to either utilizing unimodal features or simplistic multimodal ensemble models. Besides, the inherent class imbalance in real scenario, e.g. sentence ending with short pause will be mostly regarded as the end of turn, also poses great challenge to the turn-taking decision. In this paper, we first collect a large-scale annotated corpus for turn-taking with over 5,000 real human-robot dialogues in speech and text modalities. Then, a novel gated multimodal fusion mechanism is devised to utilize various information seamlessly for turn-taking prediction. More importantly, to tackle the data imbalance issue, we design a simple yet effective data augmentation method to construct negative instances without supervision and apply contrastive learning to obtain better feature representations. Extensive experiments are conducted and the results demonstrate the superiority and competitiveness of our model over several state-of-the-art baselines.
翻訳日:2022-04-22 12:33:56 公開日:2022-04-18
# (参考訳) クロスビュー脳デコーディング [全文訳有]

Cross-view Brain Decoding ( http://arxiv.org/abs/2204.09564v1 )

ライセンス: CC BY 4.0
Subba Reddy Oota, Jashn Arora, Manish Gupta, Raju S. Bapi(参考訳) 脳が複数の視点にわたる言語刺激の意味をどのように捉えるかは、まだ神経科学において決定的な疑問である。 目的語ラベルを付加した画像(WP)、目的語を用いた文(S)、目的語を含む単語雲(WC)、その他の意味的関連語を含む概念アパートの3つの異なる視点を考察する。 本稿では,単一視点解析のみに焦点を当てた先行研究と異なり,ゼロショットクロスビュー学習における脳デコードの有効性について検討する。 さらに、画像キャプション(ic)、画像タグ付け(it)、キーワード抽出(ke)、文形成(sf)といった横断的翻訳タスクの新たな文脈における脳デコードを提案する。 広範にわたる実験により、クロスビューゼロショット脳デコーディングが実用的であり、ビューペアの平均対精度が約0.68になることを示した。 また、デコードされた表現は、IC (78.0)、IT (83.0)、KE (83.7)、SF (74.5) という2つのペアの精度でクロスビュー翻訳タスクの精度を高めるために十分に詳細に記述されている。 1)視覚ボクセルの高割合が画像キャプションや画像タグ付け作業に関与し、高割合の言語ボクセルが文形成やキーワード抽出作業に関与している。 2)Sビューで訓練し,WCビューでテストしたモデルのゼロショット精度は,WCビューでトレーニングおよびテストしたモデルの同ビュー精度よりも優れている。

How the brain captures the meaning of linguistic stimuli across multiple views is still a critical open question in neuroscience. Consider three different views of the concept apartment: (1) picture (WP) presented with the target word label, (2) sentence (S) using the target word, and (3) word cloud (WC) containing the target word along with other semantically related words. Unlike previous efforts, which focus only on single view analysis, in this paper, we study the effectiveness of brain decoding in a zero-shot cross-view learning setup. Further, we propose brain decoding in the novel context of cross-view-translati on tasks like image captioning (IC), image tagging (IT), keyword extraction (KE), and sentence formation (SF). Using extensive experiments, we demonstrate that cross-view zero-shot brain decoding is practical leading to ~0.68 average pairwise accuracy across view pairs. Also, the decoded representations are sufficiently detailed to enable high accuracy for cross-view-translati on tasks with following pairwise accuracy: IC (78.0), IT (83.0), KE (83.7) and SF (74.5). Analysis of the contribution of different brain networks reveals exciting cognitive insights: (1) A high percentage of visual voxels are involved in image captioning and image tagging tasks, and a high percentage of language voxels are involved in the sentence formation and keyword extraction tasks. (2) Zero-shot accuracy of the model trained on S view and tested on WC view is better than same-view accuracy of the model trained and tested on WC view.
翻訳日:2022-04-22 05:00:29 公開日:2022-04-18
# (参考訳) 短期電力価格予測のためのハイブリッド一般化長記憶モデルの予測精度

Predictive Accuracy of a Hybrid Generalized Long Memory Model for Short Term Electricity Price Forecasting ( http://arxiv.org/abs/2204.09568v1 )

ライセンス: CC BY 4.0
Souhir Ben Amor, Heni Boubaker, Lotfi Belkacem(参考訳) 正確な電力価格予測は、市場参加者の利益を最大化するための基礎となるため、市場参加者にとって主要な管理目標である。 しかし、電気は保存不可能な商品であり、電気価格は価格予測が困難な課題となる社会的・自然的な要因の影響を受けている。 本研究では, 一般化長メモリ自己回帰モデル(k-factor GARMA), Gegenbauer Generalized Autoregressive Conditional Heteroscedasticity(G -GARCH)プロセス, Wavelet decomposition, およびローカル線形ウェーブレットニューラルネットワーク(LLWNN)に基づく2つの学習アルゴリズム, Backpropagation Algorithm(BP)とParticle Swarm Optimization Algorithm(PSO)に基づく新しいハイブリッドモデルの予測性能について検討した。 提案モデルの性能は,北欧電力市場のデータを用いて評価した。 さらに、その堅牢性を証明するために、他のパラメトリックモデルや非パラメトリックモデルと比較される。 実験により,提案手法は他の競合技術よりも優れた性能を示した。

Accurate electricity price forecasting is the main management goal for market participants since it represents the fundamental basis to maximize the profits for market players. However, electricity is a non-storable commodity and the electricity prices are affected by some social and natural factors that make the price forecasting a challenging task. This study investigates the predictive performance of a new hybrid model based on the Generalized long memory autoregressive model (k-factor GARMA), the Gegenbauer Generalized Autoregressive Conditional Heteroscedasticity(G -GARCH) process, Wavelet decomposition, and Local Linear Wavelet Neural Network (LLWNN) optimized using two different learning algorithms; the Backpropagation algorithm (BP) and the Particle Swarm optimization algorithm (PSO). The performance of the proposed model is evaluated using data from Nord Pool Electricity markets. Moreover, it is compared with some other parametric and non-parametric models in order to prove its robustness. The empirical results prove that the proposed method performs well than other competing techniques.
翻訳日:2022-04-22 04:41:46 公開日:2022-04-18
# (参考訳) PR-DAD:ディープオートデコーダを用いた位相検索 [全文訳有]

PR-DAD: Phase Retrieval Using Deep Auto-Decoders ( http://arxiv.org/abs/2204.09051v1 )

ライセンス: CC BY 4.0
Leon Gugel and Shai Dekel(参考訳) 位相探索は、フーリエ変換の大きさの値のみを入力として画像の復元を試みる、よく知られた不測の逆問題である。 近年、ディープラーニングに基づく新しいアルゴリズムが提案され、古典的手法の成果を上回る画期的な結果が得られている。 本研究では,位相探索問題の数学的モデリングに基づいて,コンポーネントを慎重に設計した新しいディープラーニングアーキテクチャPR-DAD(Phase Retrieval using Deep Auto-Decoders)を提案する。 アーキテクチャは、現在のすべての結果を上回る実験結果を提供する。

Phase retrieval is a well known ill-posed inverse problem where one tries to recover images given only the magnitude values of their Fourier transform as input. In recent years, new algorithms based on deep learning have been proposed, providing breakthrough results that surpass the results of the classical methods. In this work we provide a novel deep learning architecture PR-DAD (Phase Retrieval Using Deep Auto- Decoders), whose components are carefully designed based on mathematical modeling of the phase retrieval problem. The architecture provides experimental results that surpass all current results.
翻訳日:2022-04-22 04:24:48 公開日:2022-04-18
# (参考訳) ストームサージ予測のための時空間畳み込み畳み込みリカレントニューラルネットワーク [全文訳有]

An advanced spatio-temporal convolutional recurrent neural network for storm surge predictions ( http://arxiv.org/abs/2204.09501v1 )

ライセンス: CC BY 4.0
Ehsan Adeli, Luning Sun, Jianxun Wang, Alexandros A. Taflanidis(参考訳) 本研究では,人工嵐シミュレーションのデータベースを用いて,嵐のトラック・サイズ・強度履歴に基づいて高潮をエミュレートする人工ニューラルネットワークモデルの能力について検討する。 伝統的に、計算流体力学解法は、部分微分方程式であるストームサージ支配方程式を数値的に解くために用いられ、一般にシミュレーションに非常にコストがかかる。 本研究では,人工嵐シミュレーションのデータベースを用いて,高潮を予測可能なニューラルネットワークモデルを提案する。 このモデルは、非常に高価なCFDソルバのための高速で安価なエミュレータとして機能する。 ニューラルネットワークモデルは、cfdソルバの駆動に使用されるストームトラックパラメータでトレーニングされ、モデルの出力は、関心領域内の複数のノードにまたがる予測ストームサージの時系列進化である。 モデルがトレーニングされると、新しいstormトラック入力に基づいて、さらなる予測のためにデプロイすることができる。 開発されたニューラルネットワークモデルは時系列モデルであり、長期の短期記憶であり、畳み込みニューラルネットワークに富んだ再帰的ニューラルネットワークのバリエーションである。 畳み込みニューラルネットワークを用いてデータの相関を空間的に捉える。 したがって,データの時間的および空間的相関は,上述したモデルであるConvLSTMモデルの組み合わせによって得られる。 問題はシーケンス時系列問題であるので、エンコーダデコーダのConvLSTMモデルが設計される。 モデルトレーニングのプロセスにおける他のテクニックも、モデルパフォーマンスを強化するために採用されている。 その結果,提案した畳み込みリカレントニューラルネットワークは,合成嵐データベースのガウス過程の実装よりも優れていた。

In this research paper, we study the capability of artificial neural network models to emulate storm surge based on the storm track/size/intensity history, leveraging a database of synthetic storm simulations. Traditionally, Computational Fluid Dynamics solvers are employed to numerically solve the storm surge governing equations that are Partial Differential Equations and are generally very costly to simulate. This study presents a neural network model that can predict storm surge, informed by a database of synthetic storm simulations. This model can serve as a fast and affordable emulator for the very expensive CFD solvers. The neural network model is trained with the storm track parameters used to drive the CFD solvers, and the output of the model is the time-series evolution of the predicted storm surge across multiple nodes within the spatial domain of interest. Once the model is trained, it can be deployed for further predictions based on new storm track inputs. The developed neural network model is a time-series model, a Long short-term memory, a variation of Recurrent Neural Network, which is enriched with Convolutional Neural Networks. The convolutional neural network is employed to capture the correlation of data spatially. Therefore, the temporal and spatial correlations of data are captured by the combination of the mentioned models, the ConvLSTM model. As the problem is a sequence to sequence time-series problem, an encoder-decoder ConvLSTM model is designed. Some other techniques in the process of model training are also employed to enrich the model performance. The results show the proposed convolutional recurrent neural network outperforms the Gaussian Process implementation for the examined synthetic storm database.
翻訳日:2022-04-22 04:12:52 公開日:2022-04-18
# 強化学習を用いたテンソルネットワーク収縮の最適化

Optimizing Tensor Network Contraction Using Reinforcement Learning ( http://arxiv.org/abs/2204.09052v1 )

ライセンス: Link先を確認
Eli A. Meirom, Haggai Maron, Shie Mannor, Gal Chechik(参考訳) 量子コンピューティング(qc)はコンピューティングに革命をもたらすが、現在はまだ限られている。 今日量子アルゴリズムを開発しテストするために、量子回路はしばしば古典的コンピュータ上でシミュレートされる。 複雑な量子回路をシミュレーションするには、テンソルの大きなネットワークの収縮を計算する必要がある。 収縮の順序(経路)は計算コストに大きな影響を与えるが、効率的な順序を見つけることは、組合せ最適化の問題である。 本稿では,グラフニューラルネットワーク(GNN)と組み合わせた強化学習(RL)手法を提案する。 この問題は、巨大な検索スペース、重い尾の報酬分布、そして困難なクレジット割り当てのために非常に難しい。 本稿では,GNNを基本方針として実装したRLエージェントが,これらの課題に対処し,現代QCで使用されている最大規模のネットワークを含む3種類の回路において,最先端技術に対する大幅な改善を実現する方法を示す。

Quantum Computing (QC) stands to revolutionize computing, but is currently still limited. To develop and test quantum algorithms today, quantum circuits are often simulated on classical computers. Simulating a complex quantum circuit requires computing the contraction of a large network of tensors. The order (path) of contraction can have a drastic effect on the computing cost, but finding an efficient order is a challenging combinatorial optimization problem. We propose a Reinforcement Learning (RL) approach combined with Graph Neural Networks (GNN) to address the contraction ordering problem. The problem is extremely challenging due to the huge search space, the heavy-tailed reward distribution, and the challenging credit assignment. We show how a carefully implemented RL-agent that uses a GNN as the basic policy construct can address these challenges and obtain significant improvements over state-of-the-art techniques in three varieties of circuits, including the largest scale networks used in contemporary QC.
翻訳日:2022-04-21 15:45:17 公開日:2022-04-18
# unbus: 不確実性を考慮した深部ボットネット検出システム

UNBUS: Uncertainty-aware Deep Botnet Detection System in Presence of Perturbed Samples ( http://arxiv.org/abs/2204.09502v1 )

ライセンス: Link先を確認
Rahim Taheri(参考訳) ディープラーニングアーキテクチャを使って、ボットネットファミリーの数が増加している。 さまざまな攻撃が増加する一方で、これらのアーキテクチャは攻撃に対してより堅牢になるはずだ。 これらは入力の小さいがよく構築された摂動に非常に敏感であることが証明されている。 ボットネット検出には極めて低い偽陽性率(FPR)が必要であるが、現代のディープラーニングでは一般的に達成できない。 攻撃者は、有毒なサンプルを作ることでFPRを増やそうとします。 最近の研究の大半は、逆の例と堅牢なモデルを構築するためのモデル損失関数の使用に焦点を当てている。 本稿では,98%以上の精度のボットネット分類のためのLSTMに基づく2つの分類アルゴリズムについて述べる。 そして、敵の攻撃が提案され、精度が約30\%に低下する。 そこで, 不確実性を計算する手法を検討することで, 精度を約70\%に向上させる防衛法を提案する。 深層アンサンブル法と確率的重み平均定量法を用いて,提案手法における精度の不確実性について検討した。

A rising number of botnet families have been successfully detected using deep learning architectures. While the variety of attacks increases, these architectures should become more robust against attacks. They have been proven to be very sensitive to small but well constructed perturbations in the input. Botnet detection requires extremely low false-positive rates (FPR), which are not commonly attainable in contemporary deep learning. Attackers try to increase the FPRs by making poisoned samples. The majority of recent research has focused on the use of model loss functions to build adversarial examples and robust models. In this paper, two LSTM-based classification algorithms for botnet classification with an accuracy higher than 98\% are presented. Then, the adversarial attack is proposed, which reduces the accuracy to about30\%. Then, by examining the methods for computing the uncertainty, the defense method is proposed to increase the accuracy to about 70\%. By using the deep ensemble and stochastic weight averaging quantification methods it has been investigated the uncertainty of the accuracy in the proposed methods.
翻訳日:2022-04-21 15:41:32 公開日:2022-04-18
# 弱視による光リモートセンシング画像理解:概念・方法・展望

Optical Remote Sensing Image Understanding with Weak Supervision: Concepts, Methods, and Perspectives ( http://arxiv.org/abs/2204.09120v1 )

ライセンス: Link先を確認
Jun Yue, Leyuan Fang, Pedram Ghamisi, Weiying Xie, Jun Li, Jocelyn Chanussot, Antonio J Plaza(参考訳) 近年、教師付き学習は、リモートセンシング画像分類、画素単位の分割、変化検出、物体検出など、光学的リモートセンシング画像理解の様々なタスクで広く使われている。 教師あり学習に基づく手法では,高品質なトレーニングデータが必要であり,その性能はラベルの品質に大きく依存する。 しかし、実際のリモートセンシングアプリケーションでは、高品質なラベル付き大規模データセットを得るのに高価で時間がかかることが多く、十分な教師付き情報が不足している。 一部のケースでは、粗粒のラベルしか得られず、正確な監督が欠如している。 さらに、手作業で得られる監視情報は誤りであり、正確な監視が欠如している可能性がある。 したがって、リモートセンシング画像理解は、しばしば不完全、不完全、不正確な教師付き情報の問題に直面し、リモートセンシングアプリケーションの幅と深さに影響を与える。 上記の問題を解決するため、研究者は弱い監督下でのリモートセンシング画像理解における様々なタスクを探求した。 本稿では,リモートセンシングの分野における弱教師付き学習の研究の進展を概説する。 1) トレーニングデータのサブセットのみをラベル付けした不完全な監督 2 訓練データの粗細なラベルのみを付与する非実例の監督 3) 与えられたラベルが必ずしも地上で真とは限らないような不正確な監督。

In recent years, supervised learning has been widely used in various tasks of optical remote sensing image understanding, including remote sensing image classification, pixel-wise segmentation, change detection, and object detection. The methods based on supervised learning need a large amount of high-quality training data and their performance highly depends on the quality of the labels. However, in practical remote sensing applications, it is often expensive and time-consuming to obtain large-scale data sets with high-quality labels, which leads to a lack of sufficient supervised information. In some cases, only coarse-grained labels can be obtained, resulting in the lack of exact supervision. In addition, the supervised information obtained manually may be wrong, resulting in a lack of accurate supervision. Therefore, remote sensing image understanding often faces the problems of incomplete, inexact, and inaccurate supervised information, which will affect the breadth and depth of remote sensing applications. In order to solve the above-mentioned problems, researchers have explored various tasks in remote sensing image understanding under weak supervision. This paper summarizes the research progress of weakly supervised learning in the field of remote sensing, including three typical weakly supervised paradigms: 1) Incomplete supervision, where only a subset of training data is labeled; 2) Inexact supervision, where only coarse-grained labels of training data are given; 3) Inaccurate supervision, where the labels given are not always true on the ground.
翻訳日:2022-04-21 14:51:50 公開日:2022-04-18
# 特別セッション:効率的な信頼性とセキュアなMLシステムのためのアジャイルデザイン方法論を目指して

Special Session: Towards an Agile Design Methodology for Efficient, Reliable, and Secure ML Systems ( http://arxiv.org/abs/2204.09514v1 )

ライセンス: Link先を確認
Shail Dave, Alberto Marchisio, Muhammad Abdullah Hanif, Amira Guesmi, Aviral Shrivastava, Ihsen Alouani, Muhammad Shafique(参考訳) 機械学習(ML)の現実のユースケースはここ数年で爆発的に増えている。 しかし、現在のコンピューティングインフラストラクチャは、すべての現実世界のアプリケーションやシナリオをサポートするには不十分である。 高効率の要求とは別に、現代のMLシステムは、ハードウェア障害に対する高い信頼性と、敵やIP盗難攻撃に対する安全性が期待されている。 プライバシーに関する懸念も一段落している。 この記事では,効率的で信頼性が高く,セキュアなMLシステムのアジャイル開発における主な課題を要約し,ユーザ定義の制約と目的に基づいて,効率的で信頼性の高い,セキュアなMLシステムを生成するアジャイル設計方法論の概要を紹介する。

The real-world use cases of Machine Learning (ML) have exploded over the past few years. However, the current computing infrastructure is insufficient to support all real-world applications and scenarios. Apart from high efficiency requirements, modern ML systems are expected to be highly reliable against hardware failures as well as secure against adversarial and IP stealing attacks. Privacy concerns are also becoming a first-order issue. This article summarizes the main challenges in agile development of efficient, reliable and secure ML systems, and then presents an outline of an agile design methodology to generate efficient, reliable and secure ML systems based on user-defined constraints and objectives.
翻訳日:2022-04-21 14:17:37 公開日:2022-04-18
# bsal: リンク予測のための二成分構造と属性学習のフレームワーク

BSAL: A Framework of Bi-component Structure and Attribute Learning for Link Prediction ( http://arxiv.org/abs/2204.09508v1 )

ライセンス: Link先を確認
Bisheng Li, Min Zhou, Shengzhong Zhang, Menglin Yang, Defu Lian, Zengfeng Huang(参考訳) グラフ構造データのユビキタスな存在を考えると、ノード分類からグラフ分類までの下流タスクのノードの表現を学習することが重要である。 多様なネットワークの欠落リンク推定について,リンク予測手法を再検討し,構造情報と属性情報の両方の重要性を明らかにした。 しかし、利用可能な技術はネットワークトポロジーに大きく依存するか、グラフトポロジーと機能を適切に統合できないかのどちらかである。 このギャップを埋めるために,トポロジと特徴空間からの情報を適応的に活用するbsal(bicomponent structural and attribute learning framework)を提案する。 具体的には、bsalはノード属性を介してセマンティックトポロジを構築し、セマンティックビューに関する埋め込みを取得し、ノード属性が持つ情報を適応的に取り入れるフレキシブルで実装しやすいソリューションを提供する。 そして、最終予測のための注意機構を用いて、トポロジー埋め込みと共に意味埋め込みを融合する。 広範な実験により,提案手法の優れた性能が示され,各種研究ベンチマークのベースラインを著しく上回っている。

Given the ubiquitous existence of graph-structured data, learning the representations of nodes for the downstream tasks ranging from node classification, link prediction to graph classification is of crucial importance. Regarding missing link inference of diverse networks, we revisit the link prediction techniques and identify the importance of both the structural and attribute information. However, the available techniques either heavily count on the network topology which is spurious in practice or cannot integrate graph topology and features properly. To bridge the gap, we propose a bicomponent structural and attribute learning framework (BSAL) that is designed to adaptively leverage information from topology and feature spaces. Specifically, BSAL constructs a semantic topology via the node attributes and then gets the embeddings regarding the semantic view, which provides a flexible and easy-to-implement solution to adaptively incorporate the information carried by the node attributes. Then the semantic embedding together with topology embedding is fused together using an attention mechanism for the final prediction. Extensive experiments show the superior performance of our proposal and it significantly outperforms baselines on diverse research benchmarks.
翻訳日:2022-04-21 13:26:30 公開日:2022-04-18
# 生涯学習のためのエントロピーに基づく安定確率

Entropy-based Stability-Plasticity for Lifelong Learning ( http://arxiv.org/abs/2204.09517v1 )

ライセンス: Link先を確認
Vladimir Araujo, Julio Hurtado, Alvaro Soto, Marie-Francine Moens(参考訳) 継続的に学習する能力は、深層学習モデルには依然として有効である。 人間とは異なり、モデルは新しいタスクを学ぶ際に体重に関する知識を蓄積することはできない。 ニューラルネットワークの安定性・塑性ジレンマに対処するため,エントロピーに基づく安定塑性 (ESP) と呼ばれる新しい手法を提案する。 当社のアプローチでは,塑性係数を用いて各モデル層をどの程度変更すべきかを動的に決定できる。 我々は、分岐層とエントロピーに基づく基準をモデルに組み込んで、そのような因子を見つける。 自然言語と視覚の領域における我々の実験は、干渉を減らすことによる事前知識の活用における我々のアプローチの有効性を示している。 また、トレーニング中にレイヤーを凍結することで、トレーニングのスピードアップにつながる場合もある。

The ability to continuously learn remains elusive for deep learning models. Unlike humans, models cannot accumulate knowledge in their weights when learning new tasks, mainly due to an excess of plasticity and the low incentive to reuse weights when training a new task. To address the stability-plasticity dilemma in neural networks, we propose a novel method called Entropy-based Stability-Plasticity (ESP). Our approach can decide dynamically how much each model layer should be modified via a plasticity factor. We incorporate branch layers and an entropy-based criterion into the model to find such factor. Our experiments in the domains of natural language and vision show the effectiveness of our approach in leveraging prior knowledge by reducing interference. Also, in some cases, it is possible to freeze layers during training leading to speed up in training.
翻訳日:2022-04-21 13:26:10 公開日:2022-04-18
# (参考訳) 微分可能な最適輸送を用いた同時多重プロンプト誘導生成 [全文訳有]

Simultaneous Multiple-Prompt Guided Generation Using Differentiable Optimal Transport ( http://arxiv.org/abs/2204.08472v1 )

ライセンス: CC BY 4.0
Yingtao Tian and Marco Cuturi and David Ha(参考訳) 強力な生成モデルや共同テキストイメージの埋め込みといったディープラーニングの最近の進歩は、計算創造性コミュニティに新しいツールを提供し、芸術的追求のための新たな視点を生み出している。 テキストキューから画像を生成することによって動作するテキストから画像への合成アプローチは、ポイントのケースを提供する。 これらの画像は、テキストキューに適合するように徐々に洗練される潜在ベクトルで生成される。 そのため、生成された画像内にパッチをサンプリングし、共通のテキストイメージ埋め込み空間内のテキストプロンプトと比較し、潜伏ベクトルを勾配降下を用いて更新し、これらのパッチとテキストキュー間の平均(平均)距離を減少させる。 このアプローチは、画像全体の外観をカスタマイズするための十分な自由を提供するが、生成モデルにおける選択を通じて、単純な基準(距離の単位)への依存は、しばしばモード崩壊を引き起こす。 この問題に対処するために,我々は最適なトランスポート (ot) の文献に見られるマッチング手法を用いて,多種多様なプロンプトを忠実に反映できる画像を提案する。 我々は,otが平均距離のベクトル推定から生じる落とし穴のいくつかを回避し,提案手法が実験において質的かつ定量的に優れた性能を発揮することを示す多くの例を示す。

Recent advances in deep learning, such as powerful generative models and joint text-image embeddings, have provided the computational creativity community with new tools, opening new perspectives for artistic pursuits. Text-to-image synthesis approaches that operate by generating images from text cues provide a case in point. These images are generated with a latent vector that is progressively refined to agree with text cues. To do so, patches are sampled within the generated image, and compared with the text prompts in the common text-image embedding space; The latent vector is then updated, using gradient descent, to reduce the mean (average) distance between these patches and text cues. While this approach provides artists with ample freedom to customize the overall appearance of images, through their choice in generative models, the reliance on a simple criterion (mean of distances) often causes mode collapse: The entire image is drawn to the average of all text cues, thereby losing their diversity. To address this issue, we propose using matching techniques found in the optimal transport (OT) literature, resulting in images that are able to reflect faithfully a wide diversity of prompts. We provide numerous illustrations showing that OT avoids some of the pitfalls arising from estimating vectors with mean distances, and demonstrate the capacity of our proposed method to perform better in experiments, qualitatively and quantitatively.
翻訳日:2022-04-21 02:16:52 公開日:2022-04-18
# (参考訳) 脳波に基づく感情認識におけるベンチマーク領域の一般化 [全文訳有]

Benchmarking Domain Generalization on EEG-based Emotion Recognition ( http://arxiv.org/abs/2204.09016v1 )

ライセンス: CC BY 4.0
Yan Li, Hao Chen, Jake Zhao, Haolan Zhang, Jinpeng Li(参考訳) 脳波(EEG)に基づく感情認識は近年著しく改善されている。 特に、過去5年間に多数のドメイン適応(da)アルゴリズムが、被験者間の感情認識モデルの一般化を強化するために利用されてきた。 daメソッドは、キャリブレーションデータ(ラベルなし)がターゲットドメイン(新規ユーザ)に存在すると仮定する。 しかし、この仮定は、時間を要するキャリブレーション実験なしでモデルをデプロイすべきというアプリケーションシナリオと矛盾する。 ドメイン一般化 (DG) はこれらの応用において DA よりも妥当であると主張する。 DGは、複数のソースドメインからの知識を活用することで、ターゲットドメインを見えないものに一般化する方法を学んでいる。 本稿では,脳波を用いた感情認識における最先端DGアルゴリズムのベンチマークを初めて行った。 畳み込みニューラルネットワーク(cnn)、ディープブリーフネットワーク(dbn)、多層パーセプトロン(mlp)は、効果的な感情認識モデルであることが証明されているので、これら3つのモデルを強固なベースラインとして用いる。 実験結果から、DGは3つの感情を認識するためのSEEDデータセット上で最大79.41\%の精度を達成し、複数のソースが利用可能である場合の無訓練感情認識におけるDGの可能性を予測する。

Electroencephalograp hy (EEG) based emotion recognition has demonstrated tremendous improvement in recent years. Specifically, numerous domain adaptation (DA) algorithms have been exploited in the past five years to enhance the generalization of emotion recognition models across subjects. The DA methods assume that calibration data (although unlabeled) exists in the target domain (new user). However, this assumption conflicts with the application scenario that the model should be deployed without the time-consuming calibration experiments. We argue that domain generalization (DG) is more reasonable than DA in these applications. DG learns how to generalize to unseen target domains by leveraging knowledge from multiple source domains, which provides a new possibility to train general models. In this paper, we for the first time benchmark state-of-the-art DG algorithms on EEG-based emotion recognition. Since convolutional neural network (CNN), deep brief network (DBN) and multilayer perceptron (MLP) have been proved to be effective emotion recognition models, we use these three models as solid baselines. Experimental results show that DG achieves an accuracy of up to 79.41\% on the SEED dataset for recognizing three emotions, indicting the potential of DG in zero-training emotion recognition when multiple sources are available.
翻訳日:2022-04-21 02:04:06 公開日:2022-04-18
# (参考訳) ab/ba分析:音声プライバシーを維持しつつキーワードスポッティングリコール改善を推定するフレームワーク [全文訳有]

AB/BA analysis: A framework for estimating keyword spotting recall improvement while maintaining audio privacy ( http://arxiv.org/abs/2204.08474v1 )

ライセンス: CC BY 4.0
Raphael Petegrosso, Vasistakrishna Baderdinni, Thibaud Senechal, Benjamin L. Bullough(参考訳) 音声中のキーワードを検出するキーワードスポッティング(KWS)システムの評価は,現実的なプライバシー制約下での課題である。 KWSは、キーワードが存在する場合にのみデータを収集し、偽陰性を含む可能性のあるハードサンプルの可用性を制限し、生産データからのモデルリコールの直接推定を防ぐように設計されている。 あるいは、他のソースから収集された補完的なデータは、実際のアプリケーションを完全には表現できないかもしれない。 本研究では,AB/BA解析と呼ばれる評価手法を提案する。 本フレームワークは,相対的リコール推定にクロスデータセットオフライン復号法を用いて,ベースラインモデルAに対する候補KWSモデルBの評価を行う。 さらに, 擬陽性数が少ない場合でも, 低分散モデル間の相対的偽陽性率を推定できる仮定を用いた定式化を提案する。 最後に,機械が生成するソフトラベルを半スーパービジョンAB/BA分析と呼ぶ手法で活用し,解析時間,プライバシ,コストを改善することを提案する。 シミュレーションと実データの両方を用いて実験したところ、AB/BA分析は相対的偽陽性率のトレードオフとともにリコール改善を測定することに成功した。

Evaluation of keyword spotting (KWS) systems that detect keywords in speech is a challenging task under realistic privacy constraints. The KWS is designed to only collect data when the keyword is present, limiting the availability of hard samples that may contain false negatives, and preventing direct estimation of model recall from production data. Alternatively, complementary data collected from other sources may not be fully representative of the real application. In this work, we propose an evaluation technique which we call AB/BA analysis. Our framework evaluates a candidate KWS model B against a baseline model A, using cross-dataset offline decoding for relative recall estimation, without requiring negative examples. Moreover, we propose a formulation with assumptions that allow estimation of relative false positive rate between models with low variance even when the number of false positives is small. Finally, we propose to leverage machine-generated soft labels, in a technique we call Semi-Supervised AB/BA analysis, that improves the analysis time, privacy, and cost. Experiments with both simulation and real data show that AB/BA analysis is successful at measuring recall improvement in conjunction with the trade-off in relative false positive rate.
翻訳日:2022-04-21 01:54:39 公開日:2022-04-18
# (参考訳) Imagination-Augmente d Natural Language Understanding [全文訳有]

Imagination-Augmente d Natural Language Understanding ( http://arxiv.org/abs/2204.08535v1 )

ライセンス: CC BY 4.0
Yujie Lu, Wanrong Zhu, Xin Eric Wang, Miguel Eckstein, William Yang Wang(参考訳) 人間の脳は自然言語を理解するために言語情報と知覚情報を同時に統合し、想像力を生み出す重要な能力を持っている。 このような能力により、我々は新しい抽象概念や具体的なオブジェクトを構築でき、低リソースシナリオにおける問題を解決するための実践的知識の関与に不可欠である。 しかし、既存の自然言語理解法(NLU)のほとんどは、主にテキスト信号に焦点を当てている。 人間の視覚的想像力をシミュレートしないため、限られたデータサンプルからモデルを推論し、学習することを妨げる。 そこで本研究では,Imagination-Augment ed Cross-modal Encoder (iACE)を導入し,自然言語理解の課題を新たな学習視点から解決する。 iACEは、強力な生成および事前学習された視覚・言語モデルから変換された外部知識で視覚的な想像を可能にする。 GLUEとSWAGの大規模な実験により、iACEは視覚的に制御された事前学習モデルよりも一貫した改善を達成している。 さらに重要なことは、低リソースの自然言語理解環境でのiACEの有効性を極端に正常に検証する。

Human brains integrate linguistic and perceptual information simultaneously to understand natural language, and hold the critical ability to render imaginations. Such abilities enable us to construct new abstract concepts or concrete objects, and are essential in involving practical knowledge to solve problems in low-resource scenarios. However, most existing methods for Natural Language Understanding (NLU) are mainly focused on textual signals. They do not simulate human visual imagination ability, which hinders models from inferring and learning efficiently from limited data samples. Therefore, we introduce an Imagination-Augmente d Cross-modal Encoder (iACE) to solve natural language understanding tasks from a novel learning perspective -- imagination-augmente d cross-modal understanding. iACE enables visual imagination with external knowledge transferred from the powerful generative and pre-trained vision-and-language models. Extensive experiments on GLUE and SWAG show that iACE achieves consistent improvement over visually-supervised pre-trained models. More importantly, results in extreme and normal few-shot settings validate the effectiveness of iACE in low-resource natural language understanding circumstances.
翻訳日:2022-04-21 01:41:32 公開日:2022-04-18
# (参考訳) VQGAN-CLIP: 自然言語誘導によるオープンドメイン画像生成と編集

VQGAN-CLIP: Open Domain Image Generation and Editing with Natural Language Guidance ( http://arxiv.org/abs/2204.08583v1 )

ライセンス: CC BY-SA 4.0
Katherine Crowson and Stella Biderman and Daniel Kornis and Dashiell Stander and Eric Hallahan and Louis Castricato and Edward Raff(参考訳) オープンドメインのテキストプロンプトから画像の生成と編集は、ここでは高価で特別に訓練されたモデルが必要だった課題である。 本稿では,マルチモーダルエンコーダを用いて画像生成のガイドを行うことにより,テキストプロンプトから高い視覚品質の画像を生成することが可能な2つのタスクの新たな手法を提案する。 VQGAN[11]をガイドするためにCLIP[37]を使用すると、提示されたタスクのトレーニングを受けなくても、DALL-E[38]、GLIDE [33]、Open-Edit [24]のような、より柔軟なアプローチよりも、視覚的品質のアウトプットがより高くなることを示す。 私たちのコードはパブリックリポジトリで利用可能です。

Generating and editing images from open domain text prompts is a challenging task that heretofore has required expensive and specially trained models. We demonstrate a novel methodology for both tasks which is capable of producing images of high visual quality from text prompts of significant semantic complexity without any training by using a multimodal encoder to guide image generations. We demonstrate on a variety of tasks how using CLIP [37] to guide VQGAN [11] produces higher visual quality outputs than prior, less flexible approaches like DALL-E [38], GLIDE [33] and Open-Edit [24], despite not being trained for the tasks presented. Our code is available in a public repository.
翻訳日:2022-04-21 01:25:33 公開日:2022-04-18
# (参考訳) 視覚モデルベースRLにおけるエンプロファイリングによる作業優先化 [全文訳有]

INFOrmation Prioritization through EmPOWERment in Visual Model-Based RL ( http://arxiv.org/abs/2204.08585v1 )

ライセンス: CC BY 4.0
Homanga Bharadhwaj, Mohammad Babaeizadeh, Dumitru Erhan, Sergey Levine(参考訳) 複雑な視覚的観察を扱うために設計されたモデルベース強化学習(RL)アルゴリズムは、通常、明示的にも暗黙的にもある種の潜在状態表現を学ぶ。 この種の標準的な手法は、状態と無関係なイントラクタの機能的な側面を区別せず、全ての利用可能な情報を平等に表現することを目的としている。 本稿では、相互情報最大化と組み合わせて、視覚モデルに基づくRLの表現とダイナミクスを、機能的関連因子を明確に優先順位付けする方法で再構築することなく学習できるモデルベースRLの修正目的を提案する。 我々の設計の背後にある重要な原則は、相互情報に基づく状態空間モデルに変分エンパワーメントから着想を得た用語を統合することである。 この用語は行動と相関する情報を優先し、機能的関連因子が最初に捕捉されるようにする。 さらに、同じエンパワーメント用語は、特に学習の初期段階で探索を進めるのに報酬信号が不十分なスパースリワードタスクにおいて、rlプロセス中の迅速な探索を促進する。 提案手法は,自然映像を背景とした視覚ベースのロボット制御タスクのスイート上で評価し,提案手法が,サンプル効率とエピソジックリターンの高い最先端モデルに基づくrlアプローチよりも優れていることを示す。 https://sites.google .com/view/informatio n-empowerment

Model-based reinforcement learning (RL) algorithms designed for handling complex visual observations typically learn some sort of latent state representation, either explicitly or implicitly. Standard methods of this sort do not distinguish between functionally relevant aspects of the state and irrelevant distractors, instead aiming to represent all available information equally. We propose a modified objective for model-based RL that, in combination with mutual information maximization, allows us to learn representations and dynamics for visual model-based RL without reconstruction in a way that explicitly prioritizes functionally relevant factors. The key principle behind our design is to integrate a term inspired by variational empowerment into a state-space model based on mutual information. This term prioritizes information that is correlated with action, thus ensuring that functionally relevant factors are captured first. Furthermore, the same empowerment term also promotes faster exploration during the RL process, especially for sparse-reward tasks where the reward signal is insufficient to drive exploration in the early stages of learning. We evaluate the approach on a suite of vision-based robot control tasks with natural video backgrounds, and show that the proposed prioritized information objective outperforms state-of-the-art model based RL approaches with higher sample efficiency and episodic returns. https://sites.google .com/view/informatio n-empowerment
翻訳日:2022-04-21 01:23:02 公開日:2022-04-18
# 深層ニューラルネットワークのための最適時間可変学習フレームワーク

An Optimal Time Variable Learning Framework for Deep Neural Networks ( http://arxiv.org/abs/2204.08528v1 )

ライセンス: Link先を確認
Harbir Antil, Hugo D\'iaz, Evelyn Herberg(参考訳) ディープニューラルネットワーク(DNN)の特徴伝搬は非線形離散力学系に関連付けられる。 この論文では、離散化パラメータ(時間ステップサイズ)を、最適化フレームワークで学習する必要がある層から層へ変更させることが特徴である。 提案するフレームワークは、ResNet, DenseNet, Fractional-DNNなどの既存のネットワークに適用できる。 このフレームワークは、消滅し、爆発する勾配問題を克服するのに役立ちます。 フラクタルDNNのような既存の連続DNNの安定性についても検討した。 提案手法は3次元マクスウェル方程式に適用できる。

Feature propagation in Deep Neural Networks (DNNs) can be associated to nonlinear discrete dynamical systems. The novelty, in this paper, lies in letting the discretization parameter (time step-size) vary from layer to layer, which needs to be learned, in an optimization framework. The proposed framework can be applied to any of the existing networks such as ResNet, DenseNet or Fractional-DNN. This framework is shown to help overcome the vanishing and exploding gradient issues. Stability of some of the existing continuous DNNs such as Fractional-DNN is also studied. The proposed approach is applied to an ill-posed 3D-Maxwell's equation.
翻訳日:2022-04-20 15:26:03 公開日:2022-04-18
# パラメトリック最適実行と機械学習サロゲートについて

On Parametric Optimal Execution and Machine Learning Surrogates ( http://arxiv.org/abs/2204.08581v1 )

ライセンス: Link先を確認
Tao Chen and Mike Ludkovski and Moritz Vo{\ss}(参考訳) 即時価格影響と確率的レジリエンスを伴う最適実行問題について検討する。 まず、線形価格影響関数の設定において、最適戦略に対する閉形式再帰を導出し、決定論的過渡的価格影響で以前の結果を一般化する。 次に,非線形価格の影響を考慮した数値アルゴリズムを開発した。 我々は,値関数とフィードバック制御のための2つのニューラルネットワークサロゲートを構成するアクタ-クリティックフレームワークを利用する。 このような関数近似器の利点の1つは、パラメトリック学習、すなわちモデルパラメータのいくつかを入力空間の一部として組み込む能力である。 価格影響やレジリエンスなどの正確なキャリブレーションは非常に困難であることが知られており、これらのパラメータに対する戦略の感度を理解することが重要である。 我々のパラメトリックニューラルネットワーク(NN)学習者は3-6の入力次元を有機的にスケールし、パラメータ構成の範囲で最適な戦略を正確に近似する。 本論文は, NN 実装による完全再現可能な Jupyter Notebook を提供することにより, NN サロゲートを (パラメトリック) 確率的制御問題で使用し易いことを示す。

We investigate optimal execution problems with instantaneous price impact and stochastic resilience. First, in the setting of linear price impact function we derive a closed-form recursion for the optimal strategy, generalizing previous results with deterministic transient price impact. Second, we develop a numerical algorithm for the case of nonlinear price impact. We utilize an actor-critic framework that constructs two neural-network surrogates for the value function and the feedback control. One advantage of such functional approximators is the ability to do parametric learning, i.e. to incorporate some of the model parameters as part of the input space. Precise calibration of price impact, resilience, etc., is known to be extremely challenging and hence it is critical to understand sensitivity of the strategy to these parameters. Our parametric neural network (NN) learner organically scales across 3-6 input dimensions and is shown to accurately approximate optimal strategy across a range of parameter configurations. We provide a fully reproducible Jupyter Notebook with our NN implementation, which is of independent pedagogical interest, demonstrating the ease of use of NN surrogates in (parametric) stochastic control problems.
翻訳日:2022-04-20 15:25:50 公開日:2022-04-18
# ドメイン情報マイニングと科学論文のテーマ展開に関する研究

Research on Domain Information Mining and Theme Evolution of Scientific Papers ( http://arxiv.org/abs/2204.08476v1 )

ライセンス: Link先を確認
Changwei Zheng, Zhe Xue, Meiyu Liang, Feifei Kou, and Zeli Guan(参考訳) 近年,科学研究への社会投資の増加に伴い,様々な分野の研究成果が著しく増加している。 学際的な研究成果は次第に新たなフロンティア研究の方向性になりつつある。 多くの研究結果の間には一定の依存性がある。 一つの研究分野を単独で見る場合,今日の科学的研究成果を効果的に分析することは困難である。 研究者を助けるために大量の科学論文を効果的に利用する方法が課題となる。 本稿では,科学技術論文における意味的特徴表現学習,科学技術論文の分野情報マイニング,科学技術論文の分野情報マイニング,科学・技術論文の分野進化ルールのマイニングと予測という3つの側面から,国内外の分野情報マイニング及び科学・技術論文のトピック進化法について紹介する。

In recent years, with the increase of social investment in scientific research, the number of research results in various fields has increased significantly. Cross-disciplinary research results have gradually become an emerging frontier research direction. There is a certain dependence between a large number of research results. It is difficult to effectively analyze today's scientific research results when looking at a single research field in isolation. How to effectively use the huge number of scientific papers to help researchers becomes a challenge. This paper introduces the research status at home and abroad in terms of domain information mining and topic evolution law of scientific and technological papers from three aspects: the semantic feature representation learning of scientific and technological papers, the field information mining of scientific and technological papers, and the mining and prediction of research topic evolution rules of scientific and technological papers.
翻訳日:2022-04-20 15:11:04 公開日:2022-04-18
# Recommender システムのためのバイナリコードを保存する類似性学習

Learning Similarity Preserving Binary Codes for Recommender Systems ( http://arxiv.org/abs/2204.08569v1 )

ライセンス: Link先を確認
Yang Shi and Young-joo Chung(参考訳) ハッシュベースのRecommender Systems(RS)はスケーラブルなサービスを提供するために広く研究されている。 システムのための既存の手法は、3つのモジュールを組み合わせて効率性を実現している。 本稿では,ハッシュ方式のレコメンダシステムであるcompact cross- similarity recommender (ccsr) について,未検討モジュールの組み合わせについて検討する。 クロスモーダル検索にインスパイアされたccsrは、ユーザとアイテム間の相互作用をモデル化するために、マトリックス因子分解や評価再構成の代わりに最大後方類似性を利用する。 我々は,MovieLens1M,Amazon製品レビュー,一葉購入データセットの実験を行い,CCSRが既存の行列分解法よりも優れていることを確認した。 Movielens1Mデータセットでは、絶対的なパフォーマンス改善はNDCGが15.69%、リコールが4.29%である。 さらに,3つのバイナライゼーションモジュール,$sign$,scaled tanh, sign-scaled tanhについて検討した。 その結果、最近の離散的な特徴学習文献では微分可能スケールタンが人気であるが、スケールされた$tanh$の出力をバイナリにすると、大きなパフォーマンス低下が発生することがわかった。

Hashing-based Recommender Systems (RSs) are widely studied to provide scalable services. The existing methods for the systems combine three modules to achieve efficiency: feature extraction, interaction modeling, and binarization. In this paper, we study an unexplored module combination for the hashing-based recommender systems, namely Compact Cross-Similarity Recommender (CCSR). Inspired by cross-modal retrieval, CCSR utilizes Maximum a Posteriori similarity instead of matrix factorization and rating reconstruction to model interactions between users and items. We conducted experiments on MovieLens1M, Amazon product review, Ichiba purchase dataset and confirmed CCSR outperformed the existing matrix factorization-based methods. On the Movielens1M dataset, the absolute performance improvements are up to 15.69% in NDCG and 4.29% in Recall. In addition, we extensively studied three binarization modules: $sign$, scaled tanh, and sign-scaled tanh. The result demonstrated that although differentiable scaled tanh is popular in recent discrete feature learning literature, a huge performance drop occurs when outputs of scaled $tanh$ are forced to be binary.
翻訳日:2022-04-20 15:10:50 公開日:2022-04-18
# 信頼できるグラフニューラルネットワークに関する総合調査:プライバシー、ロバスト性、公正性、説明可能性

A Comprehensive Survey on Trustworthy Graph Neural Networks: Privacy, Robustness, Fairness, and Explainability ( http://arxiv.org/abs/2204.08570v1 )

ライセンス: Link先を確認
Enyan Dai, Tianxiang Zhao, Huaisheng Zhu, Junjie Xu, Zhimeng Guo, Hui Liu, Jiliang Tang, Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は近年,急速な発展を遂げている。 グラフ構造化データモデリングの優れた能力のため、GNNは財務分析、交通予測、薬物発見など、さまざまなアプリケーションで広く利用されている。 現実世界で人間に利益をもたらす大きな可能性にもかかわらず、最近の研究は、GNNが個人情報を漏らし、敵の攻撃に弱いこと、訓練データから社会的偏見を継承し、拡大しうること、そしてユーザーや社会に意図しない害をもたらすリスクがあることを示している。 例えば、既存の研究は、攻撃者がGNNを騙して、トレーニンググラフに目立たない摂動で彼らが望む結果を与えることを示した。 ソーシャルネットワークで訓練されたGNNは、判断プロセスに差別を埋め込んで、望ましくない社会的偏見を強化することができる。 その結果、GNNモデルの害を防止し、GNNに対するユーザの信頼を高めるために、様々な面で信頼できるGNNが出現している。 本稿では,プライバシー,堅牢性,公正性,説明可能性の計算面におけるGNNの包括的調査を行う。 それぞれの側面において、関連する手法の分類を与え、信頼に値するGNNの複数のカテゴリの一般的なフレームワークを定式化する。 また,各側面の今後の研究方向性とこれらの側面間のつながりを議論し,信頼性の向上に寄与する。

Graph Neural Networks (GNNs) have made rapid developments in the recent years. Due to their great ability in modeling graph-structured data, GNNs are vastly used in various applications, including high-stakes scenarios such as financial analysis, traffic predictions, and drug discovery. Despite their great potential in benefiting humans in the real world, recent study shows that GNNs can leak private information, are vulnerable to adversarial attacks, can inherit and magnify societal bias from training data and lack interpretability, which have risk of causing unintentional harm to the users and society. For example, existing works demonstrate that attackers can fool the GNNs to give the outcome they desire with unnoticeable perturbation on training graph. GNNs trained on social networks may embed the discrimination in their decision process, strengthening the undesirable societal bias. Consequently, trustworthy GNNs in various aspects are emerging to prevent the harm from GNN models and increase the users' trust in GNNs. In this paper, we give a comprehensive survey of GNNs in the computational aspects of privacy, robustness, fairness, and explainability. For each aspect, we give the taxonomy of the related methods and formulate the general frameworks for the multiple categories of trustworthy GNNs. We also discuss the future research directions of each aspect and connections between these aspects to help achieve trustworthiness.
翻訳日:2022-04-20 15:10:29 公開日:2022-04-18
# 切り替えコストを考慮したオンライン最適化のためのエキスパート校正学習

Expert-Calibrated Learning for Online Optimization with Switching Costs ( http://arxiv.org/abs/2204.08572v1 )

ライセンス: Link先を確認
Pengfei Li and Jianyi Yang and Shaolei Ren(参考訳) オンライン凸最適化をスイッチングコストで検討し、オフライン情報の完全欠如により、事実上重要な問題であるが非常に難しい問題である。 機械学習(ML)ベースのオプティマイザのパワーを取り入れることで、ML強化オンラインアルゴリズム(この論文ではエキスパートキャリブレーションとも呼ばれる)が最先端のパフォーマンス保証を備えた最先端技術として浮上している。 それでも、MLモデルをスタンドアロンのオプティマイザとしてトレーニングし、それをML拡張アルゴリズムにプラグインする標準的なプラクティスを使用することで、ML予測を純粋に使用するよりもコストパフォーマンスがさらに悪くなります。 学習方法」の課題に対処するために,下流の専門家カリブレータを明示的に考慮してmlベースのオプティマイザを訓練するec-l2o(expert-calibr ated learning to optimize)を提案する。 そこで本研究では,正規化オンラインバランスド降下を一般化し,予測誤差が大きい場合の純粋なml予測よりも高い競合率を提供する,新たな微分可能エキスパートキャリブレータを提案する。 トレーニングでは、損失関数は2つの異なる損失の重み付けされた総和であり、1つは平均ML予測誤差を最小化し、もう1つはキャリブレーション後の平均コストを最小化する。 また、EC-L2Oの理論分析を行い、エキスパートキャリブレーションが平均コスト性能にさらに有益であること、EC-L2Oが達成したコストとオフライン最適オラクル(テールコスト比)のコストの高パーセントテール比を有界化できることを強調した。 最後に、持続可能なデータセンター需要応答のためのシミュレーションを実行することでEC-L2Oをテストする。 以上の結果から,EC-L2Oは既存のベースラインアルゴリズムよりも低い平均コストと低い競合率を実証的に達成できることが示された。

We study online convex optimization with switching costs, a practically important but also extremely challenging problem due to the lack of complete offline information. By tapping into the power of machine learning (ML) based optimizers, ML-augmented online algorithms (also referred to as expert calibration in this paper) have been emerging as state of the art, with provable worst-case performance guarantees. Nonetheless, by using the standard practice of training an ML model as a standalone optimizer and plugging it into an ML-augmented algorithm, the average cost performance can be even worse than purely using ML predictions. In order to address the "how to learn" challenge, we propose EC-L2O (expert-calibrated learning to optimize), which trains an ML-based optimizer by explicitly taking into account the downstream expert calibrator. To accomplish this, we propose a new differentiable expert calibrator that generalizes regularized online balanced descent and offers a provably better competitive ratio than pure ML predictions when the prediction error is large. For training, our loss function is a weighted sum of two different losses -- one minimizing the average ML prediction error for better robustness, and the other one minimizing the post-calibration average cost. We also provide theoretical analysis for EC-L2O, highlighting that expert calibration can be even beneficial for the average cost performance and that the high-percentile tail ratio of the cost achieved by EC-L2O to that of the offline optimal oracle (i.e., tail cost ratio) can be bounded. Finally, we test EC-L2O by running simulations for sustainable datacenter demand response. Our results demonstrate that EC-L2O can empirically achieve a lower average cost as well as a lower competitive ratio than the existing baseline algorithms.
翻訳日:2022-04-20 15:10:05 公開日:2022-04-18
# 強化学習と生成モデルを用いた深層政策の訓練と評価

Training and Evaluation of Deep Policies using Reinforcement Learning and Generative Models ( http://arxiv.org/abs/2204.08573v1 )

ライセンス: Link先を確認
Ali Ghadirzadeh, Petra Poklukar, Karol Arndt, Chelsea Finn, Ville Kyrki, Danica Kragic and M{\aa}rten Bj\"orkman(参考訳) 本稿では、強化学習(RL)と潜在変数生成モデルの組み合わせを利用して、逐次意思決定問題を解決するためのデータ効率フレームワークを提案する。 genrlと呼ばれるこのフレームワークは,フィードフォワードポリシ検索を2つの部分に分割するように,アクション潜在変数を導入することで,深いポリシをトレーニングする。 (i)システムの状態が与えられた場合に、アクション潜在変数上の分布を出力するサブポリシーを訓練すること。 (ii)潜在動作変数に条件づけられた一連の運動動作を出力する生成モデルの教師なしトレーニング。 GenRLは、モータアクションの有効なシーケンスに関する事前知識を利用するため、安全な探索を可能にし、データ効率の問題を軽減する。 さらに,ロボットの実際のトレーニングに先立って,RLポリシートレーニングの性能を予測できるように,生成モデルの評価のための一連の指標を提供する。 ホッケーパックを撃ち、バスケットボールを投げるという2つのロボティクスタスクにおける最終方針トレーニングのパフォーマンスに最も影響を与える生成モデルの特徴を実験的に決定する。 さらに,2つの最先端RL法と比較して,ロボットのタスクを安全かつ効率的に解決できる手法はGenRLのみであることを示す。

We present a data-efficient framework for solving sequential decision-making problems which exploits the combination of reinforcement learning (RL) and latent variable generative models. The framework, called GenRL, trains deep policies by introducing an action latent variable such that the feed-forward policy search can be divided into two parts: (i) training a sub-policy that outputs a distribution over the action latent variable given a state of the system, and (ii) unsupervised training of a generative model that outputs a sequence of motor actions conditioned on the latent action variable. GenRL enables safe exploration and alleviates the data-inefficiency problem as it exploits prior knowledge about valid sequences of motor actions. Moreover, we provide a set of measures for evaluation of generative models such that we are able to predict the performance of the RL policy training prior to the actual training on a physical robot. We experimentally determine the characteristics of generative models that have most influence on the performance of the final policy training on two robotics tasks: shooting a hockey puck and throwing a basketball. Furthermore, we empirically demonstrate that GenRL is the only method which can safely and efficiently solve the robotics tasks compared to two state-of-the-art RL methods.
翻訳日:2022-04-20 15:09:33 公開日:2022-04-18
# 予約予約の予測分析

Predictive analytics for appointment bookings ( http://arxiv.org/abs/2204.08475v1 )

ライセンス: Link先を確認
MA Nang Laik(参考訳) 顧客にプレミアムサービスを提供する金融サービス分野のサービスプロバイダの1つは、データマイニングがよりよい意思決定のための貴重な洞察を明らかにすることができるため、データ分析の力を活用したいと考えていた。 そこで著者は,予測分析を用いて顧客のアポイントメントや予約に影響を及ぼす重要な要因を発見することを目的とした。 第1モデルは、顧客が会議に現れるかどうかを予測し、第2モデルは、顧客がプレミアムサービスを予約するかどうかを示す。 どちらのモデルも75%以上の精度で正確な結果を出すため、直感や直感よりも実装のためのより堅牢なモデルを提供する。 最後に,予測需要を用いた資源計画の枠組みについて述べる。

One of the service providers in the financial service sector, who provide premium service to the customers, wanted to harness the power of data analytics as data mining can uncover valuable insights for better decision making. Therefore, the author aimed to use predictive analytics to discover crucial factors that will affect the customers' showing up for their appointment and booking the service. The first model predicts whether a customer will show up for the meeting, while the second model indicates whether a customer will book a premium service. Both models produce accurate results with more than a 75% accuracy rate, thus providing a more robust model for implementation than gut feeling and intuition. Finally, this paper offers a framework for resource planning using the predicted demand.
翻訳日:2022-04-20 14:47:44 公開日:2022-04-18
# ai for human assessment: プロフェッショナルな評価者は何が必要か?

AI for human assessment: What do professional assessors need? ( http://arxiv.org/abs/2204.08471v1 )

ライセンス: Link先を確認
Riku Arakawa, Hiromu Yakura(参考訳) 本研究では,専門家が人的評価における意思決定を支援することを目的としたケーススタディを提案し,評価担当者とのインタビューを行い,特定の職種に対する適性を評価する。 2つの産業評価者によるワークショップにおいて,インタビュービデオから評価の非言語的手がかりを抽出できる計算システムは,意思決定を支援する点で評価者にとって有益であることを明らかにした。 そこで我々は,顔のキーポイント,ポーズ,頭部ポーズ,視線といったマルチモーダルな行動特徴を用いた教師なし異常検出アルゴリズムに基づくシステムを開発した。 さらに,各特徴が検出されたキューの外れ値にどの程度寄与するかを,その解釈可能性を高める目的で出力できるようにした。 そこで本研究では,20件の実際のアセスメントインタビュービデオと2件のアセスメントビデオを用いて,システムアウトプットの有効性を検討した。 その結果, 教師なし異常検出の利点は, 評価者に対するアウトプットの有意性を示すことによって, 解釈可能な方法で活用できることが示唆された。 人間-aiチームにおける観察と解釈の分離という考え方に基づくこのアプローチは、システムへの信頼を維持しつつ、ヒューマンアセスメントのような高度に文脈的なドメインにおける人間の意思決定を促進する。

We present our case study that aims to help professional assessors make decisions in human assessment, in which they conduct interviews with assessees and evaluate their suitability for certain job roles. Our workshop with two industrial assessors revealed that a computational system that can extract nonverbal cues of assesses from interview videos would be beneficial to assessors in terms of supporting their decision making. In response, we developed such a system based on an unsupervised anomaly detection algorithm using multimodal behavioral features such as facial keypoints, pose, head pose, and gaze. Moreover, we enabled the system to output how much each feature contributed to the outlierness of the detected cues with the purpose of enhancing its interpretability. We then conducted a preliminary study to examine the validity of the system's output by using 20 actual assessment interview videos and involving the two assessors. The results suggested the advantages of using unsupervised anomaly detection in an interpretable manner by illustrating the informativeness of its outputs for assessors. Our approach, which builds on top of the idea of separation of observation and interpretation in human-AI teaming, will facilitate human decision making in highly contextual domains, such as human assessment, while keeping their trust in the system.
翻訳日:2022-04-20 14:46:28 公開日:2022-04-18
# 乳房超音波診断のための自己監督型病変認識

Self Supervised Lesion Recognition For Breast Ultrasound Diagnosis ( http://arxiv.org/abs/2204.08477v1 )

ライセンス: Link先を確認
Yuanfan Guo, Canqian Yang, Tiancheng Lin, Chunxiao Li, Rui Zhang, Yi Xu(参考訳) 従来のdeep learning based computer aided diagnostic (cad)システムは、同一病変の複数のビューを独立した画像として扱う。 超音波画像は3次元病変の部分的な2次元投影のみを記述するため、このパラダイムは病変の異なる視点間の意味関係を無視するものであり、超音波撮影者が少なくとも2つの視点から病変を解析する従来の診断と矛盾する。 本稿では,良性/良性分類タスクと病変認識(LR)を補完するマルチタスクフレームワークを提案する。 具体的には、LRタスクは対照的な学習を用いて、同じ病変の複数のビューを抽出し、異なる病変のビューを再現する表現を促進する。 したがって、このタスクは、病変のビュー変化に不変であるだけでなく、異なる病変を区別するためにきめ細かい特徴をキャプチャーする表現を促進する。 提案するマルチタスクフレームワークは, 2つのサブタスクが互いに補完し, 学習した超音波画像の表現能力を高めるため, 良性/良性分類の性能を高める。

Previous deep learning based Computer Aided Diagnosis (CAD) system treats multiple views of the same lesion as independent images. Since an ultrasound image only describes a partial 2D projection of a 3D lesion, such paradigm ignores the semantic relationship between different views of a lesion, which is inconsistent with the traditional diagnosis where sonographers analyze a lesion from at least two views. In this paper, we propose a multi-task framework that complements Benign/Malignant classification task with lesion recognition (LR) which helps leveraging relationship among multiple views of a single lesion to learn a complete representation of the lesion. To be specific, LR task employs contrastive learning to encourage representation that pulls multiple views of the same lesion and repels those of different lesions. The task therefore facilitates a representation that is not only invariant to the view change of the lesion, but also capturing fine-grained features to distinguish between different lesions. Experiments show that the proposed multi-task framework boosts the performance of Benign/Malignant classification as two sub-tasks complement each other and enhance the learned representation of ultrasound images.
翻訳日:2022-04-20 14:44:35 公開日:2022-04-18
# 知識伝達による非大量乳癌分類の促進

Enhancing Non-mass Breast Ultrasound Cancer Classification With Knowledge Transfer ( http://arxiv.org/abs/2204.08478v1 )

ライセンス: Link先を確認
Yangrun Hu, Yuanfan Guo, Fan Zhang, Mingda Wang, Tiancheng Lin, Rong Wu, Yi Xu(参考訳) 深層ニューラルネットワーク (dnn) では, 腫瘤性乳房超音波 (bus) 画像の診断に多くの進歩が見られた。 しかし, 限られたデータにより, 非質量病変の調査は少ない。 超音波画像に基づいて病変の悪性度を同定する非質量データと質量データとが同一の知識構造を持つという知見に基づいて,マスバスを用いて非質量バス用dnnモデルの一般化性を高めるための新しいトランスファー学習フレームワークを提案する。 具体的には、非質量データと質量データを組み合わせた共有DNNを訓練する。 入力および出力空間における異なる限界分布の先行により、提案するトランスファー学習フレームワークにおいて、ドメインシフトの問題に対処するために、ドメイン固有分布を捉える洞察を持つ2つのドメインアライメント戦略を用いる。 さらに,学習データに表示されない非質量データと質量データの間の欠落分布を復元するクロスドメイン・セマンティック保存データ生成モジュールCrossMixを提案する。 内製データセットを用いた実験の結果,本フレームワークによる複合データで訓練したdnnモデルでは,非マスデータを直接トレーニングした場合と比較して,非マスバスの悪性度予測タスクにおけるaucの10%改善が得られた。

Much progress has been made in the deep neural network (DNN) based diagnosis of mass lesions breast ultrasound (BUS) images. However, the non-mass lesion is less investigated because of the limited data. Based on the insight that mass data is sufficient and shares the same knowledge structure with non-mass data of identifying the malignancy of a lesion based on the ultrasound image, we propose a novel transfer learning framework to enhance the generalizability of the DNN model for non-mass BUS with the help of mass BUS. Specifically, we train a shared DNN with combined non-mass and mass data. With the prior of different marginal distributions in input and output space, we employ two domain alignment strategies in the proposed transfer learning framework with the insight of capturing domain-specific distribution to address the issue of domain shift. Moreover, we propose a cross-domain semantic-preserve data generation module called CrossMix to recover the missing distribution between non-mass and mass data that is not presented in training data. Experimental results on an in-house dataset demonstrate that the DNN model trained with combined data by our framework achieves a 10% improvement in AUC on the malignancy prediction task of non-mass BUS compared to training directly on non-mass data.
翻訳日:2022-04-20 14:44:17 公開日:2022-04-18
# 違いを見つける: 変化する環境における具体化エージェントのための新しいタスク

Spot the Difference: A Novel Task for Embodied Agents in Changing Environments ( http://arxiv.org/abs/2204.08502v1 )

ライセンス: Link先を確認
Federico Landi, Roberto Bigazzi, Marcella Cornia, Silvia Cascianelli, Lorenzo Baraldi and Rita Cucchiara(参考訳) Embodied AIは、環境内で動き、操作できるインテリジェントエージェントを作成することを目的とした、最近の研究分野である。 この分野における既存のアプローチは、エージェントに全く新しい未調査のシーンで行動するよう要求する。 しかし、この設定は、同じ環境で複数のタスクを実行する必要のある現実的なユースケースとは程遠い。 時間が経つにつれて環境が変化しても、エージェントは内部表現を現在の環境に適応させようとしながら、シーンに関するグローバルな知識をカウントすることができる。 エージェントが環境の古いマップにアクセスでき、一定の時間予算で正しいレイアウトを復元する必要がある、具体化されたaiのための新しいタスクです。 この目的のために,既存の3d空間のデータセットから新たな占有マップのデータセットを収集し,複数の可能なレイアウトを1つの環境に生成する。 このデータセットは人気のあるHabitatシミュレータで使用することができ、ナビゲーション中に再構成された占有マップを使用する既存のメソッドに完全に準拠する。 さらに,従来の環境知識を活用し,既存のエージェントよりも迅速かつ効果的にシーンの変化を識別できる探索方針を提案する。 実験結果から,提案手法は既存の最先端モデルよりも優れた性能を示すことがわかった。

Embodied AI is a recent research area that aims at creating intelligent agents that can move and operate inside an environment. Existing approaches in this field demand the agents to act in completely new and unexplored scenes. However, this setting is far from realistic use cases that instead require executing multiple tasks in the same environment. Even if the environment changes over time, the agent could still count on its global knowledge about the scene while trying to adapt its internal representation to the current state of the environment. To make a step towards this setting, we propose Spot the Difference: a novel task for Embodied AI where the agent has access to an outdated map of the environment and needs to recover the correct layout in a fixed time budget. To this end, we collect a new dataset of occupancy maps starting from existing datasets of 3D spaces and generating a number of possible layouts for a single environment. This dataset can be employed in the popular Habitat simulator and is fully compliant with existing methods that employ reconstructed occupancy maps during navigation. Furthermore, we propose an exploration policy that can take advantage of previous knowledge of the environment and identify changes in the scene faster and more effectively than existing agents. Experimental results show that the proposed architecture outperforms existing state-of-the-art models for exploration on this new setting.
翻訳日:2022-04-20 14:43:57 公開日:2022-04-18
# Cylin-Painting: Seamless 360{\deg} パノラマ画像出力とシリンダースタイルの畳み込み

Cylin-Painting: Seamless 360{\deg} Panoramic Image Outpainting and Beyond with Cylinder-Style Convolutions ( http://arxiv.org/abs/2204.08563v1 )

ライセンス: Link先を確認
Kang Liao, Xiangyu Xu, Chunyu Lin, Wenqi Ren, Yunchao Wei, Yao Zhao(参考訳) 360{\deg}パノラマ画像を構成する貴重なソリューションを提供するため、部分的なビューから完全なシーンを生成することができるため、画像の画質向上が注目される。 画像オーバーペイントは、一方向の完了フローの本質的な問題に苦しむため、以前の手法では、元の問題をインペインティングに変換し、双方向のフローを可能にする。 しかし, 塗布には限界があり, 特定の状況下での塗布に劣ることがわかった。 両者にとってどのように組み合わせられるのかという問題は、まだ未解決のままだ。 本稿では,異なる空間配置の未知領域に対して,光源画素がどのように寄与するかに本質的に依存する,インペインティングとアウトペインティングの違いについて深い分析を行う。 この分析に動機づけられたCylin-Paintingフレームワークは,不連続かつシームレスなシリンダーに相補的な利点を活かすために,塗布と外塗りの有意義な協調を伴い,異なる配置を効果的に融合する。 それにもかかわらず、シリンダー型の畳み込みを直接適用すると、重要な位置情報を破棄できるため、視覚的に不快な結果が発生することが多い。 この問題に対処するため,我々はさらに学習可能な位置埋め込み戦略を示し,シリンダー畳み込みに位置符号化の欠如成分を組み込むことにより,パノラマ的結果を大幅に改善する。 画像オーバーペイントのために開発されたが、提案手法は、物体検出、深度推定、画像の超解像など、他のパノラマ視覚タスクにも効果的に拡張できる。

Image outpainting gains increasing attention since it can generate the complete scene from a partial view, providing a valuable solution to construct 360{\deg} panoramic images. As image outpainting suffers from the intrinsic issue of unidirectional completion flow, previous methods convert the original problem into inpainting, which allows a bidirectional flow. However, we find that inpainting has its own limitations and is inferior to outpainting in certain situations. The question of how they may be combined for the best of both has as yet remained under-explored. In this paper, we provide a deep analysis of the differences between inpainting and outpainting, which essentially depends on how the source pixels contribute to the unknown regions under different spatial arrangements. Motivated by this analysis, we present a Cylin-Painting framework that involves meaningful collaborations between inpainting and outpainting and efficiently fuses the different arrangements, with a view to leveraging their complementary benefits on a consistent and seamless cylinder. Nevertheless, directly applying the cylinder-style convolution often generates visually unpleasing results as it could discard important positional information. To address this issue, we further present a learnable positional embedding strategy and incorporate the missing component of positional encoding into the cylinder convolution, which significantly improves the panoramic results. Note that while developed for image outpainting, the proposed solution can be effectively extended to other panoramic vision tasks, such as object detection, depth estimation, and image super resolution.
翻訳日:2022-04-20 14:32:25 公開日:2022-04-18
# 地域別深層学習による小売チェックアウトの自動化

A Region-Based Deep Learning Approach to Automated Retail Checkout ( http://arxiv.org/abs/2204.08584v1 )

ライセンス: Link先を確認
Maged Shoman, Armstrong Aboah, Alex Morehead, Ye Duan, Abdulateef Daud, Yaw Adu-Gyamfi(参考訳) 従来の小売店での商品チェックアウトプロセスの自動化は、一般的に社会に大きな影響を与える可能性がある。 この目標に向けて、迅速な顧客チェックアウトのための自動プロダクトカウントを可能にする、信頼できるディープラーニングモデルが、この目標を現実にすることができる。 本研究では、カスタマイズされたYOLOv5オブジェクト検出パイプラインとDeepSORTアルゴリズムを用いて、製品カウントを自動化する新しい領域ベースのディープラーニング手法を提案する。 本手法は,実世界の商用環境へのデプロイを保証し,十分な精度と高速なランタイムで予測を一般化できることを,実世界のテストビデオで実証した。 提案手法は2022年のAI City Challenge, Track 4で4位となり,F1スコアは0.4400であった。

Automating the product checkout process at conventional retail stores is a task poised to have large impacts on society generally speaking. Towards this end, reliable deep learning models that enable automated product counting for fast customer checkout can make this goal a reality. In this work, we propose a novel, region-based deep learning approach to automate product counting using a customized YOLOv5 object detection pipeline and the DeepSORT algorithm. Our results on challenging, real-world test videos demonstrate that our method can generalize its predictions to a sufficient level of accuracy and with a fast enough runtime to warrant deployment to real-world commercial settings. Our proposed method won 4th place in the 2022 AI City Challenge, Track 4, with an F1 score of 0.4400 on experimental validation data.
翻訳日:2022-04-20 14:30:34 公開日:2022-04-18
# 犯罪予測のための時空間ハイパーグラフ自己監視学習

Spatial-Temporal Hypergraph Self-Supervised Learning for Crime Prediction ( http://arxiv.org/abs/2204.08587v1 )

ライセンス: Link先を確認
Zhonghang Li and Chao Huang and Lianghao Xia and Yong Xu and Jian Pei(参考訳) 多くの都市では犯罪が大きな問題となり、都市全体の犯罪発生をタイムリーに予測する需要が高まっている。 犯罪予測の正確な結果は、公共の安全に対する懸念を和らげるために、政府の事前決定にとって不可欠である。 多くの研究は、場所や時間にまたがる依存を探索する様々な時空間予測技術の提案に費やされているが、そのほとんどは、厳密な犯罪データに対する時空間表現能力を制限する教師付き学習方法に従っている。 近年の自己教師型学習の成功に触発されて,犯罪予測におけるラベル不足問題に対処する空間的ハイパーグラフ自己監視学習フレームワーク(ST-HSL)を提案する。 具体的には,都市空間全体における地域犯罪依存を符号化するクロスリージョンハイパーグラフ構造学習を提案する。 さらに,2段階の自己指導型学習パラダイムを設計し,地域的・世界レベルの空間的犯罪パターンを共同で捉えるだけでなく,地域的自己差別の強化による疎犯罪表現を補う。 2つの実生活犯罪データセットについて広範な実験を行う。 評価の結果,ST-HSLは最先端のベースラインよりも有意に優れていた。 さらに,時空間犯罪パターンの表現におけるST-HSL法の優位性について考察した。 実装コードはhttps://github.com/l zh-ys1998/sthslで入手できる。

Crime has become a major concern in many cities, which calls for the rising demand for timely predicting citywide crime occurrence. Accurate crime prediction results are vital for the beforehand decision-making of government to alleviate the increasing concern about the public safety. While many efforts have been devoted to proposing various spatial-temporal forecasting techniques to explore dependence across locations and time periods, most of them follow a supervised learning manner, which limits their spatial-temporal representation ability on sparse crime data. Inspired by the recent success in self-supervised learning, this work proposes a Spatial-Temporal Hypergraph Self-Supervised Learning framework (ST-HSL) to tackle the label scarcity issue in crime prediction. Specifically, we propose the cross-region hypergraph structure learning to encode region-wise crime dependency under the entire urban space. Furthermore, we design the dual-stage self-supervised learning paradigm, to not only jointly capture local- and global-level spatial-temporal crime patterns, but also supplement the sparse crime representation by augmenting region self-discrimination. We perform extensive experiments on two real-life crime datasets. Evaluation results show that our ST-HSL significantly outperforms state-of-the-art baselines. Further analysis provides insights into the superiority of our ST-HSL method in the representation of spatial-temporal crime patterns. The implementation code is available at https://github.com/L ZH-YS1998/STHSL.
翻訳日:2022-04-20 13:38:13 公開日:2022-04-18
# 一般化線形モデルにおける正規化推定と推論のための適応雑音データ拡張

Adaptive Noisy Data Augmentation for Regularized Estimation and Inference in Generalized Linear Models ( http://arxiv.org/abs/2204.08574v1 )

ライセンス: Link先を確認
Yinan Li and Fang Liu(参考訳) 本稿では,一般化線形モデル (GLM) の推定と推定を規則化するAdaPtive Noise Augmentation (PANDA) 手法を提案する。 PANDAは、正規化モデル推定値を得るために収束するまで、雑音付加データに対して目的関数を反復的に最適化する。 拡張ノイズは、$l_0$、ブリッジ(ラッソとリッジを含む)、弾性ネット、適応ラッソ、SCAD、グループラッソと融合リッジなどの様々な正規化効果を達成するように設計されている。 損失関数のテールバウンドについて検討し, 損失関数と最小値のほぼ確実に収束することと, ペナルティ化損失関数と最小値に対する最小値を確立する。 正規化パラメータに対する漸近分布を導出し,変数選択と同時に推論を求めることができる。 PANDAは、一般化エラーをさらに減らすためのアンサンブル学習行動を示す。 計算上、PANDAはコーディングが容易で、複雑な最適化技術に頼ることなく、既存のソフトウェアをGLMの実装に活用する。 シミュレーションデータと実生活データにおいて,同一の正規化器の既存手法に対するpandaの優れた性能および類似性を示す。 PANDAを通した推論は, 名目上, ほぼ公称で, 既存の選抜法に比べ, はるかに効率的であることを示す。

We propose the AdaPtive Noise Augmentation (PANDA) procedure to regularize the estimation and inference of generalized linear models (GLMs). PANDA iteratively optimizes the objective function given noise augmented data until convergence to obtain the regularized model estimates. The augmented noises are designed to achieve various regularization effects, including $l_0$, bridge (lasso and ridge included), elastic net, adaptive lasso, and SCAD, as well as group lasso and fused ridge. We examine the tail bound of the noise-augmented loss function and establish the almost sure convergence of the noise-augmented loss function and its minimizer to the expected penalized loss function and its minimizer, respectively. We derive the asymptotic distributions for the regularized parameters, based on which, inferences can be obtained simultaneously with variable selection. PANDA exhibits ensemble learning behaviors that help further decrease the generalization error. Computationally, PANDA is easy to code, leveraging existing software for implementing GLMs, without resorting to complicated optimization techniques. We demonstrate the superior or similar performance of PANDA against the existing approaches of the same type of regularizers in simulated and real-life data. We show that the inferences through PANDA achieve nominal or near-nominal coverage and are far more efficient compared to a popular existing post-selection procedure.
翻訳日:2022-04-20 13:37:50 公開日:2022-04-18
# 複雑なテクスチャのオブジェクト中心表現に対する帰納的バイアス

Inductive Biases for Object-Centric Representations of Complex Textures ( http://arxiv.org/abs/2204.08479v1 )

ライセンス: Link先を確認
Samuele Papa, Ole Winther, Andrea Dittadi(参考訳) どのインダクティブバイアスが自然シーンのオブジェクト中心表現の教師なし学習に有用かを理解することは困難である。 ここでは、ニューラルネットワークでオブジェクトが複雑なテクスチャを持つようなデータセットを生成する。 モデルがトレーニング対象における形状と外観の重要性を効果的にバランスさせると、オブジェクトの分離性が向上し、より有用なオブジェクト表現を学習できることがわかった。

Understanding which inductive biases could be useful for the unsupervised learning of object-centric representations of natural scenes is challenging. Here, we use neural style transfer to generate datasets where objects have complex textures while still retaining ground-truth annotations. We find that, when a model effectively balances the importance of shape and appearance in the training objective, it can achieve better separation of the objects and learn more useful object representations.
翻訳日:2022-04-20 13:30:36 公開日:2022-04-18
# DeepCore: ディープラーニングにおけるコアセット選択のための総合ライブラリ

DeepCore: A Comprehensive Library for Coreset Selection in Deep Learning ( http://arxiv.org/abs/2204.08499v1 )

ライセンス: Link先を確認
Chengcheng Guo, Bo Zhao, Yanbing Bai(参考訳) 最も有益なトレーニングサンプルのサブセットを選択することを目的としたCoreset selectionは、データ効率の学習、継続的な学習、ニューラルネットワーク検索、アクティブな学習など、多くの下流タスクに利益をもたらす、長年にわたる学習問題である。 しかし、多くの既存のコアセット選択法は深層学習のために設計されていない。 さらに、最近提案された手法は、モデル、データセット、異なる複雑さの設定に基づいて評価される。 深層学習におけるコアセット選択の研究を進めるために,総合的なコードライブラリであるdeepcoreを提供し,cifar10とimagenetデータセットのコアセット選択方法に関する実証研究を行った。 広範な実験結果から、特定の実験環境ではうまく機能する手法もあるが、ランダム選択は依然として強いベースラインであることが示された。

Coreset selection, which aims to select a subset of the most informative training samples, is a long-standing learning problem that can benefit many downstream tasks such as data-efficient learning, continual learning, neural architecture search, active learning, etc. However, many existing coreset selection methods are not designed for deep learning, which may have high complexity and poor generalization ability to unseen representations. In addition, the recently proposed methods are evaluated on models, datasets, and settings of different complexities. To advance the research of coreset selection in deep learning, we contribute a comprehensive code library, namely DeepCore, and provide an empirical study on popular coreset selection methods on CIFAR10 and ImageNet datasets. Extensive experiment results show that, although some methods perform better in certain experiment settings, random selection is still a strong baseline.
翻訳日:2022-04-20 13:30:26 公開日:2022-04-18
# ドレスコード:高解像度マルチカテゴリ仮想トライオン

Dress Code: High-Resolution Multi-Category Virtual Try-On ( http://arxiv.org/abs/2204.08532v1 )

ライセンス: Link先を確認
Davide Morelli, Matteo Fincato, Marcella Cornia, Federico Landi, Fabio Cesari, Rita Cucchiara(参考訳) イメージベースの仮想試行は、衣料品の外観を対象者のイメージに転送する試みである。 先行研究は主に上半身の服(tシャツ、シャツ、トップスなど)に重点を置いており、全身または下半身のアイテムを無視している。 イメージベースの仮想トライオン用の現在公開されているデータセットは、この多様性を考慮せず、フィールドの進歩を制限している。 この不足に対処するために,複数カテゴリの服の画像を含むドレスコードを導入する。 Dress Codeは、イメージベースの仮想試行用データセットよりも3倍大きく、フロントビューとフルボディ参照モデルを備えた高解像度のペアイメージ(1024 x 768)を備えている。 高画質で精細度に富んだhdトライオン画像を生成するために,細かな粒度の識別機能を学ぶことを提案する。 具体的には,イメージレベルやパッチレベルではなく,ピクセルレベルでの予測を行う意味認識判別器を活用する。 広汎な実験的評価は,提案手法が視覚的品質と定量的な結果の点で,ベースラインや最先端の競合に勝っていることを示している。 Dress Codeデータセットはhttps://github.com/a imagelab/dress-code. comで公開されている。

Image-based virtual try-on strives to transfer the appearance of a clothing item onto the image of a target person. Prior work focuses mainly on upper-body clothes (e.g. t-shirts, shirts, and tops) and neglects full-body or lower-body items. This shortcoming arises from a main factor: current publicly available datasets for image-based virtual try-on do not account for this variety, thus limiting progress in the field. To address this deficiency, we introduce Dress Code, which contains images of multi-category clothes. Dress Code is more than 3x larger than publicly available datasets for image-based virtual try-on and features high-resolution paired images (1024 x 768) with front-view, full-body reference models. To generate HD try-on images with high visual quality and rich in details, we propose to learn fine-grained discriminating features. Specifically, we leverage a semantic-aware discriminator that makes predictions at pixel-level instead of image- or patch-level. Extensive experimental evaluation demonstrates that the proposed approach surpasses the baselines and state-of-the-art competitors in terms of visual quality and quantitative results. The Dress Code dataset is publicly available at https://github.com/a imagelab/dress-code.
翻訳日:2022-04-20 13:29:38 公開日:2022-04-18
# CBR-iKB:不完全知識に基づく質問応答のためのケースベース推論手法

CBR-iKB: A Case-Based Reasoning Approach for Question Answering over Incomplete Knowledge Bases ( http://arxiv.org/abs/2204.08554v1 )

ライセンス: Link先を確認
Dung Thai, Srinivas Ravishankar, Ibrahim Abdelaziz, Mudit Chaudhary, Nandana Mihindukulasooriya, Tahira Naseem, Rajarshi Das, Pavan Kapanipathi, Achille Fokoue, Andrew McCallum(参考訳) 知識ベース(kbs)はしばしば不完全であり、常に変化する。 しかし、知識ベースと組み合わされたアプリケーションに答える多くの問題において、KBのスパースな性質はしばしば見過ごされる。 そこで本研究では,知識ベース質問応答(KBQA)のケースベース推論手法であるCBR-iKBを提案する。 提案手法は,新しい非パラメトリック推論アルゴリズムを用いて複数の推論チェーンから決定をアンサンブルする。 設計上、CBR-iKBはタスク固有のトレーニングや微調整なしにKBの変更にシームレスに適応できる。 提案手法はMetaQAで100%精度を達成し,複数のベンチマークで新たな最先端性を確立する。 例えば、CBR-iKBは、不完全なKB設定の下でWebQSP上で70%の精度を達成し、既存の最先端メソッドを22.3%上回っている。

Knowledge bases (KBs) are often incomplete and constantly changing in practice. Yet, in many question answering applications coupled with knowledge bases, the sparse nature of KBs is often overlooked. To this end, we propose a case-based reasoning approach, CBR-iKB, for knowledge base question answering (KBQA) with incomplete-KB as our main focus. Our method ensembles decisions from multiple reasoning chains with a novel nonparametric reasoning algorithm. By design, CBR-iKB can seamlessly adapt to changes in KBs without any task-specific training or fine-tuning. Our method achieves 100% accuracy on MetaQA and establishes new state-of-the-art on multiple benchmarks. For instance, CBR-iKB achieves an accuracy of 70% on WebQSP under the incomplete-KB setting, outperforming the existing state-of-the-art method by 22.3%.
翻訳日:2022-04-20 13:14:00 公開日:2022-04-18
# MASSIVE:51のTypological-diverse Languageを用いた100万例の多言語自然言語理解データセット

MASSIVE: A 1M-Example Multilingual Natural Language Understanding Dataset with 51 Typologically-Divers e Languages ( http://arxiv.org/abs/2204.08582v1 )

ライセンス: Link先を確認
Jack FitzGerald, Christopher Hench, Charith Peris, Scott Mackie, Kay Rottmann, Ana Sanchez, Aaron Nash, Liam Urbach, Vishesh Kakarala, Richa Singh, Swetha Ranganath, Laurie Crist, Misha Britan, Wouter Leeuwis, Gokhan Tur, Prem Natarajan(参考訳) 我々は、Slot-filling、Intent Classification、Virtual Assistant EvaluationのためのMASSIVEデータセット--Multilingual Amazon Slu Resource Pack (SLURP)を提案する。 MASSIVEには、51の言語、18のドメイン、60のインテント、55のスロットにまたがる100Mのリアルで並列なラベル付き仮想アシスタント音声が含まれている。 massiveは、プロの翻訳者が英語のみのslurpデータセットを29の属から50の言語にローカライズすることで作成された。 また,XLM-RとmT5の正確なマッチング精度,意図分類精度,スロット充填F1スコアなどのモデリング結果を示す。 データセット、モデリングコード、モデルを公開しました。

We present the MASSIVE dataset--Multilingua l Amazon Slu resource package (SLURP) for Slot-filling, Intent classification, and Virtual assistant Evaluation. MASSIVE contains 1M realistic, parallel, labeled virtual assistant utterances spanning 51 languages, 18 domains, 60 intents, and 55 slots. MASSIVE was created by tasking professional translators to localize the English-only SLURP dataset into 50 typologically diverse languages from 29 genera. We also present modeling results on XLM-R and mT5, including exact match accuracy, intent classification accuracy, and slot-filling F1 score. We have released our dataset, modeling code, and models publicly.
翻訳日:2022-04-20 13:13:45 公開日:2022-04-18
# 訓練済みモデルの意図したタスク学習を支援するアクティブラーニング

Active Learning Helps Pretrained Models Learn the Intended Task ( http://arxiv.org/abs/2204.08491v1 )

ライセンス: Link先を確認
Alex Tamkin, Dat Nguyen, Salil Deshpande, Jesse Mu, Noah Goodman(参考訳) 複数の動作が提供されたトレーニングデータと一致している場合、タスクのあいまいさのため、デプロイ中に予測不能な方法でモデルが失敗する可能性がある。 例えば、赤い四角形と青い円で訓練されたオブジェクト分類器だ: 青い四角形に遭遇すると、意図された振る舞いは定義されない。 事前学習されたモデルがよりアクティブな学習者であり、ユーザが指定しようとしている可能性のあるタスク間の曖昧さを解消できるかどうかを調べる。 不確実性に基づくアクティブラーニングを使用する場合、事前トレーニングされたモデルは最大5倍のラベルを必要とするが、非トレーニングモデルにはメリットがない、あるいは負のメリットがある、というのが興味深い。 このような成果は,まれな製品カテゴリや非典型的背景など,意図した動作を曖昧にする属性を持った例を選択することで得られることが分かりました。 これらの属性は、事前訓練されたモデルの表現空間において、非事前訓練されたモデルよりもはるかに線形に分離可能である。

Models can fail in unpredictable ways during deployment due to task ambiguity, when multiple behaviors are consistent with the provided training data. An example is an object classifier trained on red squares and blue circles: when encountering blue squares, the intended behavior is undefined. We investigate whether pretrained models are better active learners, capable of disambiguating between the possible tasks a user may be trying to specify. Intriguingly, we find that better active learning is an emergent property of the pretraining process: pretrained models require up to 5 times fewer labels when using uncertainty-based active learning, while non-pretrained models see no or even negative benefit. We find these gains come from an ability to select examples with attributes that disambiguate the intended behavior, such as rare product categories or atypical backgrounds. These attributes are far more linearly separable in pretrained model's representation spaces vs non-pretrained models, suggesting a possible mechanism for this behavior.
翻訳日:2022-04-20 13:13:31 公開日:2022-04-18
# (参考訳) シーケンス生成としてのエンドツーエンドビデオキャプション [全文訳有]

End-to-end Dense Video Captioning as Sequence Generation ( http://arxiv.org/abs/2204.08121v1 )

ライセンス: CC BY 4.0
Wanrong Zhu, Bo Pang, Ashish Thapliyal, William Yang Wang, Radu Soricut(参考訳) デンスビデオキャプションは、入力ビデオにおける興味のあるイベントを特定し、各イベントについて記述的なキャプションを生成することを目的としている。 以前のアプローチは通常、2段階の生成プロセスに従い、まず各イベントのセグメントを提案し、次に識別されたセグメントごとにキャプションを描画する。 近年の大規模シーケンス生成事前学習の進歩は, タスクの統一化に大きな成功を収めているが, これまでは, ビデオキャプションのような複雑なタスクは, この強力なパラダイムを十分に活用することができない。 本研究では,映像キャプションの2つのサブタスクを1つのシーケンス生成タスクとしてモデル化し,イベントと対応する記述を同時に予測する方法を示す。 YouCook2 と ViTT の実験では,大規模な事前学習モデルに統合された,エンドツーエンドの高密度動画キャプションなどの複雑なタスクのトレーニングの実現可能性を示す。

Dense video captioning aims to identify the events of interest in an input video, and generate descriptive captions for each event. Previous approaches usually follow a two-stage generative process, which first proposes a segment for each event, then renders a caption for each identified segment. Recent advances in large-scale sequence generation pretraining have seen great success in unifying task formulation for a great variety of tasks, but so far, more complex tasks such as dense video captioning are not able to fully utilize this powerful paradigm. In this work, we show how to model the two subtasks of dense video captioning jointly as one sequence generation task, and simultaneously predict the events and the corresponding descriptions. Experiments on YouCook2 and ViTT show encouraging results and indicate the feasibility of training complex tasks such as end-to-end dense video captioning integrated into large-scale pre-trained models.
翻訳日:2022-04-19 23:46:26 公開日:2022-04-18
# (参考訳) レシピ領域におけるテキストからの成分抽出 [全文訳有]

Ingredient Extraction from Text in the Recipe Domain ( http://arxiv.org/abs/2204.08137v1 )

ライセンス: CC BY 4.0
Arkin Dharawat and Chris Doan(参考訳) 近年、リビングルームやキッチンで仮想アシスタント(Siri、Google Home、Alexaなど)を搭載したデバイスが増えています。 その結果、これらのデバイスはレシピに関するいくつかのクエリを受け取ります。 これらのクエリには、料理名、食材、調理時間、食事の嗜好など"レシピドメイン"に関する用語が含まれている。 これにより、ユーザの情報ニーズに対処する上で、これらのレシピ関連アスペクトをクエリから抽出することが重要になる。 本プロジェクトは,このような平文ユーザの発話から成分を抽出することに焦点を当てている。 私たちの最高のパフォーマンスモデルは細調整のBERTで、F1スコアは95.01ドルでした。 私たちはすべてのコードをGitHubリポジトリにリリースしました。

In recent years, there has been an increase in the number of devices with virtual assistants (e.g: Siri, Google Home, Alexa) in our living rooms and kitchens. As a result of this, these devices receive several queries about recipes. All these queries will contain terms relating to a "recipe-domain" i.e: they will contain dish-names, ingredients, cooking times, dietary preferences etc. Extracting these recipe-relevant aspects from the query thus becomes important when it comes to addressing the user's information need. Our project focuses on extracting ingredients from such plain-text user utterances. Our best performing model was a fine-tuned BERT which achieved an F1-score of $95.01$. We have released all our code in a GitHub repository.
翻訳日:2022-04-19 23:28:53 公開日:2022-04-18
# (参考訳) 未来へ:マルチターン対話モデリングのための双方向情報デカップリングネットワーク [全文訳有]

Back to the Future: Bidirectional Information Decoupling Network for Multi-turn Dialogue Modeling ( http://arxiv.org/abs/2204.08152v1 )

ライセンス: CC BY 4.0
Yiyang Li, Hai Zhao, Zhuosheng Zhang(参考訳) 自然言語理解(nlu)の挑戦的な分野としてのマルチターン対話モデリングは、機械が人間の対話を理解するための表現を構築することを目的としている。 近年の対話モデル研究では,対話履歴を逐次トークンとしてエンコードするために,事前学習言語モデル(PrLM)が一般的であり,対話の時間的特性を捉えるには不十分である。 そこで本稿では,双方向情報デカップリングネットワーク(Bidirect Information Decoupling Network, BiDeN)を,過去と将来の両方のコンテキストを明示的に組み込んだユニバーサル対話エンコーダとして提案する。 異なる下流タスクのデータセットに対する実験結果は、我々のBiDeNの普遍性と有効性を示している。

Multi-turn dialogue modeling as a challenging branch of natural language understanding (NLU), aims to build representations for machines to understand human dialogues, which provides a solid foundation for multiple downstream tasks. Recent studies of dialogue modeling commonly employ pre-trained language models (PrLMs) to encode the dialogue history as successive tokens, which is insufficient in capturing the temporal characteristics of dialogues. Therefore, we propose Bidirectional Information Decoupling Network (BiDeN) as a universal dialogue encoder, which explicitly incorporates both the past and future contexts and can be generalized to a wide range of dialogue-related tasks. Experimental results on datasets of different downstream tasks demonstrate the universality and effectiveness of our BiDeN.
翻訳日:2022-04-19 23:20:46 公開日:2022-04-18
# (参考訳) 次元減少のための力学系に基づく枠組み [全文訳有]

A dynamical systems based framework for dimension reduction ( http://arxiv.org/abs/2204.08155v1 )

ライセンス: CC BY 4.0
Ryeongkyung Yoon and Braxton Osting(参考訳) 本稿では,非線形力学系に基づく低次元データ表現を学習するための新しいフレームワークを提案し,これを動的次元還元(DDR)と呼ぶ。 ddrモデルでは、各点が低次元部分空間への非線形流れを通じて発展し、部分空間への射影は低次元埋め込みを与える。 モデルのトレーニングには非線形フローと部分空間の識別が含まれる。 方程式発見法に従い,各要素が予め規定された線形・非線形候補関数である辞書要素の線形結合を用いて流れを定義するベクトル場を表現する。 平均運動エネルギーの正規化項も導入され、最適な輸送理論によって動機付けられる。 その結果,最適化問題は十分に解決され,ddr法のいくつかの特性が確立された。 また,最適制御理論からの随伴法を用いて勾配を計算した勾配に基づく最適化法を用いて,ddr法をどのように訓練するかを示す。 DDR法は,PCA,t-SNE,Umapなど,合成データセットおよびサンプルデータセットに対して,他の次元縮小法と比較して実装・比較する。

We propose a novel framework for learning a low-dimensional representation of data based on nonlinear dynamical systems, which we call dynamical dimension reduction (DDR). In the DDR model, each point is evolved via a nonlinear flow towards a lower-dimensional subspace; the projection onto the subspace gives the low-dimensional embedding. Training the model involves identifying the nonlinear flow and the subspace. Following the equation discovery method, we represent the vector field that defines the flow using a linear combination of dictionary elements, where each element is a pre-specified linear/nonlinear candidate function. A regularization term for the average total kinetic energy is also introduced and motivated by optimal transport theory. We prove that the resulting optimization problem is well-posed and establish several properties of the DDR method. We also show how the DDR method can be trained using a gradient-based optimization method, where the gradients are computed using the adjoint method from optimal control theory. The DDR method is implemented and compared on synthetic and example datasets to other dimension reductions methods, including PCA, t-SNE, and Umap.
翻訳日:2022-04-19 23:05:40 公開日:2022-04-18
# (参考訳) 産業用センサの大規模時系列のマルチスケール異常検出 [全文訳有]

Multi-scale Anomaly Detection for Big Time Series of Industrial Sensors ( http://arxiv.org/abs/2204.08159v1 )

ライセンス: CC BY 4.0
Quan Ding, Shenghua Liu, Bin Zhou, Huawei Shen, Xueqi Cheng(参考訳) 多変量大時系列を考えると、異常が発生したらすぐに検出できるだろうか? 多くの既存の研究は、時系列が再構築フレームワークにあるべきものからどれだけ離れているかを学ぶことで異常を検出する。 しかしながら、ほとんどのモデルでは、最適化アルゴリズムはそのような長いシリーズに余裕がないため、大きな時系列を経験的に小さなピースに分割する必要がある。 このような削減は、文中の不正確な句読点など、固有の意味セグメントを汚染するのでしょうか? そこで本研究では,自然に平滑な時系列を粗いセグメントでデコードし符号化する反復学習を行い,hmmに基づく低次元表現からより細かいセグメントを求める,再構成に基づく異常検出法であるmissganを提案する。 その結果、MissGANはマルチスケールセグメントから学習し、逆正則化と余剰条件状態の助けを借りて有意義で堅牢な時系列を再構築することができる。 MissGANはラベルを必要としないし、通常のインスタンスのラベルだけを必要とする。 実水ネットワークセンサーの産業データセットの実験は、MissGANがスケーラビリティでベースラインを上回っていることを示している。 さらに、CMUモーションデータセットのケーススタディを用いて、モデルが所定の条件運動と予期せぬジェスチャーを適切に区別できることを実証する。

Given a multivariate big time series, can we detect anomalies as soon as they occur? Many existing works detect anomalies by learning how much a time series deviates away from what it should be in the reconstruction framework. However, most models have to cut the big time series into small pieces empirically since optimization algorithms cannot afford such a long series. The question is raised: do such cuts pollute the inherent semantic segments, like incorrect punctuation in sentences? Therefore, we propose a reconstruction-based anomaly detection method, MissGAN, iteratively learning to decode and encode naturally smooth time series in coarse segments, and finding out a finer segment from low-dimensional representations based on HMM. As a result, learning from multi-scale segments, MissGAN can reconstruct a meaningful and robust time series, with the help of adversarial regularization and extra conditional states. MissGAN does not need labels or only needs labels of normal instances, making it widely applicable. Experiments on industrial datasets of real water network sensors show our MissGAN outperforms the baselines with scalability. Besides, we use a case study on the CMU Motion dataset to demonstrate that our model can well distinguish unexpected gestures from a given conditional motion.
翻訳日:2022-04-19 22:37:14 公開日:2022-04-18
# (参考訳) TOD-CNN: 精子ビデオにおけるTinyオブジェクト検出のための効果的な畳み込みニューラルネットワーク [全文訳有]

TOD-CNN: An Effective Convolutional Neural Network for Tiny Object Detection in Sperm Videos ( http://arxiv.org/abs/2204.08166v1 )

ライセンス: CC0 1.0
Shuojia Zou, Chen Li, Hongzan Sun, Peng Xu, Jiawei Zhang, Pingli Ma, Yudong Yao, Xinyu Huang, Marcin Grzegorzek(参考訳) 顕微鏡ビデオにおける微小物体の検出は特に大規模な実験では問題となる。 顕微鏡ビデオの小さな物体(精子など)では、現在の検出法はファジィ、不規則、正確な物体の位置決めの課題に直面している。 対照的に、高品質な精子顕微鏡ビデオ(111本、$$278,000の注釈付きオブジェクト)を基盤とした、微小物体検出のための畳み込みニューラルネットワーク(TOD-CNN)を提案し、提案モデルを効果的に利用し、テストするためにグラフィカルユーザインタフェース(GUI)を設計する。 tod-cnnは非常に正確で、顕微鏡ビデオでリアルタイム精子検出のタスクで85.60\%$ ap$_{50}$を達成した。 精子品質分析における精子検出技術の重要性を明らかにするため,関連する精子品質評価尺度を作成し,医師の診断結果と比較した。

The detection of tiny objects in microscopic videos is a problematic point, especially in large-scale experiments. For tiny objects (such as sperms) in microscopic videos, current detection methods face challenges in fuzzy, irregular, and precise positioning of objects. In contrast, we present a convolutional neural network for tiny object detection (TOD-CNN) with an underlying data set of high-quality sperm microscopic videos (111 videos, $>$ 278,000 annotated objects), and a graphical user interface (GUI) is designed to employ and test the proposed model effectively. TOD-CNN is highly accurate, achieving $85.60\%$ AP$_{50}$ in the task of real-time sperm detection in microscopic videos. To demonstrate the importance of sperm detection technology in sperm quality analysis, we carry out relevant sperm quality evaluation metrics and compare them with the diagnosis results from medical doctors.
翻訳日:2022-04-19 22:24:16 公開日:2022-04-18
# (参考訳) タスク指向対話システムにおける信念状態追跡のためのプロンプトベースマイトショット学習法に関する研究 [全文訳有]

A Study on Prompt-based Few-Shot Learning Methods for Belief State Tracking in Task-oriented Dialog Systems ( http://arxiv.org/abs/2204.08167v1 )

ライセンス: CC BY 4.0
Debjoy Saha, Bishal Santra, Pawan Goyal(参考訳) タスク指向対話システムにおける対話信念状態追跡(dst)問題に取り組む。 トランスフォーマーモデルを利用したこの問題に対する最近のアプローチは大きな成果を上げている。 しかし、これらのモデルのトレーニングは計算資源と時間の両方において高価である。 さらに、高品質な注釈付き対話データセットの収集は、これらのモデルのトレーニングに必要な豊富なアノテーションのため、研究者にとって依然として課題である。 近年,事前学習された言語モデルとアクシデントベースの学習の成功により,対話的信念状態追跡のためのアクシデントベースの数ショット学習を探索する。 我々は,DST問題を2段階のプロンプトベース言語モデリングタスクとして定式化し,両タスクの訓練言語モデルを作成し,その個別および共同性能に関する包括的実証分析を行った。 本稿では,DSTのための数ショット学習におけるプロンプトベースの手法の可能性を示し,今後の改善に向けた方向性を示す。

We tackle the Dialogue Belief State Tracking(DST) problem of task-oriented conversational systems. Recent approaches to this problem leveraging Transformer-based models have yielded great results. However, training these models is expensive, both in terms of computational resources and time. Additionally, collecting high quality annotated dialogue datasets remains a challenge for researchers because of the extensive annotation required for training these models. Driven by the recent success of pre-trained language models and prompt-based learning, we explore prompt-based few-shot learning for Dialogue Belief State Tracking. We formulate the DST problem as a 2-stage prompt-based language modelling task and train language models for both tasks and present a comprehensive empirical analysis of their separate and joint performance. We demonstrate the potential of prompt-based methods in few-shot learning for DST and provide directions for future improvement.
翻訳日:2022-04-19 21:58:23 公開日:2022-04-18
# (参考訳) 特定の注意の使用が変化点検出を改善する [全文訳有]

Usage of specific attention improves change point detection ( http://arxiv.org/abs/2204.08175v1 )

ライセンス: CC0 1.0
Anna Dmitrienko, Evgenia Romanenkova, Alexey Zaytsev(参考訳) 変更点(change point)は、データ分布が突然変化した瞬間である。 変化点検出の現在の方法は、逐次データに適した繰り返しニューラル手法に基づいている。 しかし,近年の研究では,アテンション機構に基づくトランスフォーマーが,多くのタスクに対して標準的なリカレントモデルよりも優れていることが示されている。 最も大きな利点は、長いシーケンスの場合において顕著である。 本稿では,変化点検出タスクの異なる注意点について検討し,その課題に関連する特定の注意形態を提案する。 注意の特別な形式を用いることが,最先端の成果を上回っていることを示す。

The change point is a moment of an abrupt alteration in the data distribution. Current methods for change point detection are based on recurrent neural methods suitable for sequential data. However, recent works show that transformers based on attention mechanisms perform better than standard recurrent models for many tasks. The most benefit is noticeable in the case of longer sequences. In this paper, we investigate different attentions for the change point detection task and proposed specific form of attention related to the task at hand. We show that using a special form of attention outperforms state-of-the-art results.
翻訳日:2022-04-19 21:48:31 公開日:2022-04-18
# (参考訳) 映像検索におけるモダリティバランス埋め込み [全文訳有]

Modality-Balanced Embedding for Video Retrieval ( http://arxiv.org/abs/2204.08182v1 )

ライセンス: CC BY 4.0
Xun Wang, Bingqing Ke, Xuanping Li, Fangyu Liu, Mingyu Zhang, Xiao Liang, Qiushi Xiao, Yue Yu(参考訳) ビデオ検索は、ユーザーが大規模なショートビデオ共有プラットフォームでテキストクエリに関連するビデオを見つけるための主要なルーチンになっている。 オンライン検索ログを用いた問合せビデオバイエンコーダモデルのトレーニング中に,ビデオエンコーダがテキストマッチングにほぼ完全に依存するモダリティバイアス現象を特定し,視覚,音声などの他のモダリティを無視した。 このモダリティの不均衡は a) モダリティギャップ: クェリとビデオテキストの関連性は,そのクェリもビデオテキストと同じモダリティを持つテキストであるので,より容易に学習することができる。 b) データのバイアス: ほとんどのトレーニングサンプルは、テキストマッチングだけで解決できる。 ここでは,モダリティ不均衡問題に対する解決策を含め,第1次検索ステージを改善するためのプラクティスについて紹介する。 我々は,手動で生成したモダリティシャッフル(MS)サンプルと,視覚的関連性に基づくダイナミックマージン(DM)の2つの重要なコンポーネントを持つMBVR(Modality Balanced Video Retrievalのショート)を提案する。 彼らはビデオエンコーダに各モダリティにバランスのとれた注意を払うよう促すことができる。 実世界のデータセットに関する広範な実験を通して、我々の手法はモダリティバイアス問題の解法において効果的かつ効果的であることを示す。 A/Bテストおよび手動GSB評価において,MBVRを大規模ビデオプラットフォームに展開し,高度に最適化されたベースラインに対する統計的に有意な向上を観測した。

Video search has become the main routine for users to discover videos relevant to a text query on large short-video sharing platforms. During training a query-video bi-encoder model using online search logs, we identify a modality bias phenomenon that the video encoder almost entirely relies on text matching, neglecting other modalities of the videos such as vision, audio. This modality imbalanceresults from a) modality gap: the relevance between a query and a video text is much easier to learn as the query is also a piece of text, with the same modality as the video text; b) data bias: most training samples can be solved solely by text matching. Here we share our practices to improve the first retrieval stage including our solution for the modality imbalance issue. We propose MBVR (short for Modality Balanced Video Retrieval) with two key components: manually generated modality-shuffled (MS) samples and a dynamic margin (DM) based on visual relevance. They can encourage the video encoder to pay balanced attentions to each modality. Through extensive experiments on a real world dataset, we show empirically that our method is both effective and efficient in solving modality bias problem. We have also deployed our MBVR in a large video platform and observed statistically significant boost over a highly optimized baseline in an A/B test and manual GSB evaluations.
翻訳日:2022-04-19 21:44:08 公開日:2022-04-18
# (参考訳) 入射ニューラル表現による自己監督型任意スケール点雲のアップサンプリング [全文訳有]

Self-Supervised Arbitrary-Scale Point Clouds Upsampling via Implicit Neural Representation ( http://arxiv.org/abs/2204.08196v1 )

ライセンス: CC BY 4.0
Wenbo Zhao, Xianming Liu, Zhiwei Zhong, Junjun Jiang, Wei Gao, Ge Li, Xiangyang Ji(参考訳) ポイントクラウドアップサンプリングは、与えられたスパース入力から高密度で均一なポイントクラウドを生成するための難しい問題である。 既存の手法の多くは、大量のスパース入力と密接な接地真実を監視情報として活用するエンド・ツー・エンドの教師付き学習方式を採用するか、異なるスケール要因のアップスケーリングを独立したタスクとして扱うか、複数のネットワークを構築して様々な要因に対応しなければならない。 本稿では,自己監督型および拡大型フレキシブルな点雲を同時にアップサンプリングする手法を提案する。 点雲のアップサンプリングを,種子点の暗黙的表面上の最寄りの投影点を求めるタスクとして定式化する。 この目的のために、予測方向と距離を推定する2つの暗黙的ニューラル関数を定義し、この関数は2つのプレテキスト学習タスクで訓練することができる。 実験結果から, 自己指導型学習方式は, 教師あり学習方式よりも, 競争力や性能が向上することが示された。 ソースコードはhttps://github.com/x nowbzhao/sapcuで公開されている。

Point clouds upsampling is a challenging issue to generate dense and uniform point clouds from the given sparse input. Most existing methods either take the end-to-end supervised learning based manner, where large amounts of pairs of sparse input and dense ground-truth are exploited as supervision information; or treat up-scaling of different scale factors as independent tasks, and have to build multiple networks to handle upsampling with varying factors. In this paper, we propose a novel approach that achieves self-supervised and magnification-flexib le point clouds upsampling simultaneously. We formulate point clouds upsampling as the task of seeking nearest projection points on the implicit surface for seed points. To this end, we define two implicit neural functions to estimate projection direction and distance respectively, which can be trained by two pretext learning tasks. Experimental results demonstrate that our self-supervised learning based scheme achieves competitive or even better performance than supervised learning based state-of-the-art methods. The source code is publicly available at https://github.com/x nowbzhao/sapcu.
翻訳日:2022-04-19 21:33:47 公開日:2022-04-18
# (参考訳) utnlp at semeval-2022 task 6 : 生成型および突然変異型データ拡張を用いたサルカム検出の比較解析 [全文訳有]

UTNLP at SemEval-2022 Task 6: A Comparative Analysis of Sarcasm Detection using generative-based and mutation-based data augmentation ( http://arxiv.org/abs/2204.08198v1 )

ライセンス: CC BY 4.0
Amirhossein Abaskohi, Arash Rasouli, Tanin Zeraati, Behnam Bahrak(参考訳) サルカズム(英: Sarcasm)とは、誰かをモックしたり、いらいらさせたり、楽しませたりする言葉を指す用語である。 ソーシャルメディアでよく使われている。 サルカズムの比喩的・創造的な性質は感情計算に基づく感情分析システムに重大な困難をもたらす。 本稿では,smeval-2022におけるサルカム検出に関するタスク6の方法論と結果について述べる。 異なるモデルとデータ拡張アプローチをテストに配置し、どれが最もうまく機能するかを報告します。 テストは従来の機械学習モデルから始まり、トランスフォーマーベースおよびアテンションベースモデルへと進む。 データ変異とデータ生成に基づいてデータ拡張を行った。 RoBERTaと突然変異に基づくデータ拡張を併用し,F1-Sarcasticの0.38を競合評価フェーズで達成した。 コンペの後、我々はモデルの欠陥を修正し、F1サーカシック0.414を達成した。

Sarcasm is a term that refers to the use of words to mock, irritate, or amuse someone. It is commonly used on social media. The metaphorical and creative nature of sarcasm presents a significant difficulty for sentiment analysis systems based on affective computing. The methodology and results of our team, UTNLP, in the SemEval-2022 shared task 6 on sarcasm detection are presented in this paper. We put different models, and data augmentation approaches to the test and report on which one works best. The tests begin with traditional machine learning models and progress to transformer-based and attention-based models. We employed data augmentation based on data mutation and data generation. Using RoBERTa and mutation-based data augmentation, our best approach achieved an F1-sarcastic of 0.38 in the competition's evaluation phase. After the competition, we fixed our model's flaws and achieved an F1-sarcastic of 0.414.
翻訳日:2022-04-19 21:21:35 公開日:2022-04-18
# (参考訳) tigerlily: the graphによるシリコの薬物相互作用の解明 [全文訳有]

TigerLily: Finding drug interactions in silico with the Graph ( http://arxiv.org/abs/2204.08206v1 )

ライセンス: CC BY 4.0
Benedek Rozemberczki(参考訳) Tigerlilyは、薬物相互作用予測タスクを解決するために設計されたTigerGraphベースのシステムである。 この機械学習タスクでは、2つの薬物が有害な相互作用を持つかどうかを予測したい。 私たちのフレームワークは、グラフマイニング技術を使って、この非常に関連性の高い現実世界の問題を解決することができます。 (a)pytigergraphを用いて、薬物とタンパク質の異種生物学的グラフを作成する。 b) TigerGraph Cloudにおける薬物ノードのパーソナライズされたPageRankスコアを計算する。 (c) パーソナライズされたPageRank行列のスパース非負行列分解を用いてノードを埋め込む。 (d) ノード埋め込みを使用すると、勾配ブースティングに基づく薬物相互作用予測器を訓練する。

Tigerlily is a TigerGraph based system designed to solve the drug interaction prediction task. In this machine learning task, we want to predict whether two drugs have an adverse interaction. Our framework allows us to solve this highly relevant real-world problem using graph mining techniques in these steps: (a) Using PyTigergraph we create a heterogeneous biological graph of drugs and proteins. (b) We calculate the personalized PageRank scores of drug nodes in the TigerGraph Cloud. (c) We embed the nodes using sparse non-negative matrix factorization of the personalized PageRank matrix. (d) Using the node embeddings we train a gradient boosting based drug interaction predictor.
翻訳日:2022-04-19 21:11:53 公開日:2022-04-18
# (参考訳) OMG: 自然言語による車両検索のための複数粒度観測 [全文訳有]

OMG: Observe Multiple Granularities for Natural Language-Based Vehicle Retrieval ( http://arxiv.org/abs/2204.08209v1 )

ライセンス: CC BY 4.0
Yunhao Du, Binyu Zhang, Xiangning Ruan, Fei Su, Zhicheng Zhao and Hong Chen(参考訳) 自然言語記述による追跡車両の検索は、スマートシティ構築において重要な役割を果たす。 監視ビデオの中で、追跡された車両のセットから与えられたテキストのベストマッチを見つけることを目的としている。 既存の作品は、テキストエンコーダ、ビジュアルエンコーダ、クロスモーダル損失関数からなるデュアルストリームフレームワークによって解決されている。 いくつかの進展はあったが、様々なレベルの粒度の情報を十分に活用できなかった。 そこで本稿では, 視覚表現, テキスト表現, 客観的関数に関して, 複数の粒度を観測する自然言語に基づく車両検索タスクOMGを提案する。 視覚表現には、ターゲット特徴、コンテキスト特徴、動き特徴が別々に符号化される。 テキスト表現には,1つのグローバル埋め込み,3つの局所埋め込み,1つのカラータイプのプロンプト埋め込みが抽出され,意味的特徴の様々な粒度を表す。 最後に、フレームワーク全体の最適化は、クロスモーダル多粒度コントラスト損失関数によって行われる。 実験により本手法の有効性が示された。 われわれのOMGはこれまでの手法をはるかに上回り、6th AI City Challenge Track2で9位にランクインした。 コードはhttps://github.com/d yhbupt/omgで入手できる。

Retrieving tracked-vehicles by natural language descriptions plays a critical role in smart city construction. It aims to find the best match for the given texts from a set of tracked vehicles in surveillance videos. Existing works generally solve it by a dual-stream framework, which consists of a text encoder, a visual encoder and a cross-modal loss function. Although some progress has been made, they failed to fully exploit the information at various levels of granularity. To tackle this issue, we propose a novel framework for the natural language-based vehicle retrieval task, OMG, which Observes Multiple Granularities with respect to visual representation, textual representation and objective functions. For the visual representation, target features, context features and motion features are encoded separately. For the textual representation, one global embedding, three local embeddings and a color-type prompt embedding are extracted to represent various granularities of semantic features. Finally, the overall framework is optimized by a cross-modal multi-granularity contrastive loss function. Experiments demonstrate the effectiveness of our method. Our OMG significantly outperforms all previous methods and ranks the 9th on the 6th AI City Challenge Track2. The codes are available at https://github.com/d yhBUPT/OMG.
翻訳日:2022-04-19 20:55:45 公開日:2022-04-18
# (参考訳) コミュニケーション効率の良いDNNトレーニングを実現するには? 変換、圧縮、正しい [全文訳有]

How to Attain Communication-Effici ent DNN Training? Convert, Compress, Correct ( http://arxiv.org/abs/2204.08211v1 )

ライセンス: CC BY 4.0
Zhong-Jing Chen, Eduin E. Hernandez, Yu-Chih Huang and Stefano Rini(参考訳) 本稿では,dnn( communication-effici ency federated deep neural network)トレーニングのためのアルゴリズムである$\mathsf{co}_3$を提案する。 $\mathsf{co}_3$ という名前は、リモートユーザからパラメータサーバにローカル勾配を送信する際の通信負荷を減らす3つの処理によるものである。 (i)浮動小数点変換による勾配量子化 (ii)定量勾配の損失のない圧縮、 (iii) 量子化誤差補正。我々は、通信オーバーヘッドが固定された場合の分散dnnトレーニングの損失を最小限に抑えるために、上記各ステップを慎重に設計する。特に、ステップの設計において (i)および (II) DNN勾配が一般化正規分布に従って分布するという仮定を採用し, 本仮定を本論文で数値的に検証する。 ステップ (iii)ステップで導入された量子化誤差を補正するために,メモリ減衰機構を用いた誤差フィードバックを用いる。 (i)。 この係数は、学習率と同様、収束を改善するために最適に調整できると論じる。 数値シミュレーションにより,$\mathsf{CO}_3$の性能が検証され,通信ペイロードの低減により精度が向上し,安定性が向上した。

In this paper, we introduce $\mathsf{CO}_3$, an algorithm for communication-effici ency federated Deep Neural Network (DNN) training.$\mathsf{CO}_3$ takes its name from three processing applied steps which reduce the communication load when transmitting the local gradients from the remote users to the Parameter Server.Namely:(i) gradient quantization through floating-point conversion, (ii) lossless compression of the quantized gradient, and (iii) quantization error correction.We carefully design each of the steps above so as to minimize the loss in the distributed DNN training when the communication overhead is fixed.In particular, in the design of steps (i) and (ii), we adopt the assumption that DNN gradients are distributed according to a generalized normal distribution.This assumption is validated numerically in the paper. For step (iii), we utilize an error feedback with memory decay mechanism to correct the quantization error introduced in step (i). We argue that this coefficient, similarly to the learning rate, can be optimally tuned to improve convergence. The performance of $\mathsf{CO}_3$ is validated through numerical simulations and is shown having better accuracy and improved stability at a reduced communication payload.
翻訳日:2022-04-19 20:43:33 公開日:2022-04-18
# (参考訳) 統合多視点教師なし特徴選択とグラフ学習

Joint Multi-view Unsupervised Feature Selection and Graph Learning ( http://arxiv.org/abs/2204.08247v1 )

ライセンス: CC BY 4.0
Si-Guo Fang, Dong Huang, Chang-Dong Wang, Yong Tang(参考訳) 最近の進歩にもかかわらず、既存のマルチビューの教師なし機能選択メソッドは、ほとんど2つの制限に苦しめられている。 まず、クラスタ構造または類似性構造を用いて特徴選択を誘導し、相互利益を伴う共同定式化の可能性を無視する。 第二に、グローバルな構造学習とローカルな構造学習で類似性構造を学習し、グローバルな構造認識とローカルな構造認識の両方でグラフ学習の能力に欠ける。 そこで本稿では,JMVFG(Jonti-view unsupervised feature selection and graph learning)アプローチについて述べる。 特に,多視点特徴選択を直交分解で定式化し,各対象行列をビュー固有基底行列とビュー一貫性クラスタインジケータに分解する。 クロススペース局所性保存は、投影空間におけるクラスタ構造学習と、元の空間における類似性学習(グラフ学習)とを橋渡しするために組み込まれている。 さらに,クラスタ構造,大域的および局所的類似性構造,多視点整合性と不整合を同時に学習し,理論的に証明された収束により交互最適化アルゴリズムを開発するための統一目的関数を提案する。 大規模実験により,多視点特徴選択とグラフ学習の両課題に対するアプローチの優位性が示された。

Despite the recent progress, the existing multi-view unsupervised feature selection methods mostly suffer from two limitations. First, they generally utilize either cluster structure or similarity structure to guide the feature selection, neglecting the possibility of a joint formulation with mutual benefits. Second, they often learn the similarity structure by either global structure learning or local structure learning, lacking the capability of graph learning with both global and local structural awareness. In light of this, this paper presents a joint multi-view unsupervised feature selection and graph learning (JMVFG) approach. Particularly, we formulate the multi-view feature selection with orthogonal decomposition, where each target matrix is decomposed into a view-specific basis matrix and a view-consistent cluster indicator. Cross-space locality preservation is incorporated to bridge the cluster structure learning in the projected space and the similarity learning (i.e., graph learning) in the original space. Further, a unified objective function is presented to enable the simultaneous learning of the cluster structure, the global and local similarity structures, and the multi-view consistency and inconsistency, upon which an alternating optimization algorithm is developed with theoretically proved convergence. Extensive experiments demonstrate the superiority of our approach for both multi-view feature selection and graph learning tasks.
翻訳日:2022-04-19 20:24:53 公開日:2022-04-18
# (参考訳) Kymatioにおける時間周波数の異なる散乱 [全文訳有]

Differentiable Time-Frequency Scattering in Kymatio ( http://arxiv.org/abs/2204.08269v1 )

ライセンス: CC BY 4.0
John Muradeli, Cyrus Vahidi, Changhong Wang, Han Han, Vincent Lostanlen, Mathieu Lagrange, George Fazekas(参考訳) 結合時間周波数散乱(JTFS)は、様々な速度とスケールで分光時間変調を抽出する時間周波数領域における畳み込み作用素である。 一次聴覚野におけるスペクトロテンポラル受容野(strf)の理想化されたモデルを提供し、孤立したオーディオイベントのスケールで人間の知覚的判断のための生物学的に説得力のある代理として機能する。 しかし、JTFS と STRF の以前の実装は、知覚的類似度測定と音声生成のための評価方法の標準ツールキットの外部に留まっている。 この問題は、微分可能性、スピード、柔軟性の3つの制限に遡る。 本稿では,オープンソースの散乱変換用pythonパッケージkymatioにおける時間周波数散乱の実装について述べる。 以前の実装とは異なり、KymatioはNumPyとPyTorchをバックエンドとして対応しており、CPUとGPUの両方で移植可能である。 提案手法は, 分光時間変調の教師なし多様体学習, 楽器の教師付き分類, 生体音響音のテクスチャ再生の3つの応用を通して, JTFS の有用性を示す。

Joint time-frequency scattering (JTFS) is a convolutional operator in the time-frequency domain which extracts spectrotemporal modulations at various rates and scales. It offers an idealized model of spectrotemporal receptive fields (STRF) in the primary auditory cortex, and thus may serve as a biological plausible surrogate for human perceptual judgments at the scale of isolated audio events. Yet, prior implementations of JTFS and STRF have remained outside of the standard toolkit of perceptual similarity measures and evaluation methods for audio generation. We trace this issue down to three limitations: differentiability, speed, and flexibility. In this paper, we present an implementation of time-frequency scattering in Kymatio, an open-source Python package for scattering transforms. Unlike prior implementations, Kymatio accommodates NumPy and PyTorch as backends and is thus portable on both CPU and GPU. We demonstrate the usefulness of JTFS in Kymatio via three applications: unsupervised manifold learning of spectrotemporal modulations, supervised classification of musical instruments, and texture resynthesis of bioacoustic sounds.
翻訳日:2022-04-19 20:02:52 公開日:2022-04-18
# (参考訳) UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles for Detecting Patronizing and Condescending Language [全文訳有]

UMass PCL at SemEval-2022 Task 4: Pre-trained Language Model Ensembles for Detecting Patronizing and Condescending Language ( http://arxiv.org/abs/2204.08304v1 )

ライセンス: CC BY 4.0
David Koleczek, Alex Scarlatos, Siddha Karakare, Preshma Linet Pereira(参考訳) PCL(Patronizing and condescending Language)は至る所にあるが、メディアによる脆弱なコミュニティへの利用に焦点を当てることは滅多にない。 この形式のPCLを正確に検出することは、ラベル付きデータに制限があるため困難である。 本稿では,SemEval 2022 Task 4: Patronizing and Condescending Language Detectionに提出された言語検出システムについて述べる。 本手法では,事前学習した言語モデル,データ拡張,検出しきい値の最適化を行う。 コンペティションホストが公表した評価データセットにおける実験結果から,本研究は確実にpclの検出が可能であり,二分分類タスクではf1スコア55.47%,細粒度マルチラベル検出タスクでは36.25%のマクロf1スコアが得られた。

Patronizing and condescending language (PCL) is everywhere, but rarely is the focus on its use by media towards vulnerable communities. Accurately detecting PCL of this form is a difficult task due to limited labeled data and how subtle it can be. In this paper, we describe our system for detecting such language which was submitted to SemEval 2022 Task 4: Patronizing and Condescending Language Detection. Our approach uses an ensemble of pre-trained language models, data augmentation, and optimizing the threshold for detection. Experimental results on the evaluation dataset released by the competition hosts show that our work is reliably able to detect PCL, achieving an F1 score of 55.47% on the binary classification task and a macro F1 score of 36.25% on the fine-grained, multi-label detection task.
翻訳日:2022-04-19 19:47:21 公開日:2022-04-18
# (参考訳) 重雨顔画像復元:物理的劣化モデルと顔成分誘導学習の統合 [全文訳有]

Heavy Rain Face Image Restoration: Integrating Physical Degradation Model and Facial Component Guided Adversarial Learning ( http://arxiv.org/abs/2204.08307v1 )

ライセンス: CC BY 4.0
Chang-Hwan Son, Da-Hee Jeong(参考訳) 近年の視覚監視のためのインテリジェントcctvの増加に伴い、解像度変換と合成雨モデルを統合する新しい画像劣化が求められている。 例えば、大雨では、CCTVが遠くから捉えた顔画像は、視界と解像度の両方において著しく劣化する。 本研究は,降雨除去や超解像などの従来の画像劣化モデル(IDM)とは異なり,スケールアウェア重雨モデルと呼ばれる新しいIDMに対処し,高分解能重雨面画像(LRHR-FI)から高分解能顔画像(HR-FI)を復元する方法を提案する。 この目的のために、2段ネットワークを提示する。 第1段では低解像度の顔画像(LR-FI)が生成され、大雨がLRHR-FIから除去され視界が向上した。 これを実現するために、解釈可能なIMMベースのネットワークを構築し、雨天、透過マップ、大気光などの物理パラメータを予測する。 さらに、物理パラメータの推定量を高めるために、画像再構成損失を評価する。 第2段階では、第1段階で出力されるLR-FIからHR-FIを再構築することを目的として、顔構造表現を促進するために、顔成分誘導対向学習(FCGAL)を適用する。 顔の特徴に焦点を合わせ、目や鼻などの顔成分の真正性を強化するために、FCGAL用に顔駐車誘導ジェネレータと顔局所判別器を設計する。 実験により,物理ネットワーク設計とFCGALに基づく提案手法が豪雨を除去し,解像度と可視性を同時に向上できることを確認した。 さらに, 提案手法は, 降雨除去, 画像から画像への変換, 超解像の最先端モデルよりも優れていた。

With the recent increase in intelligent CCTVs for visual surveillance, a new image degradation that integrates resolution conversion and synthetic rain models is required. For example, in heavy rain, face images captured by CCTV from a distance have significant deterioration in both visibility and resolution. Unlike traditional image degradation models (IDM), such as rain removal and superresolution, this study addresses a new IDM referred to as a scale-aware heavy rain model and proposes a method for restoring high-resolution face images (HR-FIs) from low-resolution heavy rain face images (LRHR-FI). To this end, a 2-stage network is presented. The first stage generates low-resolution face images (LR-FIs), from which heavy rain has been removed from the LRHR-FIs to improve visibility. To realize this, an interpretable IDM-based network is constructed to predict physical parameters, such as rain streaks, transmission maps, and atmospheric light. In addition, the image reconstruction loss is evaluated to enhance the estimates of the physical parameters. For the second stage, which aims to reconstruct the HR-FIs from the LR-FIs outputted in the first stage, facial component guided adversarial learning (FCGAL) is applied to boost facial structure expressions. To focus on informative facial features and reinforce the authenticity of facial components, such as the eyes and nose, a face-parsing-guided generator and facial local discriminators are designed for FCGAL. The experimental results verify that the proposed approach based on physical-based network design and FCGAL can remove heavy rain and increase the resolution and visibility simultaneously. Moreover, the proposed heavy-rain face image restoration outperforms state-of-the-art models of heavy rain removal, image-to-image translation, and superresolution.
翻訳日:2022-04-19 19:36:19 公開日:2022-04-18
# (参考訳) 生体内SLAMにおける単眼カメラのポーズと変形の追跡 [全文訳有]

Tracking monocular camera pose and deformation for SLAM inside the human body ( http://arxiv.org/abs/2204.08309v1 )

ライセンス: CC BY 4.0
Juan J. Gomez Rodriguez, J.M.M Montiel and Juan D. Tardos(参考訳) 変形可能なシーンにおける単眼のSLAMは、内視鏡におけるコンピュータ支援ナビゲーション、自動ドラッグデリバリー、自律ロボット手術など、複数の医療応用への道を開く。 本稿では,環境トポロジや形状を前提にせず,カメラのポーズと3次元シーンの変形を同時に追跡する新しい手法を提案する。 この方法は、画像の特徴を追跡し、再投影誤差と変形の空間的および時間的正則化を組み合わせたカメラの動作と変形を推定するために照明不変な測光法を用いる。 その結果, 複雑な場面における変形レベルの増加に伴う精度とロバスト性が示唆された。 エンダマッパーデータセットから得られたヒト大腸の質的結果から,本手法は実際の内腔の課題である変形,低テクスチャ,強い照明変化にうまく対処できることが示された。 また,位相的仮定を必要とせず,競争性能が得られるhamlynデータセットより単純なシナリオで従来の追跡手法と比較した。

Monocular SLAM in deformable scenes will open the way to multiple medical applications like computer-assisted navigation in endoscopy, automatic drug delivery or autonomous robotic surgery. In this paper we propose a novel method to simultaneously track the camera pose and the 3D scene deformation, without any assumption about environment topology or shape. The method uses an illumination-invaria nt photometric method to track image features and estimates camera motion and deformation combining reprojection error with spatial and temporal regularization of deformations. Our results in simulated colonoscopies show the method's accuracy and robustness in complex scenes under increasing levels of deformation. Our qualitative results in human colonoscopies from Endomapper dataset show that the method is able to successfully cope with the challenges of real endoscopies: deformations, low texture and strong illumination changes. We also compare with previous tracking methods in simpler scenarios from Hamlyn dataset where we obtain competitive performance, without needing any topological assumption.
翻訳日:2022-04-19 19:12:03 公開日:2022-04-18
# (参考訳) 転移学習とアンサンブル学習の乳腺病理組織学における画像レベル分類への応用 [全文訳有]

Application of Transfer Learning and Ensemble Learning in Image-level Classification for Breast Histopathology ( http://arxiv.org/abs/2204.08311v1 )

ライセンス: CC BY 4.0
Yuchao Zheng, Chen Li, Xiaomin Zhou, Haoyuan Chen, Hao Xu, Yixin Li, Haiqing Zhang, Xiaoyan Li, Hongzan Sun, Xinyu Huang, Marcin Grzegorzek(参考訳) 背景: 乳がんは世界中で女性の感染率が最も高い。 乳癌とその病理像の分類と診断は、常に臨床上の懸念の対象となっている。 computer-aided diagnosis (cad) では、従来の分類モデルはほとんどが単一のネットワークを使って特徴を抽出する。 一方で、多くのネットワークは、低レベルのデータラベルのアプリケーションを無視して、患者レベルのデータセットでトレーニングされ、最適化されている。 方法:胸部病理組織像の良性病変と悪性病変の2値分類のための画像レベルラベルに基づく深層アンサンブルモデルを提案する。 まず、BreakHisデータセットはランダムにトレーニング、検証、テストセットに分割される。 次に、良性サンプルと悪性サンプルの数のバランスをとるためにデータ拡張技術が使用される。 第3に、転送学習の性能と各ネットワーク間の相補性を考慮して、ベース分類器としてvgg-16、xception、resnet-50、drknet-201を選択する。 結果: 精度を重みとするアンサンブルネットワークモデルにおいて,画像レベルのバイナリ分類は,98.90\%$の精度を達成する。 提案手法の有効性を検証するため, 最新のトランスフォーマーとマルチレイヤー知覚(MLP)モデルを同一データセット上で実験的に比較した。 このモデルでは,分類作業におけるアンサンブルモデルの重要性を強調し,5-20-%の優位性で勝利する。 結論: 本研究は, アンサンブルアルゴリズムを用いてモデルの分類性能を向上させることに焦点を当てた。 小さなデータセットでは転送学習が重要な役割を担い、トレーニングのスピードと精度が向上する。 本モデルでは,多くの既存手法を精度で上回り,補助的診断の分野での手法を提供する。

Background: Breast cancer has the highest prevalence in women globally. The classification and diagnosis of breast cancer and its histopathological images have always been a hot spot of clinical concern. In Computer-Aided Diagnosis (CAD), traditional classification models mostly use a single network to extract features, which has significant limitations. On the other hand, many networks are trained and optimized on patient-level datasets, ignoring the application of lower-level data labels. Method: This paper proposes a deep ensemble model based on image-level labels for the binary classification of benign and malignant lesions of breast histopathological images. First, the BreakHis dataset is randomly divided into a training, validation and test set. Then, data augmentation techniques are used to balance the number of benign and malignant samples. Thirdly, considering the performance of transfer learning and the complementarity between each network, VGG-16, Xception, Resnet-50, DenseNet-201 are selected as the base classifiers. Result: In the ensemble network model with accuracy as the weight, the image-level binary classification achieves an accuracy of $98.90\%$. In order to verify the capabilities of our method, the latest Transformer and Multilayer Perception (MLP) models have been experimentally compared on the same dataset. Our model wins with a $5\%-20\%$ advantage, emphasizing the ensemble model's far-reaching significance in classification tasks. Conclusion: This research focuses on improving the model's classification performance with an ensemble algorithm. Transfer learning plays an essential role in small datasets, improving training speed and accuracy. Our model has outperformed many existing approaches in accuracy, providing a method for the field of auxiliary medical diagnosis.
翻訳日:2022-04-19 18:58:23 公開日:2022-04-18
# (参考訳) 病理組織データの比較のための階層的最適輸送 [全文訳有]

Hierarchical Optimal Transport for Comparing Histopathology Datasets ( http://arxiv.org/abs/2204.08324v1 )

ライセンス: CC BY 4.0
Anna Yeaton, Rahul G. Krishnan, Rebecca Mieloszyk, David Alvarez-Melis and Grace Huynh(参考訳) ラベル付き病理データの共有は、深層学習法のがんタイプやラベルへの適用性を制限している。 転送学習により、研究者は小さなターゲットデータセットに対して大きなデータセット上で機械学習モデルを事前トレーニングすることで、小さなデータセットの制限を克服できる。 しかし、データセット間の類似性はしばしばヒューリスティックに決定される。 本稿では,最適な輸送距離の階層的一般化に基づく病理組織学データセット間の距離の原理的概念を提案する。 本手法は, トレーニングを必要とせず, モデルタイプに依存せず, ティリングにより付与される病理組織学データセットに階層構造の多くを保存できる。 本手法を,癌ゲノムアトラスから得られたh\&e染色スライドに適用する。 本手法は, 癌型予測タスクにおいて, ベースライン距離よりも優れることを示す。 また, 腫瘍の転移能の難易度は, 最適な輸送距離が予測できることを示した。 〜正常予測設定。

Scarcity of labeled histopathology data limits the applicability of deep learning methods to under-profiled cancer types and labels. Transfer learning allows researchers to overcome the limitations of small datasets by pre-training machine learning models on larger datasets \emph{similar} to the small target dataset. However, similarity between datasets is often determined heuristically. In this paper, we propose a principled notion of distance between histopathology datasets based on a hierarchical generalization of optimal transport distances. Our method does not require any training, is agnostic to model type, and preserves much of the hierarchical structure in histopathology datasets imposed by tiling. We apply our method to H\&E stained slides from The Cancer Genome Atlas from six different cancer types. We show that our method outperforms a baseline distance in a cancer-type prediction task. Our results also show that our optimal transport distance predicts difficulty of transferability in a tumor vs.~normal prediction setting.
翻訳日:2022-04-19 18:34:05 公開日:2022-04-18
# (参考訳) 価格と販売パターンに基づくグループ化製品の時系列クラスタリング [全文訳有]

Time Series Clustering for Grouping Products Based on Price and Sales Patterns ( http://arxiv.org/abs/2204.08334v1 )

ライセンス: CC BY 4.0
Aysun Bozanta, Sean Berry, Mucahit Cevik, Beste Bulut, Deniz Yigit, Fahrettin F. Gonen, and Ay\c{s}e Ba\c{s}ar(参考訳) テクノロジーの開発とライフスタイルの変化により、オンライン食料品配達アプリケーションは都市生活に欠かせない部分となっている。 新型コロナウイルス(covid-19)パンデミックの開始以来、こうしたアプリケーションに対する需要は劇的に増加し、市場を混乱させる新たな競争相手を生み出している。 競争のレベルが高まると、企業はマーケティングや製品価格の戦略を頻繁に再構築することになる。 したがって、製品価格や販売量の変化パターンを特定することは、市場における企業にとって競争上の優位性となるだろう。 本稿では,価格パターンと販売量に基づいて商品をグループ化する代替クラスタリング手法について検討する。 本稿では,数値を用いて距離を計算するのではなく,商品価格と販売の連携を考慮に入れた新しい距離指標を提案する。 従来のクラスタリングアルゴリズムは、ユークリッド距離のような一般的な距離のメトリクスと、その視覚パターンをキャプチャしてデータをグループ化するイメージクラスタリングアプローチに依存しています。 内部妥当性指標として一般的に用いられるCalinski Harabasz,Davies Bouldinの指標と同様に,我々のカスタム評価指標を用いてクラスタリングアルゴリズムの性能を評価する。 本研究は,オンライン食品・食料品宅配企業の小売価格データセットと,市販のFavorita販売データセットを用いて数値調査を行う。 提案するクラスタリングアプローチとイメージクラスタリングはいずれも,大規模データセット内の価格や販売パターンの類似した製品を見つける上で有効であることが分かりました。

Developing technology and changing lifestyles have made online grocery delivery applications an indispensable part of urban life. Since the beginning of the COVID-19 pandemic, the demand for such applications has dramatically increased, creating new competitors that disrupt the market. An increasing level of competition might prompt companies to frequently restructure their marketing and product pricing strategies. Therefore, identifying the change patterns in product prices and sales volumes would provide a competitive advantage for the companies in the marketplace. In this paper, we investigate alternative clustering methodologies to group the products based on the price patterns and sales volumes. We propose a novel distance metric that takes into account how product prices and sales move together rather than calculating the distance using numerical values. We compare our approach with traditional clustering algorithms, which typically rely on generic distance metrics such as Euclidean distance, and image clustering approaches that aim to group data by capturing its visual patterns. We evaluate the performances of different clustering algorithms using our custom evaluation metric as well as Calinski Harabasz and Davies Bouldin indices, which are commonly used internal validity metrics. We conduct our numerical study using a propriety price dataset from an online food and grocery delivery company, and the publicly available Favorita sales dataset. We find that our proposed clustering approach and image clustering both perform well for finding the products with similar price and sales patterns within large datasets.
翻訳日:2022-04-19 18:17:40 公開日:2022-04-18
# (参考訳) 過剰パラメータを持つ時系列線形モデルにおける良性過剰フィッティング

Benign Overfitting in Time Series Linear Model with Over-Parameterizatio n ( http://arxiv.org/abs/2204.08369v1 )

ライセンス: CC BY 4.0
Shogo Nakakita, Masaaki Imaizumi(参考訳) 近年の大規模モデルの成功は、多くのパラメータを持つ統計モデルの重要性を高めている。 いくつかの研究は、偏りのない高次元データを持つ超パラメータ線形モデルの解析を行っているが、既存の結果はサンプルの独立な設定に依存している。 本研究では,時系列データに依存する線形回帰モデルを過パラメータ設定下で解析する。 補間による推定器を考察し、複数の依存型の下で推定器の過大なリスクの理論を開発した。 この理論は空間性のない無限次元データを扱い、長期記憶プロセスを統一的に扱うことができる。 さらに, 自己相関行列の統合共分散と非退化を通じて, 理論のリスクを限定した。 その結果,短期記憶プロセスにおけるリスクの収束率は独立データの場合と同一であり,長期記憶プロセスは収束速度を遅くすることがわかった。 また、設定に適用できる特定の依存プロセスの例をいくつか提示する。

The success of large-scale models in recent years has increased the importance of statistical models with numerous parameters. Several studies have analyzed over-parameterized linear models with high-dimensional data that may not be sparse; however, existing results depend on the independent setting of samples. In this study, we analyze a linear regression model with dependent time series data under over-parameterizatio n settings. We consider an estimator via interpolation and developed a theory for excess risk of the estimator under multiple dependence types. This theory can treat infinite-dimensional data without sparsity and handle long-memory processes in a unified manner. Moreover, we bound the risk in our theory via the integrated covariance and nondegeneracy of autocorrelation matrices. The results show that the convergence rate of risks with short-memory processes is identical to that of cases with independent data, while long-memory processes slow the convergence rate. We also present several examples of specific dependent processes that can be applied to our setting.
翻訳日:2022-04-19 18:05:29 公開日:2022-04-18
# (参考訳) 実行、または明確化の質問をすることを学ぶ [全文訳有]

Learning to execute or ask clarification questions ( http://arxiv.org/abs/2204.08373v1 )

ライセンス: CC BY 4.0
Zhengxiang Shi, Yue Feng, Aldo Lipani(参考訳) 共同作業は、共同目標を達成するためにコミュニケーションの形式を必要とするユビキタスな活動である。 協調的なビルディングはそのようなタスクの1つです。 エージェントに話しかけるだけで、ユーザが望むものを作ることができる、シミュレーションされたビルディング環境(Minecraft)にインテリジェントなビルダーエージェントを開発したいと思っています。 この目標を達成するには、さらなる情報が必要になったとき、明確化を問うことでイニシアチブを取らなければならない。 Minecraft Corpus Datasetの既存の作業は、明確化を求めることの重要性を無視して命令を実行することしか学ばない。 本稿では,すべてのビルダー発話を説明質問を含む8つのタイプにアノテートすることにより,マインクラフトコーパスデータセットを拡張し,いつ命令を実行すべきかを判断できる新しいビルダーエージェントモデルを提案する。 実験結果から,本モデルが協調作業における最先端性能を実現し,大幅な改善が得られた。 また,質問課題の学習と共同学習タスクという2つの新しいタスクを定義した。 後者は、協調的なビルディングと学習の両方を解決し、共同でタスクを問う。

Collaborative tasks are ubiquitous activities where a form of communication is required in order to reach a joint goal. Collaborative building is one of such tasks. We wish to develop an intelligent builder agent in a simulated building environment (Minecraft) that can build whatever users wish to build by just talking to the agent. In order to achieve this goal, such agents need to be able to take the initiative by asking clarification questions when further information is needed. Existing works on Minecraft Corpus Dataset only learn to execute instructions neglecting the importance of asking for clarifications. In this paper, we extend the Minecraft Corpus Dataset by annotating all builder utterances into eight types, including clarification questions, and propose a new builder agent model capable of determining when to ask or execute instructions. Experimental results show that our model achieves state-of-the-art performance on the collaborative building task with a substantial improvement. We also define two new tasks, the learning to ask task and the joint learning task. The latter consists of solving both collaborating building and learning to ask tasks jointly.
翻訳日:2022-04-19 18:04:20 公開日:2022-04-18
# (参考訳) 高速・メモリ効率の高い画像超解像ネットワーク

Fast and Memory-Efficient Network Towards Efficient Image Super-Resolution ( http://arxiv.org/abs/2204.08397v1 )

ライセンス: CC BY 4.0
Zongcai Du, Ding Liu, Jie Liu, Jie Tang, Gangshan Wu, Lean Fu(参考訳) 実行時とメモリ消費は、リソース制約のあるデバイスにデプロイされる効率的な画像超解像(EISR)モデルにとって重要な2つの側面である。 EISRの最近の進歩は、限られた階層的特徴をフル活用するために、チャネル分割と連結操作を多用した蒸留と集約戦略を利用している。 対照的に、シーケンシャルネットワーク操作は、先行状態や余分なノードに頻繁にアクセスすることを避けるため、メモリ消費とランタイムのオーバーヘッドを減らすのに有用である。 このアイデアに従い、複数の高度に最適化された畳み込み層とアクティベーション層を主に積み重ね、機能融合の利用を減らし、軽量ネットワークバックボーンを設計する。 そこで我々は,各画素に局所的および大域的なコンテキストに応じて重要な要素を割り当て,高頻度な詳細化を図る新しい逐次注意ブランチを提案する。 さらに、EISRの残差ブロックを調整し、ネットワーク推論をさらに高速化するための強化された残差ブロック(ERB)を提案する。 最後に、これらすべての技術を組み合わせて、高速かつメモリ効率のよいネットワーク(FMEN)と、その小型バージョンFMEN-Sを構築し、AIM 2020のチャンピオンであるE-RFDNよりも33%高速に動作し、メモリ消費を74%削減する。 さらに、fmen-sはntire 2022の効率的なスーパーレゾリューションにおける最小のメモリ消費と2番目に短いランタイムを実現している。 コードはhttps://github.com/N JU-Jet/FMEN.comで入手できる。

Runtime and memory consumption are two important aspects for efficient image super-resolution (EISR) models to be deployed on resource-constrained devices. Recent advances in EISR exploit distillation and aggregation strategies with plenty of channel split and concatenation operations to make full use of limited hierarchical features. In contrast, sequential network operations avoid frequently accessing preceding states and extra nodes, and thus are beneficial to reducing the memory consumption and runtime overhead. Following this idea, we design our lightweight network backbone by mainly stacking multiple highly optimized convolution and activation layers and decreasing the usage of feature fusion. We propose a novel sequential attention branch, where every pixel is assigned an important factor according to local and global contexts, to enhance high-frequency details. In addition, we tailor the residual block for EISR and propose an enhanced residual block (ERB) to further accelerate the network inference. Finally, combining all the above techniques, we construct a fast and memory-efficient network (FMEN) and its small version FMEN-S, which runs 33% faster and reduces 74% memory consumption compared with the state-of-the-art EISR model: E-RFDN, the champion in AIM 2020 efficient super-resolution challenge. Besides, FMEN-S achieves the lowest memory consumption and the second shortest runtime in NTIRE 2022 challenge on efficient super-resolution. Code is available at https://github.com/N JU-Jet/FMEN.
翻訳日:2022-04-19 17:49:16 公開日:2022-04-18
# (参考訳) TranS: 合成関係表現を用いた遷移型知識グラフの埋め込み [全文訳有]

TranS: Transition-based Knowledge Graph Embedding with Synthetic Relation Representation ( http://arxiv.org/abs/2204.08401v1 )

ライセンス: CC BY 4.0
Xuanyu Zhang, Qing Yang and Dongliang Xu(参考訳) 知識グラフ埋め込み(KGE)は、知識グラフにおける関係や実体の連続ベクトルを学習することを目的としている。 近年、遷移に基づくKGE法は、単一の関係ベクトルがヘッドエンティティをテールエンティティに変換することを学習する、有望な性能を実現している。 しかし、このスコアリングパターンは、同じエンティティペアが異なる関係を持つ複雑なシナリオには適していない。 以前のモデルは、通常1-to-N、N-to-1、N-to-Nの関係の実体表現の改善に焦点を当てるが、単一の関係ベクトルは無視する。 本稿では,知識グラフ埋め込みのための新しいトランジッションベース手法であるtransを提案する。 従来のスコアリングパターンの単一関係ベクトルを合成関係表現に置き換えることで、これらの問題を効果的かつ効率的に解決することができる。 大規模知識グラフデータセット ogbl-wikikg2 の実験は、我々のモデルが最先端の結果を達成することを示す。

Knowledge graph embedding (KGE) aims to learn continuous vectors of relations and entities in knowledge graph. Recently, transition-based KGE methods have achieved promising performance, where the single relation vector learns to translate head entity to tail entity. However, this scoring pattern is not suitable for complex scenarios where the same entity pair has different relations. Previous models usually focus on the improvement of entity representation for 1-to-N, N-to-1 and N-to-N relations, but ignore the single relation vector. In this paper, we propose a novel transition-based method, TranS, for knowledge graph embedding. The single relation vector in traditional scoring patterns is replaced with synthetic relation representation, which can solve these issues effectively and efficiently. Experiments on a large knowledge graph dataset, ogbl-wikikg2, show that our model achieves state-of-the-art results.
翻訳日:2022-04-19 17:48:10 公開日:2022-04-18
# (参考訳) 条件付きプロンプトとコンテキストを考慮したゼロショットエンティティとツイートキャラクタリゼーション [全文訳有]

Zero-shot Entity and Tweet Characterization with Designed Conditional Prompts and Contexts ( http://arxiv.org/abs/2204.08405v1 )

ライセンス: CC BY 4.0
Sharath Srivatsa, Tushar Mohan, Kumari Neha, Nishchay Malakar, Ponnurangam Kumaraguru, and Srinath Srinivasa(参考訳) オンラインニュースとソーシャルメディアは、過去10年初めから世界中の情報を広めるデファクトメディアとなっている。 しかし、コンテンツと意図のバイアスは規制されておらず、コンテンツ消費者の責任はバイアスを管理することである。 この点において、ニュースソースの特定のエンティティに対するスタンスやバイアスを理解することが重要となる。 この問題に対処するために、事前訓練された言語モデルを使用し、タスク固有のトレーニングや少数ショットトレーニングなしで良い結果をもたらすことが示されている。 本研究では,名前付きエンティティとつぶやきをオープンなテキスト分類とオープンな事実探索問題として特徴づける問題にアプローチし,生成事前学習型トランスフォーマー2(GPT-2)のゼロショット言語モデル機能を評価し,人間の心理学的・論理的条件付き接頭辞と文脈を主観的に特徴付ける。 まず,十分に大きなニュースコーパス上でgpt-2モデルを微調整し,プレフィックスを用いたプライミングにより,コーパス内の人気エンティティの主観的特徴評価を行う。 第2に、いくつかのハッシュタグからツイートコーパスを付加したGPT-2を微調整し、プレフィックス、質問、文脈合成のプロンプトで言語モデルを予備し、ツイートを特徴付ける。 実体的特徴は測定値と人的評価で正であった。

Online news and social media have been the de facto mediums to disseminate information globally from the beginning of the last decade. However, bias in content and purpose of intentions are not regulated, and managing bias is the responsibility of content consumers. In this regard, understanding the stances and biases of news sources towards specific entities becomes important. To address this problem, we use pretrained language models, which have been shown to bring about good results with no task-specific training or few-shot training. In this work, we approach the problem of characterizing Named Entities and Tweets as an open-ended text classification and open-ended fact probing problem.We evaluate the zero-shot language model capabilities of Generative Pretrained Transformer 2 (GPT-2) to characterize Entities and Tweets subjectively with human psychology-inspired and logical conditional prefixes and contexts. First, we fine-tune the GPT-2 model on a sufficiently large news corpus and evaluate subjective characterization of popular entities in the corpus by priming with prefixes. Second, we fine-tune GPT-2 with a Tweets corpus from a few popular hashtags and evaluate characterizing tweets by priming the language model with prefixes, questions, and contextual synopsis prompts. Entity characterization results were positive across measures and human evaluation.
翻訳日:2022-04-19 17:37:04 公開日:2022-04-18
# (参考訳) 音声キャプションのためのキャプション特徴空間正規化 [全文訳有]

Caption Feature Space Regularization for Audio Captioning ( http://arxiv.org/abs/2204.08409v1 )

ライセンス: CC BY 4.0
Yiming Zhang, Hong Yu, Ruoyi Du, Zhanyu Ma, Yuan Dong(参考訳) 音声キャプションは、音声クリップの内容を人間の言語で記述することを目的としている。 音声のあいまいさのため、異なる人が同じ音声を知覚し、キャプションの相違が生じる(つまり、1つのオーディオは複数のキャプションと様々な意味論に関連付けられる)。 そのため、一般音声キャプションモデルは、無作為に相関したキャプションを各音声の基底的真理として選択することで、1対1の訓練を実現する。 しかし、最適化の方向性に大きな変化をもたらし、モデルの安定性を弱める。 この負の効果を排除するために,本稿では,音声キャプションのための2段階フレームワークを提案する。 (i) 第一段階では, コントラスト学習を通じて, 同一の音声に関連付けられた字幕間の距離を減らすために, プロキシ特徴空間を構築する。 (ii)第2段階では、プロキシ機能空間が追加の監督として利用され、モデルがすべての相関キャプションの恩恵を受ける方向に最適化されるように促される。 4つのエンコーダとデコーダアーキテクチャを用いて、2つのデータセットを広範囲に実験した。 実験の結果,提案手法の有効性が示された。 コードはhttps://github.com/P RIS-CV/Caption-Featu re-Space-Regularizat ionで公開されている。

Audio captioning aims at describing the content of audio clips with human language. Due to the ambiguity of audio, different people may perceive the same audio differently, resulting in caption disparities (i.e., one audio may correlate to several captions with diverse semantics). For that, general audio captioning models achieve the one-to-many training by randomly selecting a correlated caption as the ground truth for each audio. However, it leads to a significant variation in the optimization directions and weakens the model stability. To eliminate this negative effect, in this paper, we propose a two-stage framework for audio captioning: (i) in the first stage, via the contrastive learning, we construct a proxy feature space to reduce the distances between captions correlated to the same audio, and (ii) in the second stage, the proxy feature space is utilized as additional supervision to encourage the model to be optimized in the direction that benefits all the correlated captions. We conducted extensive experiments on two datasets using four commonly used encoder and decoder architectures. Experimental results demonstrate the effectiveness of the proposed method. The code is available at https://github.com/P RIS-CV/Caption-Featu re-Space-Regularizat ion.
翻訳日:2022-04-19 17:22:40 公開日:2022-04-18
# (参考訳) ビデオインスタンス分割のための高能率映像変換器

Temporally Efficient Vision Transformer for Video Instance Segmentation ( http://arxiv.org/abs/2204.08412v1 )

ライセンス: CC BY 4.0
Shusheng Yang, Xinggang Wang, Yu Li, Yuxin Fang, Jiemin Fang, Wenyu Liu, Xun Zhao, Ying Shan(参考訳) 近年,視覚トランスフォーマは画像レベルの視覚認識タスクにおいて大きな成功を収めている。 ビデオクリップ内の重要な時間情報を効果的かつ効率的にモデル化するために,ビデオインスタンス分割のためのTeViT(Temporally Efficient Vision Transformer)を提案する。 従来の変換器ベースのVIS法とは異なり、TeViTは変換器のバックボーンとクエリベースのビデオインスタンスセグメンテーションヘッドを含むほとんど畳み込みフリーである。 バックボーン段階では,初期時間的コンテキスト融合のためのパラメータフリーなメッセンジャーシフト機構を提案する。 本稿では,ビデオインスタンスとクエリの1対1対応性を構築するためのパラメータ共有時空間クエリ対話機構を提案する。 したがって、tevitはフレームレベルとインスタンスレベルの時間的コンテキスト情報の両方を十分に活用し、余分な計算コストで強力な時間的モデリング能力を得る。 YouTube-VIS-2019、YouTube-VIS-2021、OVISの3つの広く採用されているVISベンチマークでは、TeViTは最先端の結果を取得し、高い推論速度を維持する。 コードはhttps://github.com/h ustvl/tevitで入手できる。

Recently vision transformer has achieved tremendous success on image-level visual recognition tasks. To effectively and efficiently model the crucial temporal information within a video clip, we propose a Temporally Efficient Vision Transformer (TeViT) for video instance segmentation (VIS). Different from previous transformer-based VIS methods, TeViT is nearly convolution-free, which contains a transformer backbone and a query-based video instance segmentation head. In the backbone stage, we propose a nearly parameter-free messenger shift mechanism for early temporal context fusion. In the head stages, we propose a parameter-shared spatiotemporal query interaction mechanism to build the one-to-one correspondence between video instances and queries. Thus, TeViT fully utilizes both framelevel and instance-level temporal context information and obtains strong temporal modeling capacity with negligible extra computational cost. On three widely adopted VIS benchmarks, i.e., YouTube-VIS-2019, YouTube-VIS-2021, and OVIS, TeViT obtains state-of-the-art results and maintains high inference speed, e.g., 46.6 AP with 68.9 FPS on YouTube-VIS-2019. Code is available at https://github.com/h ustvl/TeViT.
翻訳日:2022-04-19 17:10:33 公開日:2022-04-18
# GPUを用いた分散GNNトレーニングの特性と理解

Characterizing and Understanding Distributed GNN Training on GPUs ( http://arxiv.org/abs/2204.08150v1 )

ライセンス: Link先を確認
Haiyang Lin, Mingyu Yan, Xiaocheng Yang, Mo Zou, Wenming Li, Xiaochun Ye, Dongrui Fan(参考訳) グラフニューラルネットワーク(GNN)は、グラフを学習する上で有効であるとして、多くの領域において強力なモデルであることが実証されている。 大規模グラフに対するgnnトレーニングのスケールアップには,複数の計算ノードを用いたトレーニングを高速化する分散トレーニングが広く採用されている。 パフォーマンスの最大化は不可欠だが、分散GNNトレーニングの実行は、まだ事前に理解されている。 本稿では,gpu上での分散gnnトレーニングの詳細な分析を行い,いくつかの重要な観察結果を明らかにし,ソフトウェア最適化とハードウェア最適化の両方に有用なガイドラインを提供する。

Graph neural network (GNN) has been demonstrated to be a powerful model in many domains for its effectiveness in learning over graphs. To scale GNN training for large graphs, a widely adopted approach is distributed training which accelerates training using multiple computing nodes. Maximizing the performance is essential, but the execution of distributed GNN training remains preliminarily understood. In this work, we provide an in-depth analysis of distributed GNN training on GPUs, revealing several significant observations and providing useful guidelines for both software optimization and hardware optimization.
翻訳日:2022-04-19 17:07:26 公開日:2022-04-18
# 深層線形ニューラルネットワークの学習におけるネステロフ加速度勾配法の収束解析

A Convergence Analysis of Nesterov's Accelerated Gradient Method in Training Deep Linear Neural Networks ( http://arxiv.org/abs/2204.08306v1 )

ライセンス: Link先を確認
Xin Liu, Wei Tao and Zhisong Pan(参考訳) 重ボール~(HB)やネステロフ加速勾配~(NAG)を含むモーメントム法は、ニューラルネットワークの高速収束訓練に広く用いられている。 しかし、ニューラルネットワークの最適化環境は凸ではないため、その収束と加速に関する理論的保証が欠如している。 今日では、パラメータ数がトレーニングインスタンスの数を超える過剰パラメータ化システムにおいて、運動量法の収束を理解するための研究が進められている。 それにもかかわらず、現在の結果は主として2層ニューラルネットワークに焦点を当てており、ディープニューラルネットワークのトレーニングにおけるモーメント法の顕著な成功を説明するには程遠い。 そこで本研究では, 深層線形ニューラルネットワークと深部線形ニューラルネットワークの2つのアーキテクチャを学習する際の学習速度と運動量パラメータによるNAGの収束について検討する。 オーバパラメトリゼーション方式に基づいて、ランダムなガウス初期化の下で、深い完全連結線形ニューラルネットワークに対するNAGの訓練軌道によって引き起こされる残留ダイナミクスをまず解析する。 以上の結果から,NAG は 1\mathcal{O}(1/\sqrt{\kappa}))^t$ rate で大域最小値に収束し,$t$ は反復数,$\kappa > 1$ は特徴行列の条件数に依存する定数となることがわかった。 gd の $(1 - \mathcal{o}(1/{\kappa})^t$ レートと比較すると、nag は gd 上の加速を達成する。 私たちの知る限りでは、これは深層ニューラルネットワークのトレーニングにおけるnagのグローバル最小値への収束に関する最初の理論的保証です。 さらに、我々は解析を深い線形 ResNet に拡張し、同様の収束結果を導出する。

Momentum methods, including heavy-ball~(HB) and Nesterov's accelerated gradient~(NAG), are widely used in training neural networks for their fast convergence. However, there is a lack of theoretical guarantees for their convergence and acceleration since the optimization landscape of the neural network is non-convex. Nowadays, some works make progress towards understanding the convergence of momentum methods in an over-parameterized regime, where the number of the parameters exceeds that of the training instances. Nonetheless, current results mainly focus on the two-layer neural network, which are far from explaining the remarkable success of the momentum methods in training deep neural networks. Motivated by this, we investigate the convergence of NAG with constant learning rate and momentum parameter in training two architectures of deep linear networks: deep fully-connected linear neural networks and deep linear ResNets. Based on the over-parameterizatio n regime, we first analyze the residual dynamics induced by the training trajectory of NAG for a deep fully-connected linear neural network under the random Gaussian initialization. Our results show that NAG can converge to the global minimum at a $(1 - \mathcal{O}(1/\sqrt{\kappa}))^t$ rate, where $t$ is the iteration number and $\kappa > 1$ is a constant depending on the condition number of the feature matrix. Compared to the $(1 - \mathcal{O}(1/{\kappa}))^t$ rate of GD, NAG achieves an acceleration over GD. To the best of our knowledge, this is the first theoretical guarantee for the convergence of NAG to the global minimum in training deep neural networks. Furthermore, we extend our analysis to deep linear ResNets and derive a similar convergence result.
翻訳日:2022-04-19 17:07:16 公開日:2022-04-18
# 推論における動的ネットワーク適応

Dynamic Network Adaptation at Inference ( http://arxiv.org/abs/2204.08400v1 )

ライセンス: Link先を確認
Daniel Mendoza, Caroline Trippel(参考訳) 機械学習(ML)推論は、レイテンシや精度の目標を含む厳しいサービスレベルオブジェクト(SLO)に従わなければならないリアルタイムワークロードである。 残念ながら、SLOが推論処理システムに違反しないことを保証することは、固有のモデル精度とレイテンシのトレードオフ、アプリケーションドメイン内および内部におけるSLOの多様性、時間経過に伴うSLOの進化、予測不可能なクエリパターン、コロケーション干渉など、難しい。 本稿では,ニューラルネットワークが推論中に高次入力毎の活性化間隔を示すことを観察する。 . そこで本研究では,特定のSLO最適化目標とマシン利用量に基づいて,参照クエリ毎にノードを動的にドロップアウトし,処理量を調整するSLO対応ニューラルネットワークを提案する。 SLO-Aware Neural Networksは平均速度を1.3-56.7\times$で、精度損失は0.3%以下である。 精度が制約された場合、SLO-Aware Neural Networksは同じトレーニングモデルで低レイテンシで、さまざまな精度ターゲットを提供することができる。 レイテンシが制約された場合、SLO-Aware Neural Networksは、レイテンシ制約を満たすために高い精度を維持しながら、コロケーション干渉によるレイテンシ劣化を積極的に軽減することができる。

Machine learning (ML) inference is a real-time workload that must comply with strict Service Level Objectives (SLOs), including latency and accuracy targets. Unfortunately, ensuring that SLOs are not violated in inference-serving systems is challenging due to inherent model accuracy-latency tradeoffs, SLO diversity across and within application domains, evolution of SLOs over time, unpredictable query patterns, and co-location interference. In this paper, we observe that neural networks exhibit high degrees of per-input activation sparsity during inference. . Thus, we propose SLO-Aware Neural Networks which dynamically drop out nodes per-inference query, thereby tuning the amount of computation performed, according to specified SLO optimization targets and machine utilization. SLO-Aware Neural Networks achieve average speedups of $1.3-56.7\times$ with little to no accuracy loss (less than 0.3%). When accuracy constrained, SLO-Aware Neural Networks are able to serve a range of accuracy targets at low latency with the same trained model. When latency constrained, SLO-Aware Neural Networks can proactively alleviate latency degradation from co-location interference while maintaining high accuracy to meet latency constraints.
翻訳日:2022-04-19 17:06:45 公開日:2022-04-18
# 5Gネットワーク上での実践的クロスデバイスフェデレーション学習フレームワーク

A Practical Cross-Device Federated Learning Framework over 5G Networks ( http://arxiv.org/abs/2204.08134v1 )

ライセンス: Link先を確認
Wenti Yang, Naiyu Wang, Zhitao Guan, Longfei Wu, Xiaojiang Du, Mohsen Guizani(参考訳) 連邦学習(FL)の概念は2016年にGoogleによって初めて提案された。 その後、flはプライバシを損なうことなくデータをフル活用できる可能性から、様々な分野での応用可能性について広く研究されている。 しかし、無線データ伝送の能力に制限され、モバイルデバイス上でのフェデレーション学習の活用は、実践的にも緩やかに進んでいる。 第5世代(5g)モバイルネットワークの開発と商用化は、これに光を当てている。 本稿では,モバイルデバイスにおける既存のフェデレーション学習方式の課題を分析し,匿名通信技術とリングシグネチャを用いて,flに参加するモバイルデバイスの計算オーバーヘッドを低減しつつ,参加者のプライバシを保護するクロスデバイスフェデレーション学習フレームワークを提案する。 また,モバイルユーザがflに参加することを奨励する貢献に基づくインセンティブ機構も実装している。 自動運転車のケーススタディも提供します。 最後に,提案手法の性能評価を行い,連合学習におけるオープンな課題について考察する。

The concept of federated learning (FL) was first proposed by Google in 2016. Thereafter, FL has been widely studied for the feasibility of application in various fields due to its potential to make full use of data without compromising the privacy. However, limited by the capacity of wireless data transmission, the employment of federated learning on mobile devices has been making slow progress in practical. The development and commercialization of the 5th generation (5G) mobile networks has shed some light on this. In this paper, we analyze the challenges of existing federated learning schemes for mobile devices and propose a novel cross-device federated learning framework, which utilizes the anonymous communication technology and ring signature to protect the privacy of participants while reducing the computation overhead of mobile devices participating in FL. In addition, our scheme implements a contribution-based incentive mechanism to encourage mobile users to participate in FL. We also give a case study of autonomous driving. Finally, we present the performance evaluation of the proposed scheme and discuss some open issues in federated learning.
翻訳日:2022-04-19 17:02:19 公開日:2022-04-18
# ASRモデルからの目標トレーニングデータの抽出と緩和方法

Extracting Targeted Training Data from ASR Models, and How to Mitigate It ( http://arxiv.org/abs/2204.08345v1 )

ライセンス: Link先を確認
Ehsan Amid, Om Thakkar, Arun Narayanan, Rajiv Mathews, Fran\c{c}oise Beaufays(参考訳) 最近の研究は、ASRトレーニングにおけるモデル更新が、更新の計算に使用される発話の潜在的に敏感な属性をリークする可能性を実証する手法を設計している。 本研究では、訓練されたASRモデルのトレーニングデータに関する情報漏洩を初めて示す手法を設計する。 我々は、訓練されたASRモデルからトレーニングデータのターゲット部分を抽出する補修式スタイルのノイズマスキングを設計する。 我々は,SOTAコンフォーマモデルのトレーニングに使用するLibriSpeechデータセットから4つの設定で名前を抽出し,ノイズマスキングの成功例を示す。 特に,11.8%の精度でマスキング学習発話から正しい名前を抽出でき,55.2%の確率で列車から何らかの名前を出力できることを示した。 さらに,テストセットから合成音声と部分的書き起こしを用いた場合においても,その精度が2.5%(47.7%)であることを示す。 最後に,mtrと共にトレーニングで使用するデータ拡張手法であるword dropoutを,ベースラインとして同等のユーティリティを提供するとともに,評価された4つの設定にまたがってノイズマスクによる抽出を著しく軽減する。

Recent work has designed methods to demonstrate that model updates in ASR training can leak potentially sensitive attributes of the utterances used in computing the updates. In this work, we design the first method to demonstrate information leakage about training data from trained ASR models. We design Noise Masking, a fill-in-the-blank style method for extracting targeted parts of training data from trained ASR models. We demonstrate the success of Noise Masking by using it in four settings for extracting names from the LibriSpeech dataset used for training a SOTA Conformer model. In particular, we show that we are able to extract the correct names from masked training utterances with 11.8% accuracy, while the model outputs some name from the train set 55.2% of the time. Further, we show that even in a setting that uses synthetic audio and partial transcripts from the test set, our method achieves 2.5% correct name accuracy (47.7% any name success rate). Lastly, we design Word Dropout, a data augmentation method that we show when used in training along with MTR, provides comparable utility as the baseline, along with significantly mitigating extraction via Noise Masking across the four evaluated settings.
翻訳日:2022-04-19 17:01:36 公開日:2022-04-18
# 分散型コンセンサスに対する任意圧縮と指向ネットワーク上の確率最適化について

On Arbitrary Compression for Decentralized Consensus and Stochastic Optimization over Directed Networks ( http://arxiv.org/abs/2204.08160v1 )

ライセンス: Link先を確認
Mohammad Taha Toghani, C\'esar A. Uribe(参考訳) 静的有向グラフ上の圧縮通信における分散コンセンサスと確率的最適化問題について検討する。 所望の圧縮比に応じてメッセージを圧縮する反復勾配に基づくアルゴリズムを提案する。 提案手法は,各通信ラウンドにおけるネットワーク上の通信オーバーヘッドを確実に低減する。 既存の文献とは対照的に、通信されたメッセージの任意の圧縮比率を許容する。 本稿では,コンセンサス問題に対する提案手法の線形収束率を示す。 さらに、滑らかな関数上の分散確率最適化問題に対して明示的な収束率を提供する。 (i)強凸,強凸 (ii)凸,又は (iii)非凸。 最後に,任意の圧縮比下での収束と,アルゴリズムの通信効率を示す数値実験を行った。

We study the decentralized consensus and stochastic optimization problems with compressed communications over static directed graphs. We propose an iterative gradient-based algorithm that compresses messages according to a desired compression ratio. The proposed method provably reduces the communication overhead on the network at every communication round. Contrary to existing literature, we allow for arbitrary compression ratios in the communicated messages. We show a linear convergence rate for the proposed method on the consensus problem. Moreover, we provide explicit convergence rates for decentralized stochastic optimization problems on smooth functions that are either (i) strongly convex, (ii) convex, or (iii) non-convex. Finally, we provide numerical experiments to illustrate convergence under arbitrary compression ratios and the communication efficiency of our algorithm.
翻訳日:2022-04-19 17:01:06 公開日:2022-04-18
# (参考訳) STONet: ニューラル演算駆動時空間ネットワーク [全文訳有]

STONet: A Neural-Operator-Driv en Spatio-temporal Network ( http://arxiv.org/abs/2204.08414v1 )

ライセンス: CC BY 4.0
Haitao Lin, Guojiang Zhao, Lirong Wu, Stan Z. Li(参考訳) グラフベース時空間ニューラルネットワークは,非構造格子から不規則にサンプリングされた離散点間の空間依存性をモデル化するのに有効である。 しかし、これらのモデルは一般に空間的に伝達的であり、モデルで供給される離散的な空間ノードの信号にのみ適合するが、ゼロショットの'アンセン'空間点に一般化できない。 対照的に、地球表面の温度予測のような連続的な空間上のタスクを予測するために、 \textit{spatially-inductive} 特性は、モデルが単に信号に合うのではなく、システムの基盤となるメカニズムや物理法則を学ぶ能力を示す空間領域の任意の点に一般化することができる。 さらに、時間領域では、値が不足しているデータのような \textit{irregularly-sampled} 時系列は、モデルに時間的連続性を持たせます。 これら2つの課題に触発され,空間連続的な物理量の力学を規定するメカニズムを学習するPDEのためのニューラル演算子に基づく時空間フレームワークを提案する。 実験により,空間的連続的な物理量予測におけるモデルの性能が向上し,非知覚的な空間的点に対する優れた一般化と時間的不規則なデータを扱う能力が示された。

Graph-based spatio-temporal neural networks are effective to model the spatial dependency among discrete points sampled irregularly from unstructured grids, thanks to the great expressiveness of graph neural networks. However, these models are usually spatially-transducti ve -- only fitting the signals for discrete spatial nodes fed in models but unable to generalize to `unseen' spatial points with zero-shot. In comparison, for forecasting tasks on continuous space such as temperature prediction on the earth's surface, the \textit{spatially-inductive} property allows the model to generalize to any point in the spatial domain, demonstrating models' ability to learn the underlying mechanisms or physics laws of the systems, rather than simply fit the signals. Besides, in temporal domains, \textit{irregularly-sampled} time series, e.g. data with missing values, urge models to be temporally-continuou s. Motivated by the two issues, we propose a spatio-temporal framework based on neural operators for PDEs, which learn the underlying mechanisms governing the dynamics of spatially-continuous physical quantities. Experiments show our model's improved performance on forecasting spatially-continuous physic quantities, and its superior generalization to unseen spatial points and ability to handle temporally-irregular data.
翻訳日:2022-04-19 17:00:01 公開日:2022-04-18
# 超音波画像における頸動脈びまん性プラーク分画のチャネル注意と後処理を伴う並列ネットワーク

Parallel Network with Channel Attention and Post-Processing for Carotid Arteries Vulnerable Plaque Segmentation in Ultrasound Images ( http://arxiv.org/abs/2204.08127v1 )

ライセンス: Link先を確認
Yanchao Yuan, Cancheng Li, Lu Xu, Ke Zhang, Yang Hua, Jicong Zhang(参考訳) 超音波による動脈硬化のスクリーニングには頸動脈の脆弱なプラークが重要である。 しかし、プラークは人工物、スペックルノイズ、手動セグメンテーションなどの様々なノイズによって汚染される可能性がある。 本稿では,小データセットを用いた頸動脈超音波画像のプラークセグメンテーションのための自動畳み込みニューラルネットワーク(CNN)を提案する。 まず、3つの独立したスケールデコーダを持つ並列ネットワークをベースセグメンテーションネットワークとして利用し、3つのセグメンテーションサブネットワークにおける受容場の拡大にピラミッド拡張畳み込みを用いる。 その後、3つのデコーダはsenetによって整流されるようにマージされる。 第3に、試験段階では、初期分断されたプラークを最大輪郭形状後処理により精製して最終プラークを得る。 さらに,3つの損失関数Dice損失,SSIM損失,クロスエントロピー損失をセグメントプラークと比較した。 試験結果から, ダイス損失関数を用いた提案手法は, 従来のCNN法よりも, ダイス値0.820, IoU 0.701, Acc 0.969, Hausdorff 距離 1.43 の修正Hausdorff 距離 (MHD) が優れていることがわかった。 さらに,提案モジュールの妥当性を示すためにアブレーション実験を適用した。 本研究は同様の研究の参考として,超音波頸動脈のプラークセグメンテーションに有用であると考えられる。

Carotid arteries vulnerable plaques are a crucial factor in the screening of atherosclerosis by ultrasound technique. However, the plaques are contaminated by various noises such as artifact, speckle noise, and manual segmentation may be time-consuming. This paper proposes an automatic convolutional neural network (CNN) method for plaque segmentation in carotid ultrasound images using a small dataset. First, a parallel network with three independent scale decoders is utilized as our base segmentation network, pyramid dilation convolutions are used to enlarge receptive fields in the three segmentation sub-networks. Subsequently, the three decoders are merged to be rectified in channels by SENet. Thirdly, in test stage, the initially segmented plaque is refined by the max contour morphology post-processing to obtain the final plaque. Moreover, three loss function Dice loss, SSIM loss and cross-entropy loss are compared to segment plaques. Test results show that the proposed method with dice loss function yields a Dice value of 0.820, an IoU of 0.701, Acc of 0.969, and modified Hausdorff distance (MHD) of 1.43 for 30 vulnerable cases of plaques, it outperforms some of the conventional CNN-based methods on these metrics. Additionally, we apply an ablation experiment to show the validity of each proposed module. Our study provides some reference for similar researches and may be useful in actual applications for plaque segmentation of ultrasound carotid arteries.
翻訳日:2022-04-19 16:36:35 公開日:2022-04-18
# 半教師付き超解像

Semi-Supervised Super-Resolution ( http://arxiv.org/abs/2204.08192v1 )

ライセンス: Link先を確認
Ankur Singh, Piyush Rai(参考訳) 超解像は低解像度画像から高解像度画像を生成する過程である。 画像は、空間解像度が小さく、カメラ品質が低かったり、ぼやけたり、その他の劣化の可能性があるため、解像度が低い。 スーパーレゾリューション(super- resolution)とは、低解像度の写真の品質を向上させる技術である。 コンピュータビジョンコミュニティはスーパーリゾリューションの領域を幅広く探求してきた。 しかし、従来の超解法は訓練に大量のデータを必要とする。 これは低解像度で高解像度なペアがほとんどない領域では問題となる。 このような領域の1つは統計的ダウンスケーリングであり、低解像度データから高解像度の気候情報を得るために超解像がますます使われている。 高解像度の気候データを取得するのは非常に高価で難しい。 高解像度の気候情報を生成するコストを削減するため、超解法アルゴリズムは限られた数の低解像度で高解像度のペアを訓練できる必要がある。 本稿では,500対の例に満たないシャープで高解像度の画像を生成するための半教師付き手法を導入することで,上記の問題を解決することを試みる。 提案手法は, 教師付きGANベースのスーパーリゾリューション法を用いて, プラグアンドプレイモジュールとして利用することができる。 提案モデルの性能を定量的・定性的に分析し,教師なし手法と同様に教師付き手法と比較した。 総合的な評価は, 異なる測定値における他の手法よりも優れた方法を示す。 また,高分解能気候画像を得るための統計的ダウンスケール手法の適用性も提供する。

Super-Resolution is the process of generating a high-resolution image from a low-resolution image. A picture may be of lower resolution due to smaller spatial resolution, poor camera quality, as a result of blurring, or due to other possible degradations. Super-Resolution is the technique to improve the quality of a low-resolution photo by boosting its plausible resolution. The computer vision community has extensively explored the area of Super-Resolution. However, the previous Super-Resolution methods require vast amounts of data for training. This becomes problematic in domains where very few low-resolution, high-resolution pairs might be available. One of such areas is statistical downscaling, where super-resolution is increasingly being used to obtain high-resolution climate information from low-resolution data. Acquiring high-resolution climate data is extremely expensive and challenging. To reduce the cost of generating high-resolution climate information, Super-Resolution algorithms should be able to train with a limited number of low-resolution, high-resolution pairs. This paper tries to solve the aforementioned problem by introducing a semi-supervised way to perform super-resolution that can generate sharp, high-resolution images with as few as 500 paired examples. The proposed semi-supervised technique can be used as a plug-and-play module with any supervised GAN-based Super-Resolution method to enhance its performance. We quantitatively and qualitatively analyze the performance of the proposed model and compare it with completely supervised methods as well as other unsupervised techniques. Comprehensive evaluations show the superiority of our method over other methods on different metrics. We also offer the applicability of our approach in statistical downscaling to obtain high-resolution climate images.
翻訳日:2022-04-19 16:36:08 公開日:2022-04-18
# ネットワークアウェアカスケード予測のための選好強化型社会影響モデリング

Preference Enhanced Social Influence Modeling for Network-Aware Cascade Prediction ( http://arxiv.org/abs/2204.08229v1 )

ライセンス: Link先を確認
Likang Wu, Hao Wang, Enhong Chen, Zhi Li, Hongke Zhao, Jianhui Ma(参考訳) ネットワーク対応カスケードサイズ予測は,ソーシャルネットワークにおける伝搬過程をモデル化することにより,ユーザ生成情報の最終再投稿数を予測することを目的としている。 ユーザの再投稿確率を社会的影響、すなわち状態活性化によって推定することは、情報拡散過程において重要な役割を果たす。 そのため、ノード間の情報相互作用をシミュレートできるグラフニューラルネットワーク(GNN)が、この予測処理に有効なスキームとして証明されている。 しかしながら、GNNベースのモデルを含む既存の研究は、通常、状態の活性化に深く影響を及ぼすユーザの好みの重要な要素を無視する。 そこで我々は,好みトピックの生成,嗜好シフトモデリング,社会的影響の活性化という3つの段階に応じて,ユーザの嗜好モデルを強化することで,カスケードサイズ予測を促進する新しいフレームワークを提案する。 エンド・ツー・エンドの手法により,ユーザの情報拡散プロセスがより適応的で正確になる。 2つの大規模実世界のデータセットに対する大規模な実験は、提案モデルの有効性を最先端のベースラインと比較して明らかに実証した。

Network-aware cascade size prediction aims to predict the final reposted number of user-generated information via modeling the propagation process in social networks. Estimating the user's reposting probability by social influence, namely state activation plays an important role in the information diffusion process. Therefore, Graph Neural Networks (GNN), which can simulate the information interaction between nodes, has been proved as an effective scheme to handle this prediction task. However, existing studies including GNN-based models usually neglect a vital factor of user's preference which influences the state activation deeply. To that end, we propose a novel framework to promote cascade size prediction by enhancing the user preference modeling according to three stages, i.e., preference topics generation, preference shift modeling, and social influence activation. Our end-to-end method makes the user activating process of information diffusion more adaptive and accurate. Extensive experiments on two large-scale real-world datasets have clearly demonstrated the effectiveness of our proposed model compared to state-of-the-art baselines.
翻訳日:2022-04-19 16:34:23 公開日:2022-04-18
# (参考訳) 聞き取り学習:非決定論的顔運動のモデル化 [全文訳有]

Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion ( http://arxiv.org/abs/2204.08451v1 )

ライセンス: CC BY 4.0
Evonne Ng, Hanbyul Joo, Liwen Hu, Hao Li, Trevor Darrell, Angjoo Kanazawa, Shiry Ginosar(参考訳) 話者のマルチモーダル入力が与えられた場合、対応するリスナー動作の複数の可能性を自動回帰的に出力する。 モーションオーディオクロスアテンショントランスを用いて,話者の動きと音声を合成する。 さらに,新しい動きエンコーディングvq-vaeを用いて,現実的なリスナ動作の離散的潜在表現を学習することにより,非決定論的予測を可能にする。 本手法は,非言語dyadic相互作用のマルチモーダルおよび非決定論的性質を有機的に捉える。 さらに、話者と同期したリアルな3Dリスナー顔の動きを生成する(ビデオ参照)。 提案手法は, 実験によって定性的, 定量的に性能を向上することを示した。 そこで本研究では,dyadic会話の新規かつ大規模インザワイルドデータセットを提案する。 コード、データ、ビデオはhttps://evonneng.git hub.io/learning2list en/。

We present a framework for modeling interactional communication in dyadic conversations: given multimodal inputs of a speaker, we autoregressively output multiple possibilities of corresponding listener motion. We combine the motion and speech audio of the speaker using a motion-audio cross attention transformer. Furthermore, we enable non-deterministic prediction by learning a discrete latent representation of realistic listener motion with a novel motion-encoding VQ-VAE. Our method organically captures the multimodal and non-deterministic nature of nonverbal dyadic interactions. Moreover, it produces realistic 3D listener facial motion synchronous with the speaker (see video). We demonstrate that our method outperforms baselines qualitatively and quantitatively via a rich suite of experiments. To facilitate this line of research, we introduce a novel and large in-the-wild dataset of dyadic conversations. Code, data, and videos available at https://evonneng.git hub.io/learning2list en/.
翻訳日:2022-04-19 16:30:30 公開日:2022-04-18
# 動物界:動物行動理解のための大規模で多様なデータセット

Animal Kingdom: A Large and Diverse Dataset for Animal Behavior Understanding ( http://arxiv.org/abs/2204.08129v1 )

ライセンス: Link先を確認
Xun Long Ng, Kian Eng Ong, Qichen Zheng, Yun Ni, Si Yong Yeo, Jun Liu(参考訳) 動物の行動を理解することは、幅広い用途において重要である。 しかし、既存の動物行動データセットは、動物クラスの数、データサンプルや提供されたタスクの数、環境条件や視点のバリエーションなど、さまざまな面で制限がある。 これらの制限に対処するために、私たちは、自然の動物の行動をより深く理解するための複数の注釈付きタスクを提供する、大きくて多様なデータセット、animal kingdomを作成しました。 私たちのデータセットで使用される野生動物の映像は、背景、視点、照明、気象条件などを含む幅広い環境において、その日の異なる時刻を記録しています。 具体的には,50時間分のアノテート映像を収録し,ビデオグラウンディングタスクのロングビデオにおける関連動物行動セグメントのローカライズ,細粒度マルチラベル行動認識タスクの30k映像シーケンス,ポーズ推定タスクの33kフレームをそれぞれ6つの主要な動物クラスにまたがる種850種の多様な動物に対応させた。 このような挑戦的で包括的なデータセットは、動物行動分析のための様々な種類の高度な手法を開発し、適応し、評価することを促進することができる。 さらに,新しい動物を用いた行動認識のための汎用的および特定特徴を学習する協調行動認識(care)モデルを提案する。 この手法は実験で有望な性能を発揮する。 データセットはhttps://sutdcv.githu b.io/Animal-Kingdom. orgにある。

Understanding animals' behaviors is significant for a wide range of applications. However, existing animal behavior datasets have limitations in multiple aspects, including limited numbers of animal classes, data samples and provided tasks, and also limited variations in environmental conditions and viewpoints. To address these limitations, we create a large and diverse dataset, Animal Kingdom, that provides multiple annotated tasks to enable a more thorough understanding of natural animal behaviors. The wild animal footages used in our dataset record different times of the day in extensive range of environments containing variations in backgrounds, viewpoints, illumination and weather conditions. More specifically, our dataset contains 50 hours of annotated videos to localize relevant animal behavior segments in long videos for the video grounding task, 30K video sequences for the fine-grained multi-label action recognition task, and 33K frames for the pose estimation task, which correspond to a diverse range of animals with 850 species across 6 major animal classes. Such a challenging and comprehensive dataset shall be able to facilitate the community to develop, adapt, and evaluate various types of advanced methods for animal behavior analysis. Moreover, we propose a Collaborative Action Recognition (CARe) model that learns general and specific features for action recognition with unseen new animals. This method achieves promising performance in our experiments. Our dataset can be found at https://sutdcv.githu b.io/Animal-Kingdom.
翻訳日:2022-04-19 16:04:32 公開日:2022-04-18
# 単一画像からのエンド・ツー・エンド弱教師付きマルチ3次元ハンドメッシュ再構成

End-to-end Weakly-supervised Multiple 3D Hand Mesh Reconstruction from Single Image ( http://arxiv.org/abs/2204.08154v1 )

ライセンス: Link先を確認
Jinwei Ren, Jianke Zhu, and Jialiang Zhang(参考訳) 本稿では,2次元画像から複数の手を同時に位置決めして復元する課題について考察する。 従来の研究では、片手再建に焦点をあてるか、多段階的な方法でこの問題を解決するかのどちらかであった。 さらに, 従来の2段階のパイプラインでは, まず手の位置を検知し, 切り抜かれたパッチから3dハンドポーズを推定する。 プリプロセッシングと特徴抽出における計算冗長性を低減するため,簡潔だが効率的な単一ステージパイプラインを提案する。 具体的には,マルチハンドリコンストラクションのためのマルチヘッドオートエンコーダ構造を設計し,各ヘッドネットワークが同一の特徴マップを共有し,ハンドセンタ,ポーズ,テクスチャをそれぞれ出力する。 さらに,高額な3次元実世界のデータアノテーションの負担を軽減するために,弱教師付き方式を採用する。 そこで我々は,2次元アノテーションを持つマルチハンドデータセットを,公開可能なシングルハンドデータセットに基づいて生成するステージワイズトレーニングスキームによって最適化された一連の損失を提案する。 弱教師付きモデルの精度をさらに向上するため、単手と複数手の設定にいくつかの特徴整合性制約を適用した。 具体的には、局所特徴から推定される各手の各キーポイントは、グローバル特徴から予測される再投影されたポイントと一致すべきである。 FreiHAND, HO3D, InterHand2.6M, RHDなどの公開ベンチマーク実験により, 本手法は, 弱教師付きおよび完全教師付き両方の方法で, 最先端のモデルベース手法よりも優れていることを示した。

In this paper, we consider the challenging task of simultaneously locating and recovering multiple hands from single 2D image. Previous studies either focus on single hand reconstruction or solve this problem in a multi-stage way. Moreover, the conventional two-stage pipeline firstly detects hand areas, and then estimates 3D hand pose from each cropped patch. To reduce the computational redundancy in preprocessing and feature extraction, we propose a concise but efficient single-stage pipeline. Specifically, we design a multi-head auto-encoder structure for multi-hand reconstruction, where each head network shares the same feature map and outputs the hand center, pose and texture, respectively. Besides, we adopt a weakly-supervised scheme to alleviate the burden of expensive 3D real-world data annotations. To this end, we propose a series of losses optimized by a stage-wise training scheme, where a multi-hand dataset with 2D annotations is generated based on the publicly available single hand datasets. In order to further improve the accuracy of the weakly supervised model, we adopt several feature consistency constraints in both single and multiple hand settings. Specifically, the keypoints of each hand estimated from local features should be consistent with the re-projected points predicted from global features. Extensive experiments on public benchmarks including FreiHAND, HO3D, InterHand2.6M and RHD demonstrate that our method outperforms the state-of-the-art model-based methods in both weakly-supervised and fully-supervised manners.
翻訳日:2022-04-19 16:04:10 公開日:2022-04-18
# 実世界深部局所運動デブラリング

Real-world Deep Local Motion Deblurring ( http://arxiv.org/abs/2204.08179v1 )

ライセンス: Link先を確認
Haoying Li, Ziran Zhang, Tingting Jiang, Peng Luo, Huajun Feng(参考訳) 既存のデブラリング手法のほとんどは、カメラシェイクによるグローバルなぼやけを取り除くことに集中しているが、オブジェクトの動きによる局所的なぼやけをうまく処理できない。 実シーンにおける局所的乱れの空白を埋めるために, 同期ビーム分割撮影システムで撮影し, 後処理パイプラインで補正した最初の実局所的動きボケデータセット(ReLoBlur)を構築した。 ReLoBlurをベースとしたLBAG(Local Blur-Aware Gated Network)と,グローバルデブリとローカルデブロワーのギャップを埋めるローカルブラー認識技術を提案する。 1) 背景部分抽出に基づくぼやけた領域の局所化によるぼやけた検出手法 2)ネットワークをぼやけた領域に集中させるゲート機構 3)データ不均衡問題に対処するためのぼやけ認識パッチクロッピング戦略。 広範囲にわたる実験により,リロブーラデータセットの信頼性が証明され,提案手法を使わずにlbagが最先端のグローバルデブロリング法よりも優れた性能を実現することが証明された。

Most existing deblurring methods focus on removing global blur caused by camera shake, while they cannot well handle local blur caused by object movements. To fill the vacancy of local deblurring in real scenes, we establish the first real local motion blur dataset (ReLoBlur), which is captured by a synchronized beam-splitting photographing system and corrected by a post-progressing pipeline. Based on ReLoBlur, we propose a Local Blur-Aware Gated network (LBAG) and several local blur-aware techniques to bridge the gap between global and local deblurring: 1) a blur detection approach based on background subtraction to localize blurred regions; 2) a gate mechanism to guide our network to focus on blurred regions; and 3) a blur-aware patch cropping strategy to address data imbalance problem. Extensive experiments prove the reliability of ReLoBlur dataset, and demonstrate that LBAG achieves better performance than state-of-the-art global deblurring methods without our proposed local blur-aware techniques.
翻訳日:2022-04-19 16:03:46 公開日:2022-04-18
# Sardino:モバイルエッジでのセキュアなビジュアルセンシングのための超高速ダイナミックアンサンブル

Sardino: Ultra-Fast Dynamic Ensemble for Secure Visual Sensing at Mobile Edge ( http://arxiv.org/abs/2204.08189v1 )

ライセンス: Link先を確認
Qun Song, Zhenyu Yan, Wenjie Luo, and Rui Tan(参考訳) 逆例攻撃は、視覚センシングにディープニューラルネットワークを採用する車両やドローンなどのモバイルエッジシステムを危険にさらす。 本稿では, アンサンブルを探索し, 有効な対局例を構築しようとする適応的敵に対するセキュリティを開発するために, 実行時に推論アンサンブルを更新する能動的防衛手法である {\em Sardino} を提案する。 アンサンブルの予測に一貫性チェックとデータ融合を適用することで、サルディーノは敵の入力を検出し、妨害することができる。 トレーニングベースのアンサンブル更新と比較すると、ハイパーネットを使用してアクセラレーションを100万回達成し、フレーム単位のアンサンブル更新を行い、必要条件のエクスプロイト攻撃に最も困難である。 さらに,ハイパーネットの対角学習により,新たなアンサンブルの対逆例に対する堅牢性が向上する。 我々は,処理フレーム率を維持しつつ,セキュリティを優先してアンサンブルサイズを最大化するランタイムプランナを設計する。 逆の例以外にも、sardinoは配布外入力の問題を効果的に解決することができる。 本稿では,車載信号認識システムの構築において,Sardinoの対向的な実例に対する性能評価を広範囲に行う。 live on-roadテストでは、前のyoloベースのトラヒックサイン検出器の誤検出によるフレームレートの維持と分布外入力の検出において、組込みシステムの有効性が示されている。

Adversarial example attack endangers the mobile edge systems such as vehicles and drones that adopt deep neural networks for visual sensing. This paper presents {\em Sardino}, an active and dynamic defense approach that renews the inference ensemble at run time to develop security against the adaptive adversary who tries to exfiltrate the ensemble and construct the corresponding effective adversarial examples. By applying consistency check and data fusion on the ensemble's predictions, Sardino can detect and thwart adversarial inputs. Compared with the training-based ensemble renewal, we use HyperNet to achieve {\em one million times} acceleration and per-frame ensemble renewal that presents the highest level of difficulty to the prerequisite exfiltration attacks. Moreover, the robustness of the renewed ensembles against adversarial examples is enhanced with adversarial learning for the HyperNet. We design a run-time planner that maximizes the ensemble size in favor of security while maintaining the processing frame rate. Beyond adversarial examples, Sardino can also address the issue of out-of-distribution inputs effectively. This paper presents extensive evaluation of Sardino's performance in counteracting adversarial examples and applies it to build a real-time car-borne traffic sign recognition system. Live on-road tests show the built system's effectiveness in maintaining frame rate and detecting out-of-distribution inputs due to the false positives of a preceding YOLO-based traffic sign detector.
翻訳日:2022-04-19 16:03:28 公開日:2022-04-18
# Devil is the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training

The Devil is in the Frequency: Geminated Gestalt Autoencoder for Self-Supervised Visual Pre-Training ( http://arxiv.org/abs/2204.08227v1 )

ライセンス: Link先を確認
Hao Liu, Xinghua Jiang, Xin Li, Antai Guo, Deqiang Jiang, Bo Ren(参考訳) マスク・アンド・リコンストラクト(mask-and-reconstruc t)パイプラインに倣った自己教師型マスケ画像モデリング(MIM)スキーマは、最近、ラベルのないデータから視覚表現を学習する優れた能力のため、マルチメディアコミュニティへの関心が高まっている。 高い意味論を抽象化した表現を学習することを目的として、大規模なマスキング戦略で非意味的なピクセルを再構築しようとする研究グループがある。 それらと異なり、視野を自然にグローバルな視点を持つフーリエ領域にシフトし、視覚前トレーニングのためにGeminated Gestalt Autoencoder (Ge$^2$-AE) と呼ばれる新しいMasked Image Modeling (MIM) を提示する。 具体的には,画素空間と周波数空間の両方から画像コンテンツの再構成を行うジェミネートデコーダをモデルに装備し,相互制約の補間だけでなく相互制約としても機能する。 このようにして、より堅牢な表現を事前訓練されたエンコーダで学習することができ、その効果は下流認識タスクの実験結果によって確認される。 また,本手法の学習行動を調べるために,数種類の定量的,定性的実験を行った。 我々の知る限り、これは周波数領域のレンズを通して視覚前訓練を解決する最初のMIM研究である。

The self-supervised Masked Image Modeling (MIM) schema, following "mask-and-reconstruct " pipeline of recovering contents from masked image, has recently captured the increasing interest in the multimedia community, owing to the excellent ability of learning visual representation from unlabeled data. Aiming at learning representations with high semantics abstracted, a group of works attempts to reconstruct non-semantic pixels with large-ratio masking strategy, which may suffer from "over-smoothing" problem, while others directly infuse semantics into targets in off-line way requiring extra data. Different from them, we shift the perspective to the Fourier domain which naturally has global perspective and present a new Masked Image Modeling (MIM), termed Geminated Gestalt Autoencoder (Ge$^2$-AE) for visual pre-training. Specifically, we equip our model with geminated decoders in charge of reconstructing image contents from both pixel and frequency space, where each other serves as not only the complementation but also the reciprocal constraints. Through this way, more robust representations can be learned in the pre-trained encoders, of which the effectiveness is confirmed by the juxtaposing experimental results on downstream recognition tasks. We also conduct several quantitative and qualitative experiments to investigate the learning behavior of our method. To our best knowledge, this is the first MIM work to solve the visual pre-training through the lens of frequency domain.
翻訳日:2022-04-19 16:02:41 公開日:2022-04-18
# 無人乾燥草本バイオマス推定のためのドローン画像の教師なし領域適応と超解像

Unsupervised domain adaptation and super resolution on drone images for autonomous dry herbage biomass estimation ( http://arxiv.org/abs/2204.08271v1 )

ライセンス: Link先を確認
Paul Albert, Mohamed Saadeldin, Badri Narayanan, Jaime Fernandez, Brian Mac Namee, Deirdre Hennessey, Noel E. O'Connor and Kevin McGuinness(参考訳) ハーベージの大量生産と組成推定は、乳生産における高品質のハーベージの適切な供給を確保するために、乳農家にとって重要なツールである。 除草量と組成を正確に推定することにより、窒素施肥戦略を展開して除草地の局所化領域を改善し、生物多様性や環境に対する過剰受精の影響を効果的に低減することができる。 この文脈において、深層学習アルゴリズムは、草本フィールドからサンプルを切断し、草本内のすべての植物種を手で選別する破壊的なプロセスを含む、通常のスワード組成推定の方法に代わる誘惑的な手段を提供する。 このプロセスは労働集約的で時間がかかり、農家には使われない。 深層学習は、地上の高解像度カメラによって収集された画像に対して、この文脈でうまく適用されている。 しかし、深層学習ソリューションをドローン画像に移行することで、フィールド/パドックが占める大きな表面への地上レベルの推定を拡大することにより、ハーベージ質量収量と組成推定タスクをさらに改善する可能性がある。 ドローン画像は、高地から撮影されたフィールドの低解像度ビューを犠牲にしており、ドローン画像で覆われた大きな表面からさらに草の生い茂る地表面を収集する必要がある。 本稿では,地上画像から学習した知識を生のドローン画像に教師なしで転送することを提案する。 そのために、ドローン画像の解像度を8倍に増やし、地上レベルの画像に近く見えるように修正する。 そして...~\url{www.github.com/paula lbert31/clover_ssl}。

Herbage mass yield and composition estimation is an important tool for dairy farmers to ensure an adequate supply of high quality herbage for grazing and subsequently milk production. By accurately estimating herbage mass and composition, targeted nitrogen fertiliser application strategies can be deployed to improve localised regions in a herbage field, effectively reducing the negative impacts of over-fertilization on biodiversity and the environment. In this context, deep learning algorithms offer a tempting alternative to the usual means of sward composition estimation, which involves the destructive process of cutting a sample from the herbage field and sorting by hand all plant species in the herbage. The process is labour intensive and time consuming and so not utilised by farmers. Deep learning has been successfully applied in this context on images collected by high-resolution cameras on the ground. Moving the deep learning solution to drone imaging, however, has the potential to further improve the herbage mass yield and composition estimation task by extending the ground-level estimation to the large surfaces occupied by fields/paddocks. Drone images come at the cost of lower resolution views of the fields taken from a high altitude and requires further herbage ground-truth collection from the large surfaces covered by drone images. This paper proposes to transfer knowledge learned on ground-level images to raw drone images in an unsupervised manner. To do so, we use unpaired image style translation to enhance the resolution of drone images by a factor of eight and modify them to appear closer to their ground-level counterparts. We then ... ~\url{www.github.com/PaulA lbert31/Clover_SSL}.
翻訳日:2022-04-19 16:02:11 公開日:2022-04-18
# 拡張現実におけるサリエンシ

Saliency in Augmented Reality ( http://arxiv.org/abs/2204.08308v1 )

ライセンス: Link先を確認
Huiyu Duan, Wei Shen, Xiongkuo Min, Danyang Tu, Jing Li and Guangtao Zhai(参考訳) マルチメディア技術の急速な発展により、拡張現実(ar)は有望な次世代モバイルプラットフォームとなった。 ARの基礎となる理論は人間の視覚的混乱であり、ユーザーはそれらを重ね合わせることで、現実世界のシーンと拡張されたコンテンツ(仮想のシーン)を同時に知覚することができる。 優れたQuality of Experience(QoE)を実現するためには、二つのシナリオ間の相互作用を理解し、ARコンテンツを調和して表示することが重要である。 しかし、この重ね合わせが人間の視覚にどのように影響するかの研究は不足している。 そこで本稿では,背景(BG)シーンとARコンテンツとの相互作用効果を主に分析し,ARにおけるサリエンシ予測問題について検討する。 具体的には,まず, 450 bg画像, 450 ar画像を含むarデータセット (sard) と, 3つの混合レベルと組み合わせてbgとar画像を重ね合わせて生成した1350個の重畳画像を構築した。 60名の被験者による大規模眼球追跡実験を行い、眼球運動データを収集した。 本稿では,ARの精度をよりよく予測するために,ベクトル量子化サリエンシ予測法を提案し,それをARのサリエンシ予測のために一般化する。 比較のために,提案手法とともに3つのベンチマーク手法を提案し,評価した。 実験により,提案手法がベンチマーク法よりも有意な正解率予測問題とAR正解率予測問題の両方に優れていることを示す。 当社のデータ収集方法論,データセット,ベンチマーク手法,提案するサリエンシーモデルは,今後の研究を促進するために公開される予定だ。

With the rapid development of multimedia technology, Augmented Reality (AR) has become a promising next-generation mobile platform. The primary theory underlying AR is human visual confusion, which allows users to perceive the real-world scenes and augmented contents (virtual-world scenes) simultaneously by superimposing them together. To achieve good Quality of Experience (QoE), it is important to understand the interaction between two scenarios, and harmoniously display AR contents. However, studies on how this superimposition will influence the human visual attention are lacking. Therefore, in this paper, we mainly analyze the interaction effect between background (BG) scenes and AR contents, and study the saliency prediction problem in AR. Specifically, we first construct a Saliency in AR Dataset (SARD), which contains 450 BG images, 450 AR images, as well as 1350 superimposed images generated by superimposing BG and AR images in pair with three mixing levels. A large-scale eye-tracking experiment among 60 subjects is conducted to collect eye movement data. To better predict the saliency in AR, we propose a vector quantized saliency prediction method and generalize it for AR saliency prediction. For comparison, three benchmark methods are proposed and evaluated together with our proposed method on our SARD. Experimental results demonstrate the superiority of our proposed method on both of the common saliency prediction problem and the AR saliency prediction problem over benchmark methods. Our data collection methodology, dataset, benchmark methods, and proposed saliency models will be publicly available to facilitate future research.
翻訳日:2022-04-19 16:01:45 公開日:2022-04-18
# bsrt:スウィントランスとフロー誘導変形アライメントによるバースト超解像の改善

BSRT: Improving Burst Super-Resolution with Swin Transformer and Flow-Guided Deformable Alignment ( http://arxiv.org/abs/2204.08332v1 )

ライセンス: Link先を確認
Ziwei Luo, Youwei Li, Shen Cheng, Lei Yu, Qi Wu, Zhihong Wen, Haoqiang Fan, Jian Sun, Shuaicheng Liu(参考訳) この研究は新しいアーキテクチャを使ってBurst Super-Resolution (BurstSR)タスクに対処し、ノイズ、不一致、低解像度のRAWバーストから高品質な画像を復元する必要がある。 BurstSRの課題を克服するため,Bast Super-Resolution Transformer (BSRT)を提案する。 この目的を達成するために、Pyramid FG-DCN(Pyramid Flow-Guided Deformable Convolution Network)を提案し、Swin Transformer Blocks and Groupsをメインバックボーンとして組み込む。 より具体的には、光学フローと変形可能な畳み込みを組み合わせることで、BSRTはミスアライメントを処理し、潜在的テクスチャ情報を多フレームでより効率的に集約することができる。 さらに、トランスベース構造は長距離依存性を捕捉し、さらなる性能向上を図ることができる。 合成トラックと実世界のトラックの評価は,BurstSRタスクにおける新しい最先端のタスクを実現することを実証している。 さらに,我々のBSRTはNTIRE2022 Burst Super-Resolution Challengeで優勝した。

This work addresses the Burst Super-Resolution (BurstSR) task using a new architecture, which requires restoring a high-quality image from a sequence of noisy, misaligned, and low-resolution RAW bursts. To overcome the challenges in BurstSR, we propose a Burst Super-Resolution Transformer (BSRT), which can significantly improve the capability of extracting inter-frame information and reconstruction. To achieve this goal, we propose a Pyramid Flow-Guided Deformable Convolution Network (Pyramid FG-DCN) and incorporate Swin Transformer Blocks and Groups as our main backbone. More specifically, we combine optical flows and deformable convolutions, hence our BSRT can handle misalignment and aggregate the potential texture information in multi-frames more efficiently. In addition, our Transformer-based structure can capture long-range dependency to further improve the performance. The evaluation on both synthetic and real-world tracks demonstrates that our approach achieves a new state-of-the-art in BurstSR task. Further, our BSRT wins the championship in the NTIRE2022 Burst Super-Resolution Challenge.
翻訳日:2022-04-19 16:01:21 公開日:2022-04-18
# MHSCNet:ビデオ要約のためのマルチモーダル階層型ショットアウェア畳み込みネットワーク

MHSCNet: A Multimodal Hierarchical Shot-aware Convolutional Network for Video Summarization ( http://arxiv.org/abs/2204.08352v1 )

ライセンス: Link先を確認
Wujiang Xu, Shaoshuai Li, Qiongxu Ma, Yunan Zhao, Sheng Guo, jeff little Guo, Bing Han, Junchi Yan, Yifei Xu(参考訳) ビデオ要約は、コンテンツ全体の最も有益な部分を効果的に捉え結合することにより、簡潔なビデオ要約を作成することを目的としている。 既存のビデオ要約手法では、このタスクをフレームワイドキーフレーム選択問題とみなし、長い範囲の時間依存性と非モーダル情報やバイモーダル情報を組み合わせたフレームワイズ表現が一般的である。 しかし、最適なビデオ要約は、最も価値のあるキーフレームを自身の情報と、コンテンツ全体のセマンティックなパワーで反映する必要がある。 したがって、より強力で堅牢なフレームワイド表現を構築し、フレームレベルの重要度を公平かつ包括的に予測することが重要である。 上記の課題に対処するため,MHSCNetと呼ばれるマルチモーダル階層型ショット・アウェア・畳み込みネットワークを提案する。 具体的には,ショートレンジとロングレンジの時間依存性を考慮して,適応的なフレームレベル表現を組み込む階層型ShotConvネットワークを設計する。 学習されたショットアウェア表現に基づいて、mhscnetはビデオのローカルおよびグローバルビューにおけるフレームレベルの重要度スコアを予測できる。 2つの標準ビデオ要約データセットに関する広範囲な実験により,提案手法が最先端のベースラインを一貫して上回ることを示した。 ソースコードは公開される予定だ。

Video summarization intends to produce a concise video summary by effectively capturing and combining the most informative parts of the whole content. Existing approaches for video summarization regard the task as a frame-wise keyframe selection problem and generally construct the frame-wise representation by combining the long-range temporal dependency with the unimodal or bimodal information. However, the optimal video summaries need to reflect the most valuable keyframe with its own information, and one with semantic power of the whole content. Thus, it is critical to construct a more powerful and robust frame-wise representation and predict the frame-level importance score in a fair and comprehensive manner. To tackle the above issues, we propose a multimodal hierarchical shot-aware convolutional network, denoted as MHSCNet, to enhance the frame-wise representation via combining the comprehensive available multimodal information. Specifically, we design a hierarchical ShotConv network to incorporate the adaptive shot-aware frame-level representation by considering the short-range and long-range temporal dependency. Based on the learned shot-aware representations, MHSCNet can predict the frame-level importance score in the local and global view of the video. Extensive experiments on two standard video summarization datasets demonstrate that our proposed method consistently outperforms state-of-the-art baselines. Source code will be made publicly available.
翻訳日:2022-04-19 16:01:00 公開日:2022-04-18
# 非拘束道路でのオートバイライダーの交通違反の検出、追跡、計数

Detecting, Tracking and Counting Motorcycle Rider Traffic Violations on Unconstrained Roads ( http://arxiv.org/abs/2204.08364v1 )

ライセンス: Link先を確認
Aman Goyal, Dev Agarwal, Anbumani Subramanian, C.V. Jawahar, Ravi Kiran Sarvadevabhatla, Rohit Saluja(参考訳) 制限のない道路交通条件の多くのアジア諸国では、ヘルメットやトリプルライディングなどの運転違反がオートバイの死亡原因となっている。 このような乗客の特定と罰則は、道路事故の抑制と市民の安全向上に不可欠である。 このモチベーションにより,車載ダッシュボードカメラから撮影した映像において,オートバイの乗車違反を検出し,追跡し,計数する手法を提案する。 我々は、オクルージョンのような難解なシナリオに対処するために、カリキュラムベースのオブジェクト検出器を用いています。 我々は,新しいトラペジウム形物体境界表現を導入し,ロバスト性を高め,ライダー・モーターサイクル・アソシエーションに取り組む。 また,オクルードライダーのバウンディングボックスを生成するアモーダルレグレッサについても紹介する。 大規模非拘束運転データセットによる実験結果から,既存手法および他の改良型と比較して,我々のアプローチの優位性を示した。

In many Asian countries with unconstrained road traffic conditions, driving violations such as not wearing helmets and triple-riding are a significant source of fatalities involving motorcycles. Identifying and penalizing such riders is vital in curbing road accidents and improving citizens' safety. With this motivation, we propose an approach for detecting, tracking, and counting motorcycle riding violations in videos taken from a vehicle-mounted dashboard camera. We employ a curriculum learning-based object detector to better tackle challenging scenarios such as occlusions. We introduce a novel trapezium-shaped object boundary representation to increase robustness and tackle the rider-motorcycle association. We also introduce an amodal regressor that generates bounding boxes for the occluded riders. Experimental results on a large-scale unconstrained driving dataset demonstrate the superiority of our approach compared to existing approaches and other ablative variants.
翻訳日:2022-04-19 16:00:37 公開日:2022-04-18
# 自己標識画像によるディープフェイクの検出

Detecting Deepfakes with Self-Blended Images ( http://arxiv.org/abs/2204.08376v1 )

ライセンス: Link先を確認
Kaede Shiohara and Toshihiko Yamasaki(参考訳) 本稿では,Deepfakesを検出するために,SBI(Self-blended Image)と呼ばれる新しい合成トレーニングデータを提案する。 SBIは、単一のプリスタンイメージから擬似ソースとターゲットイメージをブレンドし、共通の偽造品(例えば、ソースとターゲットイメージのブレンド境界と統計的不整合)を再現することによって生成される。 sbisの背後にある重要な考え方は、より一般的で認識できない偽のサンプルは、分類器が操作固有のアーティファクトに過剰に適合することなく、汎用的で堅牢な表現を学ぶことを奨励する。 提案手法は,FF++,CDF,DFD,DFDC,DFDCP, FFIWのデータセットに対して,標準のクロスデータセットおよびクロス操作プロトコルに従うことによって,最先端の手法と比較する。 広範な実験により,本手法は未知の操作やシーンに対するモデル一般化を改善していることが示された。 特に,既存の手法がトレーニングセットとテストセットのドメインギャップに苦しむdfdcとdfdcpでは,クロスデータセット評価において,ベースラインを4.90%,11.78%上回っている。

In this paper, we present novel synthetic training data called self-blended images (SBIs) to detect deepfakes. SBIs are generated by blending pseudo source and target images from single pristine images, reproducing common forgery artifacts (e.g., blending boundaries and statistical inconsistencies between source and target images). The key idea behind SBIs is that more general and hardly recognizable fake samples encourage classifiers to learn generic and robust representations without overfitting to manipulation-specifi c artifacts. We compare our approach with state-of-the-art methods on FF++, CDF, DFD, DFDC, DFDCP, and FFIW datasets by following the standard cross-dataset and cross-manipulation protocols. Extensive experiments show that our method improves the model generalization to unknown manipulations and scenes. In particular, on DFDC and DFDCP where existing methods suffer from the domain gap between the training and test sets, our approach outperforms the baseline by 4.90% and 11.78% points in the cross-dataset evaluation, respectively.
翻訳日:2022-04-19 16:00:26 公開日:2022-04-18
# 航空視測位のためのマルチ環境自己適応ネットワーク

Multiple-environment Self-adaptive Network for Aerial-view Geo-localization ( http://arxiv.org/abs/2204.08381v1 )

ライセンス: Link先を確認
Tingyu Wang, Zhedong Zheng, Yaoqi Sun, Tat-Seng Chua, Yi Yang, and Chenggang Yan(参考訳) 航空ビューのジオローカライゼーションは、ドローンビュー画像とジオタグの衛星ビュー画像とをマッチングすることにより、未知の位置を決定する傾向がある。 このタスクは、主に画像検索問題と見なされている。 このタスクの鍵となるのは、識別的画像記述子を学ぶために一連のディープニューラルネットワークを設計することである。 しかし,既存の手法は,訓練データと複数のテスト環境の領域シフトを考慮していないため,雨や霧などの現実的な天候下での大きな性能低下に対応する。 このドメインギャップを小さくするために,環境変化によるドメインシフトを動的に調整するマルチ環境自己適応ネットワーク(muse-net)を提案する。 特に、MuSe-Netは、1つの多重環境スタイル抽出ネットワークと1つの自己適応的特徴抽出ネットワークを含む2分岐ニューラルネットワークを使用している。 名前が示すように、マルチ環境スタイル抽出ネットワークは環境関連スタイル情報を抽出し、自己適応型特徴抽出ネットワークは適応変調モジュールを用いて環境関連スタイルギャップを動的に最小化する。 広く使われている2つのベンチマーク、すなわちUniversity-1652とCVUSAの広範な実験は、提案された MuSe-Net が複数の環境における地理的局所化の競合的な結果をもたらすことを示した。 また,提案手法は,霧,雨,雪を混合するなど,目に見えない極端な気象にも大きな可能性があることを観測した。

Aerial-view geo-localization tends to determine an unknown position through matching the drone-view image with the geo-tagged satellite-view image. This task is mostly regarded as an image retrieval problem. The key underpinning this task is to design a series of deep neural networks to learn discriminative image descriptors. However, existing methods meet large performance drops under realistic weather, such as rain and fog, since they do not take the domain shift between the training data and multiple test environments into consideration. To minor this domain gap, we propose a Multiple-environment Self-adaptive Network (MuSe-Net) to dynamically adjust the domain shift caused by environmental changing. In particular, MuSe-Net employs a two-branch neural network containing one multiple-environment style extraction network and one self-adaptive feature extraction network. As the name implies, the multiple-environment style extraction network is to extract the environment-related style information, while the self-adaptive feature extraction network utilizes an adaptive modulation module to dynamically minimize the environment-related style gap. Extensive experiments on two widely-used benchmarks, i.e., University-1652 and CVUSA, demonstrate that the proposed MuSe-Net achieves a competitive result for geo-localization in multiple environments. Furthermore, we observe that the proposed method also shows great potential to the unseen extreme weather, such as mixing the fog, rain and snow.
翻訳日:2022-04-19 16:00:03 公開日:2022-04-18
# セマンティックセグメンテーションのための教師なしコントラスト領域適応

Unsupervised Contrastive Domain Adaptation for Semantic Segmentation ( http://arxiv.org/abs/2204.08399v1 )

ライセンス: Link先を確認
Feihu Zhang, Vladlen Koltun, Philip Torr, Ren\'e Ranftl, Stephan R. Richter(参考訳) セマンティックセグメンテーションモデルは、ドメインシフトの存在下で一般化するのに苦労する。 本稿では,クロスドメイン適応における特徴アライメントのためのコントラスト学習を提案する。 ドメイン内のコントラスト対とクロスドメインのコントラスト対の両方を組み立てて、ドメインをまたがる識別的特徴を学ぶ。 結果として得られた機能表現に基づいて、適応プロセス中にハードクラスからサンプルを発見できるラベル拡張アプローチを導入し、パフォーマンスをさらに向上させます。 提案手法はドメイン適応のための最先端手法を一貫して上回る。 合成GTA5データセットと未ラベルのCityscapesイメージのトレーニングで、Cityscapesデータセット上で60.2% mIoUを達成した。

Semantic segmentation models struggle to generalize in the presence of domain shift. In this paper, we introduce contrastive learning for feature alignment in cross-domain adaptation. We assemble both in-domain contrastive pairs and cross-domain contrastive pairs to learn discriminative features that align across domains. Based on the resulting well-aligned feature representations we introduce a label expansion approach that is able to discover samples from hard classes during the adaptation process to further boost performance. The proposed approach consistently outperforms state-of-the-art methods for domain adaptation. It achieves 60.2% mIoU on the Cityscapes dataset when training on the synthetic GTA5 dataset together with unlabeled Cityscapes images.
翻訳日:2022-04-19 15:58:49 公開日:2022-04-18
# vsa: 視覚トランスフォーマーにおける可変サイズのウィンドウアテンションの学習

VSA: Learning Varied-Size Window Attention in Vision Transformers ( http://arxiv.org/abs/2204.08446v1 )

ライセンス: Link先を確認
Qiming Zhang, Yufei Xu, Jing Zhang, Dacheng Tao(参考訳) ウィンドウ内の注意は、性能、計算複雑性、メモリフットプリントのバランスをとるために、視覚変換器で広く研究されている。 しかし、現在のモデルは手作りの固定サイズウィンドウデザインを採用しており、これは長期依存をモデル化し、異なるサイズのオブジェクトに適応する能力を制限する。 この欠点に対処するために、データから適応的なウィンドウ構成を学習するために、 \textbf{V}aried-\textbf{S}ize Window \textbf{A}ttention (VSA)を提案する。 具体的には、デフォルトウィンドウ内のトークンに基づいて、VSAはターゲットウィンドウのサイズと位置、すなわちキーと値トークンがサンプリングされる注意領域を予測するために、ウィンドウ回帰モジュールを使用する。 各アテンションヘッドに独立してVSAを採用することで、長期依存関係をモデル化し、多様なウィンドウからリッチなコンテキストをキャプチャし、重なり合うウィンドウ間での情報交換を促進することができる。 vsaは実装が容易なモジュールで、最先端の代表モデルのウィンドウの注意を小さな修正と余分な計算コストで置き換えることができると同時に、imagenetの分類においてswin-tの1.1\%のような大きなマージンで性能を向上させることができる。 さらに、トレーニングやテストにより大きな画像を使用すると、パフォーマンスが向上する。 オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーションなどの下流タスクの実験結果は、異なるサイズのオブジェクトを扱う場合のバニラウィンドウに対するVSAの優位性をさらに証明している。 コードはhttps://github.com/V iTAE-Transformer/ViT AE-VSAでリリースされる。

Attention within windows has been widely explored in vision transformers to balance the performance, computation complexity, and memory footprint. However, current models adopt a hand-crafted fixed-size window design, which restricts their capacity of modeling long-term dependencies and adapting to objects of different sizes. To address this drawback, we propose \textbf{V}aried-\textbf{S}ize Window \textbf{A}ttention (VSA) to learn adaptive window configurations from data. Specifically, based on the tokens within each default window, VSA employs a window regression module to predict the size and location of the target window, i.e., the attention area where the key and value tokens are sampled. By adopting VSA independently for each attention head, it can model long-term dependencies, capture rich context from diverse windows, and promote information exchange among overlapped windows. VSA is an easy-to-implement module that can replace the window attention in state-of-the-art representative models with minor modifications and negligible extra computational cost while improving their performance by a large margin, e.g., 1.1\% for Swin-T on ImageNet classification. In addition, the performance gain increases when using larger images for training and test. Experimental results on more downstream tasks, including object detection, instance segmentation, and semantic segmentation, further demonstrate the superiority of VSA over the vanilla window attention in dealing with objects of different sizes. The code will be released https://github.com/V iTAE-Transformer/ViT AE-VSA.
翻訳日:2022-04-19 15:58:38 公開日:2022-04-18
# 神経空間充填曲線

Neural Space-filling Curves ( http://arxiv.org/abs/2204.08453v1 )

ライセンス: Link先を確認
Hanyu Wang, Kamal Gupta, Larry Davis, Abhinav Shrivastava(参考訳) 本研究では,画像集合の文脈に基づくスキャン順序を推定するデータ駆動手法であるneural space-filling curves (sfcs)を提案する。 ピクセルの線形順序付けは、画像の生成的モデリングに使用されるビデオスクランブル、圧縮、自動回帰モデルなどの多くの応用の基礎となる。 既存のアルゴリズムはラスタースキャンやヒルベルトスキャンのような固定走査アルゴリズムに依存している。 代わりに,画像のデータセットから,グラフベースのニューラルネットワークを用いて,空間的にコヒーレントな画素順序を学習する。 結果のNeural SFCは、スキャンラインオーダーとともに画像がトラバースされたときの下流タスクに適した目的のために最適化される。 画像圧縮などの下流アプリケーションでニューラルネットワークsfcを使用することの利点を示す。 コードと追加結果はhttps://hywang66.git hub.io/publication/n euralsfcで入手できる。

We present Neural Space-filling Curves (SFCs), a data-driven approach to infer a context-based scan order for a set of images. Linear ordering of pixels forms the basis for many applications such as video scrambling, compression, and auto-regressive models that are used in generative modeling for images. Existing algorithms resort to a fixed scanning algorithm such as Raster scan or Hilbert scan. Instead, our work learns a spatially coherent linear ordering of pixels from the dataset of images using a graph-based neural network. The resulting Neural SFC is optimized for an objective suitable for the downstream task when the image is traversed along with the scan line order. We show the advantage of using Neural SFCs in downstream applications such as image compression. Code and additional results will be made available at https://hywang66.git hub.io/publication/n euralsfc.
翻訳日:2022-04-19 15:58:07 公開日:2022-04-18
# fedkl:penalizing kl divergenceによるfederated reinforcement learningにおけるデータ不均一性への取り組み

FedKL: Tackling Data Heterogeneity in Federated Reinforcement Learning by Penalizing KL Divergence ( http://arxiv.org/abs/2204.08125v1 )

ライセンス: Link先を確認
Zhijie Xie and S.H. Song(参考訳) 分散学習パラダイムとして、フェデレーション学習(fl)は、多くのモデルの同期と集約が原因で通信ボトルネックに直面している。 不均質なデータにより、コンバージェンスが遅くなることにより状況はさらに悪化する。 教師付きFLに対するデータ不均一性の影響は広く研究されているが、フェデレート強化学習(FRL)の関連研究はまだ初期段階である。 本稿ではまず,政策勾配に基づくFRLシステムにおけるデータ不均一性のタイプとレベルを定義する。 グローバルとローカルの客観的関数間の接続を検査することにより、ローカルなトレーニングは、ローカルな更新がローカルとグローバルのポリシー間の総変動(tv)距離によって適切にペナルティ化されている場合、グローバルな目標に利益をもたらすことを証明します。 地域政策から学習可能なグローバル政策に必要な条件も導出され、これは不均一性レベルに直接関係している。 理論的結果に基づいて,パラメータ空間におけるモデル分散をペナルティ化する従来の手法とは違い,分布空間におけるモデル出力を直接的に制約するKL(Kullback-Leibler) の発散に基づくペナルティを提案する。 地域政策とグローバルペナルティとの相違を共同で罰し,地域訓練の各イテレーションを地域ペナルティと制約することにより,学習速度(ステップサイズ)と収束率のトレードオフを向上する。 2つのRL実験プラットフォームの実験結果から, 学習過程を不均一なデータで高速化・安定化する既存手法よりも, 提案アルゴリズムの利点が示された。

As a distributed learning paradigm, Federated Learning (FL) faces the communication bottleneck issue due to many rounds of model synchronization and aggregation. Heterogeneous data further deteriorates the situation by causing slow convergence. Although the impact of data heterogeneity on supervised FL has been widely studied, the related investigation for Federated Reinforcement Learning (FRL) is still in its infancy. In this paper, we first define the type and level of data heterogeneity for policy gradient based FRL systems. By inspecting the connection between the global and local objective functions, we prove that local training can benefit the global objective, if the local update is properly penalized by the total variation (TV) distance between the local and global policies. A necessary condition for the global policy to be learn-able from the local policy is also derived, which is directly related to the heterogeneity level. Based on the theoretical result, a Kullback-Leibler (KL) divergence based penalty is proposed, which, different from the conventional method that penalizes the model divergence in the parameter space, directly constrains the model outputs in the distribution space. By jointly penalizing the divergence of the local policy from the global policy with a global penalty and constraining each iteration of the local training with a local penalty, the proposed method achieves a better trade-off between training speed (step size) and convergence. Experiment results on two popular RL experiment platforms demonstrate the advantage of the proposed algorithm over existing methods in accelerating and stabilizing the training process with heterogeneous data.
翻訳日:2022-04-19 15:54:13 公開日:2022-04-18
# 共通特異値分解による行列集合の共通基底の高速最適化

Fast optimization of common basis for matrix set through Common Singular Value Decomposition ( http://arxiv.org/abs/2204.08242v1 )

ライセンス: Link先を確認
Jarek Duda(参考訳) SVD(singular value decomposition)は機械学習の基本ツールの一つであり、与えられた行列の基底を最適化することができる。 しかし、代わりに$\{a_k\}_k$という行列の集合があり、それらの単一の共通基底を最適化したい:$u$、$v$という直交行列を見つければ、$\{u^t a_k v\}$ 行列の集合は幾分単純になる。 例えば、DCT-IIはイメージ/ビデオ圧縮で一般的に使用される関数の正規直交基底である。 また、勾配降下最適化は計算コストがかかる可能性があるが、CSVD (Common SVD: fast general approach based SVD) が提案されている。 具体的には、$U$を$\sum_i (w_k)^q (A_k A_k^T)^p$ と $V$ of $\sum_k (w_k)^q (A_k^T A_k)^p$, where $w_k$ are their weights, $p,q>0$ の固有ベクトルの組として選ぶ。

SVD (singular value decomposition) is one of the basic tools of machine learning, allowing to optimize basis for a given matrix. However, sometimes we have a set of matrices $\{A_k\}_k$ instead, and would like to optimize a single common basis for them: find orthogonal matrices $U$, $V$, such that $\{U^T A_k V\}$ set of matrices is somehow simpler. For example DCT-II is orthonormal basis of functions commonly used in image/video compression - as discussed here, this kind of basis can be quickly automatically optimized for a given dataset. While also discussed gradient descent optimization might be computationally costly, there is proposed CSVD (common SVD): fast general approach based on SVD. Specifically, we choose $U$ as built of eigenvectors of $\sum_i (w_k)^q (A_k A_k^T)^p$ and $V$ of $\sum_k (w_k)^q (A_k^T A_k)^p$, where $w_k$ are their weights, $p,q>0$ are some chosen powers e.g. 1/2, optionally with normalization e.g. $A \to A - rc^T$ where $r_i=\sum_j A_{ij}, c_j =\sum_i A_{ij}$.
翻訳日:2022-04-19 15:53:45 公開日:2022-04-18
# HRCF:双曲幾何正規化による協調フィルタリングの強化

HRCF: Enhancing Collaborative Filtering via Hyperbolic Geometric Regularization ( http://arxiv.org/abs/2204.08176v1 )

ライセンス: Link先を確認
Menglin Yang, Min Zhou, Jiahong Liu, Defu Lian, Irwin King(参考訳) 大規模レコメンデーションシステムでは、ユーザテーマネットワークは一般にスケールフリーか指数関数的に拡張される。 ユーザとアイテムを記述するために使用される潜伏的特徴(埋め込みとも呼ばれる)は、埋め込み空間がデータの分散にどの程度うまく適合するかによって決定される。 双曲空間は、その負の曲率と計量特性で埋め込みを学ぶための広い空間を提供する。 近年,ユーザやアイテムの質の高い表現を学ぶための双曲的手法が提案されている。 しかし、それらの多くは適切な射影演算を設計することで双曲的同時性の開発に集中しているが、双曲的空間の多くの有利でエキサイティングな幾何学的性質は明らかには明らかにされていない。 例えば、双曲空間の最も重要な性質の1つは、その容量空間が半径とともに指数関数的に増加することである。 双曲空間の幾何学的性質については, HRCF (textit{Hyperbolic Regularization powered Collaborative Filtering}) を導入し, 幾何対応双曲正規化器を設計する。 具体的には、ルートアライメントとオリジン認識ペナルティによって最適化手順が促進される。 理論的解析により,本提案では,双曲的凝集による過度な平滑化問題に対処でき,モデルの識別能力も向上することを示した。 我々は,いくつかの公開ベンチマークにおいて,提案手法を多数のベースラインと比較し,広範な実証分析を行う。 実験結果から,我々のアプローチは高い競合性能を達成し,有意な差で有意なユークリッドベースラインと双曲線ベースラインを上回った。 さらなる分析は...検証する。

In large-scale recommender systems, the user-item networks are generally scale-free or expand exponentially. The latent features (also known as embeddings) used to describe the user and item are determined by how well the embedding space fits the data distribution. Hyperbolic space offers a spacious room to learn embeddings with its negative curvature and metric properties, which can well fit data with tree-like structures. Recently, several hyperbolic approaches have been proposed to learn high-quality representations for the users and items. However, most of them concentrate on developing the hyperbolic similitude by designing appropriate projection operations, whereas many advantageous and exciting geometric properties of hyperbolic space have not been explicitly explored. For example, one of the most notable properties of hyperbolic space is that its capacity space increases exponentially with the radius, which indicates the area far away from the hyperbolic origin is much more embeddable. Regarding the geometric properties of hyperbolic space, we bring up a \textit{Hyperbolic Regularization powered Collaborative Filtering} (HRCF) and design a geometric-aware hyperbolic regularizer. Specifically, the proposal boosts optimization procedure via the root alignment and origin-aware penalty, which is simple yet impressively effective. Through theoretical analysis, we further show that our proposal is able to tackle the over-smoothing problem caused by hyperbolic aggregation and also brings the models a better discriminative ability. We conduct extensive empirical analysis, comparing our proposal against a large set of baselines on several public benchmarks. The empirical results show that our approach achieves highly competitive performance and surpasses both the leading Euclidean and hyperbolic baselines by considerable margins. Further analysis verifies ...
翻訳日:2022-04-19 15:50:26 公開日:2022-04-18
# (参考訳) 多言語トランスフォーマの次元性低減手法の検討 [全文訳有]

Exploring Dimensionality Reduction Techniques in Multilingual Transformers ( http://arxiv.org/abs/2204.08415v1 )

ライセンス: CC BY 4.0
\'Alvaro Huertas-Garc\'ia, Alejandro Mart\'in, Javier Huertas-Tato, David Camacho(参考訳) 科学文献と産業において、セマンティックおよび文脈対応自然言語処理ベースのソリューションは近年重要視されている。 複雑な言語理解タスクを扱う際にこれらのモデルによって示される可能性と性能は、対話型エージェントからソーシャルネットワークにおける偽情報との戦いまで、疑わしいものではない。 さらに、言語ボトルネックに対処する多言語モデルの開発にもかなりの注意が払われている。 これらの機能をすべて実装したより複雑なモデルを提供する必要性が高まるにつれ、必要な次元の数を保守的にすることなく、サイズが大きくなる。 本稿では, 線形および非線形特徴抽出, 特徴選択, 多様体技術などの非教師なし次元化技術を含む, 最先端多言語シームズ変圧器の性能に及ぼす多次元化技術の影響を包括的に考察することを目的とする。 これらの手法の有効性を評価するために,セマンティックテキスト類似性ベンチマーク(mSTSb)の多言語拡張版と,いくつかのモデルの事前学習版と,その微調整版を用いた2つのベースラインアプローチを検討した。 結果は、それぞれ91.58\% \pm 2.59\%$と54.65\% \pm 32.20\%$の次元を平均で減少させることが可能であることを示している。 この研究は、可視化のための次元削減の結果も考慮している。 本研究の結果は,異なるチューニング手法が意味認識タスクのパフォーマンスに与える影響と,STSタスクに計算された高次元埋め込みと高要求のNLPタスクにどう対処するかの理解に大きく貢献する。

Both in scientific literature and in industry,, Semantic and context-aware Natural Language Processing-based solutions have been gaining importance in recent years. The possibilities and performance shown by these models when dealing with complex Language Understanding tasks is unquestionable, from conversational agents to the fight against disinformation in social networks. In addition, considerable attention is also being paid to developing multilingual models to tackle the language bottleneck. The growing need to provide more complex models implementing all these features has been accompanied by an increase in their size, without being conservative in the number of dimensions required. This paper aims to give a comprehensive account of the impact of a wide variety of dimensional reduction techniques on the performance of different state-of-the-art multilingual Siamese Transformers, including unsupervised dimensional reduction techniques such as linear and nonlinear feature extraction, feature selection, and manifold techniques. In order to evaluate the effects of these techniques, we considered the multilingual extended version of Semantic Textual Similarity Benchmark (mSTSb) and two different baseline approaches, one using the pre-trained version of several models and another using their fine-tuned STS version. The results evidence that it is possible to achieve an average reduction in the number of dimensions of $91.58\% \pm 2.59\%$ and $54.65\% \pm 32.20\%$, respectively. This work has also considered the consequences of dimensionality reduction for visualization purposes. The results of this study will significantly contribute to the understanding of how different tuning approaches affect performance on semantic-aware tasks and how dimensional reduction techniques deal with the high-dimensional embeddings computed for the STS task and their potential for highly demanding NLP tasks
翻訳日:2022-04-19 15:48:25 公開日:2022-04-18
# (参考訳) 画像生成におけるデータ効率GANに関する総合的調査 [全文訳有]

A Comprehensive Survey on Data-Efficient GANs in Image Generation ( http://arxiv.org/abs/2204.08329v1 )

ライセンス: CC BY 4.0
Ziqiang Li, Xintian Wu, Beihao Xia, Jing Zhang, Chaoyue Wang, Bin Li(参考訳) GAN(Generative Adversarial Networks)は画像合成において顕著な成果を上げている。 GANの成功は大規模なデータセットに依存しており、コストが大きすぎる。 限られたトレーニングデータにより、GANのトレーニングプロセスを安定させ、現実的な画像を生成する方法が注目されている。 データ効率のよいGAN(DE-GAN)の課題は主に3つの側面から生じる。 (i)訓練と目標分布のミスマッチ。 (ii)差別者の過失,及び (iii)潜在空間とデータ空間の不均衡。 これらの問題を緩和するために多くの強化と事前学習戦略が提案されているが、デガンの性質、課題、解決策をまとめる体系的な調査が欠けている。 本稿では,分散最適化の観点からデガンを再検討し,定義する。 我々はD-GANの課題を結論付け分析する。 本稿では,既存の手法をデータ選択,GAN最適化,知識共有という3つのカテゴリに分類する分類法を提案する。 最後に、私たちは現在の問題と今後の方向性を強調しようと試みます。

Generative Adversarial Networks (GANs) have achieved remarkable achievements in image synthesis. These successes of GANs rely on large scale datasets, requiring too much cost. With limited training data, how to stable the training process of GANs and generate realistic images have attracted more attention. The challenges of Data-Efficient GANs (DE-GANs) mainly arise from three aspects: (i) Mismatch Between Training and Target Distributions, (ii) Overfitting of the Discriminator, and (iii) Imbalance Between Latent and Data Spaces. Although many augmentation and pre-training strategies have been proposed to alleviate these issues, there lacks a systematic survey to summarize the properties, challenges, and solutions of DE-GANs. In this paper, we revisit and define DE-GANs from the perspective of distribution optimization. We conclude and analyze the challenges of DE-GANs. Meanwhile, we propose a taxonomy, which classifies the existing methods into three categories: Data Selection, GANs Optimization, and Knowledge Sharing. Last but not the least, we attempt to highlight the current problems and the future directions.
翻訳日:2022-04-19 15:08:26 公開日:2022-04-18
# less is more: パーソナライズされた対話生成のための対話履歴を洗練する学習

Less is More: Learning to Refine Dialogue History for Personalized Dialogue Generation ( http://arxiv.org/abs/2204.08128v1 )

ライセンス: Link先を確認
Hanxun Zhong, Zhicheng Dou, Yutao Zhu, Hongjin Qian, Ji-Rong Wen(参考訳) パーソナライズされた対話システムは,近年注目を集めているユーザの個性に整合した応答を生成する問題を探求している。 既存のパーソナライズされた対話システムは、対話履歴からユーザプロファイルを抽出し、パーソナライズされた応答生成を導く。 対話履歴は通常長く騒がしいため、既存の方法の多くはユーザの性格をモデル化するために対話履歴を断ち切る。 このような手法は、パーソナライズされた応答を生成することができるが、対話履歴の大部分を無駄にし、パーソナライズされた応答生成の準最適性能をもたらす。 本研究では,対話履歴をより多く処理し,より豊富で正確なペルソナ情報を得ることのできる,ユーザ対話履歴を大規模に洗練することを提案する。 具体的には、3つの個人情報精製機とパーソナライズされた応答生成器からなるmspモデルを設計する。 これらの多層精錬機により、対話履歴から最も価値のある情報(トークン)を疎結合に抽出し、類似したユーザのデータを活用してパーソナライズを強化することができる。 2つの実世界のデータセットに対する実験結果は、より情報的でパーソナライズされた応答を生成する上で、我々のモデルが優れていることを示す。

Personalized dialogue systems explore the problem of generating responses that are consistent with the user's personality, which has raised much attention in recent years. Existing personalized dialogue systems have tried to extract user profiles from dialogue history to guide personalized response generation. Since the dialogue history is usually long and noisy, most existing methods truncate the dialogue history to model the user's personality. Such methods can generate some personalized responses, but a large part of dialogue history is wasted, leading to sub-optimal performance of personalized response generation. In this work, we propose to refine the user dialogue history on a large scale, based on which we can handle more dialogue history and obtain more abundant and accurate persona information. Specifically, we design an MSP model which consists of three personal information refiners and a personalized response generator. With these multi-level refiners, we can sparsely extract the most valuable information (tokens) from the dialogue history and leverage other similar users' data to enhance personalization. Experimental results on two real-world datasets demonstrate the superiority of our model in generating more informative and personalized responses.
翻訳日:2022-04-19 14:45:16 公開日:2022-04-18
# 変圧器の動的位置符号化

Dynamic Position Encoding for Transformers ( http://arxiv.org/abs/2204.08142v1 )

ライセンス: Link先を確認
Joyce Zheng, Mehdi Rezagholizadeh, Peyman Passban(参考訳) 再発モデルは、過去数年間、ニューラルネットワーク翻訳(NMT)の分野を支配してきた。 Transformers \citep{vaswani2017attention } は、フィードフォワードバックボーンとセルフアテンション機構に依存する新しいアーキテクチャを提案し、それを根本的に変えた。 トランスフォーマーは強力だが、非リカレントな性質のためにシーケンシャル/位置情報を適切にエンコードできない可能性がある。 この問題を解決するために、単語情報を豊かにする各時間ステップにのみ位置埋め込みが定義される。 しかし、そのような埋め込みは、ソースまたはターゲット言語のタスクおよびワード順序システムに関係なく、トレーニング後に固定される。 本稿では,対象単語の順序を考慮し,この欠点に対処するため,入力テキストに依存する新しい位置埋め込み型アーキテクチャを提案する。 事前に定義された位置埋め込みを使う代わりに、ソリューションの \textit{generates} は各単語の位置情報を洗練するための新しい埋め込みである。 我々は、ソーストークンの位置を定式化せず、エンドツーエンドで学習するため、この手法を \textit{dynamic} position encoding (DPE) と呼ぶ。 モデルが複数のデータセットに与える影響を評価し,ドイツ語,フランス語,イタリア語への翻訳を行い,トランスフォーマーと比較して有意義な改善が見られた。

Recurrent models have been dominating the field of neural machine translation (NMT) for the past few years. Transformers \citep{vaswani2017attention }, have radically changed it by proposing a novel architecture that relies on a feed-forward backbone and self-attention mechanism. Although Transformers are powerful, they could fail to properly encode sequential/positiona l information due to their non-recurrent nature. To solve this problem, position embeddings are defined exclusively for each time step to enrich word information. However, such embeddings are fixed after training regardless of the task and the word ordering system of the source or target language. In this paper, we propose a novel architecture with new position embeddings depending on the input text to address this shortcoming by taking the order of target words into consideration. Instead of using predefined position embeddings, our solution \textit{generates} new embeddings to refine each word's position information. Since we do not dictate the position of source tokens and learn them in an end-to-end fashion, we refer to our method as \textit{dynamic} position encoding (DPE). We evaluated the impact of our model on multiple datasets to translate from English into German, French, and Italian and observed meaningful improvements in comparison to the original Transformer.
翻訳日:2022-04-19 14:44:55 公開日:2022-04-18
# エンティティ検索を用いた要約要約の事実誤り訂正

Factual Error Correction for Abstractive Summaries Using Entity Retrieval ( http://arxiv.org/abs/2204.08263v1 )

ライセンス: Link先を確認
Hwanhee Lee, Cheoneum Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Juae Kim, Kyomin Jung(参考訳) 大規模データセットと事前学習言語モデルから得られた抽象要約システムの最近の進歩にもかかわらず、要約の事実的正確性はまだ不十分である。 この問題を軽減するための試行の1行は、要約で事実エラーを検出し修正できる後編集プロセスを含めることである。 このようなポスト編集システムを構築するには、強く要求される。 1) プロセスは高い成功率と解釈可能性を持ち、 2) 実行時間が速い。 従来のアプローチでは、解釈性に欠け、高い計算資源を必要とする自己回帰モデルを用いて要約の再生に重点を置いていた。 本稿では,エンティティ検索後編集プロセスに基づく効率的な事実誤り訂正システムRFECを提案する。 RFECはまず、その文と対象の要約とを比較して、元の文書から証拠文を検索する。 このアプローチは、システムが分析するテキストの長さを大幅に削減する。 次に、RFECは、証拠文を考慮し、要約中のエンティティレベルのエラーを検出し、証拠文から正確なエンティティに置換する。 実験の結果,提案する誤り訂正システムは,実際の誤りを高速に修正する上で,ベースライン法よりも高い競合性を示すことがわかった。

Despite the recent advancements in abstractive summarization systems leveraged from large-scale datasets and pre-trained language models, the factual correctness of the summary is still insufficient. One line of trials to mitigate this problem is to include a post-editing process that can detect and correct factual errors in the summary. In building such a post-editing system, it is strongly required that 1) the process has a high success rate and interpretability and 2) has a fast running time. Previous approaches focus on regeneration of the summary using the autoregressive models, which lack interpretability and require high computing resources. In this paper, we propose an efficient factual error correction system RFEC based on entities retrieval post-editing process. RFEC first retrieves the evidence sentences from the original document by comparing the sentences with the target summary. This approach greatly reduces the length of text for a system to analyze. Next, RFEC detects the entity-level errors in the summaries by considering the evidence sentences and substitutes the wrong entities with the accurate entities from the evidence sentences. Experimental results show that our proposed error correction system shows more competitive performance than baseline methods in correcting the factual errors with a much faster speed.
翻訳日:2022-04-19 14:42:52 公開日:2022-04-18
# GL-CLeF:言語間言語理解のためのグローバルローカルコントラスト学習フレームワーク

GL-CLeF: A Global-Local Contrastive Learning Framework for Cross-lingual Spoken Language Understanding ( http://arxiv.org/abs/2204.08325v1 )

ライセンス: Link先を確認
Libo Qin, Qiguang Chen, Tianbao Xie, Qixin Li, Jian-Guang Lou, Wanxiang Che, Min-Yen Kan(参考訳) 現在の手法では高いデータ要求があるため、ゼロショット言語間言語理解(SLU)への注目が高まり、このようなアプローチは人間のアノテーションの労力を大幅に削減する。 しかし、既存のモデルは共有パラメータのみに依存しており、言語間で暗黙のアライメントしか実行できない。 この問題に対処するために,グローバルローカルコントラスト学習フレームワーク(GL-CLeF)を提案する。 具体的には,二言語辞書を用いて同一発話の多言語ビューを構築し,その表現を負の例ペアよりも類似させるように促し,言語間の類似文の表現を明示的に整列させる。 さらに、GL-CLeFの重要なステップは、細粒度な言語間転送(文レベルのローカルインテント転送、トークンレベルのローカルスロット転送、インテントとスロット間のセマンティックレベルのグローバル転送)を実現するローカル・グローバルコンポーネントである。 MultiATIS++の実験では、GL-CLeFは最高のパフォーマンスを達成し、言語間の類似した文の表現をうまく引き出すことができた。

Due to high data demands of current methods, attention to zero-shot cross-lingual spoken language understanding (SLU) has grown, as such approaches greatly reduce human annotation effort. However, existing models solely rely on shared parameters, which can only perform implicit alignment across languages. We present Global--Local Contrastive Learning Framework (GL-CLeF) to address this shortcoming. Specifically, we employ contrastive learning, leveraging bilingual dictionaries to construct multilingual views of the same utterance, then encourage their representations to be more similar than negative example pairs, which achieves to explicitly aligned representations of similar sentences across languages. In addition, a key step in GL-CLeF is a proposed Local and Global component, which achieves a fine-grained cross-lingual transfer (i.e., sentence-level Local intent transfer, token-level Local slot transfer, and semantic-level Global transfer across intent and slot). Experiments on MultiATIS++ show that GL-CLeF achieves the best performance and successfully pulls representations of similar sentences across languages closer.
翻訳日:2022-04-19 14:42:36 公開日:2022-04-18
# (参考訳) サブコミュニティの強化 - AI研究の持続的成長に向けて [全文訳有]

Strengthening Subcommunities: Towards Sustainable Growth in AI Research ( http://arxiv.org/abs/2204.08377v1 )

ライセンス: CC BY 4.0
Andi Peng, Jessica Zosa Forde, Yonadav Shavit, Jonathan Frankle(参考訳) AIの急速な成長は、学術的な会場によって急速に感じられ、ピアレビュープロセス内で痛みが増す。 これらの課題は主に、そのサブエリアの利害関係者によって決定される各サブコミュニティに関連する基準に従って、適切な作業を特定し評価する特定サブエリアの欠如に焦点を当てている。 我々は、レビューと公開プロセスの分散化を通じて、これらのサブコミュニティ内の取り組みに再焦点をあてる提案を行った。 この再中心的な取り組みを通じて、学術出版やインセンティブ化のプロセスに特有の問題に、各サブ領域が取り組むことを奨励したい。 このモデルは、AIのいくつかのサブコミュニティで歴史的に成功しており、その拡大を続けるサイズにもかかわらず、より広い分野がどのように進化し続けるかの例として、これらの例を挙げている。

AI's rapid growth has been felt acutely by scholarly venues, leading to growing pains within the peer review process. These challenges largely center on the inability of specific subareas to identify and evaluate work that is appropriate according to criteria relevant to each subcommunity as determined by stakeholders of that subarea. We set forth a proposal that re-focuses efforts within these subcommunities through a decentralization of the reviewing and publication process. Through this re-centering effort, we hope to encourage each subarea to confront the issues specific to their process of academic publication and incentivization. This model has historically been successful for several subcommunities in AI, and we highlight those instances as examples for how the broader field can continue to evolve despite its continually growing size.
翻訳日:2022-04-19 14:41:26 公開日:2022-04-18
# 連続価値付きバイナリ分類器のためのトリナリーツール

Trinary Tools for Continuously Valued Binary Classifiers ( http://arxiv.org/abs/2204.08136v1 )

ライセンス: Link先を確認
Michael Gleicher, Xinyi Yu, Yuheng Chen(参考訳) バイナリ(yes/no)タスクの分類メソッドは、しばしば連続的に値付けされたスコアを生成する。 機械学習の実践者は、モデル選択、キャリブレーション、離散化、パフォーマンス評価、チューニング、公平性評価を行う必要がある。 そのようなタスクは分類結果を調べることを含み、通常、要約統計と詳細の手動検証を用いる。 本稿では,このような連続的な分類検査タスクをサポートするためのインタラクティブな可視化手法を提案する。 本手法は, キャリブレーション, 操作点選択, 検査の3段階に対処する。 マルチビューコーディネート(MVC)システムに統合できるように,標準ビューを強化し,タスク固有のビューを導入する。 我々は既存の比較に基づくアプローチを構築し、連続値を3次(正、不確実、負)として扱うことで連続分類器に拡張する。 私たちは、機械学習の実践者が重要なタスクを実現できる方法を示すユースケースを提供します。

Classification methods for binary (yes/no) tasks often produce a continuously valued score. Machine learning practitioners must perform model selection, calibration, discretization, performance assessment, tuning, and fairness assessment. Such tasks involve examining classifier results, typically using summary statistics and manual examination of details. In this paper, we provide an interactive visualization approach to support such continuously-valued classifier examination tasks. Our approach addresses the three phases of these tasks: calibration, operating point selection, and examination. We enhance standard views and introduce task-specific views so that they can be integrated into a multi-view coordination (MVC) system. We build on an existing comparison-based approach, extending it to continuous classifiers by treating the continuous values as trinary (positive, unsure, negative) even if the classifier will not ultimately use the 3-way classification. We provide use cases that demonstrate how our approach enables machine learning practitioners to accomplish key tasks.
翻訳日:2022-04-19 14:35:40 公開日:2022-04-18
# 共変量の不確かさを明示したクラスタリングへのグリーディと最適アプローチ

A Greedy and Optimistic Approach to Clustering with a Specified Uncertainty of Covariates ( http://arxiv.org/abs/2204.08205v1 )

ライセンス: Link先を確認
Akifumi Okuno, Kohei Hattori(参考訳) 本研究では,データセットの各要素の共変が,その要素に特有の不確実性と関連しているクラスタリング問題について検討する。 より具体的には、共変量に非線形変換を適用する前処理を用いて隠れデータ構造をキャプチャするクラスタリングアプローチを検討する。 この目的のために、前処理した特徴に対する伝播不確実性を表す集合を経験的に近似する。 経験的不確実性集合を利用するために,これらの集合よりも優れた特徴候補を見つけ,より凝縮したクラスタを生成する,欲求的で楽観的なクラスタリング(GOC)アルゴリズムを提案する。 重要な用途として,銀河系の形成過程を模倣した数値シミュレーションにより生成された恒星の軌道特性の合成データセットにgocアルゴリズムを適用する。 GOCアルゴリズムは、同じ小銀河に由来する兄弟星の発見において、改良された性能を示す。 これらの現実的なデータセットも公開されている。

In this study, we examine a clustering problem in which the covariates of each individual element in a dataset are associated with an uncertainty specific to that element. More specifically, we consider a clustering approach in which a pre-processing applying a non-linear transformation to the covariates is used to capture the hidden data structure. To this end, we approximate the sets representing the propagated uncertainty for the pre-processed features empirically. To exploit the empirical uncertainty sets, we propose a greedy and optimistic clustering (GOC) algorithm that finds better feature candidates over such sets, yielding more condensed clusters. As an important application, we apply the GOC algorithm to synthetic datasets of the orbital properties of stars generated through our numerical simulation mimicking the formation process of the Milky Way. The GOC algorithm demonstrates an improved performance in finding sibling stars originating from the same dwarf galaxy. These realistic datasets have also been made publicly available.
翻訳日:2022-04-19 14:35:07 公開日:2022-04-18
# 歪と干渉下におけるスペクトルピークのロバスト, 非パラメトリック, 効率的な分解

Robust, Nonparametric, Efficient Decomposition of Spectral Peaks under Distortion and Interference ( http://arxiv.org/abs/2204.08411v1 )

ライセンス: Link先を確認
Kaan Gokcesu, Hakan Gokcesu(参考訳) 本稿では, 高速フーリエ変換を用いて, 周波数スペクトルのスペクトルピークの分解法を提案する。 スペクトル上の従来の波形適合法とは対照的に、より堅牢な視点から問題を最適化する。 我々は、スペクトルのピークを擬似対称関数としてモデル化し、距離が増加すると中心周波数の周りの非拡大挙動のみを制約する。 我々のアプローチは、観測システムによって引き起こされる可能性のあるスペクトルの任意の歪み、干渉、ノイズに対してより堅牢である。 本手法の時間複雑性は線形であり,抽出したスペクトルピークあたり$O(N)$である。 さらに、分解されたスペクトルピークは擬直交的挙動を示し、等式を保つ力に適合する。

We propose a decomposition method for the spectral peaks in an observed frequency spectrum, which is efficiently acquired by utilizing the Fast Fourier Transform. In contrast to the traditional methods of waveform fitting on the spectrum, we optimize the problem from a more robust perspective. We model the peaks in spectrum as pseudo-symmetric functions, where the only constraint is a nonincreasing behavior around a central frequency when the distance increases. Our approach is more robust against arbitrary distortion, interference and noise on the spectrum that may be caused by an observation system. The time complexity of our method is linear, i.e., $O(N)$ per extracted spectral peak. Moreover, the decomposed spectral peaks show a pseudo-orthogonal behavior, where they conform to a power preserving equality.
翻訳日:2022-04-19 14:34:19 公開日:2022-04-18
# (参考訳) 特徴表現のための部分空間非負行列分解 [全文訳有]

Subspace Nonnegative Matrix Factorization for Feature Representation ( http://arxiv.org/abs/2204.08382v1 )

ライセンス: CC BY 4.0
Junhang Li, Jiao Wei, Can Tong, Tingting Shen, Yuchen Liu, Chen Li, Shouliang Qi, Yudong Yao, Yueyang Teng(参考訳) 従来の非負行列分解(NMF)は、すべての特徴を平等に扱うことを意味するデータ空間全体の特徴表現を学習する。 しかし、サブスペースは実用的なアプリケーションでは正確な表現に十分であり、冗長な機能は無効あるいは有害である。 例えば、カメラがいくつかのセンサーを破壊した場合、このカメラの写真中の対応するピクセルはコンテンツの識別に役立たず、残りのピクセルからなるサブスペースだけが注意に値する。 本稿では, 適応重みを導入して, 部分空間だけが新しい表現を生成するように, 元の空間における重要な特徴を識別する新しいNMF法を提案する。 ファジエ重み付け法とエントロピー正規化重み付け法という2つの戦略が提案され、どちらも単純な形式で反復解が得られる。 いくつかの実世界のデータセットに対する実験結果から,提案手法が既存手法よりも正確な特徴表現を生成可能であることが示された。 本研究で開発されたコードはhttps://github.com/W NMF1/FWNMF-ERWNMFで公開されている。

Traditional nonnegative matrix factorization (NMF) learns a new feature representation on the whole data space, which means treating all features equally. However, a subspace is often sufficient for accurate representation in practical applications, and redundant features can be invalid or even harmful. For example, if a camera has some sensors destroyed, then the corresponding pixels in the photos from this camera are not helpful to identify the content, which means only the subspace consisting of remaining pixels is worthy of attention. This paper proposes a new NMF method by introducing adaptive weights to identify key features in the original space so that only a subspace involves generating the new representation. Two strategies are proposed to achieve this: the fuzzier weighted technique and entropy regularized weighted technique, both of which result in an iterative solution with a simple form. Experimental results on several real-world datasets demonstrated that the proposed methods can generate a more accurate feature representation than existing methods. The code developed in this study is available at https://github.com/W NMF1/FWNMF-ERWNMF.
翻訳日:2022-04-19 14:25:49 公開日:2022-04-18
# AutoMLBench: 自動機械学習フレームワークの総合的な実験的評価

AutoMLBench: A Comprehensive Experimental Evaluation of Automated Machine Learning Frameworks ( http://arxiv.org/abs/2204.08358v1 )

ライセンス: Link先を確認
Hassan Eldeeb, Mohamed Maher, Oleh Matsuk, Abdelrahman Aldallal, Radwa Elshawi, and Sherif Sak(参考訳) 今日では、私たちのデジタル世界で現在毎日生産されている大量のデータを活用する上で、機械学習は重要な役割を担っている。 機械学習アプリケーションの需要が急増する中で、知識のあるデータサイエンティストの数は、デジタル世界におけるデータボリュームやアプリケーションニーズの増大とともにスケールできないことが認識されている。 この要求に応えるために、機械学習パイプラインを構築するプロセスを自動化することで、人間の専門知識のギャップを埋めるために、いくつかの自動機械学習(AutoML)技術とフレームワークが開発されている。 本研究では,Auto-Weka,AutoSKlea rn,TPOT,Recipe,ATM,S martMLの6つの人気フレームワークのパフォーマンス特性を,既存のAutoMLベンチマークスイートから100データセットにわたって総合的に評価し,比較した。 実験評価では,時間予算,検索空間の大きさ,メタラーニング,アンサンブル構成など,いくつかの設計判断のパフォーマンスへの影響について検討した。 調査の結果から,AutoMLフレームワークの設計をガイドし,影響を与える,さまざまな興味深い洞察が得られた。

Nowadays, machine learning is playing a crucial role in harnessing the power of the massive amounts of data that we are currently producing every day in our digital world. With the booming demand for machine learning applications, it has been recognized that the number of knowledgeable data scientists can not scale with the growing data volumes and application needs in our digital world. In response to this demand, several automated machine learning (AutoML) techniques and frameworks have been developed to fill the gap of human expertise by automating the process of building machine learning pipelines. In this study, we present a comprehensive evaluation and comparison of the performance characteristics of six popular AutoML frameworks, namely, Auto-Weka, AutoSKlearn, TPOT, Recipe, ATM, and SmartML across 100 data sets from established AutoML benchmark suites. Our experimental evaluation considers different aspects for its comparison including the performance impact of several design decisions including time budget, size of search space, meta-learning, and ensemble construction. The results of our study reveal various interesting insights that can significantly guide and impact the design of AutoML frameworks.
翻訳日:2022-04-19 14:08:02 公開日:2022-04-18
# 経時的ドメイン適応を理解する: 解析、最適経路およびそれ以上の改善

Understanding Gradual Domain Adaptation: Improved Analysis, Optimal Path and Beyond ( http://arxiv.org/abs/2204.08200v1 )

ライセンス: Link先を確認
Haoxiang Wang, Bo Li, Han Zhao(参考訳) 教師なしドメイン適応(UDA)のための既存のアルゴリズムの大半は、ラベル付きソースドメインからラベルなしターゲットドメインへの直接的な適応に焦点を当てている。 一方、段階的ドメイン適応(gda)は、ソースとターゲットを橋渡しする$(t-1)$の中間ドメインの経路を仮定し、中間ドメインを活用することで、ターゲットドメインのより良い一般化を提供することを目標としている。 ある仮定の下で(2020年)、kumarらは、ターゲットドメインエラーに対して$e^{o(t) \left(\varepsilon_0+o\left(\sqrt{log(t)/n}\right)\right)$という順序で束縛された一般化と共に、漸進的自己学習という単純なアルゴリズムを提案し、ここで$\varepsilon_0$はソースドメインエラーであり、$n$は各ドメインのデータサイズである。 指数係数のため、この上限は、$T$が適度に大きいときのみ空になる。 本研究では、より一般的で緩和された仮定の下で段階的な自己学習を解析し、$\widetilde{O}\left(\varepsilon_0 + T\Delta + T/\sqrt{n} + 1/\sqrt{nT}\right)$として有界な拡張一般化を証明した。 乗算係数として$t$に指数依存した既存のバウンドと比較して、我々のバウンドは$t$を線形かつ加法的にしか依存しない。 おそらくより興味深いのは、この結果は一般化誤差を最小化する$t$の最適選択の存在を示し、また、ソースとターゲットの間の累積経路長$t\delta$を最小化するために中間領域の経路を構築する最適な方法も示唆している。 本理論の意義を裏付けるために,複数の半合成および実データを用いて段階的な自己学習を行い,その結果を確認した。 我々の洞察は、将来のgdaアルゴリズムの設計に向けた道筋をもたらすと信じている。

The vast majority of existing algorithms for unsupervised domain adaptation (UDA) focus on adapting from a labeled source domain to an unlabeled target domain directly in a one-off way. Gradual domain adaptation (GDA), on the other hand, assumes a path of $(T-1)$ unlabeled intermediate domains bridging the source and target, and aims to provide better generalization in the target domain by leveraging the intermediate ones. Under certain assumptions, Kumar et al. (2020) proposed a simple algorithm, Gradual Self-Training, along with a generalization bound in the order of $e^{O(T)} \left(\varepsilon_0+O\left(\sqrt{log(T)/n}\right)\right)$ for the target domain error, where $\varepsilon_0$ is the source domain error and $n$ is the data size of each domain. Due to the exponential factor, this upper bound becomes vacuous when $T$ is only moderately large. In this work, we analyze gradual self-training under more general and relaxed assumptions, and prove a significantly improved generalization bound as $\widetilde{O}\left(\varepsilon_0 + T\Delta + T/\sqrt{n} + 1/\sqrt{nT}\right)$, where $\Delta$ is the average distributional distance between consecutive domains. Compared with the existing bound with an exponential dependency on $T$ as a multiplicative factor, our bound only depends on $T$ linearly and additively. Perhaps more interestingly, our result implies the existence of an optimal choice of $T$ that minimizes the generalization error, and it also naturally suggests an optimal way to construct the path of intermediate domains so as to minimize the accumulative path length $T\Delta$ between the source and target. To corroborate the implications of our theory, we examine gradual self-training on multiple semi-synthetic and real datasets, which confirms our findings. We believe our insights provide a path forward toward the design of future GDA algorithms.
翻訳日:2022-04-19 14:05:32 公開日:2022-04-18
# ガウス過程に対する弱ラベルを用いたアクティブラーニング

Active Learning with Weak Labels for Gaussian Processes ( http://arxiv.org/abs/2204.08335v1 )

ライセンス: Link先を確認
Amanda Olmin and Jakob Lindqvist and Lennart Svensson and Fredrik Lindsten(参考訳) 教師付き学習のためのデータアノテーションはコストがかかる。 アノテーションの予算が限られている場合、アクティブな学習は、モデルのパフォーマンスにおいて最も利益を得られるであろう観察を選択および注釈付けするために使用することができる。 そこで本研究では,アノテートする観測項目の選択に加えて,取得したアノテーションの精度を選択する能動的学習アルゴリズムを提案する。 精度の低いアノテーションはより安価に得られると仮定すると、モデルは同じアノテーションコストで入力空間の大部分を探索できる。 提案したガウス過程のBALD目標に基づいて獲得関数を構築し、アクティブ学習ループにおけるアノテーションの精度を調整できることの利点を実証的に実証する。

Annotating data for supervised learning can be costly. When the annotation budget is limited, active learning can be used to select and annotate those observations that are likely to give the most gain in model performance. We propose an active learning algorithm that, in addition to selecting which observation to annotate, selects the precision of the annotation that is acquired. Assuming that annotations with low precision are cheaper to obtain, this allows the model to explore a larger part of the input space, with the same annotation costs. We build our acquisition function on the previously proposed BALD objective for Gaussian Processes, and empirically demonstrate the gains of being able to adjust the annotation precision in the active learning loop.
翻訳日:2022-04-19 14:04:36 公開日:2022-04-18
# 表現学習における経験的評価と理論的分析:調査

Empirical Evaluation and Theoretical Analysis for Representation Learning: A Survey ( http://arxiv.org/abs/2204.08226v1 )

ライセンス: Link先を確認
Kento Nozawa, Issei Sato(参考訳) 表現学習により、データセットから汎用的な特徴表現を自動的に抽出して、別の機械学習タスクを解決することができる。 近年,表現学習アルゴリズムと単純な予測器によって抽出された特徴表現は,複数の機械学習タスクにおいて最先端の性能を示す。 その顕著な進歩にもかかわらず、表現学習の柔軟性のため、アプリケーションに応じて表現学習アルゴリズムを評価する方法は様々である。 現在の表現学習を理解するために,表現学習アルゴリズムと理論解析の評価手法について検討する。 評価調査に基づき,表現学習の今後の方向性についても考察した。 なお、この調査は野沢と佐藤(2022年)の拡張版である。

Representation learning enables us to automatically extract generic feature representations from a dataset to solve another machine learning task. Recently, extracted feature representations by a representation learning algorithm and a simple predictor have exhibited state-of-the-art performance on several machine learning tasks. Despite its remarkable progress, there exist various ways to evaluate representation learning algorithms depending on the application because of the flexibility of representation learning. To understand the current representation learning, we review evaluation methods of representation learning algorithms and theoretical analyses. On the basis of our evaluation survey, we also discuss the future direction of representation learning. Note that this survey is the extended version of Nozawa and Sato (2022).
翻訳日:2022-04-19 14:02:18 公開日:2022-04-18
# (参考訳) CenterNet++によるオブジェクト検出 [全文訳有]

CenterNet++ for Object Detection ( http://arxiv.org/abs/2204.08394v1 )

ライセンス: CC BY 4.0
Kaiwen Duan, Song Bai, Lingxi Xie, Honggang Qi, Qingming Huang and Qi Tian(参考訳) オブジェクト検出には、トップダウンとボトムアップの2つの主流がある。 最先端のアプローチは、ほとんどが第一のカテゴリに属する。 本稿では,ボトムアップアプローチがトップダウンと同じくらい競争力があり,リコール率が高いことを示す。 このアプローチはCenterNetと呼ばれ、各オブジェクトを3つのキーポイント(左上と右下)として検出します。 まずコーナーをいくつかの設計キューでグループ化し、さらに中心キーポイントでオブジェクトを確認する。 コーナーキーポイントは様々なスケールや形状の物体を検知する能力を備えており、中心キーポイントは多くの偽陽性の提案によってもたらされる混乱を避ける。 我々のアプローチはアンカーフリー検出器の一種であり、明示的なアンカーボックスを定義する必要はない。 我々は,単一解像度特徴マップとマルチレゾリューション特徴マップのオブジェクトをそれぞれ検出する,ネットワークのような"時間ガラス"と"ピラミド"のようなネットワークのバックボーンにアプローチを適用する。 MS-COCOデータセットでは、CenterNet with Res2Net-101 と Swin-Transformer がそれぞれ 53.7% と 57.1% のAPを獲得し、既存のボトムアップ検出器を上回り、最先端技術を達成する。 また,30.5fpsで43.6%のapで精度と速度のトレードオフを実現するリアルタイムセンタネットを設計した。 https://github.com/D uankaiwen/PyCenterNe t.com

There are two mainstreams for object detection: top-down and bottom-up. The state-of-the-art approaches mostly belong to the first category. In this paper, we demonstrate that the bottom-up approaches are as competitive as the top-down and enjoy higher recall. Our approach, named CenterNet, detects each object as a triplet keypoints (top-left and bottom-right corners and the center keypoint). We firstly group the corners by some designed cues and further confirm the objects by the center keypoints. The corner keypoints equip the approach with the ability to detect objects of various scales and shapes and the center keypoint avoids the confusion brought by a large number of false-positive proposals. Our approach is a kind of anchor-free detector because it does not need to define explicit anchor boxes. We adapt our approach to the backbones with different structures, i.e., the 'hourglass' like networks and the the 'pyramid' like networks, which detect objects on a single-resolution feature map and multi-resolution feature maps, respectively. On the MS-COCO dataset, CenterNet with Res2Net-101 and Swin-Transformer achieves APs of 53.7% and 57.1%, respectively, outperforming all existing bottom-up detectors and achieving state-of-the-art. We also design a real-time CenterNet, which achieves a good trade-off between accuracy and speed with an AP of 43.6% at 30.5 FPS. https://github.com/D uankaiwen/PyCenterNe t.
翻訳日:2022-04-19 13:58:45 公開日:2022-04-18
# TABi: オープンドメインエンティティ検索のためのタイプアウェアなバイエンコーダ

TABi: Type-Aware Bi-Encoders for Open-Domain Entity Retrieval ( http://arxiv.org/abs/2204.08173v1 )

ライセンス: Link先を確認
Megan Leszczynski, Daniel Y. Fu, Mayee F. Chen, Christopher R\'e(参考訳) エンティティ検索-クエリ内でエンティティの参照に関する情報を取得する - 質問応答や事実チェックなどのオープンドメインタスクにおいて重要なステップである。 しかし、最先端のエンティティレトリバーは、一般的なエンティティに対するバイアスのため、曖昧な言及のために稀なエンティティを回収するのに苦労している。 トレーニング中に知識グラフを組み込むことは、人気バイアスを克服するのに役立つが、(1)既存の型ベースの検索手法は、入力として参照境界を必要とするが、非構造化テキスト上で実行されるオープンドメインタスクは、全体的なパフォーマンスを損なうべきではない。 本研究では,オープンドメインタスクのためのエンティティ検索のための知識グラフ型と非構造化テキストの両エンコーダを協調訓練するTABiを紹介する。 tabiは、型強制のコントラスト損失を利用して、同様のタイプのエンティティとクエリが埋め込み空間に近接することを奨励する。 TABiは、AmbER(AmbGuous Entity Retrieval)セット上の希少なエンティティの検索を改善し、KILTベンチマークにおけるオープンドメインタスクの全体的な検索性能は最先端の検索よりも高い。 tabiは不完全な型システムにも堅牢であり、トレーニングデータセットのわずか5%の型カバレッジで、ベースライン上のレアエンティティ検索を改善している。 コードをhttps://github.com/H azyResearch/tabi.com で公開しています。

Entity retrieval--retrievin g information about entity mentions in a query--is a key step in open-domain tasks, such as question answering or fact checking. However, state-of-the-art entity retrievers struggle to retrieve rare entities for ambiguous mentions due to biases towards popular entities. Incorporating knowledge graph types during training could help overcome popularity biases, but there are several challenges: (1) existing type-based retrieval methods require mention boundaries as input, but open-domain tasks run on unstructured text, (2) type-based methods should not compromise overall performance, and (3) type-based methods should be robust to noisy and missing types. In this work, we introduce TABi, a method to jointly train bi-encoders on knowledge graph types and unstructured text for entity retrieval for open-domain tasks. TABi leverages a type-enforced contrastive loss to encourage entities and queries of similar types to be close in the embedding space. TABi improves retrieval of rare entities on the Ambiguous Entity Retrieval (AmbER) sets, while maintaining strong overall retrieval performance on open-domain tasks in the KILT benchmark compared to state-of-the-art retrievers. TABi is also robust to incomplete type systems, improving rare entity retrieval over baselines with only 5% type coverage of the training dataset. We make our code publicly available at https://github.com/H azyResearch/tabi.
翻訳日:2022-04-19 13:26:49 公開日:2022-04-18
# StableMoE: エキスパートの混成のための安定したルーティング戦略

StableMoE: Stable Routing Strategy for Mixture of Experts ( http://arxiv.org/abs/2204.08396v1 )

ライセンス: Link先を確認
Damai Dai, Li Dong, Shuming Ma, Bo Zheng, Zhifang Sui, Baobao Chang, Furu Wei(参考訳) Mixture-of-Experts (MoE)技術は、安価な計算オーバーヘッドでトランスフォーマーのモデルサイズをスケールアップすることができる。 既存の学習から経路へのMoE手法は、ルーティング変動問題、すなわち、同一入力のターゲットエキスパートがトレーニングに合わせて変化する可能性があるが、推論中に入力に対してアクティベートされる専門家は1人だけである。 ルーティングの変動は、同じ入力が専門家を更新するが、最終的に使用されるのは1つだけであるため、サンプル効率を損なう傾向にある。 本稿では、ルーティング変動問題に対処する2つのトレーニング段階を持つStableMoEを提案する。 第1の訓練段階では,バランスの取れた凝集性ルーティング戦略を学習し,バックボーンモデルから分離した軽量ルータに蒸留する。 第2のトレーニングステージでは、蒸留ルータを使用してトークン対エキスパート割り当てを決定し、安定したルーティング戦略のために凍結する。 言語モデルと多言語機械翻訳の手法を検証する。 その結果,StableMoEは収束速度と性能の両面で既存のMoE法よりも優れていた。

The Mixture-of-Experts (MoE) technique can scale up the model size of Transformers with an affordable computational overhead. We point out that existing learning-to-route MoE methods suffer from the routing fluctuation issue, i.e., the target expert of the same input may change along with training, but only one expert will be activated for the input during inference. The routing fluctuation tends to harm sample efficiency because the same input updates different experts but only one is finally used. In this paper, we propose StableMoE with two training stages to address the routing fluctuation problem. In the first training stage, we learn a balanced and cohesive routing strategy and distill it into a lightweight router decoupled from the backbone model. In the second training stage, we utilize the distilled router to determine the token-to-expert assignment and freeze it for a stable routing strategy. We validate our method on language modeling and multilingual machine translation. The results show that StableMoE outperforms existing MoE methods in terms of both convergence speed and performance.
翻訳日:2022-04-19 13:26:19 公開日:2022-04-18
# L3Cube-HingCorpusとHingBERT:Hindi-Engli shデータセットとBERT言語モデルを組み合わせたコード

L3Cube-HingCorpus and HingBERT: A Code Mixed Hindi-English Dataset and BERT Language Models ( http://arxiv.org/abs/2204.08398v1 )

ライセンス: Link先を確認
Ravindra Nayak, Raviraj Joshi(参考訳) コードスイッチングは、ある文や会話に複数の言語が混在している場合に発生する。 この現象はソーシャルメディアプラットフォームで顕著であり、その採用は時間とともに増加している。 そのため、コード混合NLPは文献で広く研究されている。 事前学習されたトランスフォーマーベースのアーキテクチャが普及するにつれて、実際のコード混合データが事前学習された大規模言語モデルに不足していることが観察される。 L3Cube-HingCorpusは,ローマ文字で最初の大規模実ヒンディー語混成データである。 52.93mの文と1.04bのトークンからなる。 さらに、HingBERT、HingMBERT、HingRoBERTa、HingGPTを紹介する。 BERTモデルは、マスク付き言語モデリングの目的を使用して、コードミックスされたHingCorpusで事前訓練されている。 GLUECoSベンチマークから,コード混合感情分析,POSタグ付け,NER,LIDなどの下流タスクに対するBERTモデルの有効性を示す。 HingGPTは、全ツイートを生成することができるGPT2ベースの生成トランスフォーマーモデルである。 また,L3Cube-HingLID Corpus,最大コード混合ヒンディー語識別(LID)データセット,HingBERT-LIDもリリースした。 データセットとモデルはhttps://github.com/l 3cube-pune/code-mixe d-nlpで入手できる。

Code-switching occurs when more than one language is mixed in a given sentence or a conversation. This phenomenon is more prominent on social media platforms and its adoption is increasing over time. Therefore code-mixed NLP has been extensively studied in the literature. As pre-trained transformer-based architectures are gaining popularity, we observe that real code-mixing data are scarce to pre-train large language models. We present L3Cube-HingCorpus, the first large-scale real Hindi-English code mixed data in a Roman script. It consists of 52.93M sentences and 1.04B tokens, scraped from Twitter. We further present HingBERT, HingMBERT, HingRoBERTa, and HingGPT. The BERT models have been pre-trained on codemixed HingCorpus using masked language modelling objectives. We show the effectiveness of these BERT models on the subsequent downstream tasks like code-mixed sentiment analysis, POS tagging, NER, and LID from the GLUECoS benchmark. The HingGPT is a GPT2 based generative transformer model capable of generating full tweets. We also release L3Cube-HingLID Corpus, the largest code-mixed Hindi-English language identification(LID) dataset and HingBERT-LID, a production-quality LID model to facilitate capturing of more code-mixed data using the process outlined in this work. The dataset and models are available at https://github.com/l 3cube-pune/code-mixe d-nlp .
翻訳日:2022-04-19 13:25:55 公開日:2022-04-18
# CHAI:オフライン強化学習によるタスク指向対話のためのチャットボットAI

CHAI: A CHatbot AI for Task-Oriented Dialogue with Offline Reinforcement Learning ( http://arxiv.org/abs/2204.08426v1 )

ライセンス: Link先を確認
Siddharth Verma, Justin Fu, Mengjiao Yang, Sergey Levine(参考訳) 従来、対話エージェントのための自然言語の生成は、人間が提供するデータのパターンを決定し、同様の統計特性で適切な応答を生成する統計的学習問題とみなすことができる。 しかし、対話は、話者が特定のタスクを達成しようとするゴール指向のプロセスと見なすこともできる。 強化学習(RL)アルゴリズムは、そのような目標指向の問題を解決するために特別に設計されているが、RLを適用する最も直接的な方法は、人間の会話における試行錯誤学習を通じて、コストがかかる。 本稿では,人間の話者から収集した静的データセットを用いて,対話エージェントの訓練にオフライン強化学習を用いる方法を検討する。 実験の結果,最近開発されたオフラインrlメソッドを言語モデルと組み合わせることで,タスク目標を達成する現実的な対話エージェントを実現することができた。

Conventionally, generation of natural language for dialogue agents may be viewed as a statistical learning problem: determine the patterns in human-provided data and generate appropriate responses with similar statistical properties. However, dialogue can also be regarded as a goal directed process, where speakers attempt to accomplish a specific task. Reinforcement learning (RL) algorithms are designed specifically for solving such goal-directed problems, but the most direct way to apply RL -- through trial-and-error learning in human conversations, -- is costly. In this paper, we study how offline reinforcement learning can instead be used to train dialogue agents entirely using static datasets collected from human speakers. Our experiments show that recently developed offline RL methods can be combined with language models to yield realistic dialogue agents that better accomplish task goals.
翻訳日:2022-04-19 13:25:32 公開日:2022-04-18
# (参考訳) stepgame:テキスト中のロバストなマルチホップ空間推論のための新しいベンチマーク [全文訳有]

StepGame: A New Benchmark for Robust Multi-Hop Spatial Reasoning in Texts ( http://arxiv.org/abs/2204.08292v1 )

ライセンス: CC BY 4.0
Zhengxiang Shi, Qiang Zhang, Aldo Lipani(参考訳) 自然言語における空間関係の推測は知的システムが持つべき重要な能力である。 bAbIデータセットは、このドメインに関連するタスク(タスク17と19)をキャプチャしようとします。 しかし、これらのタスクにはいくつかの制限がある。 最も重要なことは、それらは固定表現に限られており、解決に必要な推論ステップの数に制限されており、無関係または冗長な情報を含む入力に対するモデルの堅牢性をテストするのに失敗している。 本稿では,テキストにおけるマルチホップ空間推論のための質問応答データセットStepGameを提案する。 我々の実験は、bAbIデータセット上の最先端モデルがStepGameデータセット上で苦労していることを示しています。 さらに,空間推論タスクに特化したテンソル生成型メモリ拡張ニューラルネットワーク(TP-MANN)を提案する。 両データセットの実験結果から,我々のモデルは,より優れた一般化とロバスト性性能で全てのベースラインを上回ります。

Inferring spatial relations in natural language is a crucial ability an intelligent system should possess. The bAbI dataset tries to capture tasks relevant to this domain (task 17 and 19). However, these tasks have several limitations. Most importantly, they are limited to fixed expressions, they are limited in the number of reasoning steps required to solve them, and they fail to test the robustness of models to input that contains irrelevant or redundant information. In this paper, we present a new Question-Answering dataset called StepGame for robust multi-hop spatial reasoning in texts. Our experiments demonstrate that state-of-the-art models on the bAbI dataset struggle on the StepGame dataset. Moreover, we propose a Tensor-Product based Memory-Augmented Neural Network (TP-MANN) specialized for spatial reasoning tasks. Experimental results on both datasets show that our model outperforms all the baselines with superior generalization and robustness performance.
翻訳日:2022-04-19 13:23:17 公開日:2022-04-18
# (参考訳) 深部平衡光フロー推定

Deep Equilibrium Optical Flow Estimation ( http://arxiv.org/abs/2204.08442v1 )

ライセンス: CC BY 4.0
Shaojie Bai, Zhengyang Geng, Yash Savani, J. Zico Kolter(参考訳) 近年のSOTA(State-of-the-ar t)光フローモデルの多くは、有限ステップの繰り返し更新操作を使用して、安定したフロー推定に向けて反復的な改善を奨励することによって、従来のアルゴリズムをエミュレートしている。 しかし、これらのRNNは大きな計算とメモリオーバーヘッドを課し、そのような安定した推定をモデル化するよう直接訓練されていない。 それらは貧弱に収束し、パフォーマンスの低下に苦しむ。 これらの欠点に対処するため,我々は,暗黙的層の無限レベルの不動点(ブラックボックスソルバを使用)として直接フローを解き,この不動点を解析的に区別する手法であるdeq(deep equilibrium)フロー推定器を提案する(ただし,$o(1)$ トレーニングメモリが必要)。 この暗黙的な深さのアプローチは、特定のモデルでは予測されないため、幅広いsotaフロー推定モデル設計に適用することができる。 これらのDECフロー推定器を使うことで、例えば、固定点再利用や不正確な勾配を使ってフローを高速に計算し、4\sim6\times$4\sim6\ timesのトレーニングメモリを消費し、同じ計算予算でより良い結果が得られる。 さらに,DECモデル全般に対する長年にわたる課題に対処する,DECフロー推定器の安定化を目的とした,新しい不動点修正手法を提案する。 我々は,本手法を様々な現実的な設定で検証し,SintelおよびKITTIデータセット上でSOTA法を改良し,計算効率とメモリ効率を大幅に向上したことを示す。

Many recent state-of-the-art (SOTA) optical flow models use finite-step recurrent update operations to emulate traditional algorithms by encouraging iterative refinements toward a stable flow estimation. However, these RNNs impose large computation and memory overheads, and are not directly trained to model such stable estimation. They can converge poorly and thereby suffer from performance degradation. To combat these drawbacks, we propose deep equilibrium (DEQ) flow estimators, an approach that directly solves for the flow as the infinite-level fixed point of an implicit layer (using any black-box solver), and differentiates through this fixed point analytically (thus requiring $O(1)$ training memory). This implicit-depth approach is not predicated on any specific model, and thus can be applied to a wide range of SOTA flow estimation model designs. The use of these DEQ flow estimators allows us to compute the flow faster using, e.g., fixed-point reuse and inexact gradients, consumes $4\sim6\times$ times less training memory than the recurrent counterpart, and achieves better results with the same computation budget. In addition, we propose a novel, sparse fixed-point correction scheme to stabilize our DEQ flow estimators, which addresses a longstanding challenge for DEQ models in general. We test our approach in various realistic settings and show that it improves SOTA methods on Sintel and KITTI datasets with substantially better computational and memory efficiency.
翻訳日:2022-04-19 13:08:13 公開日:2022-04-18
# (参考訳) リモートセンシング画像における半教師付き変化検出のための一貫性正規化の再検討

Revisiting Consistency Regularization for Semi-supervised Change Detection in Remote Sensing Images ( http://arxiv.org/abs/2204.08454v1 )

ライセンス: CC BY 4.0
Wele Gedara Chaminda Bandara and Vishal M. Patel(参考訳) リモートセンシング(rs)変化検出(cd)は、共登録バイタイムポラリ画像から「関心の変化」を検出することを目的としている。 既存の深層教師付きCD手法の性能は、ネットワークのトレーニングに使用される大量の注釈付きデータに起因する。 しかし、大量のリモートセンシング画像をアノテートすることは、人間の専門家によるピクセル単位での比較を必要とするため、労働集約的で高価である。 一方,地球観測プログラムの増大により,無ラベルのマルチ時間RS画像へのアクセスが制限されることが少なくない。 本稿では,ラベルなしバイタイム画像からの情報を簡易かつ効果的に活用し,cdアプローチの性能を向上させる手法を提案する。 具体的には, 教師なしcd損失を, 教師なしクロスエントロピー(ce)損失に加えて, 教師なしcd損失を定式化した半教師付きcdモデルを提案する。 2つの公開CDデータセットで行った実験により、提案した半教師付きCD法は、注釈付きトレーニングデータの10%未満にアクセスしても、教師付きCDの性能に近づくことができた。 コードはhttps://github.com/w gcban/semicd。

Remote-sensing (RS) Change Detection (CD) aims to detect "changes of interest" from co-registered bi-temporal images. The performance of existing deep supervised CD methods is attributed to the large amounts of annotated data used to train the networks. However, annotating large amounts of remote sensing images is labor-intensive and expensive, particularly with bi-temporal images, as it requires pixel-wise comparisons by a human expert. On the other hand, we often have access to unlimited unlabeled multi-temporal RS imagery thanks to ever-increasing earth observation programs. In this paper, we propose a simple yet effective way to leverage the information from unlabeled bi-temporal images to improve the performance of CD approaches. More specifically, we propose a semi-supervised CD model in which we formulate an unsupervised CD loss in addition to the supervised Cross-Entropy (CE) loss by constraining the output change probability map of a given unlabeled bi-temporal image pair to be consistent under the small random perturbations applied on the deep feature difference map that is obtained by subtracting their latent feature representations. Experiments conducted on two publicly available CD datasets show that the proposed semi-supervised CD method can reach closer to the performance of supervised CD even with access to as little as 10% of the annotated training data. Code available at https://github.com/w gcban/SemiCD.
翻訳日:2022-04-19 13:05:24 公開日:2022-04-18
# HFT-ONLSTM:階層的・微調整多ラベルテキスト分類

HFT-ONLSTM: Hierarchical and Fine-Tuning Multi-label Text Classification ( http://arxiv.org/abs/2204.08115v1 )

ライセンス: Link先を確認
Pengfei Gao, Jingpeng Zhao, Yinglong Ma, Ahmad Tanvir, Beihong Jin(参考訳) 現実世界における多くの重要な分類問題は、階層構造や分類学における多くの密接に関連するカテゴリから構成される。 階層的マルチラベルテキスト分類(HMTC)は,階層構造や分類で整理された近縁なカテゴリの集合よりも高精度である。 本稿では,HFT-ONLSTMと略される順序付きニューラルLSTMニューラルネットワークをベースとした階層的・微調整手法を提案し,より正確なレベル・バイ・レベルHMTCを提案する。 まず,親カテゴリラベルとテクストデータに基づくジョイント埋め込みを学習し,カテゴリラベルとテキストのジョイント特徴を正確に把握する新しい手法を提案する。 第2に、上位レベルのテキスト分類結果が下位層の分類に寄与するように、パラメータを訓練するために微調整技術が採用されている。 その結果,HFT-ONLSTM手法は,2つのベンチマークデータセットに対する最先端の階層的およびフラットな多ラベルテキスト分類手法と比較し,これらの手法よりも高い性能を示し,特に計算コストを低減し,優れた性能を実現した。

Many important classification problems in the real-world consist of a large number of closely related categories in a hierarchical structure or taxonomy. Hierarchical multi-label text classification (HMTC) with higher accuracy over large sets of closely related categories organized in a hierarchy or taxonomy has become a challenging problem. In this paper, we present a hierarchical and fine-tuning approach based on the Ordered Neural LSTM neural network, abbreviated as HFT-ONLSTM, for more accurate level-by-level HMTC. First, we present a novel approach to learning the joint embeddings based on parent category labels and textual data for accurately capturing the joint features of both category labels and texts. Second, a fine tuning technique is adopted for training parameters such that the text classification results in the upper level should contribute to the classification in the lower one. At last, the comprehensive analysis is made based on extensive experiments in comparison with the state-of-the-art hierarchical and flat multi-label text classification approaches over two benchmark datasets, and the experimental results show that our HFT-ONLSTM approach outperforms these approaches, in particular reducing computational costs while achieving superior performance.
翻訳日:2022-04-19 12:59:36 公開日:2022-04-18
# 逆コントラスト学習による低リソースドメインのためのマイクロブログ投稿のうわさ検出

Detect Rumors in Microblog Posts for Low-Resource Domains via Adversarial Contrastive Learning ( http://arxiv.org/abs/2204.08143v1 )

ライセンス: Link先を確認
Hongzhan Lin, Jing Ma, Liangliang Chen, Zhiwei Yang, Mingfei Cheng, Guang Chen(参考訳) ニュースやトレンドの話題と共に、大量の偽の噂が浮上し、真実を著しく妨げている。 既存の噂検出アプローチは、モデルトレーニングのために同じドメインから収集された十分なコーパスがあるため、昨日のニュースで有望なパフォーマンスを達成する。 しかし、訓練データや事前知識(低資源体制など)の欠如により、特に異なる言語で伝播した、予期せぬ出来事の噂を検出するのが苦手である。 本稿では,噂データから得られた特徴をローソースに適応させることにより,うわさを検出するための,敵対的コントラスト学習フレームワークを提案する。 我々のモデルは、言語アライメントと新しい教師付きコントラッシブトレーニングパラダイムにより、ドメインおよび/または言語の使用制限を明示的に克服する。 さらに,低リソースのうわさ表現のロバスト性をさらに高めるための相反する拡張機構を開発する。 実世界のマイクロブログプラットフォームから収集した2つの低リソースデータセットによる大規模な実験により、我々のフレームワークは最先端の手法よりもはるかに優れた性能を示し、早期に噂を検出する能力を示している。

Massive false rumors emerging along with breaking news or trending topics severely hinder the truth. Existing rumor detection approaches achieve promising performance on the yesterday`s news, since there is enough corpus collected from the same domain for model training. However, they are poor at detecting rumors about unforeseen events especially those propagated in different languages due to the lack of training data and prior knowledge (i.e., low-resource regimes). In this paper, we propose an adversarial contrastive learning framework to detect rumors by adapting the features learned from well-resourced rumor data to that of the low-resourced. Our model explicitly overcomes the restriction of domain and/or language usage via language alignment and a novel supervised contrastive training paradigm. Moreover, we develop an adversarial augmentation mechanism to further enhance the robustness of low-resource rumor representation. Extensive experiments conducted on two low-resource datasets collected from real-world microblog platforms demonstrate that our framework achieves much better performance than state-of-the-art methods and exhibits a superior capacity for detecting rumors at early stages.
翻訳日:2022-04-19 12:59:17 公開日:2022-04-18
# LayoutLMv3: 統一テキストとイメージマスキングによるドキュメントAIの事前トレーニング

LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking ( http://arxiv.org/abs/2204.08387v1 )

ライセンス: Link先を確認
Yupan Huang, Tengchao Lv, Lei Cui, Yutong Lu, Furu Wei(参考訳) 自己教師付き事前トレーニング技術は、Document AIで顕著な進歩を遂げた。 ほとんどのマルチモーダル事前学習モデルは、マスク付き言語モデリングの目的を用いて、テキストモダリティの双方向表現を学習するが、画像モダリティの事前学習目標が異なる。 この不一致はマルチモーダル表現学習に困難をもたらす。 本稿では,テキストと画像マスキングを統一した文書ai用マルチモーダルトランスフォーマーの事前学習を行うlayoutlmv3を提案する。 さらに、LayoutLMv3を単語パッチアライメント目的で事前訓練し、テキストワードの対応する画像パッチがマスクされているか否かを予測して、クロスモーダルアライメントを学習する。 単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。 実験結果から,LayoutLMv3はテキスト中心のタスク(フォーム理解,レセプション理解,文書視覚質問応答など)だけでなく,文書画像分類や文書レイアウト解析などの画像中心のタスクにおいても,最先端のパフォーマンスを実現することがわかった。 コードとモデルはhttps://aka.ms/layou tlmv3で公開されている。

Self-supervised pre-training techniques have achieved remarkable progress in Document AI. Most multimodal pre-trained models use a masked language modeling objective to learn bidirectional representations on the text modality, but they differ in pre-training objectives for the image modality. This discrepancy adds difficulty to multimodal representation learning. In this paper, we propose LayoutLMv3 to pre-train multimodal Transformers for Document AI with unified text and image masking. Additionally, LayoutLMv3 is pre-trained with a word-patch alignment objective to learn cross-modal alignment by predicting whether the corresponding image patch of a text word is masked. The simple unified architecture and training objectives make LayoutLMv3 a general-purpose pre-trained model for both text-centric and image-centric Document AI tasks. Experimental results show that LayoutLMv3 achieves state-of-the-art performance not only in text-centric tasks, including form understanding, receipt understanding, and document visual question answering, but also in image-centric tasks such as document image classification and document layout analysis. The code and models are publicly available at https://aka.ms/layou tlmv3.
翻訳日:2022-04-19 12:58:55 公開日:2022-04-18
# (参考訳) Visio-Linguistic Brain Encoding [全文訳有]

Visio-Linguistic Brain Encoding ( http://arxiv.org/abs/2204.08261v1 )

ライセンス: CC BY 4.0
Subba Reddy Oota, Jashn Arora, Vijay Rowtula, Manish Gupta, Raju S. Bapi(参考訳) 効果的な脳-コンピューターインターフェースを実現するには、人間の脳が視覚、言語(またはテキスト)などのモダリティにまたがる刺激をどのようにエンコードするかを理解する必要がある。 脳のエンコーディングは刺激を受けたfMRI脳活動の構築を目的としている。 単一モード刺激のための脳エンコーディングを研究する神経エンコーディングモデルには、視覚的(事前学習されたCNN)またはテキスト(事前学習された言語モデル)がある。 近年の論文では、視覚とテキストの表現モデルが分離され、単純なヒューリスティックスを用いてレイトフュージョンが行われた。 しかし、以前の研究は調査に失敗した。 (a)視覚刺激を符号化するための画像変換器モデルの有効性、及び (b)視覚・テキスト推論のための協調的マルチモーダルモデリング 本稿では,画像トランスフォーマー (ViT, DEiT, BEiT) とマルチモーダルトランスフォーマー (VisualBERT, LXMERT, CLIP) の脳コードへの応用を系統的に検討する。 人気のデータセットであるbold5000とpereiraに関する広範な実験は、以下の知見を提供している。 1) 画像トランスフォーマーとマルチモーダルトランスフォーマーの脳エンコーディングにおける有効性について検討した。 2) マルチモーダルトランスである VisualBERT は, 従来提案されていたシングルモードCNN, イメージトランスフォーマー, および従来提案していたマルチモーダルモデルを大きく上回り, 新たな最先端技術を確立する。 視覚言語モデルの優越性は、受動的に画像を見る場合でも、視覚領域で引き起こされる応答が言語処理によって暗黙的に影響を受けるかどうかという問題を提起する。 将来のfMRIタスクは、この計算的洞察を適切な実験環境で検証することができる。

Enabling effective brain-computer interfaces requires understanding how the human brain encodes stimuli across modalities such as visual, language (or text), etc. Brain encoding aims at constructing fMRI brain activity given a stimulus. There exists a plethora of neural encoding models which study brain encoding for single mode stimuli: visual (pretrained CNNs) or text (pretrained language models). Few recent papers have also obtained separate visual and text representation models and performed late-fusion using simple heuristics. However, previous work has failed to explore: (a) the effectiveness of image Transformer models for encoding visual stimuli, and (b) co-attentive multi-modal modeling for visual and text reasoning. In this paper, we systematically explore the efficacy of image Transformers (ViT, DEiT, and BEiT) and multi-modal Transformers (VisualBERT, LXMERT, and CLIP) for brain encoding. Extensive experiments on two popular datasets, BOLD5000 and Pereira, provide the following insights. (1) To the best of our knowledge, we are the first to investigate the effectiveness of image and multi-modal Transformers for brain encoding. (2) We find that VisualBERT, a multi-modal Transformer, significantly outperforms previously proposed single-mode CNNs, image Transformers as well as other previously proposed multi-modal models, thereby establishing new state-of-the-art. The supremacy of visio-linguistic models raises the question of whether the responses elicited in the visual regions are affected implicitly by linguistic processing even when passively viewing images. Future fMRI tasks can verify this computational insight in an appropriate experimental setting.
翻訳日:2022-04-19 12:57:50 公開日:2022-04-18
# セルフパラレルによるノンパラレルテキストスタイル転送

Non-Parallel Text Style Transfer with Self-Parallel Supervision ( http://arxiv.org/abs/2204.08123v1 )

ライセンス: Link先を確認
Ruibo Liu, Chongyang Gao, Chenyan Jia, Guangxuan Xu, Soroush Vosoughi(参考訳) 既存のテキストスタイル転送モデルの性能は、モデルをトレーニングする並列でないデータセットによって著しく制限されている。 非並列データセットでは、ソースとターゲットスタイルの文の間に直接マッピングが存在しないため、スタイル転送モデルはトレーニング中にターゲット文の弱い監督しか受け取らない。 本研究では,大規模言語モデルに基づく新しいテキストスタイル転送フレームワークであるLaMerを提案する。 lamer氏はまず、シーングラフで非並列データセットの概平行表現を発掘し、次にmleトレーニング、次いで模倣学習の洗練を採用して、データ内の本質的並列性を活用する。 2つのベンチマークタスク (sentiment & formality transfer) と新たに提案するチャレンジタスク (political stance transfer) について, 本モデルは, 伝達精度, コンテンツ保存, フラレンシの質的進歩を実現する。 さらに経験的および人的評価により、我々のモデルはトレーニングをより効率的にするだけでなく、以前のモデルよりも読みやすく多様な表現を生成することを示した。

The performance of existing text style transfer models is severely limited by the non-parallel datasets on which the models are trained. In non-parallel datasets, no direct mapping exists between sentences of the source and target style; the style transfer models thus only receive weak supervision of the target sentences during training, which often leads the model to discard too much style-independent information, or utterly fail to transfer the style. In this work, we propose LaMer, a novel text style transfer framework based on large-scale language models. LaMer first mines the roughly parallel expressions in the non-parallel datasets with scene graphs, and then employs MLE training, followed by imitation learning refinement, to leverage the intrinsic parallelism within the data. On two benchmark tasks (sentiment & formality transfer) and a newly proposed challenging task (political stance transfer), our model achieves qualitative advances in transfer accuracy, content preservation, and fluency. Further empirical and human evaluations demonstrate that our model not only makes training more efficient, but also generates more readable and diverse expressions than previous models.
翻訳日:2022-04-19 12:37:42 公開日:2022-04-18
# INSTA-BNN: InSTAnce-aware Threshold 付きバイナリニューラルネットワーク

INSTA-BNN: Binary Neural Network with INSTAnce-aware Threshold ( http://arxiv.org/abs/2204.07439v2 )

ライセンス: Link先を確認
Changhun Lee, Hyungjun Kim, Eunhyeok Park, Jae-Joon Kim(参考訳) ディープニューラルネットワークのメモリフットプリントと計算コストを削減するための有望なソリューションとして、バイナリニューラルネットワーク(BNN)が登場した。 一方、BNNはバイナリアクティベーションが2つの値に制限されているため、情報の損失に悩まされ、精度が低下する。 精度を向上させるため、従来の研究では、アクティベーション関数の閾値を手動でシフトしたり、シフト量をトレーニングしやすくすることで、バイナリアクティベーションの分布を制御しようとした。 プロセス中は、通常、バッチから計算された統計情報に依存する。 BNN計算では,バッチからの統計データを用いた場合,入力インスタンス毎の重要な情報を捕捉できず,各インスタンスのバイナリアクティベーション閾値を決定する際には,各インスタンスから計算した統計情報の違いを考慮する必要がある。 この概念に基づいて,INSTAnce-Aware threshold (INSTA-BNN) を用いたバイナリニューラルネットワークを提案し,バッチから計算した統計データと各インスタンスとの差を考慮したアクティベーションしきい値を決定する。 提案されたINSTA-BNNは、ImageNet分類タスクの2.5%と2.3%を同等の計算コストで上回り、ResNet-18とMobileNetV1ベースのモデルでそれぞれ68.0%と71.7%のトップ1の精度を達成した。

Binary Neural Networks (BNNs) have emerged as a promising solution for reducing the memory footprint and compute costs of deep neural networks. BNNs, on the other hand, suffer from information loss because binary activations are limited to only two values, resulting in reduced accuracy. To improve the accuracy, previous studies have attempted to control the distribution of binary activation by manually shifting the threshold of the activation function or making the shift amount trainable. During the process, they usually depended on statistical information computed from a batch. We argue that using statistical data from a batch fails to capture the crucial information for each input instance in BNN computations, and the differences between statistical information computed from each instance need to be considered when determining the binary activation threshold of each instance. Based on the concept, we propose the Binary Neural Network with INSTAnce-aware threshold (INSTA-BNN), which decides the activation threshold value considering the difference between statistical data computed from a batch and each instance. The proposed INSTA-BNN outperforms the baseline by 2.5% and 2.3% on the ImageNet classification task with comparable computing cost, achieving 68.0% and 71.7% top-1 accuracy on ResNet-18 and MobileNetV1 based models, respectively.
翻訳日:2022-04-19 10:59:13 公開日:2022-04-18