このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20220616となっている論文です。

PDF登録状況(公開日: 20220616)

TitleAuthorsAbstract論文公表日・翻訳日
# 歴史音楽の音化を学ぶ

Learning to Denoise Historical Music ( http://arxiv.org/abs/2008.02027v2 )

ライセンス: Link先を確認
Yunpeng Li, Beat Gfeller, Marco Tagliasacchi, Dominik Roblek(参考訳) そこで我々は,古い録音を聴くことを学習するニューラルネットモデルを提案する。 本モデルでは,入力を短時間フーリエ変換(stft)を用いて時間周波数表現に変換し,畳み込みニューラルネットワークを用いて複雑なスペクトログラムを処理する。 このネットワークは、クリーンな音楽と、古い録音の静かなセグメントから抽出された実際のノイズサンプルを混合した合成ノイズ音楽データセット上で、再構成と反対の目的の両方でトレーニングされる。 提案手法は, 合成データセットの保持試験例に基づいて定量的に評価し, 実記録のサンプルから人間の評価によって定性的に評価する。 その結果,本手法はオリジナル音楽の品質と細部を保ちながら,ノイズ除去に有効であることがわかった。

We propose an audio-to-audio neural network model that learns to denoise old music recordings. Our model internally converts its input into a time-frequency representation by means of a short-time Fourier transform (STFT), and processes the resulting complex spectrogram using a convolutional neural network. The network is trained with both reconstruction and adversarial objectives on a synthetic noisy music dataset, which is created by mixing clean music with real noise samples extracted from quiet segments of old recordings. We evaluate our method quantitatively on held-out test examples of the synthetic dataset, and qualitatively by human rating on samples of actual historical recordings. Our results show that the proposed method is effective in removing noise, while preserving the quality and details of the original music.
翻訳日:2022-11-02 18:58:47 公開日:2022-06-16
# 分散確率近似の有限時間収束率とマルチエージェント・マルチタスク学習への応用

Finite-Time Convergence Rates of Decentralized Stochastic Approximation with Applications in Multi-Agent and Multi-Task Learning ( http://arxiv.org/abs/2010.15088v2 )

ライセンス: Link先を確認
Sihan Zeng, Thinh T. Doan, Justin Romberg(参考訳) 本研究では, 確率近似の分散変種について検討し, 雑音下での操作者の根を求めるデータ駆動手法について検討した。 エージェントのネットワークは、それぞれ独自の演算子とデータ観測を持ち、分散化された通信グラフ上で集約演算子の固定点を協調的に見つける。 我々の主な貢献は、各エージェントで観測されたデータがマルコフ過程からサンプリングされた場合、この分散確率近似法の有限時間解析を提供することである。 比較的標準的な仮定の下では、提案手法の収束速度は、サンプルが独立である場合と基本的に同じであり、マルコフ過程の混合時間を考慮したログ係数によってのみ異なることを示す。 この分析の鍵となる考え方は、遅れた常微分方程式の安定性を解析するために用いられる新しいラズミヒン・リャプノフ関数を導入することである。 また,複数エージェントシステムにおける興味深い学習問題に対する提案手法の適用について述べる。

We study a decentralized variant of stochastic approximation, a data-driven approach for finding the root of an operator under noisy measurements. A network of agents, each with its own operator and data observations, cooperatively find the fixed point of the aggregate operator over a decentralized communication graph. Our main contribution is to provide a finite-time analysis of this decentralized stochastic approximation method when the data observed at each agent are sampled from a Markov process; this lack of independence makes the iterates biased and (potentially) unbounded. Under fairly standard assumptions, we show that the convergence rate of the proposed method is essentially the same as if the samples were independent, differing only by a log factor that accounts for the mixing time of the Markov processes. The key idea in our analysis is to introduce a novel Razumikhin-Lyapunov function, motivated by the one used in analyzing the stability of delayed ordinary differential equations. We also discuss applications of the proposed method on a number of interesting learning problems in multi-agent systems.
翻訳日:2022-10-02 06:24:20 公開日:2022-06-16
# (参考訳) アメリカ大学ギリシャ校における学生成功のための計画コース

Planning Courses for Student Success at the American College of Greece ( http://arxiv.org/abs/2207.02659v1 )

ライセンス: CC BY 4.0
Ioannis T. Christou and Evgenia Vagianou and George Vardoulias(参考訳) 我々は,アメリカ・カレッジ・オブ・ギリシャの学生が授業を修了するために必要なコースのスケジュールを最適化する問題をモデル化する。 我々は、機関と部門が定める全ての制約をモデル化し、生成されたスケジュールの妥当性を保証する。 我々のモデルは,機械学習とデータマイニング技術を用いたパスコースのパフォーマンスを考慮し,期待されるGPAの最大化を達成できる,非常に重要な目標を掲げ,得られたスケジュールを最適化するためのいくつかの異なる目的を定式化した。 結果として生じる全ての問題は、生徒が利用できるコースの数の最大項数倍の順序の2進変数の混合整数線形計画問題である。 結果として生じる数学的プログラミング問題は、GUROBIソルバによって、近代的な商用オフザセルフPC上で10秒未満で解決可能であるのに対して、事前にインストールされた手動プロセスは、学生1人につき1時間以上の時間で生徒のアドバイザーとして指定され、その結果、目標によって測定された準最適スケジュールとなる。

We model the problem of optimizing the schedule of courses a student at the American College of Greece will need to take to complete their studies. We model all constraints set forth by the institution and the department, so that we guarantee the validity of all produced schedules. We formulate several different objectives to optimize in the resulting schedule, including fastest completion time, course difficulty balance, and so on, with a very important objective our model is capable of capturing being the maximization of the expected student GPA given their performance on passed courses using Machine Learning and Data Mining techniques. All resulting problems are Mixed Integer Linear Programming problems with a number of binary variables that is in the order of the maximum number of terms times the number of courses available for the student to take. The resulting Mathematical Programming problem is always solvable by the GUROBI solver in less than 10 seconds on a modern commercial off-the-self PC, whereas the manual process that was installed before used to take department heads that are designated as student advisors more than one hour of their time for every student and was resulting in sub-optimal schedules as measured by the objectives set forth.
翻訳日:2022-07-10 16:52:34 公開日:2022-06-16
# パワーシーキングaiは存在リスクか?

Is Power-Seeking AI an Existential Risk? ( http://arxiv.org/abs/2206.13353v1 )

ライセンス: Link先を確認
Joseph Carlsmith(参考訳) 本報告は,人工知能による存在リスクに対する懸念の核となる論点を考察する。 私は2段階進みます。 まず、このような懸念を知らせる背景画像を作成します。 この図では、インテリジェント・エージェンシーは極めて強力な力であり、我々よりも知的なエージェントを生み出すことは、火で遊んでいるよりもずっと重要だ。 第2に、この種のエージェントを作成することが2070年までに実在の災害につながるという、より具体的な6つの前提の議論を定式化し、評価する。 On this argument, by 2070: (1) it will become possible and financially feasible to build relevantly powerful and agentic AI systems; (2) there will be strong incentives to do so; (3) it will be much harder to build aligned (and relevantly powerful/agentic) AI systems than to build misaligned (and relevantly powerful/agentic) AI systems that are still superficially attractive to deploy; (4) some such misaligned systems will seek power over humans in high-impact ways; (5) this problem will scale to the full disempowerment of humanity; and (6) such disempowerment will constitute an existential catastrophe. 私は、この議論の前提に粗悪な主観的クレデンスを割り当て、2070年までにこの種の実在する災害が起こるという全体推定を約5%とします。 (2022年5月のアップデート:このレポートを2021年4月に公開して以来、私の予想は上がっていて、現在は10%です。)

This report examines what I see as the core argument for concern about existential risk from misaligned artificial intelligence. I proceed in two stages. First, I lay out a backdrop picture that informs such concern. On this picture, intelligent agency is an extremely powerful force, and creating agents much more intelligent than us is playing with fire -- especially given that if their objectives are problematic, such agents would plausibly have instrumental incentives to seek power over humans. Second, I formulate and evaluate a more specific six-premise argument that creating agents of this kind will lead to existential catastrophe by 2070. On this argument, by 2070: (1) it will become possible and financially feasible to build relevantly powerful and agentic AI systems; (2) there will be strong incentives to do so; (3) it will be much harder to build aligned (and relevantly powerful/agentic) AI systems than to build misaligned (and relevantly powerful/agentic) AI systems that are still superficially attractive to deploy; (4) some such misaligned systems will seek power over humans in high-impact ways; (5) this problem will scale to the full disempowerment of humanity; and (6) such disempowerment will constitute an existential catastrophe. I assign rough subjective credences to the premises in this argument, and I end up with an overall estimate of ~5% that an existential catastrophe of this kind will occur by 2070. (May 2022 update: since making this report public in April 2021, my estimate here has gone up, and is now at >10%.)
翻訳日:2022-07-04 01:18:38 公開日:2022-06-16
# 多周波数共同コミュニティ検出と位相同期

Multi-Frequency Joint Community Detection and Phase Synchronization ( http://arxiv.org/abs/2206.12276v1 )

ライセンス: Link先を確認
Lingda Wang and Zhizhen Zhao(参考訳) 本稿では,各ノードが位相に関連づけられた,相対位相を持つ \textit{stochastic block model 上の合同コミュニティ検出と位相同期問題について検討する。 この問題は、様々な現実世界の応用によって、コミュニティメンバーシップと関連するフェーズを同時に回復することを目的としている。 最大確率推定定式化の研究により、この問題が \textit{``multi-frequency'''} 構造を示すことを示した。 この目的のために、複数の周波数にまたがる情報を活用する単純な2つのアルゴリズムを提案する。 前者は、新しい多周波カラム分割qr因子分解に基づくスペクトル法であり、後者は反復多周波一般化電力法である。 数値実験により,提案アルゴリズムが最先端アルゴリズムを上回り,コミュニティのメンバシップと関連するフェーズを回復することを示す。

This paper studies the joint community detection and phase synchronization problem on the \textit{stochastic block model with relative phase}, where each node is associated with a phase. This problem, with a variety of real-world applications, aims to recover community memberships and associated phases simultaneously. By studying the maximum likelihood estimation formulation, we show that this problem exhibits a \textit{``multi-frequency''} structure. To this end, two simple yet efficient algorithms that leverage information across multiple frequencies are proposed. The former is a spectral method based on the novel multi-frequency column-pivoted QR factorization, and the latter is an iterative multi-frequency generalized power method. Numerical experiments indicate our proposed algorithms outperform state-of-the-art algorithms, in recovering community memberships and associated phases.
翻訳日:2022-07-04 01:18:14 公開日:2022-06-16
# 低分解能分光調査に基づく変分オートエンコーダによる恒星磁気活動の検討

Investigation of stellar magnetic activity using variational autoencoder based on low-resolution spectroscopic survey ( http://arxiv.org/abs/2206.07257v2 )

ライセンス: Link先を確認
Yue Xiang, Shenghong Gu, Dongtao Cao(参考訳) 我々は、変分オートエンコーダ(VAE)をLAMOST-K2低分解能スペクトルに適用し、K2場の恒星の磁気活性を検出する。 選択された不活性星のスペクトルのトレーニングの後、VAEモデルは星のパラメータを知らずにスペクトルサブトラクション法で必要とされる合成基準テンプレートを効率的に生成することができる。 そして, 試料中の色圏放出, 強いネラル放出, リチウム吸収などの特異なスペクトル特性を検出する。 我々は、恒星の磁気活動を定量化するために、色球活動指標 h$\alpha$ と ca$~{\rm {\small ii}}$ infrared triplet (irt) の放射を測定する。 活性星のH$\alpha$とCa$~{\rm {\small II}}$IRTの余剰放射は、K2光度計から得られる回転周期と光曲線の振幅とよく相関している。 我々は、LAMOSTスペクトルを分解して、計画中の中国宇宙ステーション望遠鏡(CSST)のスリットレススペクトルをシミュレートし、VAEをシミュレーションデータに適用する。 冷たい活動星に対しては、2つの分解能を持つスペクトルから導かれる H$\alpha$ ラインの等価幅 (EWs) のよい一致を明らかにする。 この結果は、将来のcsstサーベイで磁気活性星を識別する能力を示しており、星の多重バンド光度測定と同様に、前例のない低分解能スペクトルの大規模なデータベースを提供する予定である。

We apply the variational autoencoder (VAE) to the LAMOST-K2 low-resolution spectra to detect the magnetic activity of the stars in the K2 field. After the training on the spectra of the selected inactive stars, the VAE model can efficiently generate the synthetic reference templates needed by the spectral subtraction procedure, without knowing any stellar parameters. Then we detect the peculiar spectral features, such as chromospheric emissions, strong nebular emissions and lithium absorptions, in our sample. We measure the emissions of the chromospheric activity indicators, H$\alpha$ and Ca$~{\rm {\small II}}$ infrared triplet (IRT) lines, to quantify the stellar magnetic activity. The excess emissions of H$\alpha$ and Ca$~{\rm {\small II}}$ IRT lines of the active stars are correlated well to the rotational periods and the amplitudes of light curves derived from the K2 photometry. We degrade the LAMOST spectra to simulate the slitless spectra of the planned China Space Station Telescope (CSST) and apply the VAE to the simulated data. For cool active stars, we reveal a good agreement between the equivalent widths (EWs) of H$\alpha$ line derived from the spectra with two resolutions. The result indicates the ability of identifying the magnetically active stars in the future CSST survey, which will deliver an unprecedented large database of low-resolution spectra as well as simultaneous multi-band photometry of stars.
翻訳日:2022-06-26 12:17:39 公開日:2022-06-16
# タスク対応一貫性を用いた骨と影の同時セグメンテーションネットワーク

Simultaneous Bone and Shadow Segmentation Network using Task Correspondence Consistency ( http://arxiv.org/abs/2206.08936v1 )

ライセンス: Link先を確認
Aimon Rahman, Jeya Maria Jose Valanarasu, Ilker Hacihaliloglu, Vishal M Patel(参考訳) 骨表面とそれに対応する音響影の分離は、超音波ガイド整形外科手術の基本課題である。 しかし、これらの課題は、アメリカの画像における最小でぼやけた骨表面反応、機械間の不一致、画像アーティファクト、低信号対雑音比のために困難である。 特に骨の影は、軟部組織と骨表面との間の大きな音響インピーダンスミスマッチによって引き起こされる。 そこで本稿では,これらのタスク間の相互情報を活用するために,共有トランスコーダを用いたエンドツーエンドネットワークと,骨と影を同時に分割するタスク独立デコーダを提案する。 補助的な特徴を共有するために,シャドーセグメンテーションのデコーダから骨のセグメンテーションや逆方向への有意義な特徴の伝達を学ぶクロスタスク特徴伝達ブロックを提案する。 また,ネットワークが骨表面とそれに対応する影との相互依存性を利用してセグメンテーションを洗練することを保証する対応一貫性損失についても紹介する。 専門家のアノテーションに対する検証は、この手法が骨表面と影のセグメンテーションの両方において以前の最先端よりも優れていることを示している。

Segmenting both bone surface and the corresponding acoustic shadow are fundamental tasks in ultrasound (US) guided orthopedic procedures. However, these tasks are challenging due to minimal and blurred bone surface response in US images, cross-machine discrepancy, imaging artifacts, and low signal-to-noise ratio. Notably, bone shadows are caused by a significant acoustic impedance mismatch between the soft tissue and bone surfaces. To leverage this mutual information between these highly related tasks, we propose a single end-to-end network with a shared transformer-based encoder and task independent decoders for simultaneous bone and shadow segmentation. To share complementary features, we propose a cross task feature transfer block which learns to transfer meaningful features from decoder of shadow segmentation to that of bone segmentation and vice-versa. We also introduce a correspondence consistency loss which makes sure that network utilizes the inter-dependency between the bone surface and its corresponding shadow to refine the segmentation. Validation against expert annotations shows that the method outperforms the previous state-of-the-art for both bone surface and shadow segmentation.
翻訳日:2022-06-26 07:35:27 公開日:2022-06-16
# 手作りルール強化ニューラルネットワークによる心電図異常の同定

Identifying Electrocardiogram Abnormalities Using a Handcrafted-Rule-Enhanced Neural Network ( http://arxiv.org/abs/2206.10592v1 )

ライセンス: Link先を確認
Yuexin Bian, Jintai Chen, Xiaojun Chen, Xiaoxian Yang, Danny Z. Chen, JIan Wu(参考訳) 多くの人が心不全を患っており、心電図(ECG)解析は、そのような異常のリスクがあるかどうかを判断するのに有用である。 自動心電図分類法、特にディープラーニングに基づくものは、心電図記録を用いて心臓の異常を検出するために提案されており、臨床診断の改善や心血管疾患の早期予防に役立つ可能性がある。 しかし、既知のニューラルネットワークの予測は、まだ臨床医のニーズに満足せず、この現象は、臨床診断に使用される情報が、これらの方法によって十分に捉えられ、利用されないことを示唆している。 本稿では,心電図の自動診断性能を向上させるために,心電図解析に臨床知識を提供する畳み込みニューラルネットワークにいくつかのルールを導入する。 具体的には、規則推論モジュールとディープラーニングモジュールからなる標準12リードECG入力を用いたECG分類のためのハンドクラフトルール強化ニューラルネットワーク(HRNN)を提案する。 2つの大規模パブリックECGデータセットの実験は、我々の新しいアプローチが既存の最先端手法よりもかなり優れていることを示している。 さらに,提案手法は診断性能を向上させるだけでなく,不整脈検体の検出にも有用である。 私たちのコードはhttps://github.com/alwaysbyx/ecg_ processingで利用可能です。

A large number of people suffer from life-threatening cardiac abnormalities, and electrocardiogram (ECG) analysis is beneficial to determining whether an individual is at risk of such abnormalities. Automatic ECG classification methods, especially the deep learning based ones, have been proposed to detect cardiac abnormalities using ECG records, showing good potential to improve clinical diagnosis and help early prevention of cardiovascular diseases. However, the predictions of the known neural networks still do not satisfactorily meet the needs of clinicians, and this phenomenon suggests that some information used in clinical diagnosis may not be well captured and utilized by these methods. In this paper, we introduce some rules into convolutional neural networks, which help present clinical knowledge to deep learning based ECG analysis, in order to improve automated ECG diagnosis performance. Specifically, we propose a Handcrafted-Rule-enhanced Neural Network (called HRNN) for ECG classification with standard 12-lead ECG input, which consists of a rule inference module and a deep learning module. Experiments on two large-scale public ECG datasets show that our new approach considerably outperforms existing state-of-the-art methods. Further, our proposed approach not only can improve the diagnosis performance, but also can assist in detecting mislabelled ECG samples. Our codes are available at https://github.com/alwaysbyx/ecg_processing.
翻訳日:2022-06-26 07:12:56 公開日:2022-06-16
# (参考訳) マクロ経済政策設計における強化学習 : 新しいフロンティア?

Reinforcement Learning in Macroeconomic Policy Design: A New Frontier? ( http://arxiv.org/abs/2206.08781v1 )

ライセンス: CC BY 4.0
Callum Tilbury(参考訳) エージェントベースの計算マクロ経済学は、リッチな学術史を持つ分野であるが、複雑でダイナミックな現実を表現することに関わる課題に苦しめられた、主流の政策設計ツールボックスへの参入に苦慮している分野である。 強化学習(RL)の分野も豊富な歴史を持ち、近年はいくつかの指数的発展の中心となっている。 現代のrl実装は前例のないほど洗練され、これまで考えられなかったほど複雑になった。 本稿では、マクロ経済モデリングにおける古典的エージェントベース手法の歴史的障壁を調査し、RLの最近の発展がそれらを克服できるかどうかを検討する。

Agent-based computational macroeconomics is a field with a rich academic history, yet one which has struggled to enter mainstream policy design toolboxes, plagued by the challenges associated with representing a complex and dynamic reality. The field of Reinforcement Learning (RL), too, has a rich history, and has recently been at the centre of several exponential developments. Modern RL implementations have been able to achieve unprecedented levels of sophistication, handling previously-unthinkable degrees of complexity. This review surveys the historical barriers of classical agent-based techniques in macroeconomic modelling, and contemplates whether recent developments in RL can overcome any of them.
翻訳日:2022-06-21 09:35:40 公開日:2022-06-16
# (参考訳) Twitter会話スレッドのヘイトインテンシティ予測

Predicting Hate Intensity of Twitter Conversation Threads ( http://arxiv.org/abs/2206.08406v1 )

ライセンス: CC BY 4.0
Qing Meng and Tharun Suresh, Roy Ka-Wei Lee, Tanmoy Chakraborty(参考訳) ツイートは、オンラインのソーシャルメディアにおける最も簡潔なコミュニケーション形態であり、一つのツイートが会話の会話を作り、破壊する可能性を秘めている。 オンラインヘイトスピーチはかつてないほどアクセスしやすく、その拡散を抑制することは、ソーシャルメディア企業やユーザーにとって、コンジェニアルコミュニケーションにとって最も重要である。 最近の少数の研究は、ツイートスレッド/コンテキストに関わらず、個々のツイートを分類することに重点を置いている。 ヘイトスピーチを抑制する古典的なアプローチの1つは、ヘイトスピーチの投稿後にリアクティブ戦略を採用することである。 ポストのファクト戦略は、ヘイトスピーチを自力で扇動する可能性を示さない微妙なポストを無視する結果となり、ポストの回答で続く議論に終止符を打つ可能性がある。 本稿では,将来,ツイートが応答チェーンを通じてもたらす憎悪の強さを予測することを目的としたDRAGNET++を提案する。 ツイートスレッドのセマンティックな構造と伝播構造を利用して、続く各ツイートにおけるヘイト強度の低下につながるコンテキスト情報を最大化する。 反人種差別には、米国の政治や新型コロナウイルス(covid-19)背景における人種差別的発言に関するソーシャルメディア談話の返信ツイート、新型コロナウイルス(covid-19)のパンデミック中の4000万ツイートのデータセット、新型コロナウイルス(covid-19)のパンデミック時の反asian行動に基づくtwitterデータセットが含まれる。 キュレートされたデータセットはすべて、ツイートスレッドの構造グラフ情報で構成されている。 DRAGNET++は最先端のすべてのベースラインを大幅に上回ることを示す。 他の2つのデータセットで同様の性能を持つ反人種差別データセットでは、パーソナリティ相関係数の11対%のマージンとrmseの25対%のマージンで最高のベースラインを上回っている。

Tweets are the most concise form of communication in online social media, wherein a single tweet has the potential to make or break the discourse of the conversation. Online hate speech is more accessible than ever, and stifling its propagation is of utmost importance for social media companies and users for congenial communication. Most of the research barring a recent few has focused on classifying an individual tweet regardless of the tweet thread/context leading up to that point. One of the classical approaches to curb hate speech is to adopt a reactive strategy after the hate speech postage. The ex-post facto strategy results in neglecting subtle posts that do not show the potential to instigate hate speech on their own but may portend in the subsequent discussion ensuing in the post's replies. In this paper, we propose DRAGNET++, which aims to predict the intensity of hatred that a tweet can bring in through its reply chain in the future. It uses the semantic and propagating structure of the tweet threads to maximize the contextual information leading up to and the fall of hate intensity at each subsequent tweet. We explore three publicly available Twitter datasets -- Anti-Racism contains the reply tweets of a collection of social media discourse on racist remarks during US political and Covid-19 background; Anti-Social presents a dataset of 40 million tweets amidst the COVID-19 pandemic on anti-social behaviours; and Anti-Asian presents Twitter datasets collated based on anti-Asian behaviours during COVID-19 pandemic. All the curated datasets consist of structural graph information of the Tweet threads. We show that DRAGNET++ outperforms all the state-of-the-art baselines significantly. It beats the best baseline by an 11\% margin on the Person correlation coefficient and a decrease of 25\% on RMSE for the Anti-Racism dataset with a similar performance on the other two datasets.
翻訳日:2022-06-21 09:27:25 公開日:2022-06-16
# (参考訳) アラビア語ソーシャルメディアにおけるミソジニー同定と分類のための深部マルチタスクモデル

Deep Multi-Task Models for Misogyny Identification and Categorization on Arabic Social Media ( http://arxiv.org/abs/2206.08407v1 )

ライセンス: CC BY 4.0
Abdelkader El Mahdaouy, Abdellah El Mekki, Ahmed Oumar, Hajar Mousannif, Ismail Berrada(参考訳) ヘイトスピーチ、攻撃的言語、誤認といったソーシャルメディアプラットフォームにおける有害コンテンツの普及は、我々の相互接続社会に深刻な課題をもたらす。 これらの課題は自然言語処理(NLP)コミュニティで広く注目を集めている。 本稿では,提案するシステムについて,第1回アラビア語ミソジニー識別共有タスクについて述べる。 3つのマルチタスク学習モデルと1つのタスク学習モデルについて検討する。 入力テキストを符号化するために、我々のモデルは事前訓練されたMARBERT言語モデルに依存している。 その結果,提案したモデルはすべて,誤認識と分類タスクの両方において,最高の成績(上位3位)を達成していることがわかった。

The prevalence of toxic content on social media platforms, such as hate speech, offensive language, and misogyny, presents serious challenges to our interconnected society. These challenging issues have attracted widespread attention in Natural Language Processing (NLP) community. In this paper, we present the submitted systems to the first Arabic Misogyny Identification shared task. We investigate three multi-task learning models as well as their single-task counterparts. In order to encode the input text, our models rely on the pre-trained MARBERT language model. The overall obtained results show that all our submitted models have achieved the best performances (top three ranked submissions) in both misogyny identification and categorization tasks.
翻訳日:2022-06-21 09:02:40 公開日:2022-06-16
# (参考訳) CS-UM6P at SemEval-2022 Task 6: Transformer-based Models for Intended Sarcasm Detection in English and Arabic

CS-UM6P at SemEval-2022 Task 6: Transformer-based Models for Intended Sarcasm Detection in English and Arabic ( http://arxiv.org/abs/2206.08415v1 )

ライセンス: CC BY 4.0
Abdelkader El Mahdaouy, Abdellah El Mekki, Kabil Essefar, Abderrahman Skiredj, Ismail Berrada(参考訳) サルカズム(Sarcasm)は、文の意図する意味が文字通りの意味と異なる、図形言語の一種である。 これは、センチメント分析、オピニオンマイニング、オーサリングプロファイリングなど、いくつかの自然言語処理(NLP)アプリケーションに深刻な課題をもたらす。 本稿では,英語およびアラビア語におけるサルカズム検出タスクへの参加システムについて述べる。 system\footnote{ 我々のシステムのソースコードは \url{https://github.com/abdelkadermh/isarcasmeval}} で利用可能である。 私たちはすべてのサブタスクに参加しました。 公募では,アラビア語のサブタスクAとサブタスクBの2位にランクされ,サブタスクCではアラビア語と英語のデータセットで7位,11位にランクインしている。

Sarcasm is a form of figurative language where the intended meaning of a sentence differs from its literal meaning. This poses a serious challenge to several Natural Language Processing (NLP) applications such as Sentiment Analysis, Opinion Mining, and Author Profiling. In this paper, we present our participating system to the intended sarcasm detection task in English and Arabic languages. Our system\footnote{The source code of our system is available at \url{https://github.com/AbdelkaderMH/iSarcasmEval}} consists of three deep learning-based models leveraging two existing pre-trained language models for Arabic and English. We have participated in all sub-tasks. Our official submissions achieve the best performance on sub-task A for Arabic language and rank second in sub-task B. For sub-task C, our system is ranked 7th and 11th on Arabic and English datasets, respectively.
翻訳日:2022-06-21 08:49:55 公開日:2022-06-16
# (参考訳) 離散的難解確率に対する一般化ベイズ推論

Generalised Bayesian Inference for Discrete Intractable Likelihood ( http://arxiv.org/abs/2206.08420v1 )

ライセンス: CC BY 4.0
Takuo Matsubara, Jeremias Knoblauch, Fran\c{c}ois-Xavier Briol, Chris. J. Oates(参考訳) 離散状態空間は、正規化定数の計算には大きな集合や無限集合の和を必要とするため、統計推論にとって大きな計算上の課題である。 本稿では,この計算上の課題を,離散的難解な可能性に適した新しい一般化ベイズ推定法の開発を通じて解決する。 連続データに対する最近の方法論的な進歩から着想を得た主なアイデアは、問題のある難解な可能性の代わりに、離散的なフィッシャー発散を用いてモデルパラメータに関する信念を更新することである。 その結果は一般化された後部であり、マルコフ連鎖モンテカルロのような標準的な計算ツールを使って、難解な正規化定数を回避できる。 一般化された後方の統計的性質を解析し、後方整合性と漸近正規性が確立されるのに十分な条件を与える。 また, 一般化後部のキャリブレーションに対する新規かつ汎用的なアプローチを提案する。 離散空間データの格子モデルやカウントデータの多変量モデルに応用され、それぞれの場合において計算コストの低い一般化ベイズ推定が容易になる。

Discrete state spaces represent a major computational challenge to statistical inference, since the computation of normalisation constants requires summation over large or possibly infinite sets, which can be impractical. This paper addresses this computational challenge through the development of a novel generalised Bayesian inference procedure suitable for discrete intractable likelihood. Inspired by recent methodological advances for continuous data, the main idea is to update beliefs about model parameters using a discrete Fisher divergence, in lieu of the problematic intractable likelihood. The result is a generalised posterior that can be sampled using standard computational tools, such as Markov chain Monte Carlo, circumventing the intractable normalising constant. The statistical properties of the generalised posterior are analysed, with sufficient conditions for posterior consistency and asymptotic normality established. In addition, a novel and general approach to calibration of generalised posteriors is proposed. Applications are presented on lattice models for discrete spatial data and on multivariate models for count data, where in each case the methodology facilitates generalised Bayesian inference at low computational cost.
翻訳日:2022-06-21 08:40:54 公開日:2022-06-16
# (参考訳) IRISformer:屋内シーンにおけるシングルイメージ逆レンダリングのための高精細ビジョントランスフォーマー

IRISformer: Dense Vision Transformers for Single-Image Inverse Rendering in Indoor Scenes ( http://arxiv.org/abs/2206.08423v1 )

ライセンス: CC BY 4.0
Rui Zhu, Zhengqin Li, Janarbek Matai, Fatih Porikli, Manmohan Chandraker(参考訳) 室内のシーンは、任意に多様な物体形状、空間的に変化する材料、複雑な照明の間の無数の相互作用によって顕著な外観変化を示す。 可視光と見えない光源によって引き起こされる影、ハイライト、反射は、逆レンダリングのための長距離相互作用の推論を必要とし、画像形成の構成要素、すなわち形状、材料、照明の回復を目指す。 本研究では、トランスフォーマーアーキテクチャによって学習される長距離の注意は、単一画像逆レンダリングにおける長年の課題を解決するのに理想的である。 我々は、逆レンダリングに必要なシングルタスクおよびマルチタスク推論の両方に優れる高密度視覚変換器IRISformerの特定のインスタンス化を実演する。 具体的には,屋内シーンの単一画像から深度,正規度,空間変化アルベド,粗さ,照明を同時に推定するトランスフォーマーアーキテクチャを提案する。 ベンチマークデータセットに関する広範な評価は、上記のタスクのそれぞれについて最先端の結果を示し、オブジェクト挿入や素材編集といったアプリケーションを、以前の作業よりもフォトリアリズムの高い単一の実画像で実現します。 コードとデータはhttps://github.com/ViLab-UCSD/IRISformer.comで公開されている。

Indoor scenes exhibit significant appearance variations due to myriad interactions between arbitrarily diverse object shapes, spatially-changing materials, and complex lighting. Shadows, highlights, and inter-reflections caused by visible and invisible light sources require reasoning about long-range interactions for inverse rendering, which seeks to recover the components of image formation, namely, shape, material, and lighting. In this work, our intuition is that the long-range attention learned by transformer architectures is ideally suited to solve longstanding challenges in single-image inverse rendering. We demonstrate with a specific instantiation of a dense vision transformer, IRISformer, that excels at both single-task and multi-task reasoning required for inverse rendering. Specifically, we propose a transformer architecture to simultaneously estimate depths, normals, spatially-varying albedo, roughness and lighting from a single image of an indoor scene. Our extensive evaluations on benchmark datasets demonstrate state-of-the-art results on each of the above tasks, enabling applications like object insertion and material editing in a single unconstrained real image, with greater photorealism than prior works. Code and data are publicly released at https://github.com/ViLab-UCSD/IRISformer.
翻訳日:2022-06-21 08:39:48 公開日:2022-06-16
# (参考訳) DialogueScript: スクリプトの作成にダイアログエージェントを使用する

DialogueScript: Using Dialogue Agents to Produce a Script ( http://arxiv.org/abs/2206.08425v1 )

ライセンス: CC BY 4.0
Patr\'icia Schmidtov\'a, D\'avid Javorsk\'y, Christi\'an Mikl\'a\v{s}, Tom\'a\v{s} Musil, Rudolf Rosa, Ond\v{r}ej Du\v{s}ek(参考訳) 本稿では,パーソナリティタイプが異なるエージェントを用いてスクリプトを生成する新しい手法を提案する。 文字の相互作用を管理するために,シミュレートされた劇的ネットワークを用いた。 複数の基準における自動評価と人的評価は,バニラGPT2ベースラインよりも優れていることを示す。 さらに,自然言語推論に基づく対話の一貫性を評価するための新しい指標を導入し,その妥当性を示す。

We present a novel approach to generating scripts by using agents with different personality types. To manage character interaction in the script, we employ simulated dramatic networks. Automatic and human evaluation on multiple criteria shows that our approach outperforms a vanilla-GPT2-based baseline. We further introduce a new metric to evaluate dialogue consistency based on natural language inference and demonstrate its validity.
翻訳日:2022-06-21 08:17:42 公開日:2022-06-16
# (参考訳) EyeNeRF:人間の眼の光合成・アニメーション・ライティングのためのハイブリッド表現

EyeNeRF: A Hybrid Representation for Photorealistic Synthesis, Animation and Relighting of Human Eyes ( http://arxiv.org/abs/2206.08428v1 )

ライセンス: CC BY 4.0
Gengyan Li (1 and 2), Abhimitra Meka (1), Franziska M\"uller (1), Marcel C. B\"uhler (2), Otmar Hilliges (2) ((1) Google Inc., (2) ETH Z\"urich)(参考訳) 高品質のアニマタブルで楽しい3Dアバターを作るというユニークな挑戦は、人間の目をモデル化することだ。 目の合成の難しさは 必要以上に多様です 1) びまん性,屈折性,高反射性面を表現できるコヒーレントな視点合成のための眼の各種成分および眼窩領域の適切な表現 2 新規な照明条件下で加工できるような環境照明からの皮膚及び眼の視認の解消、及び 3)眼球運動と周辺皮膚の変形を捉えて再観察できるようにする。 これらの課題は、伝統的に高品質な結果を得るために高価で面倒な捕獲装置の使用を必要としており、なおも眼球領域のモデリングは、歴史的に解明され続けている。 我々は,光とカメラのスパースセットのみを用いて,高忠実度キャプチャとフォトリアリスティックアニメーション,視領域の視線合成とリライティングを可能にする新しい幾何学と外観表現を提案する。 我々のハイブリッド表現は、眼球の明示的なパラメトリック表面モデルと、眼窩領域と眼内部の暗黙的な変形可能な体積表現を組み合わせたものである。 この新しいハイブリッドモデルは、難易度の高い顔領域の様々な部分に対処するために設計されている - 明示的な眼球面は角膜における屈折と高周波のスペクトル反射をモデル化できるが、暗黙的な表現は球面高調波による低周波皮膚反射をモデル化するのに適しており、毛髪や拡散体積体のような非表面構造を表現できる。 眼の高精細なクローズアップでは、目視のない照明条件下で、新しい視点から高精細なアニメーション視線を合成できることを示す。

A unique challenge in creating high-quality animatable and relightable 3D avatars of people is modeling human eyes. The challenge of synthesizing eyes is multifold as it requires 1) appropriate representations for the various components of the eye and the periocular region for coherent viewpoint synthesis, capable of representing diffuse, refractive and highly reflective surfaces, 2) disentangling skin and eye appearance from environmental illumination such that it may be rendered under novel lighting conditions, and 3) capturing eyeball motion and the deformation of the surrounding skin to enable re-gazing. These challenges have traditionally necessitated the use of expensive and cumbersome capture setups to obtain high-quality results, and even then, modeling of the eye region holistically has remained elusive. We present a novel geometry and appearance representation that enables high-fidelity capture and photorealistic animation, view synthesis and relighting of the eye region using only a sparse set of lights and cameras. Our hybrid representation combines an explicit parametric surface model for the eyeball with implicit deformable volumetric representations for the periocular region and the interior of the eye. This novel hybrid model has been designed to address the various parts of that challenging facial area - the explicit eyeball surface allows modeling refraction and high-frequency specular reflection at the cornea, whereas the implicit representation is well suited to model lower-frequency skin reflection via spherical harmonics and can represent non-surface structures such as hair or diffuse volumetric bodies, both of which are a challenge for explicit surface models. We show that for high-resolution close-ups of the eye, our model can synthesize high-fidelity animated gaze from novel views under unseen illumination conditions.
翻訳日:2022-06-21 08:11:25 公開日:2022-06-16
# (参考訳) コミュニティコンテキストによる乱用言語検出の強化

Enriching Abusive Language Detection with Community Context ( http://arxiv.org/abs/2206.08445v1 )

ライセンス: CC BY 4.0
Jana Kurrek, Haji Mohammad Saleem, and Derek Ruths(参考訳) 叙述表現の使用は、良心的または活発な権限を与えることができる。 虐待検出のためのモデルが、これらの表現を軽蔑的と誤分類した場合、彼らは故意に、疎外されたグループによる生産的な会話を検閲する。 非支配的な視点に取り組むひとつの方法は、会話に関するコンテキストを追加することです。 これまでの研究では、ユーザレベルとスレッドレベルの機能を活用していたが、生産的な会話が行われるスペースを無視することが多い。 本稿では,コミュニティコンテキストが乱用言語検出における分類結果をどのように改善するかを示す。 我々はこの目的に2つの大きな貢献をした。 まず,虐待被害者に対する支援という性質から,オンラインコミュニティの集団化を実証する。 第2に,コミュニティコンテキストが精度を向上させる方法を確立し,最先端の乱用言語分類器の偽陽性率を低減させる。 これらの知見は、乱用言語研究における文脈認識モデルに有望な方向性を示唆する。

Uses of pejorative expressions can be benign or actively empowering. When models for abuse detection misclassify these expressions as derogatory, they inadvertently censor productive conversations held by marginalized groups. One way to engage with non-dominant perspectives is to add context around conversations. Previous research has leveraged user- and thread-level features, but it often neglects the spaces within which productive conversations take place. Our paper highlights how community context can improve classification outcomes in abusive language detection. We make two main contributions to this end. First, we demonstrate that online communities cluster by the nature of their support towards victims of abuse. Second, we establish how community context improves accuracy and reduces the false positive rates of state-of-the-art abusive language classifiers. These findings suggest a promising direction for context-aware models in abusive language research.
翻訳日:2022-06-21 07:43:00 公開日:2022-06-16
# (参考訳) 言語モデルのロバスト性の推定と改善方法

Methods for Estimating and Improving Robustness of Language Models ( http://arxiv.org/abs/2206.08446v1 )

ライセンス: CC BY 4.0
Michal \v{S}tef\'anik(参考訳) その卓越した性能にもかかわらず、大きな言語モデル(LLM)は、問題の完全な意味的複雑さよりも単純で表面的なテキスト関係を好むことで悪名高い欠点を被っている。 本提案は,訓練領域外における一般化能力の弱い問題に対する共通分母について検討する。 モデル一般化能力の推定を提供する多様な研究方向を調査し,学習目標にこれらの尺度を組み込むことで,神経モデルの分布的ロバスト性が高まることを見出した。 これらの知見に基づき,LLMの堅牢性向上に向けた今後の研究方向性を示す。

Despite their outstanding performance, large language models (LLMs) suffer notorious flaws related to their preference for simple, surface-level textual relations over full semantic complexity of the problem. This proposal investigates a common denominator of this problem in their weak ability to generalise outside of the training domain. We survey diverse research directions providing estimations of model generalisation ability and find that incorporating some of these measures in the training objectives leads to enhanced distributional robustness of neural models. Based on these findings, we present future research directions towards enhancing the robustness of LLMs.
翻訳日:2022-06-21 07:27:56 公開日:2022-06-16
# (参考訳) 動的アンサンブル選択のための局所重なり低減法

Local overlap reduction procedure for dynamic ensemble selection ( http://arxiv.org/abs/2206.08455v1 )

ライセンス: CC BY 4.0
Mariana A. Souza, Robert Sabourin, George D. C. Cavalcanti and Rafael M. O. Cruz(参考訳) クラス不均衡(class unbalance)は、学習が多数派クラスに偏りがちであるため、分類モデルの学習をより困難にする特徴である。 不均衡学習の文脈におけるアンサンブルベース手法間の有望なアプローチは動的選択(ds)である。 DS技術は、アンサンブル内の分類器のサブセットを抽出し、クエリを取り巻く領域における推定能力に応じて、与えられた未知のサンプルをラベル付けする。 選択スキームでは小さな領域のみが考慮されるため、グローバルクラスの不均衡はシステム性能への影響を少なくする可能性がある。 しかし,局所クラス重なりの存在は,不均衡分布に対するds技術の性能を著しく阻害する可能性がある。 そこで本研究では,分類器選択手順における局所クラス重なりの影響を最小限に抑えるds手法を提案する。 提案手法は,問合せサンプルをラベル付けする能力が認められるまで,最も分類が難しいと認識されたインスタンスを対象領域から反復的に削除する。 既知のサンプルは、局所クラスオーバーラップを定量化するインスタンス硬度測定を用いて特徴づけられる。 実験結果から,提案手法はベースラインや他のDS手法よりも大幅に優れており,クラスアンダー表現や重複処理に適していることが示唆された。 さらに,提案手法は,ラベル付き集合のアンダーサンプルとアンダーサンプルを用いた場合,特に重複領域におけるマイノリティクラス標本の比率が高い問題に対して,競争結果を得た。 コードはhttps://github.com/marianaasouza/lordsで利用可能。

Class imbalance is a characteristic known for making learning more challenging for classification models as they may end up biased towards the majority class. A promising approach among the ensemble-based methods in the context of imbalance learning is Dynamic Selection (DS). DS techniques single out a subset of the classifiers in the ensemble to label each given unknown sample according to their estimated competence in the area surrounding the query. Because only a small region is taken into account in the selection scheme, the global class disproportion may have less impact over the system's performance. However, the presence of local class overlap may severely hinder the DS techniques' performance over imbalanced distributions as it not only exacerbates the effects of the under-representation but also introduces ambiguous and possibly unreliable samples to the competence estimation process. Thus, in this work, we propose a DS technique which attempts to minimize the effects of the local class overlap during the classifier selection procedure. The proposed method iteratively removes from the target region the instance perceived as the hardest to classify until a classifier is deemed competent to label the query sample. The known samples are characterized using instance hardness measures that quantify the local class overlap. Experimental results show that the proposed technique can significantly outperform the baseline as well as several other DS techniques, suggesting its suitability for dealing with class under-representation and overlap. Furthermore, the proposed technique still yielded competitive results when using an under-sampled, less overlapped version of the labelled sets, specially over the problems with a high proportion of minority class samples in overlap areas. Code available at https://github.com/marianaasouza/lords.
翻訳日:2022-06-21 07:15:39 公開日:2022-06-16
# (参考訳) 帰納的ニューラルプログラム:画像文法と部分ホール階層の変分学習

Recursive Neural Programs: Variational Learning of Image Grammars and Part-Whole Hierarchies ( http://arxiv.org/abs/2206.08462v1 )

ライセンス: CC BY 4.0
Ares Fisher, Rajesh P.N. Rao(参考訳) 人間のビジョンは、部分階層に基づいた構造化表現を使用してオブジェクトとシーンを解析し表現することである。 コンピュータビジョンと機械学習の研究者は最近、カプセルネットワーク、参照フレーム、アクティブな予測符号化を使ってこの機能をエミュレートしようとしたが、生成モデルの定式化は欠けていた。 再帰的ニューラルプログラム(Recursive Neural Programs, RNP)を導入し, 階層学習の問題に対処する最初のニューラル生成モデルである。 RNPは、学習された知覚運動子プリミティブを再帰的に再利用し、異なる参照フレーム内で画像をモデル化し、再帰的な画像文法を形成する確率感覚運動プログラムの階層木として画像をモデル化する。 我々は,構造的変分オートエンコーダ(svaes)としてrnpsを表現し,mnist,omniglot,fashion-mnistデータセットの部品ベースの解析,サンプリング,ワンショット転送学習を実演し,モデルの表現力を示す。 以上の結果から,rnpsは,オブジェクトとシーンを直感的かつ説明可能な方法で構成し,部分階層という観点でオブジェクトの豊かな構成性と直感的解釈を可能にする。

Human vision involves parsing and representing objects and scenes using structured representations based on part-whole hierarchies. Computer vision and machine learning researchers have recently sought to emulate this capability using capsule networks, reference frames and active predictive coding, but a generative model formulation has been lacking. We introduce Recursive Neural Programs (RNPs), which, to our knowledge, is the first neural generative model to address the part-whole hierarchy learning problem. RNPs model images as hierarchical trees of probabilistic sensory-motor programs that recursively reuse learned sensory-motor primitives to model an image within different reference frames, forming recursive image grammars. We express RNPs as structured variational autoencoders (sVAEs) for inference and sampling, and demonstrate parts-based parsing, sampling and one-shot transfer learning for MNIST, Omniglot and Fashion-MNIST datasets, demonstrating the model's expressive power. Our results show that RNPs provide an intuitive and explainable way of composing objects and scenes, allowing rich compositionality and intuitive interpretations of objects in terms of part-whole hierarchies.
翻訳日:2022-06-21 06:53:15 公開日:2022-06-16
# (参考訳) 多面ノード機能を持つディープグラフモデルのトレーニングのためのロバストスタックフレームワーク

A Robust Stacking Framework for Training Deep Graph Models with Multifaceted Node Features ( http://arxiv.org/abs/2206.08473v1 )

ライセンス: CC BY 4.0
Jiuhai Chen, Jonas Mueller, Vassilis N. Ioannidis, Tom Goldstein, David Wipf(参考訳) 数値ノード特徴とグラフ構造を入力とするグラフニューラルネットワーク(GNN)は,グラフデータを用いた各種教師付き学習タスクにおいて,優れた性能を示した。 しかし、gnnが利用する数値ノードの特徴は、実世界のほとんどのアプリケーションでテキストまたは表型(数値/カテゴリ)の生データから一般的に抽出される。 IID(non-graph)データを用いたほとんどの標準教師付き学習環境において、そのようなデータ型のための最良のモデルは、単純なニューラルネットワーク層ではないため、GNNに簡単に組み込むことはできない。 本稿では、グラフ認識の伝搬をIIDデータに意図した任意のモデルで融合し、複数の層にまとめて積み重ねるロバストな積み重ねフレームワークを提案する。 階層的なフレームワークは,バッグングとスタックングの戦略を利用して,ラベルの漏洩やオーバーフィッティングを効果的に軽減する,強力な一般化を享受する。 グラフ/テキストノード機能を備えたグラフデータセットの多種多様さに対して,本手法は,表/テキスト,グラフニューラルネットワークモデル,および2つの組み合わせた最先端ハイブリッド戦略に対して,同等あるいは優れた性能を実現する。

Graph Neural Networks (GNNs) with numerical node features and graph structure as inputs have demonstrated superior performance on various supervised learning tasks with graph data. However the numerical node features utilized by GNNs are commonly extracted from raw data which is of text or tabular (numeric/categorical) type in most real-world applications. The best models for such data types in most standard supervised learning settings with IID (non-graph) data are not simple neural network layers and thus are not easily incorporated into a GNN. Here we propose a robust stacking framework that fuses graph-aware propagation with arbitrary models intended for IID data, which are ensembled and stacked in multiple layers. Our layer-wise framework leverages bagging and stacking strategies to enjoy strong generalization, in a manner which effectively mitigates label leakage and overfitting. Across a variety of graph datasets with tabular/text node features, our method achieves comparable or superior performance relative to both tabular/text and graph neural network models, as well as existing state-of-the-art hybrid strategies that combine the two.
翻訳日:2022-06-21 06:39:34 公開日:2022-06-16
# (参考訳) 事前学習モデルを用いたゼロショットオートML

Zero-Shot AutoML with Pretrained Models ( http://arxiv.org/abs/2206.08476v1 )

ライセンス: CC BY 4.0
Ekrem \"Ozt\"urk and Fabio Ferreira and Hadi S. Jomaa and Lars Schmidt-Thieme and Josif Grabocka and Frank Hutter(参考訳) 新しいデータセットDと低い計算予算を前提として、Dに微調整する事前学習モデルを選択し、特にDが小さい場合、オーバーフィッティングのリスクを伴わずに微調整ハイパーパラメータを設定するにはどうすればよいか? ここでは、これらの選択を最大限に行うために、自動機械学習(AutoML)を拡張します。 我々のドメインに依存しないメタラーニングアプローチはゼロショットサロゲートモデルを学び、テスト時には、画像解像度やクラス数などのDを簡潔に記述したDのみを与えられた新しいデータセットDに対して、適切な深層学習パイプライン(事前学習モデルと微調整ハイパーパラメータを含む)を選択することができる。 このゼロショットモデルをトレーニングするために、多くのDLパイプラインのパフォーマンスデータをデータセットの大規模なコレクション上で収集し、このデータ上でメタトレインを行い、ペアのランク付けの目的を最小化する。 私たちは、chalearn autodl challengeベンチマークのビジョントラックの厳密な時間制限の下でのアプローチを評価し、すべての挑戦者よりも明らかに優れています。

Given a new dataset D and a low compute budget, how should we choose a pre-trained model to fine-tune to D, and set the fine-tuning hyperparameters without risking overfitting, particularly if D is small? Here, we extend automated machine learning (AutoML) to best make these choices. Our domain-independent meta-learning approach learns a zero-shot surrogate model which, at test time, allows to select the right deep learning (DL) pipeline (including the pre-trained model and fine-tuning hyperparameters) for a new dataset D given only trivial meta-features describing D such as image resolution or the number of classes. To train this zero-shot model, we collect performance data for many DL pipelines on a large collection of datasets and meta-train on this data to minimize a pairwise ranking objective. We evaluate our approach under the strict time limit of the vision track of the ChaLearn AutoDL challenge benchmark, clearly outperforming all challenge contenders.
翻訳日:2022-06-21 06:19:22 公開日:2022-06-16
# (参考訳) 視覚トランスフォーマーのバックドア攻撃

Backdoor Attacks on Vision Transformers ( http://arxiv.org/abs/2206.08477v1 )

ライセンス: CC BY 4.0
Akshayvarun Subramanya, Aniruddha Saha, Soroush Abbasi Koohpayegani, Ajinkya Tejankar, Hamed Pirsiavash(参考訳) ビジョントランスフォーマー(ViT)は、最近、様々なビジョンタスクで模範的なパフォーマンスを示し、CNNの代替として使われている。 彼らの設計は、CNNとはかなり異なるパッチのシーケンスとしてイメージを処理する自己認識機構に基づいている。 したがって、ViTsがバックドア攻撃に弱いかどうかを研究することは興味深い。 バックドア攻撃は、攻撃者が悪意のある目的でトレーニングデータのごく一部を毒殺した時に起こる。 モデルパフォーマンスはクリーンなテストイメージでは良好だが、攻撃者はテスト時にトリガーを表示することでモデルの判断を操作できる。 私たちの知る限りでは、ViTsがバックドア攻撃に弱いことを最初に示しています。 また、ViTとCNNの興味深い違いも見出す。解釈アルゴリズムは、ViTのテストイメージのトリガーを効果的に強調するが、CNNには当てはまらない。 そこで本研究では,vitsに対して,攻撃成功率を大きなマージンで低減するテストタイム画像ブロック防御を提案する。 コードはここにある。 https://github.com/UCDvision/backdoor_transformer.git

Vision Transformers (ViT) have recently demonstrated exemplary performance on a variety of vision tasks and are being used as an alternative to CNNs. Their design is based on a self-attention mechanism that processes images as a sequence of patches, which is quite different compared to CNNs. Hence it is interesting to study if ViTs are vulnerable to backdoor attacks. Backdoor attacks happen when an attacker poisons a small part of the training data for malicious purposes. The model performance is good on clean test images, but the attacker can manipulate the decision of the model by showing the trigger at test time. To the best of our knowledge, we are the first to show that ViTs are vulnerable to backdoor attacks. We also find an intriguing difference between ViTs and CNNs - interpretation algorithms effectively highlight the trigger on test images for ViTs but not for CNNs. Based on this observation, we propose a test-time image blocking defense for ViTs which reduces the attack success rate by a large margin. Code is available here: https://github.com/UCDvision/backdoor_transformer.git
翻訳日:2022-06-21 05:55:31 公開日:2022-06-16
# (参考訳) 暗示的欠落値を持つデータセットの分類:計算品質は重要か?

Classification of datasets with imputed missing values: does imputation quality matter? ( http://arxiv.org/abs/2206.08478v1 )

ライセンス: CC BY 4.0
Tolou Shadbahr and Michael Roberts and Jan Stanczuk and Julian Gilbey and Philip Teare, S\"oren Dittmer, Matthew Thorpe, Ramon Vinas Torne, Evis Sala, Pietro Lio, Mishal Patel, AIX-COVNET Collaboration, James H.F. Rudd, Tuomas Mirtti, Antti Rannikko, John A.D. Aston, Jing Tang, Carola-Bibiane Sch\"onlieb(参考訳) 不完全なデータセットにサンプルを分類することは、機械学習実践者にとって共通の目的であるが、簡単ではない。 欠落したデータは、ほとんどの実世界のデータセットに見られ、これらの欠落した値は、通常、確立された方法を使用してインプットされる。 機械学習研究者の焦点は、下流の分類性能を最適化することである。 本研究では,計算の質を考慮することが不可欠であることを強調する。 そこで本研究では,品質評価に一般的に用いられる指標がいかに欠陥があるかを実証し,その方法がデータの全体分布をいかに良く再現するかに注目した,新しい不一致スコアを提案する。 結論として,不適切なインデュートデータを用いて学習した分類器モデルの解釈可能性について考察する。

Classifying samples in incomplete datasets is a common aim for machine learning practitioners, but is non-trivial. Missing data is found in most real-world datasets and these missing values are typically imputed using established methods, followed by classification of the now complete, imputed, samples. The focus of the machine learning researcher is then to optimise the downstream classification performance. In this study, we highlight that it is imperative to consider the quality of the imputation. We demonstrate how the commonly used measures for assessing quality are flawed and propose a new class of discrepancy scores which focus on how well the method recreates the overall distribution of the data. To conclude, we highlight the compromised interpretability of classifier models trained using poorly imputed data.
翻訳日:2022-06-21 05:43:14 公開日:2022-06-16
# (参考訳) 学習前向き運動力学と非線形最小二乗最適化を用いた高精度ロボット制御

High-Speed Accurate Robot Control using Learned Forward Kinodynamics and Non-linear Least Squares Optimization ( http://arxiv.org/abs/2206.08487v1 )

ライセンス: CC BY 4.0
Pranav Atreya, Haresh Karnan, Kavan Singh Sikand, Xuesu Xiao, Garrett Warnell, Sadegh Rabiee, Peter Stone, Joydeep Biswas(参考訳) 実世界におけるロボットの正確な制御には,ロボットと環境とのキノダイナミックな相互作用を考慮に入れた制御システムが必要である。 高速では、これらの運動力学的相互作用に対するロボットの動きの依存性がより顕著になり、高速で正確なロボット制御が難しい問題となる。 これまでの研究では,ロボットの逆キノダイナミックス(IKD)の学習が,ロボットの高速制御に役立つことが示されている。 しかし、学習された逆キノダイナミクスモデルは限られた制御問題にのみ適用でき、異なる制御問題は新しいIKDモデルの学習を必要とする。 本稿では,学習フォワードキノダイナミック(fkd)モデルと非線形最小二乗最適化を用いた,高精度・高速ロボット制御のための新しい定式化を提案する。 定式化の性質上、このアプローチは、新しいモデルのリトレーニングを必要とせずに、幅広い制御問題に対して拡張可能である。 提案手法は,高速でスケールした10分の1ロボットカーを正確に制御し,ベースラインよりも改良された結果を示す。

Accurate control of robots in the real world requires a control system that is capable of taking into account the kinodynamic interactions of the robot with its environment. At high speeds, the dependence of the movement of the robot on these kinodynamic interactions becomes more pronounced, making high-speed, accurate robot control a challenging problem. Previous work has shown that learning the inverse kinodynamics (IKD) of the robot can be helpful for high-speed robot control. However a learned inverse kinodynamic model can only be applied to a limited class of control problems, and different control problems require the learning of a new IKD model. In this work we present a new formulation for accurate, high-speed robot control that makes use of a learned forward kinodynamic (FKD) model and non-linear least squares optimization. By nature of the formulation, this approach is extensible to a wide array of control problems without requiring the retraining of a new model. We demonstrate the ability of this approach to accurately control a scale one-tenth robot car at high speeds, and show improved results over baselines.
翻訳日:2022-06-21 05:42:07 公開日:2022-06-16
# モバイルデバイスにおけるリアルタイムモーション増幅

Real-time motion amplification on mobile devices ( http://arxiv.org/abs/2206.08422v1 )

ライセンス: Link先を確認
Henning U. Voss(参考訳) モバイルデバイス上のリアルタイムアプリケーションに適したシンプルなモーション増幅アルゴリズムを提案する。 動画ストリームの時間的ハイパスフィルタである移動平均差分法(MEMAD)による運動強調に基づく。 MEMADは小さな動く物体を増幅したり、大きな物体の微妙な動きを増幅することができる。 スマートフォンでリアルタイムに実装するのは、計算上十分簡単である。 特定のAndroid電話アプリとしての実装において、MEMADは、工学、生物学、医学の応用を動機付けるために選ばれた例で示される。

A simple motion amplification algorithm suitable for real-time applications on mobile devices is presented. It is based on motion enhancement by moving average differencing (MEMAD), a temporal high-pass filter for video streams. MEMAD can amplify small moving objects or subtle motion in larger objects. It is computationally sufficiently simple to be implemented in real time on smartphones. In the specific implementation as an Android phone app, MEMAD is demonstrated on examples chosen such as to motivate applications in the engineering, biological, and medical sciences.
翻訳日:2022-06-20 15:17:10 公開日:2022-06-16
# 骨表面セグメンテーションのための配向誘導グラフ畳み込みネットワーク

Orientation-guided Graph Convolutional Network for Bone Surface Segmentation ( http://arxiv.org/abs/2206.08481v1 )

ライセンス: Link先を確認
Aimon Rahman, Wele Gedara Chaminda Bandara, Jeya Maria Jose Valanarasu, Ilker Hacihaliloglu, Vishal M Patel(参考訳) 超音波画像における画像アーチファクトと低信号-雑音比のため、骨表面の自動分割ネットワークは、しばしば断片化された予測を生成し、超音波誘導コンピュータ支援手術の成功を妨げる。 既存のピクセル単位での予測は、接続を強制する監督の欠如のために、しばしば骨組織の正確なトポロジーを捉えることができない。 本研究では, 骨表面をセグメント化しながら接続性を向上させるために, 方位誘導グラフ畳み込みネットワークを提案する。 また, 骨表面の配向を更に監視し, 接続性をさらに高めることを提案する。 大腿骨, 膝, 脊椎, 遠位端のusスキャン1042例に対して, アプローチの有効性を確認した。 提案手法は,接続距離を5.01%向上させる。

Due to imaging artifacts and low signal-to-noise ratio in ultrasound images, automatic bone surface segmentation networks often produce fragmented predictions that can hinder the success of ultrasound-guided computer-assisted surgical procedures. Existing pixel-wise predictions often fail to capture the accurate topology of bone tissues due to a lack of supervision to enforce connectivity. In this work, we propose an orientation-guided graph convolutional network to improve connectivity while segmenting the bone surface. We also propose an additional supervision on the orientation of the bone surface to further impose connectivity. We validated our approach on 1042 vivo US scans of femur, knee, spine, and distal radius. Our approach improves over the state-of-the-art methods by 5.01% in connectivity metric.
翻訳日:2022-06-20 15:16:08 公開日:2022-06-16
# ユビキタスなサーバレスプログラミングパラダイムとAIとそれ以上の完全なスタック自動化の事例 - JaseciとJacの哲学

The Case for a Wholistic Serverless Programming Paradigm and Full Stack Automation for AI and Beyond -- The Philosophy of Jaseci and Jac ( http://arxiv.org/abs/2206.08434v1 )

ライセンス: Link先を確認
Jason Mars(参考訳) この作業では、この複雑さのギャップを埋めるために、システムスタックをプログラミング言語レベルからシステムアーキテクチャまで完全にトップダウンで再設計するケースが作られます。 我々の設計の重要なゴールは、プログラマが問題レベルで高いレベルの抽象化を持つソリューションを調停し、ランタイムシステムスタックをサブスム化し、拡散するサブアプリケーションとマシン間リソースの広い範囲を隠蔽することである。 この研究は、Jaseci と呼ばれるシステムスタックアーキテクチャとそれに対応するプログラミング言語 Jac のプロダクショングレードの実現も提案している。 JacとJaseciはオープンソースとしてリリースされ、AI製品やその他のアプリケーションを大規模に開発、デプロイするために、実際の製品チームによって活用されている。 Jacは商用の運用環境で利用されており、AI開発タイムラインを約10倍に加速している。Jaseciランタイムは、一般的に、マイクロサービスであるべきでないことや、動的に変更すべきでないような、チームの手動エンジニアリングロールの範囲内にある決定と最適化を自動化する。

In this work, the case is made for a wholistic top-down re-envisioning of the system stack from the programming language level down through the system architecture to bridge this complexity gap. The key goal of our design is to address the critical need for the programmer to articulate solutions with higher level abstractions at the problem level while having the runtime system stack subsume and hide a broad scope of diffuse sub-applications and inter-machine resources. This work also presents the design of a production-grade realization of such a system stack architecture called Jaseci, and corresponding programming language Jac. Jac and Jaseci has been released as open source and has been leveraged by real product teams to accelerate developing and deploying sophisticated AI products and other applications at scale. Jac has been utilized in commercial production environments to accelerate AI development timelines by ~10x, with the Jaseci runtime automating the decisions and optimizations typically falling in the scope of manual engineering roles on a team such as what should and should not be a microservice and changing those dynamically.
翻訳日:2022-06-20 15:14:32 公開日:2022-06-16
# クラウドマーケットプレイスネゴシエーションのためのBDIマルチエージェントシステム

Belief-Desire-Intention (BDI) Multi-agent System for Cloud Marketplace Negotiation ( http://arxiv.org/abs/2206.08468v1 )

ライセンス: Link先を確認
Saurabh Deochake(参考訳) クラウドコンピューティングの進化とともに、大企業がインフラストラクチャとワークロードをパブリッククラウドに拡張する動きが見られた。 本稿では,bdi(behavior-desire-intention)マルチエージェントベースのクラウドマーケットプレースシステムのための本格的なフレームワークを提案する。 クラウドマーケットプレイスシステムの各パーティは、リソースの自動購入と販売を容易にするための自律的な意思決定と交渉のためのBDIエージェントをサポートしている。 さらに、同じクラウドリソースを競合する企業の複数のBDIエージェントがMaster Negotiation Clearing Houseを介して相互に相談し、クラウドリソースを交渉しながら、企業全体のコスト機能を最小限にすることができる。 クラウドマーケットプレースシステムは、エージェント間の信頼を促進するために、行動規範と評判指標の割り当てによってさらに強化されている。

With the evolution of cloud computing, there has been a rise of large enterprises extending their infrastructure and workloads into the public cloud. This paper proposes a full-fledged framework for a Belief-Desire-Intention (BDI) multi-agent-based cloud marketplace system for cloud resources. Each party in the cloud marketplace system supports a BDI agent for autonomous decision making and negotiation to facilitate automated buying and selling of resources. Additionally, multiple BDI agents from an enterprise competing for the same cloud resource can consult with each other via Master Negotiation Clearing House to minimize the overall cost function for the enterprise while negotiating for a cloud resource. The cloud marketplace system is further augmented with assignments of behavior norm and reputation index to the agents to facilitate trust among them.
翻訳日:2022-06-20 15:14:09 公開日:2022-06-16
# 不十分なデータに基づくロバスト制約に基づく因果発見に対する経験ベイズ的アプローチ

Empirical Bayesian Approaches for Robust Constraint-based Causal Discovery under Insufficient Data ( http://arxiv.org/abs/2206.08448v1 )

ライセンス: Link先を確認
Zijun Cui, Naiyu Yin, Yuru Wang, and Qiang Ji(参考訳) 因果発見は、観測データから変数間の因果関係を学習することであり、多くのアプリケーションにとって重要である。 既存の因果探索法は、多くの実世界のデータセットではそうではないかもしれないデータ不足を前提としている。 その結果、既存の多くの因果発見手法は限られたデータで失敗する可能性がある。 本研究では,制約に基づく因果探索手法の性能向上を目的としたベイズ独立テストを提案する。 1)まず,頑健なMIベース独立テストを提案する相互情報(MI)を推定するベイズ的手法を導入する。 2) ベイジアン推定では, 仮説の確率を推定し, 統計的テストに組み込むことで, 頑健な統計的テストに基づく独立性テストを行う。 提案手法は制約に基づく因果発見法に独立性テストを適用し,サンプル不足のベンチマークデータセットの性能評価を行う。 実験では, sota法と比較して精度と効率の両面で有意な性能改善を示した。

Causal discovery is to learn cause-effect relationships among variables given observational data and is important for many applications. Existing causal discovery methods assume data sufficiency, which may not be the case in many real world datasets. As a result, many existing causal discovery methods can fail under limited data. In this work, we propose Bayesian-augmented frequentist independence tests to improve the performance of constraint-based causal discovery methods under insufficient data: 1) We firstly introduce a Bayesian method to estimate mutual information (MI), based on which we propose a robust MI based independence test; 2) Secondly, we consider the Bayesian estimation of hypothesis likelihood and incorporate it into a well-defined statistical test, resulting in a robust statistical testing based independence test. We apply proposed independence tests to constraint-based causal discovery methods and evaluate the performance on benchmark datasets with insufficient samples. Experiments show significant performance improvement in terms of both accuracy and efficiency over SOTA methods.
翻訳日:2022-06-20 15:12:45 公開日:2022-06-16
# pranc: 深層モデル圧縮のための擬似ランダムネットワーク

PRANC: Pseudo RAndom Networks for Compacting deep models ( http://arxiv.org/abs/2206.08464v1 )

ライセンス: Link先を確認
Parsa Nooralinejad, Ali Abbasi, Soheil Kolouri, Hamed Pirsiavash(参考訳) コミュニケーションは、さまざまな分散機械学習設定においてボトルネックとなる。 本稿では,エージェント間のモデル通信を効率的に行うための新しいトレーニングフレームワークを提案する。 要するに、ネットワークを多くの疑似ランダム生成凍結モデルの線形結合として訓練するのです。 通信のために、ソースエージェントは、学習された線形混合係数と共に疑似ランダムな‘basis’ネットワークを生成するために使用される‘seed’スカラーのみを送信する。 我々の手法はPRANCと呼ばれ、深層モデルよりも100\times$少ないパラメータを学習し、それでもいくつかのデータセットやアーキテクチャでよく機能する。 PRANC 対応 1)エージェント間のモデルの効率的な通信 2)効率的なモデル記憶装置 3)フライ上で層状重みを発生させることによる加速度的推論。 我々は、AlexNet、LeNet、ResNet18、ResNet20、ResNet56といった様々なアーキテクチャを用いて、CIFAR-10、CIFAR-100、SmallImageNet、ImageNet-100上でPRANCをテストする。 コードは \href{https://github.com/UCDvision/PRANC}{https://github.com/UCDvision/PRANC} で利用可能である。

Communication becomes a bottleneck in various distributed Machine Learning settings. Here, we propose a novel training framework that leads to highly efficient communication of models between agents. In short, we train our network to be a linear combination of many pseudo-randomly generated frozen models. For communication, the source agent transmits only the `seed' scalar used to generate the pseudo-random `basis' networks along with the learned linear mixture coefficients. Our method, denoted as PRANC, learns almost $100\times$ fewer parameters than a deep model and still performs well on several datasets and architectures. PRANC enables 1) efficient communication of models between agents, 2) efficient model storage, and 3) accelerated inference by generating layer-wise weights on the fly. We test PRANC on CIFAR-10, CIFAR-100, tinyImageNet, and ImageNet-100 with various architectures like AlexNet, LeNet, ResNet18, ResNet20, and ResNet56 and demonstrate a massive reduction in the number of parameters while providing satisfactory performance on these benchmark datasets. The code is available \href{https://github.com/UCDvision/PRANC}{https://github.com/UCDvision/PRANC}
翻訳日:2022-06-20 14:37:40 公開日:2022-06-16
# gaama 2.0:booleanとextractiveの質問に答える統合システム

GAAMA 2.0: An Integrated System that Answers Boolean and Extractive Question ( http://arxiv.org/abs/2206.08441v1 )

ライセンス: Link先を確認
Scott McCarley, Mihaela Bornea, Sara Rosenthal, Anthony Ferritto, Md Arafat Sultan, Avirup Sil, Radu Florian(参考訳) 最近の機械読解データセットには抽出的およびブール的質問が含まれているが、現在のアプローチではどちらの質問にも答える統合的なサポートを提供していない。 本報告では,多言語機械読解システムと,ブール問題を扱うフロントエンドのデモについて,イエス・ノー回答と支持エビデンスの両方を提示し,文章中の回答を強調することで抽出的質問を処理した。 我々のシステムであるGAAMA 2.0は、この記事執筆時点でタイディのQAリーダーボードにランクインしている。 我々はアプローチの2つの異なる実装を対比する。 1つ目は、各コンポーネントを簡単にデプロイできるトランスフォーマーの独立したスタックである。 2つ目は、リソース制約のある環境でGPUメモリフットプリントを減らすためにアダプタを利用するトランスフォーマーの単一スタックである。

Recent machine reading comprehension datasets include extractive and boolean questions but current approaches do not offer integrated support for answering both question types. We present a multilingual machine reading comprehension system and front-end demo that handles boolean questions by providing both a YES/NO answer and highlighting supporting evidence, and handles extractive questions by highlighting the answer in the passage. Our system, GAAMA 2.0, is ranked first on the Tydi QA leaderboard at the time of this writing. We contrast two different implementations of our approach. The first includes several independent stacks of transformers allowing easy deployment of each component. The second is a single stack of transformers utilizing adapters to reduce GPU memory footprint in a resource-constrained environment.
翻訳日:2022-06-20 14:03:12 公開日:2022-06-16
# マルチホップ質問応答のためのAMRに基づく解釈型質問分解法

Interpretable AMR-Based Question Decomposition for Multi-hop Question Answering ( http://arxiv.org/abs/2206.08486v1 )

ライセンス: Link先を確認
Zhenyun Deng, Yonghua Zhu, Yang Chen, Michael Witbrock, Patricia Riddle(参考訳) 効果的なマルチホップ質問応答 (QA) には,複数の段落の推論と回答の説明が必要である。 既存のほとんどのアプローチでは、これらのモデルがどのように答えを得るかを説明する解釈可能な推論プロセスを提供できません。 本稿では,マルチホップ質問を単純なサブ質問に分解し,順番に答えることで,解釈可能な推論を実現するマルチホップqaのための,抽象的意味表現(qdamr)に基づく質問分解手法を提案する。 分解の注釈付けは高価であるため、まずマルチホップ問題を理解する複雑さをAMRパーサに委譲する。 次に、要求される推論型に基づいて対応するamrグラフのセグメンテーションを通じて、マルチホップ質問の分解を実現する。 最後に、AMR-to-Text生成モデルを用いてサブクエストを生成し、既製のQAモデルで答える。 HotpotQAの実験結果から,本手法は解釈可能な推論に適しており,QDAMRが生成するサブクエストが良好に形成されており,既存の質問分解に基づくマルチホップQA手法よりも優れていることが示された。

Effective multi-hop question answering (QA) requires reasoning over multiple scattered paragraphs and providing explanations for answers. Most existing approaches cannot provide an interpretable reasoning process to illustrate how these models arrive at an answer. In this paper, we propose a Question Decomposition method based on Abstract Meaning Representation (QDAMR) for multi-hop QA, which achieves interpretable reasoning by decomposing a multi-hop question into simpler sub-questions and answering them in order. Since annotating the decomposition is expensive, we first delegate the complexity of understanding the multi-hop question to an AMR parser. We then achieve the decomposition of a multi-hop question via segmentation of the corresponding AMR graph based on the required reasoning type. Finally, we generate sub-questions using an AMR-to-Text generation model and answer them with an off-the-shelf QA model. Experimental results on HotpotQA demonstrate that our approach is competitive for interpretable reasoning and that the sub-questions generated by QDAMR are well-formed, outperforming existing question-decomposition-based multi-hop QA approaches.
翻訳日:2022-06-20 14:03:00 公開日:2022-06-16
# 追跡より深く進む:コンピュータビジョンによる動物の痛みと感情状態の認識に関する調査

Going Deeper than Tracking: a Survey of Computer-Vision Based Recognition of Animal Pain and Affective States ( http://arxiv.org/abs/2206.08405v1 )

ライセンス: Link先を確認
Sofia Broom\'e, Marcelo Feighelstein, Anna Zamansky, Gabriel Carreira Lencioni, Pia Haubro Andersen, Francisca Pessanha, Marwa Mahmoud, Hedvig Kjellstr\"om and Albert Ali Salah(参考訳) 動物の動き追跡とポーズ認識の進歩は、動物行動の研究におけるゲームチェンジャーとなった。 近年では、追跡よりも「絶望的」な作品が増えており、感情や痛みなどの動物の内的状態の自動認識に対処し、動物福祉の改善をめざして、この分野の体系化のタイムリーな瞬間となっている。 本稿では,動物における情緒状態と痛みの認識に関するコンピュータビジョンに基づく研究の包括的調査を行い,顔と身体の行動分析について述べる。 我々は、このトピックの中でこれまで提示された取り組みを要約し、異なる次元にまたがって分類し、課題と研究ギャップを強調し、分野を前進させるためのベストプラクティスの推奨と研究の今後の方向性について述べる。

Advances in animal motion tracking and pose recognition have been a game changer in the study of animal behavior. Recently, an increasing number of works go 'deeper' than tracking, and address automated recognition of animals' internal states such as emotions and pain with the aim of improving animal welfare, making this a timely moment for a systematization of the field. This paper provides a comprehensive survey of computer vision-based research on recognition of affective states and pain in animals, addressing both facial and bodily behavior analysis. We summarize the efforts that have been presented so far within this topic -- classifying them across different dimensions, highlight challenges and research gaps, and provide best practice recommendations for advancing the field, and some future directions for research.
翻訳日:2022-06-20 14:00:13 公開日:2022-06-16
# 映画・テレビエピソードにおける感性活動のスケーラブルな時間的局在

Scalable Temporal Localization of Sensitive Activities in Movies and TV Episodes ( http://arxiv.org/abs/2206.08429v1 )

ライセンス: Link先を確認
Xiang Hao, Jingxiang Chen, Shixing Chen, Ahmed Saad, Raffay Hamid(参考訳) 視聴者がより良い視聴を選択できるようにするため、ビデオストリーミングサービスはコンテンツを調整し、映画やテレビ番組のどの部分が年齢に合った素材(ヌード、セックス、暴力、薬物使用など)を含んでいるかをより視認する。 これらのセンシティブなアクティビティをローカライズするための監視されたモデルは、取得が難しい大量のクリップレベルのラベル付きデータを必要とするが、この目的に対する弱い教師付きモデルは、通常競争の精度を提供しない。 そこで,本研究では,ビデオレベルの弱いラベルを,年齢に合った比較的少ないクリップレベルラベルと併用して,容易に得ることのできる粗い2フィギュアネットワークを提案する。 本モデルでは,フレームレベルの予測を集約してビデオレベルの分類を行い,ビデオレベルのラベルとともにクリップレベルの粗いラベルを活用できる。 さらに,フレームレベルの予測を階層的に行うことで,年齢に適したコンテンツのまれな発生性に起因するラベル不均衡問題を克服することができる。 521ヶ国・250ヶ国の41,234本の映画とテレビのエピソード(約3年間の映像コンテンツ)を用いて,これまでに公開された長編ビデオにおいて,年齢に適した活動ローカライゼーションの最大規模の実証分析を行った。 我々のアプローチは、既存の最先端のアクティビティローカライゼーションアプローチよりも107.2%の相対的なmAP改善(5.5%から11.4%)を提供する。

To help customers make better-informed viewing choices, video-streaming services try to moderate their content and provide more visibility into which portions of their movies and TV episodes contain age-appropriate material (e.g., nudity, sex, violence, or drug-use). Supervised models to localize these sensitive activities require large amounts of clip-level labeled data which is hard to obtain, while weakly-supervised models to this end usually do not offer competitive accuracy. To address this challenge, we propose a novel Coarse2Fine network designed to make use of readily obtainable video-level weak labels in conjunction with sparse clip-level labels of age-appropriate activities. Our model aggregates frame-level predictions to make video-level classifications and is therefore able to leverage sparse clip-level labels along with video-level labels. Furthermore, by performing frame-level predictions in a hierarchical manner, our approach is able to overcome the label-imbalance problem caused due to the rare-occurrence nature of age-appropriate content. We present comparative results of our approach using 41,234 movies and TV episodes (~3 years of video-content) from 521 sub-genres and 250 countries making it by far the largest-scale empirical analysis of age-appropriate activity localization in long-form videos ever published. Our approach offers 107.2% relative mAP improvement (from 5.5% to 11.4%) over existing state-of-the-art activity-localization approaches.
翻訳日:2022-06-20 13:59:59 公開日:2022-06-16
# 制御可能な画像強調

Controllable Image Enhancement ( http://arxiv.org/abs/2206.08488v1 )

ライセンス: Link先を確認
Heewon Kim and Kyoung Mu Lee(参考訳) 平らなイメージを素晴らしい写真に編集するには、スキルと時間が必要です。 自動画像強調アルゴリズムは,ユーザインタラクションを伴わずに高品質な画像を生成することで,注目を集めている。 しかし,写真の品質評価は主観的である。 トーンや色調整であっても、自動エンハンスメントの1枚の写真では、微妙で変更可能なユーザの好みに合わせることが難しい。 この問題に対処するために,複数のパラメータを制御して高品質な画像を生成する半自動画像強調アルゴリズムを提案する。 まず,高品質画像から写真リタッチ技術を取り外し,各スキルの効率的なエンハンスメントシステムを構築する。 具体的には、エンコーダ・デコーダフレームワークは、修正スキルを潜在コードにエンコードし、イメージ信号処理(ISP)関数のパラメータにデコードする。 ISP関数は計算効率が良く、19のパラメータで構成される。 提案手法は,提案手法が画像品質とモデル効率のベンチマークデータセット上での最先端性能を実現するために,複数の推論を必要とするにもかかわらず,実験結果が得られた。

Editing flat-looking images into stunning photographs requires skill and time. Automated image enhancement algorithms have attracted increased interest by generating high-quality images without user interaction. However, the quality assessment of a photograph is subjective. Even in tone and color adjustments, a single photograph of auto-enhancement is challenging to fit user preferences which are subtle and even changeable. To address this problem, we present a semiautomatic image enhancement algorithm that can generate high-quality images with multiple styles by controlling a few parameters. We first disentangle photo retouching skills from high-quality images and build an efficient enhancement system for each skill. Specifically, an encoder-decoder framework encodes the retouching skills into latent codes and decodes them into the parameters of image signal processing (ISP) functions. The ISP functions are computationally efficient and consist of only 19 parameters. Despite our approach requiring multiple inferences to obtain the desired result, experimental results present that the proposed method achieves state-of-the-art performances on the benchmark dataset for image quality and model efficiency.
翻訳日:2022-06-20 13:59:29 公開日:2022-06-16
# アクティブフェアネス監査

Active Fairness Auditing ( http://arxiv.org/abs/2206.08450v1 )

ライセンス: Link先を確認
Tom Yan and Chicheng Zhang(参考訳) 業界全体の企業による機械学習(ML)の急速な普及は、重大な規制上の課題を招いている。 規制機関がこれらのmlモデルを効率的に監査し、公平であることを保証するには、どうすればよいのか? 本稿では,クエリ効率の高い方法でmlモデルの階層的パリティを推定できるクエリベースの監査アルゴリズムの研究を開始する。 本稿では,最適決定性アルゴリズムと,同等の保証を持つ実用的なランダム化オラクル効率アルゴリズムを提案する。 さらに,ランダム化アクティブフェアネス推定アルゴリズムの最適問合せ複雑性の理解に寄与する。 アクティブフェアネス推定の最初の調査は、AIガバナンスをより堅固な理論基盤に置くことを目的としています。

The fast spreading adoption of machine learning (ML) by companies across industries poses significant regulatory challenges. One such challenge is scalability: how can regulatory bodies efficiently audit these ML models, ensuring that they are fair? In this paper, we initiate the study of query-based auditing algorithms that can estimate the demographic parity of ML models in a query-efficient manner. We propose an optimal deterministic algorithm, as well as a practical randomized, oracle-efficient algorithm with comparable guarantees. Furthermore, we make inroads into understanding the optimal query complexity of randomized active fairness estimation algorithms. Our first exploration of active fairness estimation aims to put AI governance on firmer theoretical foundations.
翻訳日:2022-06-20 13:38:59 公開日:2022-06-16
# OpenSRH : 術中ラマン組織学を用いた脳腫瘍手術の最適化

OpenSRH: optimizing brain tumor surgery using intraoperative stimulated Raman histology ( http://arxiv.org/abs/2206.08439v1 )

ライセンス: Link先を確認
Cheng Jiang, Asadur Chowdury, Xinhai Hou, Akhil Kondepudi, Christian W. Freudiger, Kyle Conway, Sandra Camelo-Piragua, Daniel A. Orringer, Honglak Lee, and Todd C. Hollon(参考訳) 正確な術中診断は脳腫瘍手術において安全かつ効果的な治療に不可欠である。 我々の標準的な診断方法は、時間、資源、労働集約であり、最適な外科治療へのアクセスを制限する。 これらの制約に対処するために,刺激されたラマン組織学(SRH)と,術中脳腫瘍診断のための深層学習に基づくSRH画像の自動解釈とリアルタイム手術支援を組み合わせたワークフローを提案する。 今回我々は,300以上の脳腫瘍患者による臨床srh画像と,1300以上の特異な全スライド光学画像の公開データセットであるopensrhを提案する。 OpenSRHは、最も一般的な脳腫瘍の診断、完全な病理診断、全スライド腫瘍のセグメンテーション、生と処理された光学画像データから、エンドツーエンドのモデルの開発と検証のデータを含んでいる。 我々は、弱い(患者レベル)診断ラベルを用いたパッチベースの全スライドSRH分類と推論のためのフレームワークを提供する。 最後に、マルチクラス脳腫瘍分類とパッチベースのコントラスト表現学習の2つのコンピュータビジョンタスクをベンチマークする。 OpenSRHは, 精密医療時代の癌手術のアクセス, 安全性, 有効性を向上させるために, 高速光画像とリアルタイムMLに基づく外科的決定支援の臨床的翻訳を容易にすることを願っている。 データセットへのアクセス、コード、ベンチマークはopensrh.mlins.orgで入手できる。

Accurate intraoperative diagnosis is essential for providing safe and effective care during brain tumor surgery. Our standard-of-care diagnostic methods are time, resource, and labor intensive, which restricts access to optimal surgical treatments. To address these limitations, we propose an alternative workflow that combines stimulated Raman histology (SRH), a rapid optical imaging method, with deep learning-based automated interpretation of SRH images for intraoperative brain tumor diagnosis and real-time surgical decision support. Here, we present OpenSRH, the first public dataset of clinical SRH images from 300+ brain tumors patients and 1300+ unique whole slide optical images. OpenSRH contains data from the most common brain tumors diagnoses, full pathologic annotations, whole slide tumor segmentations, raw and processed optical imaging data for end-to-end model development and validation. We provide a framework for patch-based whole slide SRH classification and inference using weak (i.e. patient-level) diagnostic labels. Finally, we benchmark two computer vision tasks: multiclass histologic brain tumor classification and patch-based contrastive representation learning. We hope OpenSRH will facilitate the clinical translation of rapid optical imaging and real-time ML-based surgical decision support in order to improve the access, safety, and efficacy of cancer surgery in the era of precision medicine. Dataset access, code, and benchmarks are available at opensrh.mlins.org.
翻訳日:2022-06-20 13:35:46 公開日:2022-06-16
# フェアネスを意識した深層マルチタスク学習の学習

Learning to Teach Fairness-aware Deep Multi-task Learning ( http://arxiv.org/abs/2206.08403v1 )

ライセンス: Link先を確認
Arjun Roy, Eirini Ntoutsi(参考訳) 公正な学習は主に単一タスク学習(STL)に焦点を当てている。 マルチタスク学習(MTL)の公平性は近年検討され,各タスクの公平性-正確性トレードオフと,タスク間のパフォーマンストレードオフを考慮したセミナルアプローチが提案されている。 厳密な公正性-正確性トレードオフの定式化の代わりに、各ステップでどの目的(正確性または公正性)を最適化するかを選択することで、MPL設定で公平であることを学ぶ柔軟なアプローチを提案する。 教師は,各課題の学習が困難であるものに応じて,教師に正確さと公平さのどちらかから学習するように指示する一方で,学生は公平なMLL問題を解決することを学習する。 さらに、各タスクの各ステップで使用する対象の動的選択は、Tがタスクの数である2TからTへのトレードオフ重みの数を減少させる。 3つの実データセットに対する実験により,L2T-FMTは最先端アプローチよりも公平性(12-19%)と精度(最大2%)が向上することが示された。

Fairness-aware learning mainly focuses on single task learning (STL). The fairness implications of multi-task learning (MTL) have only recently been considered and a seminal approach has been proposed that considers the fairness-accuracy trade-off for each task and the performance trade-off among different tasks. Instead of a rigid fairness-accuracy trade-off formulation, we propose a flexible approach that learns how to be fair in a MTL setting by selecting which objective (accuracy or fairness) to optimize at each step. We introduce the L2T-FMT algorithm that is a teacher-student network trained collaboratively; the student learns to solve the fair MTL problem while the teacher instructs the student to learn from either accuracy or fairness, depending on what is harder to learn for each task. Moreover, this dynamic selection of which objective to use at each step for each task reduces the number of trade-off weights from 2T to T, where T is the number of tasks. Our experiments on three real datasets show that L2T-FMT improves on both fairness (12-19%) and accuracy (up to 2%) over state-of-the-art approaches.
翻訳日:2022-06-20 13:07:45 公開日:2022-06-16
# 去年の夏に学んだこと: 機械学習モデルと防御のステアリングに関する調査

I Know What You Trained Last Summer: A Survey on Stealing Machine Learning Models and Defences ( http://arxiv.org/abs/2206.08451v1 )

ライセンス: Link先を確認
Daryna Oliynyk, Rudolf Mayer, Andreas Rauber(参考訳) マシンラーニング・アズ・ア・サービス(MLaaS)は広く普及し、例えばペイ・パー・クエリの原則を通じて、クライアントが利用できる最も複雑な機械学習モデルさえも実現している。 これにより、データ収集、ハイパーパラメータチューニング、モデルのトレーニングといった時間のかかるプロセスを避けることができる。 しかしながら、顧客に対して(予測)モデルへのアクセスを与えることで、mlaasプロバイダは、センシティブなトレーニングデータ、最適化されたハイパーパラメータ、学習したモデルパラメータなどの知的財産を危険にさらす。 敵は予測ラベルのみを使用して(ほぼ)同一の振る舞いを持つモデルのコピーを作成することができる。 この攻撃の多くの変種が説明されているが、孤立した脅威に対処する散在する防衛戦略のみが提案されている。 これにより、モデル盗みの分野の徹底した体系化の必要性が高まり、これらの攻撃がなぜ成功したのか、どのように集団的に防御されるのかを包括的に理解する必要がある。 我々は,モデル盗み攻撃を分類・比較し,その性能を評価し,異なる環境で対応する防御手法を検討することで対処する。 攻撃・防衛アプローチのための分類法を提案し,目標と利用可能な資源に基づいて適切な攻撃・防衛戦略を選択するためのガイドラインを提供する。 最後に、現在の攻撃戦略による防御効果の低下について分析する。

Machine Learning-as-a-Service (MLaaS) has become a widespread paradigm, making even the most complex machine learning models available for clients via e.g. a pay-per-query principle. This allows users to avoid time-consuming processes of data collection, hyperparameter tuning, and model training. However, by giving their customers access to the (predictions of their) models, MLaaS providers endanger their intellectual property, such as sensitive training data, optimised hyperparameters, or learned model parameters. Adversaries can create a copy of the model with (almost) identical behavior using the the prediction labels only. While many variants of this attack have been described, only scattered defence strategies have been proposed, addressing isolated threats. This raises the necessity for a thorough systematisation of the field of model stealing, to arrive at a comprehensive understanding why these attacks are successful, and how they could be holistically defended against. We address this by categorising and comparing model stealing attacks, assessing their performance, and exploring corresponding defence techniques in different settings. We propose a taxonomy for attack and defence approaches, and provide guidelines on how to select the right attack or defence strategy based on the goal and available resources. Finally, we analyse which defences are rendered less effective by current attack strategies.
翻訳日:2022-06-20 13:07:23 公開日:2022-06-16
# XLCoST: 言語間コードインテリジェンスのためのベンチマークデータセット

XLCoST: A Benchmark Dataset for Cross-lingual Code Intelligence ( http://arxiv.org/abs/2206.08474v1 )

ライセンス: Link先を確認
Ming Zhu, Aneesh Jain, Karthik Suresh, Roshan Ravindran, Sindhu Tipirneni, Chandan K. Reddy(参考訳) 機械学習の最近の進歩は、ソースコードデータの理解を大幅に改善し、多くの下流タスクで優れたパフォーマンスを達成した。 GitHubのようなオープンソースリポジトリは、このプロセスをリッチなラベル付きコードデータで実現している。 しかし、高品質なラベル付きデータの欠如は、プログラム翻訳、要約、合成、コード検索など、いくつかのコード関連タスクの進行をほとんど妨げている。 本稿では,言語間コードインテリジェンスのための新しいベンチマークデータセットであるXLCoST, Cross-Lingual Code SnippeTデータセットを紹介する。 我々のデータセットは8つの言語(一般的に7つのプログラミング言語と英語)の詳細な並列データを含み、10の言語間コードタスクをサポートしている。 私たちの知る限りでは、サイズと言語数の両方において、ソースコードのための最大の並列データセットです。 また、各タスクに対する最先端のベースラインモデルのパフォーマンスも提供します。 この新しいデータセットは研究コミュニティにとって貴重な資産であり、言語横断型コードインテリジェンスのための新しい手法の開発と検証を促進するものだと考えています。

Recent advances in machine learning have significantly improved the understanding of source code data and achieved good performance on a number of downstream tasks. Open source repositories like GitHub enable this process with rich unlabeled code data. However, the lack of high quality labeled data has largely hindered the progress of several code related tasks, such as program translation, summarization, synthesis, and code search. This paper introduces XLCoST, Cross-Lingual Code SnippeT dataset, a new benchmark dataset for cross-lingual code intelligence. Our dataset contains fine-grained parallel data from 8 languages (7 commonly used programming languages and English), and supports 10 cross-lingual code tasks. To the best of our knowledge, it is the largest parallel dataset for source code both in terms of size and the number of languages. We also provide the performance of several state-of-the-art baseline models for each task. We believe this new dataset can be a valuable asset for the research community and facilitate the development and validation of new methods for cross-lingual code intelligence.
翻訳日:2022-06-20 13:06:58 公開日:2022-06-16
# 情報理論を用いた全体格差に対する特徴量化

Quantifying Feature Contributions to Overall Disparity Using Information Theory ( http://arxiv.org/abs/2206.08454v1 )

ライセンス: Link先を確認
Sanghamitra Dutta, Praveen Venkatesh, Pulkit Grover(参考訳) 機械学習アルゴリズムがバイアス決定を行う場合、不一致の原因を理解して、なぜバイアスが存在するのかを説明するのに役立つ。 そこで本研究では,各特徴の寄与度を定量的に定量化する問題について検討する。 意思決定モデルにアクセスできれば、(説明可能性文学における介入に基づくアプローチから着想を得た)1つの潜在的なアプローチは、個々の特徴を(他の特徴を固定しながら)変更し、結果として生じる不平等の変化を利用して貢献を定量化することです。 しかし、モデルにアクセスできない場合や、個々の異なる機能に対してその出力をテスト/監査できる場合があります。 さらに、この決定は常に入力機能の決定論的機能であるとは限らない(例えば、Human-in-the-loop)。 このような状況下では、介入よりも純粋に分布的(観察的)技術を用いて貢献を説明する必要があるかもしれない。 正確な意思決定メカニズムがアクセスできない場合、個々の特徴の"潜在的"な貢献は、決定における観察された不一致に何をもたらすのか? まず、貢献を説明するための分布的アプローチと介入的アプローチの違いを説明するのに役立つ標準的な例(思考実験)を提示します。 入力に介入できない場合は、部分的情報分解と呼ばれる情報理論における作業体を活用することにより、最終決定と個々の特徴の両方に存在する保護属性に関する「冗長」な統計依存性を定量化する。 コントリビューションの定量化にこの手法をどのように適用できるかを示すための簡単なケーススタディも実施する。

When a machine-learning algorithm makes biased decisions, it can be helpful to understand the sources of disparity to explain why the bias exists. Towards this, we examine the problem of quantifying the contribution of each individual feature to the observed disparity. If we have access to the decision-making model, one potential approach (inspired from intervention-based approaches in explainability literature) is to vary each individual feature (while keeping the others fixed) and use the resulting change in disparity to quantify its contribution. However, we may not have access to the model or be able to test/audit its outputs for individually varying features. Furthermore, the decision may not always be a deterministic function of the input features (e.g., with human-in-the-loop). For these situations, we might need to explain contributions using purely distributional (i.e., observational) techniques, rather than interventional. We ask the question: what is the "potential" contribution of each individual feature to the observed disparity in the decisions when the exact decision-making mechanism is not accessible? We first provide canonical examples (thought experiments) that help illustrate the difference between distributional and interventional approaches to explaining contributions, and when either is better suited. When unable to intervene on the inputs, we quantify the "redundant" statistical dependency about the protected attribute that is present in both the final decision and an individual feature, by leveraging a body of work in information theory called Partial Information Decomposition. We also perform a simple case study to show how this technique could be applied to quantify contributions.
翻訳日:2022-06-20 13:03:50 公開日:2022-06-16
# モデルベース強化学習における意思決定時間と背景計画の理解

Understanding Decision-Time vs. Background Planning in Model-Based Reinforcement Learning ( http://arxiv.org/abs/2206.08442v1 )

ライセンス: Link先を確認
Safa Alver, Doina Precup(参考訳) モデルに基づく強化学習では、エージェントは学習したモデルを利用して、異なる方法で行動する方法を改善することができる。 2つの一般的なアプローチは、意思決定時計画とバックグラウンド計画である。 本研究では,これらの2つのプランニングスタイルのうちの1つが,迅速な応答を必要とするドメインにおいて,どの条件下でより優れているかを理解することに興味がある。 動的プログラミングのレンズを通してそれらを観察した後、まずこれらの計画スタイルの古典的なインスタンス化を考察し、純粋計画、計画、学習、伝達学習の設定においてより良く機能する理論的な結果と仮説を提供する。 次に、これらのプランニングスタイルの現代的なインスタンス化を検討し、考慮された最後の2つの設定で、どちらがうまく機能するかの仮説を提供する。 最後に,理論結果と仮説の両方を実証的に検証するために,いくつかの例証実験を行った。 全体としては、意思決定時計画は古典的インスタンス化において、背景計画と同等に機能しないが、現代のインスタンス化では、計画と学習の両方において、背景計画と同等以上の性能を発揮することが示唆された。

In model-based reinforcement learning, an agent can leverage a learned model to improve its way of behaving in different ways. Two prevalent approaches are decision-time planning and background planning. In this study, we are interested in understanding under what conditions and in which settings one of these two planning styles will perform better than the other in domains that require fast responses. After viewing them through the lens of dynamic programming, we first consider the classical instantiations of these planning styles and provide theoretical results and hypotheses on which one will perform better in the pure planning, planning & learning, and transfer learning settings. We then consider the modern instantiations of these planning styles and provide hypotheses on which one will perform better in the last two of the considered settings. Lastly, we perform several illustrative experiments to empirically validate both our theoretical results and hypotheses. Overall, our findings suggest that even though decision-time planning does not perform as well as background planning in their classical instantiations, in their modern instantiations, it can perform on par or better than background planning in both the planning & learning and transfer learning settings.
翻訳日:2022-06-20 13:00:54 公開日:2022-06-16
# GOOD: 分散ベンチマークのグラフ

GOOD: A Graph Out-of-Distribution Benchmark ( http://arxiv.org/abs/2206.08452v1 )

ライセンス: Link先を確認
Shurui Gui, Xiner Li, Limei Wang, Shuiwang Ji(参考訳) out-of-distribution(ood)学習は、トレーニングとテストデータが異なる分布に従うシナリオを扱う。 一般のOOD問題は機械学習において集中的に研究されているが、グラフOODは研究の新たな領域に過ぎない。 現在、OODメソッドの評価に合わせた体系的なベンチマークが欠けている。 本研究では,特にグラフのためのOODベンチマークであるGOODを開発することを目的とする。 共変量と概念シフトの区別を明確にし、異なるシフトを正確に反映する設計データを分割します。 グラフとノードの予測タスクの両方を、シフトを設計する際に重要な違いがあると考える。 GOODには8つのデータセットと14のドメイン選択が含まれている。 共変量、概念、シフトなしと組み合わせると、42の異なる分割が得られる。 一般的な7つのベースラインメソッドにおける10個のランダムランのパフォーマンス結果を提供する。 これにより、合計294のデータセットモデルが組み合わさる。 以上の結果から,OOD設定と流通における性能差が顕著であった。 また,共変量と概念シフトの異なる手法による性能傾向についても考察した。 GOODベンチマークは成長するプロジェクトであり、地域が発展するにつれて、量と多種多様なリソースを拡大することを期待しています。 ベンチマークは$\href{https://github.com/divelab/good/}{\text{https://github.com/divelab/good/}}$でアクセスできる。

Out-of-distribution (OOD) learning deals with scenarios in which training and test data follow different distributions. Although general OOD problems have been intensively studied in machine learning, graph OOD is only an emerging area of research. Currently, there lacks a systematic benchmark tailored to graph OOD method evaluation. In this work, we aim at developing an OOD benchmark, known as GOOD, for graphs specifically. We explicitly make distinctions between covariate and concept shifts and design data splits that accurately reflect different shifts. We consider both graph and node prediction tasks as there are key differences when designing shifts. Overall, GOOD contains 8 datasets with 14 domain selections. When combined with covariate, concept, and no shifts, we obtain 42 different splits. We provide performance results on 7 commonly used baseline methods with 10 random runs. This results in 294 dataset-model combinations in total. Our results show significant performance gaps between in-distribution and OOD settings. Our results also shed light on different performance trends between covariate and concept shifts by different methods. Our GOOD benchmark is a growing project and expects to expand in both quantity and variety of resources as the area develops. The GOOD benchmark can be accessed via $\href{https://github.com/divelab/GOOD/}{\text{https://github.com/divelab/GOOD/}}$.
翻訳日:2022-06-20 13:00:32 公開日:2022-06-16
# Powershap: パワーフルシェープの特徴選択方法

Powershap: A Power-full Shapley Feature Selection Method ( http://arxiv.org/abs/2206.08394v1 )

ライセンス: Link先を確認
Jarne Verhaeghe, Jeroen Van Der Donckt, Femke Ongenae, Sofie Van Hoecke(参考訳) 機能選択は、堅牢で強力な機械学習モデルを開発するための重要なステップである。 機能選択テクニックは、フィルタとラッパーメソッドの2つのカテゴリに分類できる。 ラッパー法は一般的に強い予測性能をもたらすが、計算の複雑さに悩まされ、特に高次元の特徴集合を扱う場合、かなりの時間を要する。 あるいは、フィルタメソッドは、かなり高速であるが、例えば、いくつかの欠点がある。 (i)しきい値を必要とする (ii)特徴の相互関係を考慮していないこと、 (iii)モデルとの相互作用を無視すること。 そこで本研究では,統計的仮説テストと電力計算と,Shapley値とを併用して高速かつ直感的な特徴選択を行う,新しいラッパー特徴選択手法であるPowerhapを提案する。 Powershapは、情報的特徴が既知のランダムな特徴よりも予測に大きな影響を与えるというコア仮定に基づいて構築されている。 ベンチマークとシミュレーションにより、Powerhapはラッパーメソッドと同等の予測性能で他のフィルタメソッドよりも高速で、実行時間の半~3分の1に達することが示されている。 そのため Powerhap は,さまざまなドメインのさまざまなモデルで使用可能な,競争的かつ迅速なアルゴリズムを提供する。 さらにpowershapは、プラグアンドプレイおよびオープンソースのsklearnコンポーネントとして実装されており、従来のデータサイエンスパイプラインへの統合が容易である。 さらにユーザエクスペリエンスは、Powerhapアルゴリズムのハイパーパラメータを自動的にチューニングする自動モードを提供することによって、さらに強化されている。

Feature selection is a crucial step in developing robust and powerful machine learning models. Feature selection techniques can be divided into two categories: filter and wrapper methods. While wrapper methods commonly result in strong predictive performances, they suffer from a large computational complexity and therefore take a significant amount of time to complete, especially when dealing with high-dimensional feature sets. Alternatively, filter methods are considerably faster, but suffer from several other disadvantages, such as (i) requiring a threshold value, (ii) not taking into account intercorrelation between features, and (iii) ignoring feature interactions with the model. To this end, we present powershap, a novel wrapper feature selection method, which leverages statistical hypothesis testing and power calculations in combination with Shapley values for quick and intuitive feature selection. Powershap is built on the core assumption that an informative feature will have a larger impact on the prediction compared to a known random feature. Benchmarks and simulations show that powershap outperforms other filter methods with predictive performances on par with wrapper methods while being significantly faster, often even reaching half or a third of the execution time. As such, powershap provides a competitive and quick algorithm that can be used by various models in different domains. Furthermore, powershap is implemented as a plug-and-play and open-source sklearn component, enabling easy integration in conventional data science pipelines. User experience is even further enhanced by also providing an automatic mode that automatically tunes the hyper-parameters of the powershap algorithm, allowing to use the algorithm without any configuration needed.
翻訳日:2022-06-20 12:57:06 公開日:2022-06-16
# 2部ネットワークにおける遅延補正ブロックモデルの変分推定

Variational Estimators of the Degree-corrected Latent Block Model for Bipartite Networks ( http://arxiv.org/abs/2206.08465v1 )

ライセンス: Link先を確認
Yunpeng Zhao, Ning Hao, and Ji Zhu(参考訳) biclustering on bipartite graphsは教師なしの学習タスクで、例えば映画レビューデータセット内のユーザと映画といった、グラフ内の2つのタイプのオブジェクトを同時に収集する。 潜在ブロックモデル (LBM) はビクラスタリングのためのモデルベースツールとして提案されている。 LBMによる複クラスタリングの結果は、通常、データ行列の行と列の和、すなわち次数によって支配される。 本研究では,映画レンスデータセットとシミュレーションデータにおいて古典的lbmを大きく上回る列および列クラスタの次数不均質性に対応する次数補正潜在ブロックモデル(dc-lbm)を提案する。 クラスタラベル上の任意の確率割当を与えられたmステップで行と列の次数が目的関数を最大化するのを観察し,効率的な変分期待最大化アルゴリズムを開発した。 dc-lbm の下で変動推定器のラベルの一貫性を証明し、平均的な行や列が無限大になる限り、期待グラフ密度はゼロになることを示した。

Biclustering on bipartite graphs is an unsupervised learning task that simultaneously clusters the two types of objects in the graph, for example, users and movies in a movie review dataset. The latent block model (LBM) has been proposed as a model-based tool for biclustering. Biclustering results by the LBM are, however, usually dominated by the row and column sums of the data matrix, i.e., degrees. We propose a degree-corrected latent block model (DC-LBM) to accommodate degree heterogeneity in row and column clusters, which greatly outperforms the classical LBM in the MovieLens dataset and simulated data. We develop an efficient variational expectation-maximization algorithm by observing that the row and column degrees maximize the objective function in the M step given any probability assignment on the cluster labels. We prove the label consistency of the variational estimator under the DC-LBM, which allows the expected graph density goes to zero as long as the average expected degrees of rows and columns go to infinity.
翻訳日:2022-06-20 12:56:41 公開日:2022-06-16
# SATBench:人間と動的ニューラルネットワークによる物体認識における速度精度トレードオフのベンチマーク

SATBench: Benchmarking the speed-accuracy tradeoff in object recognition by humans and dynamic neural networks ( http://arxiv.org/abs/2206.08427v1 )

ライセンス: Link先を確認
Ajay Subramanian, Sara Price, Omkar Kumbhar, Elena Sizikova, Najib J. Majaj, Denis G. Pelli(参考訳) 読書や運転といった日常的なタスクの中核は、アクティブなオブジェクト認識です。 このようなタスクをモデル化しようという試みは、現在、時間を組み込むことができないことで妨げられている。 人々はスピードと正確さの間に柔軟なトレードオフを示しており、このトレードオフは人間の重要なスキルです。 ディープニューラルネットワークは、人間のオブジェクト認識性能と神経活動のピークを予測する有望な候補として現れてきた。 しかし、時間次元、すなわち速度精度トレードオフ(SAT)をモデル化することは、人間が物体を認識するための有用な計算モデルとして機能することが不可欠である。 この目的のために、ImageNet画像の認識において、SAT(Speed-accuracy tradeoff)の最初の大規模データセット(オブザーバ148、ニューラルネットワーク4、タスク8)を提示する。 人間の実験では、所望の反応時間を示すビープは、画像が提示された後に一定の遅延で音を鳴らし、観察者の応答はビープの時間近くで発生した場合にのみカウントされる。 一連のブロックでは、多数のbeepレイテンシ、すなわち反応時間をテストする。 人間の正確性は反応時間とともに増大し,その特性を推論時間適応計算が可能な複数の動的ニューラルネットワークの挙動と比較する。 FLOPを反応時間のアナログとして用いて、曲線適合誤差、カテゴリー相関、曲線急勾配のネットワークを比較し、カスケードされた動的ニューラルネットワークが物体認識タスクにおける人間の反応時間の有望なモデルであると結論付けた。

The core of everyday tasks like reading and driving is active object recognition. Attempts to model such tasks are currently stymied by the inability to incorporate time. People show a flexible tradeoff between speed and accuracy and this tradeoff is a crucial human skill. Deep neural networks have emerged as promising candidates for predicting peak human object recognition performance and neural activity. However, modeling the temporal dimension i.e., the speed-accuracy tradeoff (SAT), is essential for them to serve as useful computational models for how humans recognize objects. To this end, we here present the first large-scale (148 observers, 4 neural networks, 8 tasks) dataset of the speed-accuracy tradeoff (SAT) in recognizing ImageNet images. In each human trial, a beep, indicating the desired reaction time, sounds at a fixed delay after the image is presented, and observer's response counts only if it occurs near the time of the beep. In a series of blocks, we test many beep latencies, i.e., reaction times. We observe that human accuracy increases with reaction time and proceed to compare its characteristics with the behavior of several dynamic neural networks that are capable of inference-time adaptive computation. Using FLOPs as an analog for reaction time, we compare networks with humans on curve-fit error, category-wise correlation, and curve steepness, and conclude that cascaded dynamic neural networks are a promising model of human reaction time in object recognition tasks.
翻訳日:2022-06-20 12:53:27 公開日:2022-06-16
# TUSK: タスクに依存しない教師なしのキーポイント

TUSK: Task-Agnostic Unsupervised Keypoints ( http://arxiv.org/abs/2206.08460v1 )

ライセンス: Link先を確認
Yuhe Jin, Weiwei Sun, Jan Hosang, Eduard Trulls, Kwang Moo Yi(参考訳) 既存のキーポイント学習の教師なし手法は、特定のキーポイントタイプ(例えば、肘、数字、抽象幾何学的形状)が画像に一度だけ現れるという仮定に大きく依存している。 それぞれのインスタンスは、議論も評価もされないメソッド-an問題を適用する前に分離されなければならないため、これは適用可能性を大幅に制限する。 そこで本研究では,複数のインスタンスを扱えるタスク非依存キーポイント(TUSK)を学習するための新しい手法を提案する。 これを実現するために、特定のキーポイントタイプに特化した複数のヒートマップを検知する一般的な戦略の代わりに、単一ヒートマップを用いてクラスタリングによりキーポイントタイプの教師なし学習を可能にする。 具体的には、セマンティクスをキーポイントの粗い集合とその記述子からイメージを再構成するように教えることで、セマンティクスをキーポイントにエンコードする。 これにより、従来の教師なしキーポイント法よりも広い範囲のタスクに対応可能となり、複数のインスタンスを扱えると同時に、複数のインスタンスを同時に検出、分類、オブジェクト発見、および非教師なしパフォーマンスのランドマーク検出に関する実験をおこなうことができる。

Existing unsupervised methods for keypoint learning rely heavily on the assumption that a specific keypoint type (e.g. elbow, digit, abstract geometric shape) appears only once in an image. This greatly limits their applicability, as each instance must be isolated before applying the method-an issue that is never discussed or evaluated. We thus propose a novel method to learn Task-agnostic, UnSupervised Keypoints (TUSK) which can deal with multiple instances. To achieve this, instead of the commonly-used strategy of detecting multiple heatmaps, each dedicated to a specific keypoint type, we use a single heatmap for detection, and enable unsupervised learning of keypoint types through clustering. Specifically, we encode semantics into the keypoints by teaching them to reconstruct images from a sparse set of keypoints and their descriptors, where the descriptors are forced to form distinct clusters in feature space around learned prototypes. This makes our approach amenable to a wider range of tasks than any previous unsupervised keypoint method: we show experiments on multiple-instance detection and classification, object discovery, and landmark detection-all unsupervised-with performance on par with the state of the art, while also being able to deal with multiple instances.
翻訳日:2022-06-20 12:53:01 公開日:2022-06-16
# 下流タスクから特徴抽出を分離する汎用肺超音波バイオマーカーの学習

Learning Generic Lung Ultrasound Biomarkers for Decoupling Feature Extraction from Downstream Tasks ( http://arxiv.org/abs/2206.08398v1 )

ライセンス: Link先を確認
Gautam Rajendrakumar Gare, Tom Fox, Pete Lowery, Kevin Zamora, Hai V. Tran, Laura Hutchins, David Montgomery, Amita Krishnan, Deva Kannan Ramanan, Ricardo Luis Rodriguez, Bennett P deBoisblanc, John Michael Galeotti(参考訳) 現代の人工知能ニューラルネットワーク(ANN)はエンドツーエンドで訓練され、興味のあるタスクのために特徴と分類器の両方を共同で学習する。 非常に効果的だが、このパラダイムはアノテーション付きタスク固有のデータセットの組み立てや大規模ネットワークのトレーニングに多大なコストを課している。 本稿では,視覚バイオマーカー分類の補助タスクを導入することにより,下流肺の超音波タスクから特徴学習を分離することを提案する。 バイオマーカーラベルの予測モデルを用いて,超音波映像から情報,簡潔,解釈可能な特徴空間を学習できることを実証する。 特に、バイオマーカーの特徴抽出器は、ビデオスケールの監督が弱いデータから訓練することができる。 これらの特徴は、様々な臨床課題(診断、肺の重症度、s/f比)を対象とする様々な下流の専門家モデルで使用できる。 重要なことに、タスク固有のエキスパートモデルは、そのようなタスクのために直接訓練されたエンドツーエンドモデルに匹敵する精度であり、トレーニングのコストは著しく低い。

Contemporary artificial neural networks (ANN) are trained end-to-end, jointly learning both features and classifiers for the task of interest. Though enormously effective, this paradigm imposes significant costs in assembling annotated task-specific datasets and training large-scale networks. We propose to decouple feature learning from downstream lung ultrasound tasks by introducing an auxiliary pre-task of visual biomarker classification. We demonstrate that one can learn an informative, concise, and interpretable feature space from ultrasound videos by training models for predicting biomarker labels. Notably, biomarker feature extractors can be trained from data annotated with weak video-scale supervision. These features can be used by a variety of downstream Expert models targeted for diverse clinical tasks (Diagnosis, lung severity, S/F ratio). Crucially, task-specific expert models are comparable in accuracy to end-to-end models directly trained for such target tasks, while being significantly lower cost to train.
翻訳日:2022-06-20 12:14:16 公開日:2022-06-16
# ELUDE: ラベル付きおよび非ラベル付き特徴への分解による解釈可能な説明の生成

ELUDE: Generating interpretable explanations via a decomposition into labelled and unlabelled features ( http://arxiv.org/abs/2206.07690v2 )

ライセンス: Link先を確認
Vikram V. Ramaswamy, Sunnie S. Y. Kim, Nicole Meister, Ruth Fong, Olga Russakovsky(参考訳) ディープラーニングモデルは、過去10年間にさまざまな機械学習領域で顕著な成功を収めてきたが、これらのモデルのサイズと複雑さが理解しづらい。 それらをより解釈可能にするために、最近のいくつかの研究は、人間の解釈可能なセマンティック属性を通じてディープニューラルネットワークの一部を説明することに焦点を当てている。 しかし、セマンティクス属性のみを使用して複雑なモデルを完全に説明することは不可能かもしれない。 本稿では,これらの属性を,解釈不能な機能の小さなセットで拡張することを提案する。 具体的には,モデルの予測を,意味的属性の線形結合によって説明可能なものと,解釈不能な特徴の集合に依存するものとの2つの部分に分解する,新しい説明フレームワーク ELUDE (Explanation via Labelled and Unlabelled Decomposition) を開発する。 後者を識別することで、モデルの"説明できない"部分を分析し、モデルが使用する情報に対する洞察を得ることができます。 提案手法は,同一の機能空間で訓練された複数のモデルに一般化し,提案手法を2つの一般的な属性指向手法であるInterpretable Basis DecompositionとConcept Bottleneckと比較し,ELUDEが提供する追加の洞察について考察する。

Deep learning models have achieved remarkable success in different areas of machine learning over the past decade; however, the size and complexity of these models make them difficult to understand. In an effort to make them more interpretable, several recent works focus on explaining parts of a deep neural network through human-interpretable, semantic attributes. However, it may be impossible to completely explain complex models using only semantic attributes. In this work, we propose to augment these attributes with a small set of uninterpretable features. Specifically, we develop a novel explanation framework ELUDE (Explanation via Labelled and Unlabelled DEcomposition) that decomposes a model's prediction into two parts: one that is explainable through a linear combination of the semantic attributes, and another that is dependent on the set of uninterpretable features. By identifying the latter, we are able to analyze the "unexplained" portion of the model, obtaining insights into the information used by the model. We show that the set of unlabelled features can generalize to multiple models trained with the same feature space and compare our work to two popular attribute-oriented methods, Interpretable Basis Decomposition and Concept Bottleneck, and discuss the additional insights ELUDE provides.
翻訳日:2022-06-20 10:35:38 公開日:2022-06-16
# (参考訳) 集積回路製造におけるダイアタッチメントおよびワイヤボンディング欠陥の検出方法の検討

A Survey of Detection Methods for Die Attachment and Wire Bonding Defects in Integrated Circuit Manufacturing ( http://arxiv.org/abs/2206.07481v2 )

ライセンス: CC BY 4.0
Lamia Alam and Nasser Kehtarnavaz(参考訳) 欠陥検出は集積回路(IC)の製造プロセスにおいて重要な役割を果たす。 ダイアタッチメントとワイヤボンディングは、ICの電力と信号の伝送品質と信頼性を決定する製造工程の2つのステップである。 本稿では, 光学, 放射線, 音響, 赤外線サーモグラフィーなど, 異なる感度モードに基づいて, これらの欠陥を検出する方法に関する調査・文献レビューを行う。 本調査で使用した検出方法について考察する。 ダイアタッチメントおよびワイヤーボンディング欠陥検出のための従来的および深層学習アプローチと課題および今後の研究方向について考察する。

Defect detection plays a vital role in the manufacturing process of integrated circuits (ICs). Die attachment and wire bonding are two steps of the manufacturing process that determine the power and signal transmission quality and dependability in an IC. This paper presents a survey or literature review of the methods used for detecting these defects based on different sensing modalities used including optical, radiological, acoustical, and infrared thermography. A discussion of the detection methods used is provided in this survey. Both conventional and deep learning approaches for detecting die attachment and wire bonding defects are considered along with challenges and future research directions.
翻訳日:2022-06-20 00:36:33 公開日:2022-06-16
# アルツハイマー病における脳波密度がTMS-EEG分類に及ぼす影響に関する予備的検討

Preliminary study on the impact of EEG density on TMS-EEG classification in Alzheimer's disease ( http://arxiv.org/abs/2206.07492v2 )

ライセンス: Link先を確認
Alexandra-Maria Tautan, Elias Casula, Ilaria Borghi, Michele Maiella, Sonia Bonni, Marilena Minei, Martina Assogna, Bogdan Ionescu, Giacomo Koch, Emiliano Santarnecchi(参考訳) 脳電図(TMS-EEG)を併用した経頭蓋磁気刺激は、アルツハイマー病(AD)の研究に有用である。 本研究では,健康管理(HC)からAD患者を分類するために,TMS誘発脳波応答を用いて検討した。 17adと17hcを含むデータセットを用いて、個々のtms応答から様々な時間領域の特徴を抽出し、低、中、高密度の脳波電極セット上で平均化する。 その結果, ランダムフォレスト分類器を用いた高密度電極を用いて, ad vs. hcの最適分類性能を得た。 精度,感度,特異性はそれぞれ92.7%,96.58%,88.2%であった。

Transcranial magnetic stimulation co-registered with electroencephalographic (TMS-EEG) has previously proven a helpful tool in the study of Alzheimer's disease (AD). In this work, we investigate the use of TMS-evoked EEG responses to classify AD patients from healthy controls (HC). By using a dataset containing 17AD and 17HC, we extract various time domain features from individual TMS responses and average them over a low, medium and high density EEG electrode set. Within a leave-one-subject-out validation scenario, the best classification performance for AD vs. HC was obtained using a high-density electrode with a Random Forest classifier. The accuracy, sensitivity and specificity were of 92.7%, 96.58% and 88.2% respectively.
翻訳日:2022-06-19 23:28:43 公開日:2022-06-16
# (参考訳) Riemannian Robbins-Monroアルゴリズムのダイナミクス

The Dynamics of Riemannian Robbins-Monro Algorithms ( http://arxiv.org/abs/2206.06795v2 )

ライセンス: CC BY 4.0
Mohammad Reza Karimi, Ya-Ping Hsieh, Panayotis Mertikopoulos, Andreas Krause(参考訳) 確率勾配法のような多くの重要な学習アルゴリズムは、リーマン多様体上の非線形問題を解くためにしばしば展開される。 これらの応用により、Robins と Monro の半連続確率近似フレームワークを一般化し拡張するリーマンアルゴリズムの族を提案する。 ユークリッドアルゴリズムと比較すると、リーマンの反復アルゴリズムは多様体上の大域線型構造が欠如しているため、理解されていない。 我々は、提案するリーマン型ロビンズ・モンロ(rrm)クラスのアルゴリズムの漸近的挙動を、基礎多様体上の非常に穏やかな仮定の下で関連する決定論的力学系にマッピングできる拡張フェルミ座標フレームを導入することで、この困難を克服した。 このようにして、我々は、ユークリッドロビンス・モンロスキームの既存の理論を反映し拡張するほぼ確実に収束する結果の一般的なテンプレートを提供する。 提案手法の柔軟性を実証するために,提案手法を用いて,最小化問題やゲームを解くための楽観的・外段階的な手法の帰納的類似の収束を確立し,それらの収束を統一的に処理する手法を提案する。

Many important learning algorithms, such as stochastic gradient methods, are often deployed to solve nonlinear problems on Riemannian manifolds. Motivated by these applications, we propose a family of Riemannian algorithms generalizing and extending the seminal stochastic approximation framework of Robbins and Monro. Compared to their Euclidean counterparts, Riemannian iterative algorithms are much less understood due to the lack of a global linear structure on the manifold. We overcome this difficulty by introducing an extended Fermi coordinate frame which allows us to map the asymptotic behavior of the proposed Riemannian Robbins-Monro (RRM) class of algorithms to that of an associated deterministic dynamical system under very mild assumptions on the underlying manifold. In so doing, we provide a general template of almost sure convergence results that mirrors and extends the existing theory for Euclidean Robbins-Monro schemes, albeit with a significantly more involved analysis that requires a number of new geometric ingredients. We showcase the flexibility of the proposed RRM framework by using it to establish the convergence of a retraction-based analogue of the popular optimistic / extra-gradient methods for solving minimization problems and games, and we provide a unified treatment for their convergence.
翻訳日:2022-06-19 05:06:07 公開日:2022-06-16
# (参考訳) 投影性と平面性を考慮した樹木の最大線形配置問題

The Maximum Linear Arrangement Problem for trees under projectivity and planarity ( http://arxiv.org/abs/2206.06924v2 )

ライセンス: CC BY 4.0
Llu\'is Alemany-Puig, Juan Luis Esteban and Ramon Ferrer-i-Cancho(参考訳) 最大線形配置問題(MaxLA)は、グラフ$G$の$n$頂点から$D_{\pi}(G)=\sum_{uv\in E(G)}|\piを最大化する別の連続整数への写像$\pi$を求めることである。 (u)- \pi (v)|$。 この設定では、頂点は水平線上にあり、辺は線上の半円として描かれる。 MaxLAには、アレンジを制約するバリエーションがある。 平面型エッジクロッシングは禁止されている。 根付き木の射影的変種では、配置は平面であり、根はどの辺でも覆えない。 ここでは、木に対するPlanarとProjective MaxLAを解くために、$O(n)$-timeと$O(n)$-spaceアルゴリズムを示す。 また、最大射影および平面配置のいくつかの性質も証明する。

The Maximum Linear Arrangement problem (MaxLA) consists of finding a mapping $\pi$ from the $n$ vertices of a graph $G$ to distinct consecutive integers that maximizes $D_{\pi}(G)=\sum_{uv\in E(G)}|\pi(u) - \pi(v)|$. In this setting, vertices are considered to lie on a horizontal line and edges are drawn as semicircles above the line. There exist variants of MaxLA in which the arrangements are constrained. In the planar variant edge crossings are forbidden. In the projective variant for rooted trees arrangements are planar and the root cannot be covered by any edge. Here we present $O(n)$-time and $O(n)$-space algorithms that solve Planar and Projective MaxLA for trees. We also prove several properties of maximum projective and planar arrangements.
翻訳日:2022-06-19 03:36:52 公開日:2022-06-16
# (参考訳) 学習しやすく、価値があり、まだ学習していない点の優先訓練

Prioritized Training on Points that are Learnable, Worth Learning, and Not Yet Learnt ( http://arxiv.org/abs/2206.07137v2 )

ライセンス: CC BY 4.0
S\"oren Mindermann, Jan Brauner, Muhammed Razzak, Mrinank Sharma, Andreas Kirsch, Winnie Xu, Benedikt H\"oltgen, Aidan N. Gomez, Adrien Morisot, Sebastian Farquhar, Yarin Gal(参考訳) webスケールデータのトレーニングには数ヶ月を要する。 しかし、ほとんどの計算と時間は、既に学習されているか、学習できない冗長で騒がしい点に浪費される。 学習を加速するために,モデルの一般化損失を最も少なくするトレーニングポイントをほぼ選択する,単純だが原則化された手法であるReduceible Holdout Loss Selection (RHO-LOSS)を導入する。 その結果、RHO-LOSSは既存のデータ選択手法の弱点を緩和する:最適化文献のテクニックは一般に'hard'(例えば高い損失)の点を選択するが、そのような点はしばしばノイズ(学習不可能)かタスク関連性の少ない。 逆に、カリキュラム学習は「簡単な」ポイントを優先するが、そのようなポイントは一度学んだら訓練する必要はない。 対照的に、RHO-LOSSは学習可能な点、学習に値する点、まだ学習されていない点を選択する。 RHO-LOSSは、先行技術よりもはるかに少ないステップでトレーニングを行い、精度を改善し、幅広いデータセット、ハイパーパラメータ、アーキテクチャ(MLP、CNN、BERT)でのトレーニングを高速化する。 大型の画像データセットwears-1mでは、rho-lossは18倍の歩数で、均一なデータシャッフルよりも2%精度が高い。

Training on web-scale data can take months. But most computation and time is wasted on redundant and noisy points that are already learnt or not learnable. To accelerate training, we introduce Reducible Holdout Loss Selection (RHO-LOSS), a simple but principled technique which selects approximately those points for training that most reduce the model's generalization loss. As a result, RHO-LOSS mitigates the weaknesses of existing data selection methods: techniques from the optimization literature typically select 'hard' (e.g. high loss) points, but such points are often noisy (not learnable) or less task-relevant. Conversely, curriculum learning prioritizes 'easy' points, but such points need not be trained on once learned. In contrast, RHO-LOSS selects points that are learnable, worth learning, and not yet learnt. RHO-LOSS trains in far fewer steps than prior art, improves accuracy, and speeds up training on a wide range of datasets, hyperparameters, and architectures (MLPs, CNNs, and BERT). On the large web-scraped image dataset Clothing-1M, RHO-LOSS trains in 18x fewer steps and reaches 2% higher final accuracy than uniform data shuffling.
翻訳日:2022-06-19 01:10:43 公開日:2022-06-16
# (参考訳) K-Meansクラスタリングアルゴリズムの量子実装のためのコアセット選択の性能解析

Performance analysis of coreset selection for quantum implementation of K-Means clustering algorithm ( http://arxiv.org/abs/2206.07852v1 )

ライセンス: CC BY 4.0
Fanzhe Qu, Sarah M. Erfani, Muhammad Usman(参考訳) 量子コンピューティングは膨大な計算能力を提供し、多くのデータサイエンス問題に対する効率的な解決策を提供すると期待されている。 しかし、現在の量子デバイスの世代は小さくノイズの多いため、実用的な問題に関連する大規模なデータセットの処理が困難である。 coreset選択は、精度を損なうことなく入力データのサイズを減らすことで、この問題を回避することを目的としている。 近年の研究では、コアセットの選択が量子K平均クラスタリング問題の実装に役立つことが示されている。 しかし,コアセット選択が量子K平均クラスタリングの性能に与える影響については検討されていない。 本研究では,2つのコアセット手法(bfl16とoneshot)の相対的性能と,各ケースにおけるコアセット構築のサイズを比較し,量子アルゴリズムの実装におけるコアセット選択の利点と限界をレイアウトする。 また、非分極量子ノイズとビットフリップ誤差の影響を調査し、ノイズ効果を超える量子オートエンコーダ手法を実装した。 本研究は,コアセット選択によって問題サイズが削減された短期量子デバイス上でのデータサイエンスアルゴリズムを将来実装するための有用な知見を提供する。

Quantum computing is anticipated to offer immense computational capabilities which could provide efficient solutions to many data science problems. However, the current generation of quantum devices are small and noisy, which makes it difficult to process large data sets relevant for practical problems. Coreset selection aims to circumvent this problem by reducing the size of input data without compromising the accuracy. Recent work has shown that coreset selection can help to implement quantum K-Means clustering problem. However, the impact of coreset selection on the performance of quantum K-Means clustering has not been explored. In this work, we compare the relative performance of two coreset techniques (BFL16 and ONESHOT), and the size of coreset construction in each case, with respect to a variety of data sets and layout the advantages and limitations of coreset selection in implementing quantum algorithms. We also investigated the effect of depolarisation quantum noise and bit-flip error, and implemented the Quantum AutoEncoder technique for surpassing the noise effect. Our work provides useful insights for future implementation of data science algorithms on near-term quantum devices where problem size has been reduced by coreset selection.
翻訳日:2022-06-18 15:37:14 公開日:2022-06-16
# (参考訳) 一般化モースウェーブレットを用いた散乱変換ネットワークとその音楽ジャンル分類への応用

The Scattering Transform Network with Generalized Morse Wavelets and Its Application to Music Genre Classification ( http://arxiv.org/abs/2206.07857v1 )

ライセンス: CC BY 4.0
Wai Ho Chak, Naoki Saito, David Weber(参考訳) 我々は,gmw-stnと呼ぶ散乱変換ネットワーク (stn) における一般的なモーレット(あるいはガボール)ウェーブレットの代わりに,一般化モースウェーブレット (gmws) を信号分類問題に用いることを提案する。 GMWは真に解析的なウェーブレットのパラメタ化系を形成し、モーレットウェーブレットは概して解析的である。 STNにおけるウェーブレットフィルタの解析は、入力信号のマルチスケール振幅と位相(および周波数)情報を提供することにより、STN表現の解釈性を向上させるため、音楽信号などの非定常振動信号に対して特に重要である。 GTZANデータベースを用いた音楽ジャンル分類において,従来のSTNよりもGMW-STNの方が優れていることを示す。 さらに,GMW-STNの性能向上を,通常の2層STNよりも3層に増やすことにより示す。 }

We propose to use the Generalized Morse Wavelets (GMWs) instead of commonly-used Morlet (or Gabor) wavelets in the Scattering Transform Network (STN), which we call the GMW-STN, for signal classification problems. The GMWs form a parameterized family of truly analytic wavelets while the Morlet wavelets are only approximately analytic. The analyticity of underlying wavelet filters in the STN is particularly important for nonstationary oscillatory signals such as music signals because it improves interpretability of the STN representations by providing multiscale amplitude and phase (and consequently frequency) information of input signals. We demonstrate the superiority of the GMW-STN over the conventional STN in music genre classification using the so-called GTZAN database. Moreover, we show the performance improvement of the GMW-STN by increasing its number of layers to three over the typical two-layer STN.}
翻訳日:2022-06-18 15:23:49 公開日:2022-06-16
# (参考訳) 非ブール形式における最適化の統一的枠組み

Unifying Framework for Optimizations in non-boolean Formalisms ( http://arxiv.org/abs/2206.07862v1 )

ライセンス: CC BY 4.0
Yuliya Lierler(参考訳) 検索最適化問題は、科学や工学の分野では多い。 人工知能は、検索最適化問題の解決とモデリングを目的とした検索アルゴリズムと宣言型プログラミング言語の開発に長い間貢献してきた。 自動推論と知識表現はAIのサブフィールドであり、これらの開発に特に適している。 多くの一般的な自動推論パラダイムは、最適化ステートメントをサポートする言語をユーザに提供します。 整数線型プログラミング、MaxSAT、最適化満足度変調理論、および(制約)解集合プログラミングをリコールする。 これらのパラダイムは、計算されたソリューションの品質条件を表現する方法で言語によって大きく異なる。 本稿では,パラダイム間の統語的区別を排除した拡張重みシステムの統一フレームワークを提案する。 それらは、異なる自動推論言語によって提供される最適化ステートメントに固有の類似点と相違点を見出すことを可能にする。 また,提案方式の形式的特性について検討し,その特性を枠組み内で把握可能なパラダイムの形式的特性に即時に変換する。 論理プログラミングの理論と実践(tplp)における考察。

Search-optimization problems are plentiful in scientific and engineering domains. Artificial intelligence has long contributed to the development of search algorithms and declarative programming languages geared towards solving and modeling search-optimization problems. Automated reasoning and knowledge representation are the subfields of AI that are particularly vested in these developments. Many popular automated reasoning paradigms provide users with languages supporting optimization statements. Recall integer linear programming, MaxSAT, optimization satisfiability modulo theory, and (constraint) answer set programming. These paradigms vary significantly in their languages in ways they express quality conditions on computed solutions. Here we propose a unifying framework of so called extended weight systems that eliminates syntactic distinctions between paradigms. They allow us to see essential similarities and differences between optimization statements provided by distinct automated reasoning languages. We also study formal properties of the proposed systems that immediately translate into formal properties of paradigms that can be captured within our framework. Under consideration in Theory and Practice of Logic Programming (TPLP).
翻訳日:2022-06-18 15:15:54 公開日:2022-06-16
# (参考訳) invariant rationale discovery はグラフコントラスト学習を刺激する

Let Invariant Rationale Discovery Inspire Graph Contrastive Learning ( http://arxiv.org/abs/2206.07869v1 )

ライセンス: CC BY 4.0
Sihang Li, Xiang Wang, An zhang, Yingxin Wu, Xiangnan He and Tat-Seng Chua(参考訳) 先行グラフコントラスト学習(GCL)法は,(1) 意味情報の喪失を引き起こすアンカーグラフをランダムに破損させたり,(2) ドメイン知識を用いて有能な特徴を保ち,他の領域への一般化を損なう2つの方法でグラフ拡張を行う。 GCLの不変性を考慮すると、高パフォーマンスな拡張は、インスタンス識別に関するアンカーグラフの健全な意味を保たなければならないと論じる。 この目的のために、GCLと不変理性発見を関連付け、新しいフレームワークRationale-aware Graph Contrastive Learning (RGCL)を提案する。 特に、RGCLは、監視信号なしで有理生成器を使用して、グラフのインスタンス識別に関する健全な特徴を明らかにする。 この合理的な事前学習方式は、バックボーンモデルに強力な表現能力を与え、下流タスクの微調整をさらに促進する。 MNIST-Superpixel と MUTAG のデータセットでは、発見された有理数に関する視覚検査により、有理数生成器が正常な特徴(すなわちグラフのセマンティックノードの区別)をうまく捉えていることが示された。 バイオケミカル分子およびソーシャルネットワークベンチマークデータセットにおいて、RGCLの最先端性能は、対照的な学習に対する合理的な視点の有効性を示す。 私たちのコードはhttps://github.com/lsh0520/rgclで利用可能です。

Leading graph contrastive learning (GCL) methods perform graph augmentations in two fashions: (1) randomly corrupting the anchor graph, which could cause the loss of semantic information, or (2) using domain knowledge to maintain salient features, which undermines the generalization to other domains. Taking an invariance look at GCL, we argue that a high-performing augmentation should preserve the salient semantics of anchor graphs regarding instance-discrimination. To this end, we relate GCL with invariant rationale discovery, and propose a new framework, Rationale-aware Graph Contrastive Learning (RGCL). Specifically, without supervision signals, RGCL uses a rationale generator to reveal salient features about graph instance-discrimination as the rationale, and then creates rationale-aware views for contrastive learning. This rationale-aware pre-training scheme endows the backbone model with the powerful representation ability, further facilitating the fine-tuning on downstream tasks. On MNIST-Superpixel and MUTAG datasets, visual inspections on the discovered rationales showcase that the rationale generator successfully captures the salient features (i.e. distinguishing semantic nodes in graphs). On biochemical molecule and social network benchmark datasets, the state-of-the-art performance of RGCL demonstrates the effectiveness of rationale-aware views for contrastive learning. Our codes are available at https://github.com/lsh0520/RGCL.
翻訳日:2022-06-18 15:14:26 公開日:2022-06-16
# (参考訳) ロボットが学ぶための話し方:教示、説明、実践

How to talk so your robot will learn: Instructions, descriptions, and pragmatics ( http://arxiv.org/abs/2206.07870v1 )

ライセンス: CC BY 4.0
Theodore R Sumers, Robert D Hawkins, Mark K Ho, Thomas L Griffiths, Dylan Hadfield-Menell(参考訳) 私たちの人生の初期から、人間は私たちの信念や欲望を表現するために言語を使います。 人工エージェントに私たちの好みについて話すことができれば、価値アライメントという中心的な目標を達成できるでしょう。 しかし今日では、そのような柔軟で抽象的な言語の使用を説明する計算モデルが欠けている。 この課題に対処するために、社会学習を線形バンディット設定で検討し、人間が行動よりも好み(すなわち報酬関数)をどう伝達するかを問う。 我々は,望ましい方針に関する情報を提供するインストラクションと,報酬機能に関する情報を提供する説明という2つの異なる言語について検討した。 人間がこれらの言語をどのように使うかを説明するために、既知の現在状態と未知の将来の状態の両方について推論することを提案します。 我々は、報酬設計を拡張して、状態の分布を考えることで、この選択を形式化する。 次に、話者の自己表現の仕方を推論することで、話者の報酬関数を推測する実用的リスナーエージェントを定義する。 我々は,(1)話者モデルが自発的な行動を予測すること,(2)実用的リスナーが報酬関数を回復できることを実証し,行動実験によってモデルを検証する。 最後に,従来の強化学習環境では,実践的社会学習が個別学習と統合し,促進できることを示す。 以上の結果から, より広い範囲の言語からの社会学習, 特に, 分野の現在, 説明からの学習を含む指導に焦点をあてることが, より広範に価値アライメントと強化学習の有望なアプローチであることを示唆した。

From the earliest years of our lives, humans use language to express our beliefs and desires. Being able to talk to artificial agents about our preferences would thus fulfill a central goal of value alignment. Yet today, we lack computational models explaining such flexible and abstract language use. To address this challenge, we consider social learning in a linear bandit setting and ask how a human might communicate preferences over behaviors (i.e. the reward function). We study two distinct types of language: instructions, which provide information about the desired policy, and descriptions, which provide information about the reward function. To explain how humans use these forms of language, we suggest they reason about both known present and unknown future states: instructions optimize for the present, while descriptions generalize to the future. We formalize this choice by extending reward design to consider a distribution over states. We then define a pragmatic listener agent that infers the speaker's reward function by reasoning about how the speaker expresses themselves. We validate our models with a behavioral experiment, demonstrating that (1) our speaker model predicts spontaneous human behavior, and (2) our pragmatic listener is able to recover their reward functions. Finally, we show that in traditional reinforcement learning settings, pragmatic social learning can integrate with and accelerate individual learning. Our findings suggest that social learning from a wider range of language -- in particular, expanding the field's present focus on instructions to include learning from descriptions -- is a promising approach for value alignment and reinforcement learning more broadly.
翻訳日:2022-06-18 14:48:42 公開日:2022-06-16
# (参考訳) 訓練とハイパートレーニングの必須収束解析による最適化学習

Optimization-Derived Learning with Essential Convergence Analysis of Training and Hyper-training ( http://arxiv.org/abs/2206.07875v1 )

ライセンス: CC BY-SA 4.0
Risheng Liu, Xuan Liu, Shangzhi Zeng, Jin Zhang and Yixuan Zhang(参考訳) 近年,ODL(Optimization-Derived Learning)は,最適化の観点から学習モデルを設計する学習領域や視覚領域から注目を集めている。 しかし、従来のodlアプローチでは、トレーニングとハイパートレーニングの手順を2つの段階に分けているため、トレーニングプロセス中にハイパートレーニング変数を固定する必要があるため、トレーニングとハイパートレーニング変数の収束を同時に取得することも不可能である。 本研究では,固定点反復に基づく一般化クラスノセルスキーマン(GKM)スキームを基本ODLモジュールとして設計し,既存のODLメソッドを特殊なケースとして統一する。 GKMスキームでは、最適トレーニングとハイパートレーニング変数を同時に解くために、バイレベルメタ最適化(BMO)アルゴリズムフレームワークを構築している。 我々は,固定点反復の訓練における本質的な合同収束とハイパートレーニングのためのハイパーパラメータの最適化過程を,近似品質と定常解析の両方に基づいて厳密に証明する。 画像デコンボリューションやレインストリーク除去といった,スパースコーディングや実世界のアプリケーション上での競合性能によるBMOの効率性を示す実験。

Recently, Optimization-Derived Learning (ODL) has attracted attention from learning and vision areas, which designs learning models from the perspective of optimization. However, previous ODL approaches regard the training and hyper-training procedures as two separated stages, meaning that the hyper-training variables have to be fixed during the training process, and thus it is also impossible to simultaneously obtain the convergence of training and hyper-training variables. In this work, we design a Generalized Krasnoselskii-Mann (GKM) scheme based on fixed-point iterations as our fundamental ODL module, which unifies existing ODL methods as special cases. Under the GKM scheme, a Bilevel Meta Optimization (BMO) algorithmic framework is constructed to solve the optimal training and hyper-training variables together. We rigorously prove the essential joint convergence of the fixed-point iteration for training and the process of optimizing hyper-parameters for hyper-training, both on the approximation quality, and on the stationary analysis. Experiments demonstrate the efficiency of BMO with competitive performance on sparse coding and real-world applications such as image deconvolution and rain streak removal.
翻訳日:2022-06-18 14:26:04 公開日:2022-06-16
# (参考訳) データ駆動数値線形代数の一般化境界

Generalization Bounds for Data-Driven Numerical Linear Algebra ( http://arxiv.org/abs/2206.07886v1 )

ライセンス: CC BY 4.0
Peter Bartlett, Piotr Indyk, Tal Wagner(参考訳) データ駆動アルゴリズムは、入力のトレーニングサンプルから学習することで、内部構造やパラメータを未知のアプリケーション固有分布からの入力に適応させることができる。 いくつかの最近の研究は、数値線形代数における問題にこのアプローチを適用し、性能において顕著な経験的利得を得た。 しかし、その成功に関する理論的説明は分かっていない。 本稿では,gupta と roughgarden (sicomp 2017) が提案するpac-learning framework for data-driven algorithm selectionにおいて,それらのアルゴリズムの一般化限界を証明する。 本研究の主な成果は,Indykらによる学習に基づく低ランク近似アルゴリズムの脂肪破砕次元の上下境界の密接な一致である。 〜(2019年)。 提案手法は一般化され,近年提案されている数値線形代数におけるデータ駆動アルゴリズムの多くに一般化境界を提供し,スケッチベースとマルチグリッドベースの両方の手法をカバーする。 これにより、PAC学習分析が利用可能なデータ駆動アルゴリズムのクラスが大幅に拡大される。

Data-driven algorithms can adapt their internal structure or parameters to inputs from unknown application-specific distributions, by learning from a training sample of inputs. Several recent works have applied this approach to problems in numerical linear algebra, obtaining significant empirical gains in performance. However, no theoretical explanation for their success was known. In this work we prove generalization bounds for those algorithms, within the PAC-learning framework for data-driven algorithm selection proposed by Gupta and Roughgarden (SICOMP 2017). Our main results are closely matching upper and lower bounds on the fat shattering dimension of the learning-based low rank approximation algorithm of Indyk et al.~(NeurIPS 2019). Our techniques are general, and provide generalization bounds for many other recently proposed data-driven algorithms in numerical linear algebra, covering both sketching-based and multigrid-based methods. This considerably broadens the class of data-driven algorithms for which a PAC-learning analysis is available.
翻訳日:2022-06-18 14:24:49 公開日:2022-06-16
# (参考訳) 大マージンフェールにおける最大マージン加工:一様収束のない一般化

Max-Margin Works while Large Margin Fails: Generalization without Uniform Convergence ( http://arxiv.org/abs/2206.07892v1 )

ライセンス: CC BY 4.0
Margalit Glasgow, Colin Wei, Mary Wootters, Tengyu Ma(参考訳) 現代の機械学習における大きな課題は、理論上、過剰パラメータモデルの一般化特性を理解することである。 既存のツールの多くは、テストの損失がトレーニング損失に近いことを保証し、候補モデルのクラスを一様に上回る特性である \em uniform convergence \em (uc) に依存している。 Nagarajan and Kolter (2019) は、ある単純な線形および神経ネットワークの設定において、任意の一様収束境界は空であり、UCが失敗する環境での一般化の証明方法に関する疑問を解き放つことを示している。 私たちの主な貢献は、線形と非線形の2つの設定で新しい一般化境界を証明することです。 本研究では, 長良ジャンとコルターの線形分類と, 非線形状態の2層ニューラルネットワークを用いて学習した2次基底真理関数について検討した。 我々は、信号対雑音のしきい値を超える新しいタイプのマージンバウンドを証明し、この2つの設定において、任意の最大マージン分類器はテスト損失がほとんどないことを示す。 この結果から,max-margin の少なくとも $(1\epsilon)$-fraction を達成するモデルはすべて well を一般化しているが,max-margin の半分を成す分類器はひどく失敗する可能性がある。 さらに、Nagarajan と Kolter の UC の不合理性の結果を強化し、 \em の片面 \em UC 境界と古典的マージン境界が、ほぼ最大値の分類器で失敗することを証明した。 一般化が起こるが、UCが失敗するこの挑戦的な体制では、近マックスマージン分類器は、いくつかの一般化可能なコンポーネントと、データを記憶する過度なコンポーネントを同時に含んでいる。 オーバーフィッティングコンポーネントの存在はucを妨げるには十分であるが、極端に近いマージンは十分な一般化可能なコンポーネントが存在することを保証している。

A major challenge in modern machine learning is theoretically understanding the generalization properties of overparameterized models. Many existing tools rely on \em uniform convergence \em (UC), a property that, when it holds, guarantees that the test loss will be close to the training loss, uniformly over a class of candidate models. Nagarajan and Kolter (2019) show that in certain simple linear and neural-network settings, any uniform convergence bound will be vacuous, leaving open the question of how to prove generalization in settings where UC fails. Our main contribution is proving novel generalization bounds in two such settings, one linear, and one non-linear. We study the linear classification setting of Nagarajan and Kolter, and a quadratic ground truth function learned via a two-layer neural network in the non-linear regime. We prove a new type of margin bound showing that above a certain signal-to-noise threshold, any near-max-margin classifier will achieve almost no test loss in these two settings. Our results show that near-max-margin is important: while any model that achieves at least a $(1 - \epsilon)$-fraction of the max-margin generalizes well, a classifier achieving half of the max-margin may fail terribly. We additionally strengthen the UC impossibility results of Nagarajan and Kolter, proving that \em one-sided \em UC bounds and classical margin bounds will fail on near-max-margin classifiers. Our analysis provides insight on why memorization can coexist with generalization: we show that in this challenging regime where generalization occurs but UC fails, near-max-margin classifiers simultaneously contain some generalizable components and some overfitting components that memorize the data. The presence of the overfitting components is enough to preclude UC, but the near-extremal margin guarantees that sufficient generalizable components are present.
翻訳日:2022-06-18 13:42:40 公開日:2022-06-16
# (参考訳) マルチモーダル対話状態追跡

Multimodal Dialogue State Tracking ( http://arxiv.org/abs/2206.07898v1 )

ライセンス: CC BY 4.0
Hung Le, Nancy F. Chen, Steven C.H. Hoi(参考訳) 対話におけるユーザ目標を追跡するために設計された対話状態トラッカーは、対話システムにおいて不可欠なコンポーネントである。 しかし、対話状態追跡の研究は、知識ドメイン(レストラン名と価格範囲のスロットを持つレストランドメインなど)によってスロットとスロットの値が制限され、特定のデータベーススキーマによって定義される一様性に大きく制限されている。 本稿では,対話状態追跡の定義をマルチモーダルに拡張することを提案する。 具体的には,ビデオ接地対話で言及される視覚物体の情報を追跡するための対話状態追跡タスクを提案する。 新しい対話発話は、新しいビデオセグメント、新しいビジュアルオブジェクト、または新しいオブジェクト属性を導入し、それに応じてこれらの情報スロットを更新するために状態トラッカーが必要となる。 我々は新しい合成ベンチマークを作成し,新しいベースラインであるvdtn(video-dialogue transformer network)を設計した。 VDTNは、オブジェクトレベルの特徴とセグメントレベルの特徴を組み合わせて、ビデオと対話の間のコンテキスト依存を学び、マルチモーダルな対話状態を生成する。 我々は,映像セグメントやオブジェクト表現を復元する自己教師付きビデオ理解タスクと同様に,状態生成タスクにVDTNを最適化した。 最後に、VDTNに応答予測タスクでデコードされた状態を使用するように訓練した。 包括的アブレーションと質的分析とともに,より有能なマルチモーダル対話システムを構築するための興味深い知見を得た。

Designed for tracking user goals in dialogues, a dialogue state tracker is an essential component in a dialogue system. However, the research of dialogue state tracking has largely been limited to unimodality, in which slots and slot values are limited by knowledge domains (e.g. restaurant domain with slots of restaurant name and price range) and are defined by specific database schema. In this paper, we propose to extend the definition of dialogue state tracking to multimodality. Specifically, we introduce a novel dialogue state tracking task to track the information of visual objects that are mentioned in video-grounded dialogues. Each new dialogue utterance may introduce a new video segment, new visual objects, or new object attributes, and a state tracker is required to update these information slots accordingly. We created a new synthetic benchmark and designed a novel baseline, Video-Dialogue Transformer Network (VDTN), for this task. VDTN combines both object-level features and segment-level features and learns contextual dependencies between videos and dialogues to generate multimodal dialogue states. We optimized VDTN for a state generation task as well as a self-supervised video understanding task which recovers video segment or object representations. Finally, we trained VDTN to use the decoded states in a response prediction task. Together with comprehensive ablation and qualitative analysis, we discovered interesting insights towards building more capable multimodal dialogue systems.
翻訳日:2022-06-18 13:40:58 公開日:2022-06-16
# (参考訳) クロスサイロ連合学習におけるプライバシとパーソナライゼーションについて

On Privacy and Personalization in Cross-Silo Federated Learning ( http://arxiv.org/abs/2206.07902v1 )

ライセンス: CC BY 4.0
Ziyu Liu, Shengyuan Hu, Zhiwei Steven Wu, Virginia Smith(参考訳) ディファレンシャルプライバシ(DP)の適用はクロスデバイス・フェデレーション・ラーニング(FL)においてよく研究されているが、クロスサイロFLではDPを検討する作業が不足している。 クロスサイロFLでは、クライアントレベルのプライバシという一般的な概念は、サイロ自体よりもサイロ内のデータ対象に関する現実のプライバシ規制よりも適していない。 この研究では、サイロ特有のアイテムレベルのプライバシのより現実的な概念を検討し、サイロがローカルな例のために独自のプライバシターゲットを設定します。 本研究では,フェデレーション学習におけるパーソナライズの役割を再考する。 特に,単純なパーソナライズフレームワークである平均正規化マルチタスク学習(MR-MTL)がクロスサイロFLの強力なベースラインであることを示す。 平均推定問題に対するMR-MTLの理論的特徴と競合する手法の徹底的な実証的研究を行い、プライバシとクロスサイロデータの不均一性の相互作用を強調した。 我々の研究は、民間のクロスサイロFLのベースラインを確立するとともに、この分野における今後の作業の重要な方向性を特定するのに役立ちます。

While the application of differential privacy (DP) has been well-studied in cross-device federated learning (FL), there is a lack of work considering DP for cross-silo FL, a setting characterized by a limited number of clients each containing many data subjects. In cross-silo FL, usual notions of client-level privacy are less suitable as real-world privacy regulations typically concern in-silo data subjects rather than the silos themselves. In this work, we instead consider the more realistic notion of silo-specific item-level privacy, where silos set their own privacy targets for their local examples. Under this setting, we reconsider the roles of personalization in federated learning. In particular, we show that mean-regularized multi-task learning (MR-MTL), a simple personalization framework, is a strong baseline for cross-silo FL: under stronger privacy, silos are further incentivized to "federate" with each other to mitigate DP noise, resulting in consistent improvements relative to standard baseline methods. We provide a thorough empirical study of competing methods as well as a theoretical characterization of MR-MTL for a mean estimation problem, highlighting the interplay between privacy and cross-silo data heterogeneity. Our work serves to establish baselines for private cross-silo FL as well as identify key directions of future work in this area.
翻訳日:2022-06-18 13:00:37 公開日:2022-06-16
# (参考訳) 微分プライベート低ランク行列補完のためのHuber機構の導入

Introducing the Huber mechanism for differentially private low-rank matrix completion ( http://arxiv.org/abs/2206.07910v1 )

ライセンス: CC BY 4.0
R Adithya Gowtham, Gokularam M, Thulasi Tholeti, Sheetal Kalyani(参考訳) プライバシ保存アプローチのためのセンシティブなユーザデータコールによる低ランクマトリックス補完の実行。 本研究では,統計的によく知られた損失関数であるハマー損失にインスパイアされた雑音分布の差分プライバシーを維持するための新しいノイズ付加機構を提案する。 提案するHuber機構は,行列補完問題をAlternating Least Squaresアプローチを用いて解きながら,既存の差分プライバシー機構に対して評価する。 また,最小二乗法を反復重み付けして低ランク行列を完結させ,合成データと実データの両方において異なる雑音機構の性能について検討する。 提案機構は,Laplace機構と同様の差分プライバシーを実現することを実証する。 さらに, 実験結果から, フーバー機構がラプラシア語やガウス語よりも優れており, それ以外は同等であることが示唆された。

Performing low-rank matrix completion with sensitive user data calls for privacy-preserving approaches. In this work, we propose a novel noise addition mechanism for preserving differential privacy where the noise distribution is inspired by Huber loss, a well-known loss function in robust statistics. The proposed Huber mechanism is evaluated against existing differential privacy mechanisms while solving the matrix completion problem using the Alternating Least Squares approach. We also propose using the Iteratively Re-Weighted Least Squares algorithm to complete low-rank matrices and study the performance of different noise mechanisms in both synthetic and real datasets. We prove that the proposed mechanism achieves {\epsilon}-differential privacy similar to the Laplace mechanism. Furthermore, empirical results indicate that the Huber mechanism outperforms Laplacian and Gaussian in some cases and is comparable, otherwise.
翻訳日:2022-06-18 12:59:21 公開日:2022-06-16
# (参考訳) 二重サンプリングランダム化平滑化

Double Sampling Randomized Smoothing ( http://arxiv.org/abs/2206.07912v1 )

ライセンス: CC BY 4.0
Linyi Li and Jiawei Zhang and Tao Xie and Bo Li(参考訳) ニューラルネットワーク(nns)は、敵の摂動に対して脆弱であることが知られているため、ランダム化平滑化(randomized smoothing)などのnnsに対する堅牢性認定の提供を目的とした一連の作業があり、特定の分布からのノイズの平滑化をサンプリングし、平滑化分類器のロバスト性を検証する。 しかし、以前の研究が示すように、ランダムな平滑化における認定ロバスト半径は、大きなデータセット("curse of dimensionality")へのスケールに苦しむ。 このハードルを克服するために,従来の平滑化分類器のロバスト性認証を強化するために,追加の平滑化分布からサンプリング確率を利用する2重サンプリングランダム化平滑化(dsrs)フレームワークを提案する。 理論的には、穏やかな仮定の下で、DSRS が $\Theta(\sqrt d)$ robust radius を $\ell_2$ norm の下で証明できることを証明している。 ガウス平滑化の一般化族に対するDSRSをインスタンス化し、サンプリング誤差を考慮した最適化された双対最適化に基づく効率的な音響計算法を提案する。 MNIST, CIFAR-10, ImageNet の広範囲にわたる実験により, DSRS が既存のベースラインよりも高いロバスト半径を一定の条件下で証明していることが確認された。 コードはhttps://github.com/llylly/DSRSで入手できる。

Neural networks (NNs) are known to be vulnerable against adversarial perturbations, and thus there is a line of work aiming to provide robustness certification for NNs, such as randomized smoothing, which samples smoothing noises from a certain distribution to certify the robustness for a smoothed classifier. However, as previous work shows, the certified robust radius in randomized smoothing suffers from scaling to large datasets ("curse of dimensionality"). To overcome this hurdle, we propose a Double Sampling Randomized Smoothing (DSRS) framework, which exploits the sampled probability from an additional smoothing distribution to tighten the robustness certification of the previous smoothed classifier. Theoretically, under mild assumptions, we prove that DSRS can certify $\Theta(\sqrt d)$ robust radius under $\ell_2$ norm where $d$ is the input dimension, which implies that DSRS may be able to break the curse of dimensionality of randomized smoothing. We instantiate DSRS for a generalized family of Gaussian smoothing and propose an efficient and sound computing method based on customized dual optimization considering sampling error. Extensive experiments on MNIST, CIFAR-10, and ImageNet verify our theory and show that DSRS certifies larger robust radii than existing baselines consistently under different settings. Code is available at https://github.com/llylly/DSRS.
翻訳日:2022-06-18 12:45:29 公開日:2022-06-16
# (参考訳) Barrier Certified Safety Learning Control:Sum-of-Square Programming with Reinforcement Learning

Barrier Certified Safety Learning Control: When Sum-of-Square Programming Meets Reinforcement Learning ( http://arxiv.org/abs/2206.07915v1 )

ライセンス: CC BY 4.0
Hejun Huang, Zhenglong Li, Dongkun Han(参考訳) 安全保証は多くのエンジニアリング実装において不可欠である。 強化学習は安全性を高める有用な方法である。 しかし、強化学習アルゴリズムは現実的な操作に対する安全性を完全に保証することはできない。 この問題に対処するため,本研究では強化学習よりも制御障壁関数を採用し,安全性を完全に維持するための補償アルゴリズムを提案する。 具体的には、最適制御器を探索し、同時に学習ハイパーパラメータをチューニングするために2乗の総和プログラミングが利用されている。 したがって、制御アクションは常に安全な領域内であることを約束する。 提案手法の有効性を逆振り子モデルを用いて実証する。 2乗型プログラミングに基づく強化学習法と比較して,2乗型プログラミングに基づく強化学習が優れていることが示された。

Safety guarantee is essential in many engineering implementations. Reinforcement learning provides a useful way to strengthen safety. However, reinforcement learning algorithms cannot completely guarantee safety over realistic operations. To address this issue, this work adopts control barrier functions over reinforcement learning, and proposes a compensated algorithm to completely maintain safety. Specifically, a sum-of-squares programming has been exploited to search for the optimal controller, and tune the learning hyperparameters simultaneously. Thus, the control actions are pledged to be always within the safe region. The effectiveness of proposed method is demonstrated via an inverted pendulum model. Compared to quadratic programming based reinforcement learning methods, our sum-of-squares programming based reinforcement learning has shown its superiority.
翻訳日:2022-06-18 12:43:37 公開日:2022-06-16
# (参考訳) 理解的ロバスト性宝くじ--ニューラルネットワークの刈り取り手法の比較視覚的解析

"Understanding Robustness Lottery": A Comparative Visual Analysis of Neural Network Pruning Approaches ( http://arxiv.org/abs/2206.07918v1 )

ライセンス: CC BY 4.0
Zhimin Li, Shusen Liu, Xin Yu, Kailkhura Bhavya, Jie Cao, Diffenderfer James Daniel, Peer-Timo Bremer, Valerio Pascucci(参考訳) ディープラーニングのアプローチは多くのアプリケーションで最先端のパフォーマンスを提供し、非常に大規模で過小評価されたニューラルネットワークに依存しています。 しかし、そのようなネットワークは非常に脆弱で、新しいユースケースをうまく一般化していないことが示されており、リソース制限されたプラットフォームへのデプロイが不可能でなければ、しばしば困難である。 モデルプルーニング(Model pruning)、すなわちネットワークのサイズを減らすことは、より堅牢で一般化可能なネットワークへと導く、広く採用されている戦略である。 モデルプルーニングには多くのヒューリスティックが存在するが、プルーニングプロセスに対する我々の理解は限られている。 経験的研究は、いくつかのヒューリスティックがパフォーマンスを向上させる一方で、モデルをより脆くしたり、他の副作用を持つことができることを示している。 この研究は、異なるプルーニング手法がネットワークの内部的特徴表現をどのように変更し、それに対応するモデル性能に与える影響を明らかにすることを目的としている。 モデル特徴空間の有意義な比較と特徴付けを行うため、一般的な分類損失から分解される3つの幾何学的指標を用いる。 これらのメトリクスを用いて、モデル予測と潜在機能埋め込みに対するプルーニングの影響を明らかにする可視化システムを設計する。 提案手法は, 刈り込み方法と刈り込みモデルとオリジナルのモデルの違いを探索し, 研究するための環境を提供する。 視覚化を活用することで、機械学習の研究者たちは、プルーニングやデータの破損をモデル化するのに脆弱なサンプルを識別できるだけでなく、プルーニングされたモデルが優れた堅牢性を実現する方法に関する洞察や説明を得ることができる。

Deep learning approaches have provided state-of-the-art performance in many applications by relying on extremely large and heavily overparameterized neural networks. However, such networks have been shown to be very brittle, not generalize well to new uses cases, and are often difficult if not impossible to deploy on resources limited platforms. Model pruning, i.e., reducing the size of the network, is a widely adopted strategy that can lead to more robust and generalizable network -- usually orders of magnitude smaller with the same or even improved performance. While there exist many heuristics for model pruning, our understanding of the pruning process remains limited. Empirical studies show that some heuristics improve performance while others can make models more brittle or have other side effects. This work aims to shed light on how different pruning methods alter the network's internal feature representation, and the corresponding impact on model performance. To provide a meaningful comparison and characterization of model feature space, we use three geometric metrics that are decomposed from the common adopted classification loss. With these metrics, we design a visualization system to highlight the impact of pruning on model prediction as well as the latent feature embedding. The proposed tool provides an environment for exploring and studying differences among pruning methods and between pruned and original model. By leveraging our visualization, the ML researchers can not only identify samples that are fragile to model pruning and data corruption but also obtain insights and explanations on how some pruned models achieve superior robustness performance.
翻訳日:2022-06-18 12:29:04 公開日:2022-06-16
# (参考訳) PInKS:ミニマルスーパービジョンによるプレコンディション付きコモンセンス推論

PInKS: Preconditioned Commonsense Inference with Minimal Supervision ( http://arxiv.org/abs/2206.07920v1 )

ライセンス: CC BY 4.0
Ehsan Qasemi, Piyush Khanna, Qiang Ning, Muhao Chen(参考訳) ガラスが粉々にされない限り、水を飲むのにガラスが使える」といった前提条件による推論は、言語モデルには未解決の問題である。 主な課題は、前提条件データの不足と、そのような推論に対するモデルのサポートの欠如である。 我々は, ピンク, 弱い監督を伴う事前条件付きコモンセンス推論, 最小監督による前提条件推論のための改良モデルを提案する。 経験的および理論的に、ピンクスは常識知識の前提条件(最大40%マクロf1スコア)による推論に焦点を当てたベンチマークの結果を改善していることを示している。 PAC-Bayesian informationativeness analysis, precision measures, ablation studyによりPInKSをさらに検討した。

Reasoning with preconditions such as "glass can be used for drinking water unless the glass is shattered" remains an open problem for language models. The main challenge lies in the scarcity of preconditions data and the model's lack of support for such reasoning. We present PInKS, Preconditioned Commonsense Inference with WeaK Supervision, an improved model for reasoning with preconditions through minimum supervision. We show, both empirically and theoretically, that PInKS improves the results on benchmarks focused on reasoning with the preconditions of commonsense knowledge (up to 40% Macro-F1 scores). We further investigate PInKS through PAC-Bayesian informativeness analysis, precision measures, and ablation study.
翻訳日:2022-06-18 12:07:35 公開日:2022-06-16
# (参考訳) グラフニューラルネットワークによる深層強化学習の課題と可能性:アルゴリズムと応用の包括的レビュー

Challenges and Opportunities in Deep Reinforcement Learning with Graph Neural Networks: A Comprehensive review of Algorithms and Applications ( http://arxiv.org/abs/2206.07922v1 )

ライセンス: CC BY 4.0
Sai Munikoti, Deepesh Agarwal, Laya Das, Mahantesh Halappanavar, Balasubramaniam Natarajan(参考訳) 深層強化学習(DRL)は、パターン認識、ロボット工学、レコメンデーションシステム、ゲームなど、さまざまな人工知能分野に力を与えている。 同様に、グラフニューラルネットワーク(GNN)も、グラフ構造化データの教師あり学習において優れた性能を示している。 近年,グラフ構造化環境におけるGNNとDRLの融合が注目されている。 本稿では,これらのハイブリッド作品について概観する。 これらの研究は,(1) DRLとGNNを補完するアルゴリズム拡張,(2) アプリケーション固有の拡張,(2) DRLとGNNが相互に支援するアルゴリズム拡張の2つのカテゴリに分類される。 この融合は、工学と生命科学の様々な複雑な問題に効果的に対処する。 このレビューに基づいて,これら2つのドメイン,特に一般化可能性の向上と計算複雑性の低減について,適用可能性とメリットをさらに分析する。 最後に、DRLとGNNの統合における重要な課題と将来の研究方向性が強調されている。

Deep reinforcement learning (DRL) has empowered a variety of artificial intelligence fields, including pattern recognition, robotics, recommendation-systems, and gaming. Similarly, graph neural networks (GNN) have also demonstrated their superior performance in supervised learning for graph-structured data. In recent times, the fusion of GNN with DRL for graph-structured environments has attracted a lot of attention. This paper provides a comprehensive review of these hybrid works. These works can be classified into two categories: (1) algorithmic enhancement, where DRL and GNN complement each other for better utility; (2) application-specific enhancement, where DRL and GNN support each other. This fusion effectively addresses various complex problems in engineering and life sciences. Based on the review, we further analyze the applicability and benefits of fusing these two domains, especially in terms of increasing generalizability and reducing computational complexity. Finally, the key challenges in integrating DRL and GNN, and potential future research directions are highlighted, which will be of interest to the broader machine learning community.
翻訳日:2022-06-18 11:43:53 公開日:2022-06-16
# (参考訳) Lifelong Wandering: リアルな数ショットのオンライン連続学習環境

Lifelong Wandering: A realistic few-shot online continual learning setting ( http://arxiv.org/abs/2206.07932v1 )

ライセンス: CC BY 4.0
Mayank Lunayach, James Smith, Zsolt Kira(参考訳) online few-shot learningは、新しいクラスを学習しながら、モデルがデータストリームでトレーニングされ、評価される環境を記述している。 この環境における先行研究は、1つの屋内環境からなるデータストリームから学習する場合にインスタンス分類において非常に有望な性能を発揮するが、ロボット工学のようなアプリケーションで発生する可能性のある複数の屋内環境におけるオブジェクト分類を考えるために、この設定を拡張することを提案する。 重要なことは、オンライン数ショット連続学習と呼ばれる私たちの設定は、数ショットオンライン学習パラダイムを忘れることの破滅的な問題をよく研究していることです。 本研究では,いくつかの既存手法と適応ベースラインのベンチマークを行い,破滅的な忘れ込みとオンラインパフォーマンスのトレードオフが存在することを示す。 この環境での今後の作業の必要性を動機として,破滅的な忘れを伴わずに,オンラインパフォーマンスの向上を実現している。

Online few-shot learning describes a setting where models are trained and evaluated on a stream of data while learning emerging classes. While prior work in this setting has achieved very promising performance on instance classification when learning from data-streams composed of a single indoor environment, we propose to extend this setting to consider object classification on a series of several indoor environments, which is likely to occur in applications such as robotics. Importantly, our setting, which we refer to as online few-shot continual learning, injects the well-studied issue of catastrophic forgetting into the few-shot online learning paradigm. In this work, we benchmark several existing methods and adapted baselines within our setting, and show there exists a trade-off between catastrophic forgetting and online performance. Our findings motivate the need for future work in this setting, which can achieve better online performance without catastrophic forgetting.
翻訳日:2022-06-18 11:08:31 公開日:2022-06-16
# (参考訳) PROFHIT:階層型時系列の確率的ロバスト予測

PROFHIT: Probabilistic Robust Forecasting for Hierarchical Time-series ( http://arxiv.org/abs/2206.07940v1 )

ライセンス: CC BY 4.0
Harshavardhan Kamarthi, Lingkai Kong, Alexander Rodr\'iguez, Chao Zhang and B. Aditya Prakash(参考訳) 確率的階層的時系列予測は時系列予測の重要な変種であり、階層的関係を基礎とする多変量時系列のモデル化と予測を目標としている。 ほとんどの手法は点予測に焦点をあて、適切に調整された確率的予測分布を提供しない。 近年の最先端確率予測手法は,予測分布の一貫性を考慮しない点予測と分布のサンプルに階層的関係を課している。 以前の研究は、データセットが常に与えられた階層的な関係と一致しており、この仮定からの逸脱を示す現実世界のデータセットに適応していないことを静かに仮定している。 両者のギャップを埋めて,階層全体の分布予測を共同でモデル化する完全確率的階層予測モデルであるProFHITを提案する。 PROFHITは柔軟な確率的ベイズ的アプローチを採用し、新しい分散コヒーレンシ正規化を導入し、予測分布全体の階層的関係から学習し、堅牢で校正された予測を可能にし、様々な階層的一貫性のデータセットに適応する。 幅広いデータセットにおける習熟度の評価において,精度と校正において41~88%の精度が向上した。 完全分布上でのコヒーレンシーのモデル化により,入力時系列データの最大10%が欠落していても,ProFHITは信頼性の高い予測を確実に提供できることがわかった。

Probabilistic hierarchical time-series forecasting is an important variant of time-series forecasting, where the goal is to model and forecast multivariate time-series that have underlying hierarchical relations. Most methods focus on point predictions and do not provide well-calibrated probabilistic forecasts distributions. Recent state-of-art probabilistic forecasting methods also impose hierarchical relations on point predictions and samples of distribution which does not account for coherency of forecast distributions. Previous works also silently assume that datasets are always consistent with given hierarchical relations and do not adapt to real-world datasets that show deviation from this assumption. We close both these gaps and propose PROFHIT, which is a fully probabilistic hierarchical forecasting model that jointly models forecast distribution of entire hierarchy. PROFHIT uses a flexible probabilistic Bayesian approach and introduces a novel Distributional Coherency regularization to learn from hierarchical relations for entire forecast distribution that enables robust and calibrated forecasts as well as adapt to datasets of varying hierarchical consistency. On evaluating PROFHIT over wide range of datasets, we observed 41-88% better performance in accuracy and calibration. Due to modeling the coherency over full distribution, we observed that PROFHIT can robustly provide reliable forecasts even if up to 10% of input time-series data is missing where other methods' performance severely degrade by over 70%.
翻訳日:2022-06-18 11:00:06 公開日:2022-06-16
# (参考訳) 非可逆的グローバル目的のための差分プライバシー戦略を用いた分散オンライン学習アルゴリズム

Distributed Online Learning Algorithm With Differential Privacy Strategy for Convex Nondecomposable Global Objectives ( http://arxiv.org/abs/2206.07944v1 )

ライセンス: CC BY 4.0
Huqiang Cheng, Xiaofeng Liao, and Huaqing Li(参考訳) 本稿では,非可逆対象関数のクラスを考慮に入れた,時間変動ネットワーク上のプライバシに関する一般的な分散制約付きオンライン学習問題を扱う。 この設定では、各ノードはグローバルな決定変数の一部のみを制御し、すべてのノードの目標は、送信された情報のセキュリティを確保しながら、時間的水平線上でグローバルな目的を協調的に最小化することである。 このような問題に対して,我々はまず,laplace機構とdual averaging法の確率的変種を用いた分散分散オンライン学習のための,dpsdaと呼ばれる新しい汎用アルゴリズムフレームワークを設計した。 そこで本稿では, DPSDA-C と DPSDA-PS という2つのアルゴリズムを提案する。 理論的には、どちらのアルゴリズムも、目的関数が凸であるときに$\mathcal{o}( \sqrt{t} )$ で期待された上限に達することが示されている。 最後に、実世界およびランダムに生成されたデータセットの数値実験により、アルゴリズムの有効性を検証する。

In this paper, we deal with a general distributed constrained online learning problem with privacy over time-varying networks, where a class of nondecomposable objective functions are considered. Under this setting, each node only controls a part of the global decision variable, and the goal of all nodes is to collaboratively minimize the global objective over a time horizon $T$ while guarantees the security of the transmitted information. For such problems, we first design a novel generic algorithm framework, named as DPSDA, of differentially private distributed online learning using the Laplace mechanism and the stochastic variants of dual averaging method. Then, we propose two algorithms, named as DPSDA-C and DPSDA-PS, under this framework. Theoretical results show that both algorithms attain an expected regret upper bound in $\mathcal{O}( \sqrt{T} )$ when the objective function is convex, which matches the best utility achievable by cutting-edge algorithms. Finally, numerical experiment results on both real-world and randomly generated datasets verify the effectiveness of our algorithms.
翻訳日:2022-06-18 10:43:04 公開日:2022-06-16
# (参考訳) 映像分類における対人訓練の分析と拡張

Analysis and Extensions of Adversarial Training for Video Classification ( http://arxiv.org/abs/2206.07953v1 )

ライセンス: CC BY 4.0
Kaleab A. Kinfu and Ren\'e Vidal(参考訳) 逆行訓練 (AT) は、画像分類システムに対する逆行攻撃に対して単純かつ効果的な防御であり、損失を最大化する攻撃でトレーニングセットを増強することに基づいている。 しかし,ビデオ分類の防衛手段としてのATの有効性は十分に研究されていない。 最初のコントリビューションは、ビデオの最適な攻撃を生成するには、特にステップサイズなどの攻撃パラメータを慎重に調整する必要があります。 特に,攻撃予算に応じて最適なステップサイズが線形に変化することを示す。 2つめの貢献は、トレーニング時により小さな(最適以下の)攻撃予算を使用することで、テスト時により堅牢なパフォーマンスが得られることを示すことです。 本研究は,攻撃予算の変動による攻撃に対する3つの防御策を提案する。 最初のAdaptive ATは、トレーニングの繰り返しに適応したディストリビューションから攻撃予算を引き出すテクニックである。 第2のCurriculum ATは、トレーニングのイテレーションが進むにつれて攻撃予算が増加するテクニックである。 第3世代であるGenerative ATは、より堅牢なパフォーマンスを高めるために、ATとデノベーション・ジェネレーティブ・敵ネットワークを結合する。 UCF101データセットの実験は、提案手法が複数の攻撃タイプに対する対角的堅牢性を向上させることを示した。

Adversarial training (AT) is a simple yet effective defense against adversarial attacks to image classification systems, which is based on augmenting the training set with attacks that maximize the loss. However, the effectiveness of AT as a defense for video classification has not been thoroughly studied. Our first contribution is to show that generating optimal attacks for video requires carefully tuning the attack parameters, especially the step size. Notably, we show that the optimal step size varies linearly with the attack budget. Our second contribution is to show that using a smaller (sub-optimal) attack budget at training time leads to a more robust performance at test time. Based on these findings, we propose three defenses against attacks with variable attack budgets. The first one, Adaptive AT, is a technique where the attack budget is drawn from a distribution that is adapted as training iterations proceed. The second, Curriculum AT, is a technique where the attack budget is increased as training iterations proceed. The third, Generative AT, further couples AT with a denoising generative adversarial network to boost robust performance. Experiments on the UCF101 dataset demonstrate that the proposed methods improve adversarial robustness against multiple attack types.
翻訳日:2022-06-18 10:09:35 公開日:2022-06-16
# (参考訳) 埋め込み型ニューラルトピックモデルにおける均一性と埋め込みの明示的規則化

Towards Better Understanding with Uniformity and Explicit Regularization of Embeddings in Embedding-based Neural Topic Models ( http://arxiv.org/abs/2206.07960v1 )

ライセンス: CC BY 4.0
Wei Shao, Lei Huang, Shuqi Liu, Shihua Ma, Linqi Song(参考訳) 埋め込みベースのニューラルネットワークのトピックモデルは、単語やトピックを均質な特徴空間に埋め込むことで明示的に表現することができる。 しかし、埋め込みの訓練には明確な制約はなく、より広い最適化空間に繋がる。 また、埋め込みの変更とモデルパフォーマンスへの影響に関する明確な説明はいまだに欠けている。 本稿では、単語埋め込みとトピック埋め込みに関する特別に設計されたトレーニング制約を適用し、パラメータの最適化空間を削減する埋め込み正規化ニューラルトピックモデルを提案する。 埋め込みの変化と役割を明らかにするため,埋め込み空間の評価指標として,埋め込みに基づくニューラルトピックモデルに \textbf{uniformity} を導入する。 本稿では,組込みの均一性の変化を通じて,トレーニング中に組込みがどのように変化するかを説明する。 さらに,組込み型神経話題モデルにおける組込みの変化の影響をアブレーション研究を通して示す。 2つの主流データセットの実験結果から,本モデルがトピックの品質と文書モデリングの調和性において,ベースラインモデルを大幅に上回っていることが示唆された。 この研究は、埋め込みベースのニューラルトピックモデルの埋め込みの変化と、モデルパフォーマンスへの影響を私たちの知識の最大限に活用する最初の試みである。

Embedding-based neural topic models could explicitly represent words and topics by embedding them to a homogeneous feature space, which shows higher interpretability. However, there are no explicit constraints for the training of embeddings, leading to a larger optimization space. Also, a clear description of the changes in embeddings and the impact on model performance is still lacking. In this paper, we propose an embedding regularized neural topic model, which applies the specially designed training constraints on word embedding and topic embedding to reduce the optimization space of parameters. To reveal the changes and roles of embeddings, we introduce \textbf{uniformity} into the embedding-based neural topic model as the evaluation metric of embedding space. On this basis, we describe how embeddings tend to change during training via the changes in the uniformity of embeddings. Furthermore, we demonstrate the impact of changes in embeddings in embedding-based neural topic models through ablation studies. The results of experiments on two mainstream datasets indicate that our model significantly outperforms baseline models in terms of the harmony between topic quality and document modeling. This work is the first attempt to exploit uniformity to explore changes in embeddings of embedding-based neural topic models and their impact on model performance to the best of our knowledge.
翻訳日:2022-06-18 09:51:25 公開日:2022-06-16
# (参考訳) フラクショナルブラウン運動誤差と2つの周期的時系列の関係を研究するシクロコプラ法

Cyclocopula Technique to Study the Relationship Between Two Cyclostationary Time Series with Fractional Brownian Motion Errors ( http://arxiv.org/abs/2206.07976v1 )

ライセンス: CC BY 4.0
Mohammadreza Mahmoudi, Amir Mosavi(参考訳) 2つの時系列間の関係の検出は、環境および水文学研究において非常に重要である。 いくつかのパラメトリックおよび非パラメトリックアプローチは関係を検出するために適用できる。 これらの手法は通常定常性仮定に敏感である。 本研究では, 2つの周期時系列と分数ブラウン運動(fbm)誤差の関係を検出するために,copulaに基づく新しい手法を提案する。 数値解析により,提案手法の有効性が検証された。

Detection of the relationship between two time series is so important in environmental and hydrological studies. Several parametric and non-parametric approaches can be applied to detect relationships. These techniques are usually sensitive to stationarity assumptions. In this research, a new copula-based method is introduced to detect the relationship between two cylostationary time series with fractional Brownian motion (fBm) errors. The numerical studies verify the performance of the introduced approach.
翻訳日:2022-06-18 09:38:44 公開日:2022-06-16
# (参考訳) 変分ベイズ推論による個人化フェデレーション学習

Personalized Federated Learning via Variational Bayesian Inference ( http://arxiv.org/abs/2206.07977v1 )

ライセンス: CC BY 4.0
Xu Zhang, Yinchuan Li, Wenpeng Li, Kaiyang Guo, Yunfeng Shao(参考訳) フェデレーション学習は、データ不足とクライアント間の統計的多様性のために、モデル過適合による大きな課題に直面します。 これらの課題に対処するため,本論文では,pfedbayes と呼ばれるベイズ変分推論による個人化連体学習手法を提案する。 オーバーフィッティングを軽減するために、クライアントとサーバのニューラルネットワークに重みの不確実性を導入する。 パーソナライズを実現するため、各クライアントは、その構築エラーをプライベートデータとKLの分散をサーバからの世界分布とバランスさせて、ローカルな分散パラメータを更新する。 理論解析は平均一般化誤差の上限を与え、一般化誤差の収束率は対数係数まで最適であることを示す。 実験により、提案手法はパーソナライズされたモデルにおいて、他の高度なパーソナライズされた手法よりも優れており、例えば、pFedBayesは、他のSOTAアルゴリズムよりも1.25%、0.42%、11.71%、MNIST、FMNIST、CIFAR-10を非i.d.d.で上回る。

Federated learning faces huge challenges from model overfitting due to the lack of data and statistical diversity among clients. To address these challenges, this paper proposes a novel personalized federated learning method via Bayesian variational inference named pFedBayes. To alleviate the overfitting, weight uncertainty is introduced to neural networks for clients and the server. To achieve personalization, each client updates its local distribution parameters by balancing its construction error over private data and its KL divergence with global distribution from the server. Theoretical analysis gives an upper bound of averaged generalization error and illustrates that the convergence rate of the generalization error is minimax optimal up to a logarithmic factor. Experiments show that the proposed method outperforms other advanced personalized methods on personalized models, e.g., pFedBayes respectively outperforms other SOTA algorithms by 1.25%, 0.42% and 11.71% on MNIST, FMNIST and CIFAR-10 under non-i.i.d. limited data.
翻訳日:2022-06-18 09:30:44 公開日:2022-06-16
# (参考訳) 信頼する前の状態をダブルチェックする:信頼に反する双方向のオフラインモデルに基づくイマジネーション

Double Check Your State Before Trusting It: Confidence-Aware Bidirectional Offline Model-Based Imagination ( http://arxiv.org/abs/2206.07989v1 )

ライセンス: CC BY-SA 4.0
Jiafei Lyu, Xiu Li, Zongqing Lu(参考訳) モデルフリーオフライン強化学習(rl)手法の学習方針は、危険な分散外動作や状態を避けるためにデータセットのサポートに留まらざるを得ず、サポート外領域の処理が困難になることが多い。 モデルに基づくRL法はよりリッチなデータセットを提供し、トレーニングされたフォワードまたはリバースダイナミクスモデルで想像軌道を生成することによって一般化の恩恵を受ける。 しかし、想定される遷移は不正確なため、基礎となるオフラインRL法の性能は低下する。 本稿では,双方向ダイナミクスモデルとダブルチェックによるロールアウトポリシを用いて,オフラインデータセットの強化を提案する。 前方モデルと後方モデルが一致したサンプルを信頼することで保守性を導入する。 本手法は,信頼度を考慮した双方向オフラインモデルベースイマジネーションであり,信頼性の高いサンプルを生成し,任意のモデルフリーオフラインrl手法と組み合わせることができる。 d4rlベンチマーク実験の結果,既存のモデルフリーオフラインrlアルゴリズムの性能が大幅に向上し,ベースライン法に対する競争力やスコアが向上した。

The learned policy of model-free offline reinforcement learning (RL) methods is often constrained to stay within the support of datasets to avoid possible dangerous out-of-distribution actions or states, making it challenging to handle out-of-support region. Model-based RL methods offer a richer dataset and benefit generalization by generating imaginary trajectories with either trained forward or reverse dynamics model. However, the imagined transitions may be inaccurate, thus downgrading the performance of the underlying offline RL method. In this paper, we propose to augment the offline dataset by using trained bidirectional dynamics models and rollout policies with double check. We introduce conservatism by trusting samples that the forward model and backward model agree on. Our method, confidence-aware bidirectional offline model-based imagination, generates reliable samples and can be combined with any model-free offline RL method. Experimental results on the D4RL benchmarks demonstrate that our method significantly boosts the performance of existing model-free offline RL algorithms and achieves competitive or better scores against baseline methods.
翻訳日:2022-06-18 09:05:41 公開日:2022-06-16
# (参考訳) 重み区間制約による連続学習

Continual Learning with Guarantees via Weight Interval Constraints ( http://arxiv.org/abs/2206.07996v1 )

ライセンス: CC BY 4.0
Maciej Wo{\l}czyk, Karol J. Piczak, Bartosz W\'ojcik, {\L}ukasz Pustelnik, Pawe{\l} Morawiecki, Jacek Tabor, Tomasz Trzci\'nski, Przemys{\l}aw Spurek(参考訳) ニューラルネットワークパラメータ空間の間隔制約を適用して、忘れを制御できる新しいトレーニングパラダイムを導入する。 現代の連続学習(CL)手法は、データのストリームからニューラルネットワークを効率的にトレーニングすることに焦点を当て、破滅的な忘れの負の影響を低減しているが、ネットワーク性能が時間とともに制御不能に低下しないという確固たる保証は提供していない。 本研究では,モデルの連続学習を,パラメータ空間の連続的収縮として再構成することにより,忘れることに境界を設ける方法を示す。 そこで本研究では,各タスクがパラメータ空間内のハイパー矩形で表現され,前のタスクのハイパー矩形に完全に含まれる,新しいトレーニング手法であるHyperrectangle Trainingを提案する。 この定式化はNPハードCL問題を多項式時間に還元し、忘れることに対して完全なレジリエンスを与える。 区間演算を利用してパラメータ領域をハイパー矩形として効果的にモデル化するInterContiNet(Interval Continual Learning)アルゴリズムを開発した。 実験の結果,従来のタスクからのデータを保存することなく,継続的な学習環境でも良好に動作することがわかった。

We introduce a new training paradigm that enforces interval constraints on neural network parameter space to control forgetting. Contemporary Continual Learning (CL) methods focus on training neural networks efficiently from a stream of data, while reducing the negative impact of catastrophic forgetting, yet they do not provide any firm guarantees that network performance will not deteriorate uncontrollably over time. In this work, we show how to put bounds on forgetting by reformulating continual learning of a model as a continual contraction of its parameter space. To that end, we propose Hyperrectangle Training, a new training methodology where each task is represented by a hyperrectangle in the parameter space, fully contained in the hyperrectangles of the previous tasks. This formulation reduces the NP-hard CL problem back to polynomial time while providing full resilience against forgetting. We validate our claim by developing InterContiNet (Interval Continual Learning) algorithm which leverages interval arithmetic to effectively model parameter regions as hyperrectangles. Through experimental results, we show that our approach performs well in a continual learning setup without storing data from previous tasks.
翻訳日:2022-06-18 08:16:46 公開日:2022-06-16
# (参考訳) 線形回帰のための微分プライベート多人数データリリース

Differentially Private Multi-Party Data Release for Linear Regression ( http://arxiv.org/abs/2206.07998v1 )

ライセンス: CC BY 4.0
Ruihan Wu, Xin Yang, Yuanshun Yao, Jiankai Sun, Tianyi Liu, Kilian Q. Weinberger, Chong Wang(参考訳) Differentially Private (DP) データリリースは,データのプライバシを損なうことなくデータを広める,有望なテクニックである。 しかしながら、以前の作業の大部分は、単一のパーティがすべてのデータを所有するシナリオに重点を置いている。 本稿では、異なる利害関係者が同じデータ対象グループに属する不整合な属性セットを所有するマルチパーティ設定に焦点を当てる。 線形回帰の文脈内では、すべての当事者が個人の個人属性やアイデンティティを推論することなく、完全なデータ上でモデルを訓練できるので、ガウスのメカニズムを直接適用し、小さな固有値問題を持つことから始める。 さらに,本手法はデータセットサイズを増加させ,最適(非プライベート)解に漸近的に収束することを示す。 人工と実世界の両方のデータセットに関する実験を通じて理論的結果を裏付ける。

Differentially Private (DP) data release is a promising technique to disseminate data without compromising the privacy of data subjects. However the majority of prior work has focused on scenarios where a single party owns all the data. In this paper we focus on the multi-party setting, where different stakeholders own disjoint sets of attributes belonging to the same group of data subjects. Within the context of linear regression that allow all parties to train models on the complete data without the ability to infer private attributes or identities of individuals, we start with directly applying Gaussian mechanism and show it has the small eigenvalue problem. We further propose our novel method and prove it asymptotically converges to the optimal (non-private) solutions with increasing dataset size. We substantiate the theoretical results through experiments on both artificial and real-world datasets.
翻訳日:2022-06-18 07:51:21 公開日:2022-06-16
# (参考訳) 収束するインドのビュッフェ過程

The convergent Indian buffet process ( http://arxiv.org/abs/2206.08002v1 )

ライセンス: CC BY 4.0
Ilsang Ohn(参考訳) 本研究では、潜時特徴モデルのための新しいベイズ非パラメトリック先行法を提案し、収束インドバッフェ過程(CIBP)と呼ぶ。 CIBPでは, 平均単調に増大するが, 物体の数が無限に近づくにつれて一定の値に収束するポアソン分布として潜伏する特徴の数が分布していることを示す。 すなわち、期待される機能の数は、オブジェクト数によって期待される機能数が増加する標準のインドのビュッフェプロセスとは異なり、オブジェクト数が無限になるときでさえ、その上に制限されている。 我々は、それぞれ独立した関心を持つ階層分布と完全にランダムな測度に基づくCIBPの2つの代替表現を提供する。 提案したCIBPは高次元スパース因子モデルを用いて評価する。

We propose a new Bayesian nonparametric prior for latent feature models, which we call the convergent Indian buffet process (CIBP). We show that under the CIBP, the number of latent features is distributed as a Poisson distribution with the mean monotonically increasing but converging to a certain value as the number of objects goes to infinity. That is, the expected number of features is bounded above even when the number of objects goes to infinity, unlike the standard Indian buffet process under which the expected number of features increases with the number of objects. We provide two alternative representations of the CIBP based on a hierarchical distribution and a completely random measure, respectively, which are of independent interest. The proposed CIBP is assessed on a high-dimensional sparse factor model.
翻訳日:2022-06-18 07:10:07 公開日:2022-06-16
# (参考訳) 分子グラフ埋め込みにおける自己教師付き学習の評価

Evaluating Self-Supervised Learning for Molecular Graph Embeddings ( http://arxiv.org/abs/2206.08005v1 )

ライセンス: CC BY 4.0
Hanchen Wang, Jean Kaddour, Shengchao Liu, Jian Tang, Matt Kusner, Joan Lasenby, Qi Liu(参考訳) グラフ自己教師付き学習(gssl: graph self-supervised learning)は、専門家のアノテーションなしでグラフ埋め込みを学習する方法を提供する。 しかしながら、設計上、gsslメソッドは1つのダウンストリームタスクでうまく機能するように訓練されていないが、多くのタスクへの転送性を目指しているため、評価が容易ではない。 多様な解釈可能な属性を持つ分子グラフ埋め込みのプロファイルを得るためのステップとして,プローブタスクのスイートである分子グラフ表現評価(molgrapheval)を導入する。 (i)トポロジ-,トポロジ (ii)サブストラクチャ-,及び (iii)埋め込み空間特性。 既存のダウンストリームデータセットとMolGraphEvalの両方で既存のGSSLメソッドをベンチマークすることで、既存のデータセットから引き出された結論とよりきめ細かなプロファイリングとの驚くべき相違を発見し、現在の評価プロトコルが全体像を提供していないことを示唆する。 我々のモジュール化されたエンドツーエンドのGSSLパイプラインコードは、標準化されたグラフローディング、実験管理、埋め込み評価を含む受け入れ時にリリースされます。

Graph Self-Supervised Learning (GSSL) paves the way for learning graph embeddings without expert annotation, which is particularly impactful for molecular graphs since the number of possible molecules is enormous and labels are expensive to obtain. However, by design, GSSL methods are not trained to perform well on one downstream task but aim for transferability to many, making evaluating them less straightforward. As a step toward obtaining profiles of molecular graph embeddings with diverse and interpretable attributes, we introduce Molecular Graph Representation Evaluation (MolGraphEval), a suite of probe tasks, categorised into (i) topological-, (ii) substructure-, and (iii) embedding space properties. By benchmarking existing GSSL methods on both existing downstream datasets and MolGraphEval, we discover surprising discrepancies between conclusions drawn from existing datasets alone versus more fine-grained probing, suggesting that current evaluation protocols do not provide the whole picture. Our modular, automated end-to-end GSSL pipeline code will be released upon acceptance, including standardised graph loading, experiment management, and embedding evaluation.
翻訳日:2022-06-18 06:58:49 公開日:2022-06-16
# (参考訳) プロトタイプルールの誤差と圧縮率について

On Error and Compression Rates for Prototype Rules ( http://arxiv.org/abs/2206.08014v1 )

ライセンス: CC BY 4.0
Omer Kerem and Roi Weiss(参考訳) 本研究では,非パラメトリックな多クラス分類設定における誤りと圧縮の密接な相互作用を,プロトタイプ学習ルールの観点から検討する。 特に,最近提案されている圧縮ベースの学習規則optinetの近種に注目する。 計算のメリット以外にも、このルールは、普遍的に一貫性のあるルール(この性質を享受した最初の学習アルゴリズム)を許容する任意の計量インスタンス空間において、普遍的に一貫性があることが最近示されている。 しかし、エラーと圧縮率は未解決のままである。 ここでは、ユークリッド空間のインスタンスが、一般にデータ分布の滑らかさと尾の条件を示す場合のそのような速度を導出する。 まず、OptiNetは、最小値の誤差率に近づきながら、非自明な圧縮率を達成することを示す。 そこで我々は,精度を犠牲にすることなく,騒音レベルに局所的に適応するプロトタイプルールをさらに圧縮するための新しい汎用圧縮方式の研究を進める。 OptiNetに適用すると、幾何学的マージン条件下では、圧縮率がさらに向上することを示す。 各種手法の性能を比較する実験結果を示す。

We study the close interplay between error and compression in the non-parametric multiclass classification setting in terms of prototype learning rules. We focus in particular on a close variant of a recently proposed compression-based learning rule termed OptiNet. Beyond its computational merits, this rule has been recently shown to be universally consistent in any metric instance space that admits a universally consistent rule -- the first learning algorithm known to enjoy this property. However, its error and compression rates have been left open. Here we derive such rates in the case where instances reside in Euclidean space under commonly posed smoothness and tail conditions on the data distribution. We first show that OptiNet achieves non-trivial compression rates while enjoying near minimax-optimal error rates. We then proceed to study a novel general compression scheme for further compressing prototype rules that locally adapts to the noise level without sacrificing accuracy. Applying it to OptiNet, we show that under a geometric margin condition, further gain in the compression rate is achieved. Experimental results comparing the performance of the various methods are presented.
翻訳日:2022-06-18 06:37:08 公開日:2022-06-16
# (参考訳) 非負行列分解における部分識別可能性

Partial Identifiability for Nonnegative Matrix Factorization ( http://arxiv.org/abs/2206.08022v1 )

ライセンス: CC0 1.0
Nicolas Gillis, R\'obert Rajk\'o(参考訳) 非負行列因子分解 (non negative matrix factorization, $r$, and a factorization rank, $r$, exactly non negative matrix factorization (exact nmf) が与えられると、$r$ は二つの非負行列の積として分解され、$c$ と $s$ は$r$ で、例えば $r = cs^\top$ である。 文学における中心的な研究テーマは、そのような分解が一意かつ識別可能で、明快な曖昧さまである条件である。 本稿では、部分的識別可能性、すなわち$C$と$S$の列の部分集合の特異性に焦点を当てる。 ケミメトリの文献からデータに基づく一意性(DBU)の定理を導出する。 DBU定理は、Exact NMFのすべての実現可能な解を分析し、$C$と$S$の空間条件に依存する。 我々は、最近発表されたDBU定理の制限版に関する数学的に厳密な定理を提供し、単純な空間性や代数的条件にのみ依存する: Exact NMF の特定の解に適用し(すべての実現可能な解とは対照的に)、$C$ または $S$ の単一の列の部分的一意性を保証することができる。 第二に、制限付きDBU定理の幾何学的解釈に基づいて、新しい部分的識別可能性結果を得る。 我々は、Exact NMF 上の適切な前処理が使用されることを考えると、制限付き DBU 定理よりも強いことを証明している。 この幾何学的解釈はまた、$r=3$の場合の別の部分的識別可能性の結果をもたらす。 第3に、$c$と$s$のより多くの列の識別性を保証するために、部分的識別可能性結果が逐次的にどのように使われるかを示す。 ケモメトリクスの文献など,これらの結果をいくつかの例で紹介する。

Given a nonnegative matrix factorization, $R$, and a factorization rank, $r$, Exact nonnegative matrix factorization (Exact NMF) decomposes $R$ as the product of two nonnegative matrices, $C$ and $S$ with $r$ columns, such as $R = CS^\top$. A central research topic in the literature is the conditions under which such a decomposition is unique/identifiable, up to trivial ambiguities. In this paper, we focus on partial identifiability, that is, the uniqueness of a subset of columns of $C$ and $S$. We start our investigations with the data-based uniqueness (DBU) theorem from the chemometrics literature. The DBU theorem analyzes all feasible solutions of Exact NMF, and relies on sparsity conditions on $C$ and $S$. We provide a mathematically rigorous theorem of a recently published restricted version of the DBU theorem, relying only on simple sparsity and algebraic conditions: it applies to a particular solution of Exact NMF (as opposed to all feasible solutions) and allows us to guarantee the partial uniqueness of a single column of $C$ or $S$. Second, based on a geometric interpretation of the restricted DBU theorem, we obtain a new partial identifiability result. We prove it is stronger than the restricted DBU theorem, given that a proper preprocessing on the Exact NMF is used. This geometric interpretation also leads us to another partial identifiability result in the case $r=3$. Third, we show how partial identifiability results can be used sequentially to guarantee the identifiability of more columns of $C$ and $S$. We illustrate these results on several examples, including one from the chemometrics literature.
翻訳日:2022-06-18 06:35:40 公開日:2022-06-16
# (参考訳) AMOS:Versatile Medical Image Segmentationのための大規模腹部多臓器ベンチマーク

AMOS: A Large-Scale Abdominal Multi-Organ Benchmark for Versatile Medical Image Segmentation ( http://arxiv.org/abs/2206.08023v1 )

ライセンス: CC BY-SA 4.0
Yuanfeng Ji, Haotian Bai, Jie Yang, Chongjian Ge, Ye Zhu, Ruimao Zhang, Zhen Li, Lingyan Zhang, Wanling Ma, Xiang Wan, Ping Luo(参考訳) 近年,CT/MRIによる腹部自動多臓器分画の進歩は著しいが,様々な臨床シナリオからの大規模ベンチマークの欠如により,モデル機能の総合的な評価が妨げられている。 3D医療データの収集とラベル付けのコストが高いため、これまでのディープラーニングモデルのほとんどは、関心やサンプルの臓器が限られているデータセットによって駆動されるため、現代のディープモデルのパワーは依然として制限されており、様々な手法の完全な包括的かつ公正な見積もりを提供することが困難である。 この制限を緩和するため,腹部臓器分割のための大規模,多種多様な臨床データセットAMOSを報告する。 AMOSは、マルチセンタ、マルチベンダ、マルチフェーズ、マルチフェーズ、マルチフェーズの患者から収集された500個のCTと100個のMRIスキャンを提供し、それぞれ15の腹部臓器のボクセルレベルのアノテーションを持ち、さまざまなターゲットとシナリオの下で堅牢なセグメンテーションアルゴリズムを研究するための挑戦的な例とテストベッドを提供する。 さらに,この新たな課題データセットにおける既存手法の現状を評価するために,最先端の医療区分モデルをいくつかベンチマークした。 データセット、ベンチマークサーバ、ベースラインを一般公開し、今後の研究に刺激を与えたいと思っています。 情報はhttps://amos22.grand-challenge.orgにある。

Despite the considerable progress in automatic abdominal multi-organ segmentation from CT/MRI scans in recent years, a comprehensive evaluation of the models' capabilities is hampered by the lack of a large-scale benchmark from diverse clinical scenarios. Constraint by the high cost of collecting and labeling 3D medical data, most of the deep learning models to date are driven by datasets with a limited number of organs of interest or samples, which still limits the power of modern deep models and makes it difficult to provide a fully comprehensive and fair estimate of various methods. To mitigate the limitations, we present AMOS, a large-scale, diverse, clinical dataset for abdominal organ segmentation. AMOS provides 500 CT and 100 MRI scans collected from multi-center, multi-vendor, multi-modality, multi-phase, multi-disease patients, each with voxel-level annotations of 15 abdominal organs, providing challenging examples and test-bed for studying robust segmentation algorithms under diverse targets and scenarios. We further benchmark several state-of-the-art medical segmentation models to evaluate the status of the existing methods on this new challenging dataset. We have made our datasets, benchmark servers, and baselines publicly available, and hope to inspire future research. Information can be found at https://amos22.grand-challenge.org.
翻訳日:2022-06-18 06:03:29 公開日:2022-06-16
# (参考訳) DIALOG-22 RuATD生成テキスト検出

DIALOG-22 RuATD Generated Text Detection ( http://arxiv.org/abs/2206.08029v1 )

ライセンス: CC BY 4.0
Narek Maloyan, Bulat Nutfullin, Eugene Ilyushin(参考訳) テキスト生成モデル(TGM)は、人間の言語スタイルに適したテキストを作成することに成功した。 TGM生成テキストと人書きテキストを区別できる検出器は、TGMの乱用を防ぐ重要な役割を果たす。 本稿では,生成したテキスト(バイナリタスク)の検出と,テキスト生成に使用するモデルの分類(マルチクラスタスク)という,2つのdialog-22 ruatdタスクのパイプラインについて述べる。 本研究は,2値分類タスクにおいて1位,プライベートテストセットでは0.82995,マルチクラス分類タスクでは4位,プライベートテストセットでは0.62856であった。 本研究では,注意機構に基づく事前学習モデルのアンサンブル手法を提案する。

Text Generation Models (TGMs) succeed in creating text that matches human language style reasonably well. Detectors that can distinguish between TGM-generated text and human-written ones play an important role in preventing abuse of TGM. In this paper, we describe our pipeline for the two DIALOG-22 RuATD tasks: detecting generated text (binary task) and classification of which model was used to generate text (multiclass task). We achieved 1st place on the binary classification task with an accuracy score of 0.82995 on the private test set and 4th place on the multiclass classification task with an accuracy score of 0.62856 on the private test set. We proposed an ensemble method of different pre-trained models based on the attention mechanism.
翻訳日:2022-06-18 05:42:50 公開日:2022-06-16
# (参考訳) e-GovernanceのためのオープンドメインQAシステム

An Open-Domain QA System for e-Governance ( http://arxiv.org/abs/2206.08046v1 )

ライセンス: CC BY 4.0
Radu Ion, Andrei-Marius Avram, Vasile P\u{a}i\c{s}, Maria Mitrofan, Verginica Barbu Mititelu, Elena Irimia, Valentin Badea(参考訳) 本稿は,ルーマニアのオープンドメイン質問応答システムについて,covid-19関連質問に回答する。 QAシステムパイプラインには、自動質問処理、自動クエリ生成、最も関連性の高いドキュメントのトップ10のWeb検索、手作業で作成した新型コロナウイルスデータセットに基づいてトレーニングされたExtractive QA用の微調整BERTモデルを使用した回答抽出が含まれる。 本稿では,QAシステムとルーマニア語技術ポータルRELATEとの統合,COVID-19データセット,およびQAパフォーマンスの異なる評価について述べる。

The paper presents an open-domain Question Answering system for Romanian, answering COVID-19 related questions. The QA system pipeline involves automatic question processing, automatic query generation, web searching for the top 10 most relevant documents and answer extraction using a fine-tuned BERT model for Extractive QA, trained on a COVID-19 data set that we have manually created. The paper will present the QA system and its integration with the Romanian language technologies portal RELATE, the COVID-19 data set and different evaluations of the QA performance.
翻訳日:2022-06-18 05:36:46 公開日:2022-06-16
# (参考訳) HinglishEvalにおけるJU_NLP:低リソースコード混合Hinglishテキストの品質評価

JU_NLP at HinglishEval: Quality Evaluation of the Low-Resource Code-Mixed Hinglish Text ( http://arxiv.org/abs/2206.08053v1 )

ライセンス: CC BY 4.0
Prantik Guha, Rudra Dhar, Dipankar Das(参考訳) 本稿では,INLG 2022 生成チャレンジ (GenChal) に提出された低リソース合成コードミキシングヒングリッシュテキストの品質評価システムについて述べる。 合成Hinglishデータセットの平均評価スコアと分解スコアを予測するために,Bi-LSTMに基づくニューラルネットワークモデルを実装した。 我々のモデルでは、英語とヒンディー語のデータに単語埋め込みを使い、Hinglishデータに1つのホットエンコーディングを使いました。 平均スコア予測タスクにおいて,F1スコア0.11,平均2乗誤差6.0を達成した。 判定スコア予測のタスクでは、F1スコアが0.18、平均2乗誤差が5.0となる。

In this paper we describe a system submitted to the INLG 2022 Generation Challenge (GenChal) on Quality Evaluation of the Low-Resource Synthetically Generated Code-Mixed Hinglish Text. We implement a Bi-LSTM-based neural network model to predict the Average rating score and Disagreement score of the synthetic Hinglish dataset. In our models, we used word embeddings for English and Hindi data, and one hot encodings for Hinglish data. We achieved a F1 score of 0.11, and mean squared error of 6.0 in the average rating score prediction task. In the task of Disagreement score prediction, we achieve a F1 score of 0.18, and mean squared error of 5.0.
翻訳日:2022-06-18 05:25:56 公開日:2022-06-16
# (参考訳) 一般レバレッジスコア:幾何学的解釈とその応用

Generalized Leverage Scores: Geometric Interpretation and Applications ( http://arxiv.org/abs/2206.08054v1 )

ライセンス: CC BY 4.0
Bruno Ordozgoiti, Antonis Matakos, Aristides Gionis(参考訳) 行列計算に関わる問題において、レバレッジの概念は多くの応用を見出した。 特に、行列の列をその先頭の特異ベクトルにまたがる部分空間に関連付けるスコアを活用することは、行列を品質保証で大まかに分解する列部分集合を明らかにするのに役立つ。 そのため、さまざまな機械学習手法の確立された基盤を提供する。 本稿では、行列の列を特異ベクトルの任意の部分集合に関連付けるためにレバレッジスコアの定義を拡張する。 点数と部分空間間の主角の概念を関連付けることで、列部分集合と特異ベクトル部分集合の間の正確な接続を確立する。 この結果を用いて、一般化カラムサブセット選択とスパース正準相関解析という、2つのよく知られた問題に対する証明可能な保証付き近似アルゴリズムを設計する。 提案手法のさらなる知見を提供するため, 数値実験を実施している。 新たな境界は、行列近似の基本概念の理解を改善する。 さらに私たちの洞察は、さらなるコントリビューションのためのビルディングブロックとして役立ちます。

In problems involving matrix computations, the concept of leverage has found a large number of applications. In particular, leverage scores, which relate the columns of a matrix to the subspaces spanned by its leading singular vectors, are helpful in revealing column subsets to approximately factorize a matrix with quality guarantees. As such, they provide a solid foundation for a variety of machine-learning methods. In this paper we extend the definition of leverage scores to relate the columns of a matrix to arbitrary subsets of singular vectors. We establish a precise connection between column and singular-vector subsets, by relating the concepts of leverage scores and principal angles between subspaces. We employ this result to design approximation algorithms with provable guarantees for two well-known problems: generalized column subset selection and sparse canonical correlation analysis. We run numerical experiments to provide further insight on the proposed methods. The novel bounds we derive improve our understanding of fundamental concepts in matrix approximations. In addition, our insights may serve as building blocks for further contributions.
翻訳日:2022-06-18 05:22:53 公開日:2022-06-16
# (参考訳) Delaunayリファインメントを介する活動的近傍回帰

Active Nearest Neighbor Regression Through Delaunay Refinement ( http://arxiv.org/abs/2206.08061v1 )

ライセンス: CC BY 4.0
Alexander Kravberg, Giovanni Luca Marchetti, Vladislav Polianskii, Anastasiia Varava, Florian T. Pokorny, Danica Kragic(参考訳) 最近傍回帰に基づく能動関数近似のアルゴリズムを提案する。 我々のActive Nearest Neighbor Regressor (ANNR) は、計算幾何学の Voronoi-Delaunay フレームワークを利用して、空間を一定の推定関数値でセルに分割し、関数グラフの幾何学を考慮した新しいクエリポイントを選択する。 本稿では,空間の漸進的二乗分割に基づく,最新の最先端のアクティブ関数近似器DEFERをベースラインとして検討する。 ANNRは、DEFERで使われる空間分割戦略から生じる多くの制限に対処する。 提案手法の計算効率の良い実装と理論的な停止保証を提供する。 実験の結果、annrは閉形式関数と実世界の例の両方のベースラインよりも優れており、例えば重力波パラメータの推論や生成モデルの潜在空間の探索などである。

We introduce an algorithm for active function approximation based on nearest neighbor regression. Our Active Nearest Neighbor Regressor (ANNR) relies on the Voronoi-Delaunay framework from computational geometry to subdivide the space into cells with constant estimated function value and select novel query points in a way that takes the geometry of the function graph into account. We consider the recent state-of-the-art active function approximator called DEFER, which is based on incremental rectangular partitioning of the space, as the main baseline. The ANNR addresses a number of limitations that arise from the space subdivision strategy used in DEFER. We provide a computationally efficient implementation of our method, as well as theoretical halting guarantees. Empirical results show that ANNR outperforms the baseline for both closed-form functions and real-world examples, such as gravitational wave parameter inference and exploration of the latent space of a generative model.
翻訳日:2022-06-18 05:01:25 公開日:2022-06-16
# (参考訳) 浅い$\alpha$-stable reluニューラルネットワークの神経接核解析

Neural tangent kernel analysis of shallow $\alpha$-Stable ReLU neural networks ( http://arxiv.org/abs/2206.08065v1 )

ライセンス: CC BY 4.0
Stefano Favaro, Sandra Fortini, Stefano Peluchetti(参考訳) ガウスニューラルネットワーク(NN)の広帯域特性、すなわちガウス分布に応じて重みが分布するNNに関する最近の文献がある。 2つの一般的な問題は 一 ガウス過程の観点で、再スケールしたNNの無限に広い限界を特徴づけるNNの広幅挙動の研究。 二 ニューラルタンジェントカーネル(NTK)と呼ばれる決定論的カーネルを用いて、再スケールしたNNのトレーニングとカーネル回帰の等価性を示すNNの大幅トレーニングダイナミクスの研究。 本稿では,nnの重みが$\alpha\in(0,2]$,すなわち重い尾を持つ分布を持つ$\alpha$-stable分布として分布することを仮定してgaussian nnを一般化する$\alpha$-stable nnsに対するこれらの問題を考える。 ReLU 活性化関数を持つ浅い $\alpha$-Stable NN に対して、NN の幅が無限大となると、再スケールされた NN は $\alpha$-Stable プロセス、すなわち $\alpha$-Stable 有限次元分布を持つ確率過程に弱収束することを示す。 ガウスの設定に関する新奇性として、$\alpha$-stable 設定において、活性化関数の選択はnnのスケーリングに影響を与える: 無限に広い$\alpha$-stable プロセスを達成するためには、relu 関数はサブ線形関数に関して追加の対数スケーリングを必要とする。 次に、NTK分析により、再スケールしたNNのトレーニングと、$(\alpha/2)$-Stableランダムカーネルによるカーネルレグレッションとの等価性を導いた。 そのような核のランダム性は、ガウス集合に関してさらに新しいものである: $\alpha$-stable 設定において、初期化におけるnnのランダム性は ntk 解析において消滅しないので、基礎となる核回帰の核の分布を誘導する。

There is a recent literature on large-width properties of Gaussian neural networks (NNs), i.e. NNs whose weights are distributed according to Gaussian distributions. Two popular problems are: i) the study of the large-width behaviour of NNs, which provided a characterization of the infinitely wide limit of a rescaled NN in terms of a Gaussian process; ii) the study of the large-width training dynamics of NNs, which set forth an equivalence between training the rescaled NN and performing a kernel regression with a deterministic kernel referred to as the neural tangent kernel (NTK). In this paper, we consider these problems for $\alpha$-Stable NNs, which generalize Gaussian NNs by assuming that the NN's weights are distributed as $\alpha$-Stable distributions with $\alpha\in(0,2]$, i.e. distributions with heavy tails. For shallow $\alpha$-Stable NNs with a ReLU activation function, we show that if the NN's width goes to infinity then a rescaled NN converges weakly to an $\alpha$-Stable process, i.e. a stochastic process with $\alpha$-Stable finite-dimensional distributions. As a novelty with respect to the Gaussian setting, in the $\alpha$-Stable setting the choice of the activation function affects the scaling of the NN, that is: to achieve the infinitely wide $\alpha$-Stable process, the ReLU function requires an additional logarithmic scaling with respect to sub-linear functions. Then, our main contribution is the NTK analysis of shallow $\alpha$-Stable ReLU-NNs, which leads to an equivalence between training a rescaled NN and performing a kernel regression with an $(\alpha/2)$-Stable random kernel. The randomness of such a kernel is a further novelty with respect to the Gaussian setting, that is: in the $\alpha$-Stable setting the randomness of the NN at initialization does not vanish in the NTK analysis, thus inducing a distribution for the kernel of the underlying kernel regression.
翻訳日:2022-06-18 04:42:03 公開日:2022-06-16
# (参考訳) 電気自動車バッテリモデリングのための機械学習に基づくディジタルツイン

A Machine Learning-based Digital Twin for Electric Vehicle Battery Modeling ( http://arxiv.org/abs/2206.08080v1 )

ライセンス: CC BY 4.0
Khaled Sidahmed Sidahmed Alamin, Yukai Chen, Enrico Macii, Massimo Poncino, Sara Vinco(参考訳) 電気自動車(ev)の普及は、現在、液体燃料に比べてエネルギーと電力密度が低い電池に依存しており、経時的に老朽化と性能低下の対象となる。 このため、EV寿命中に電池の充電状態(SOC)と健康状態(SOH)を監視することは、非常に関連する問題である。 本研究は,実行時のバッテリダイナミクスを正確に反映するように設計されたバッテリディジタルツイン構造を提案する。 非線形現象に関する高い正確性を確保するために、デジタルツインは、時間とともにバッテリーの進化の痕跡に基づいて訓練されたデータ駆動モデル、すなわち、最大バッテリー容量の劣化を推定するために繰り返し実行されるSOHモデルと、老化の影響を定期的に反映したSOCモデルに依存している。 提案されたデジタルツイン構造は、その採用を動機付け、その有効性を証明するための公開データセットで例示され、高い精度と推論と、オンボード実行と互換性のある再トレーニング時間を持つ。

The widespread adoption of Electric Vehicles (EVs) is limited by their reliance on batteries with presently low energy and power densities compared to liquid fuels and are subject to aging and performance deterioration over time. For this reason, monitoring the battery State Of Charge (SOC) and State Of Health (SOH) during the EV lifetime is a very relevant problem. This work proposes a battery digital twin structure designed to accurately reflect battery dynamics at the run time. To ensure a high degree of correctness concerning non-linear phenomena, the digital twin relies on data-driven models trained on traces of battery evolution over time: a SOH model, repeatedly executed to estimate the degradation of maximum battery capacity, and a SOC model, retrained periodically to reflect the impact of aging. The proposed digital twin structure will be exemplified on a public dataset to motivate its adoption and prove its effectiveness, with high accuracy and inference and retraining times compatible with onboard execution.
翻訳日:2022-06-18 04:40:31 公開日:2022-06-16
# (参考訳) CARLANE: シミュレーションから複数の実世界ドメインへの教師なしドメイン適応のためのレーン検出ベンチマーク

CARLANE: A Lane Detection Benchmark for Unsupervised Domain Adaptation from Simulation to multiple Real-World Domains ( http://arxiv.org/abs/2206.08083v1 )

ライセンス: CC BY 4.0
Julian Gebele, Bonifaz Stuhr and Johann Haselberger(参考訳) 教師なしのドメイン適応は、ラベル付きソースドメインからラベル付きターゲットドメインにモデルを転送することで、ドメインシフトを緩和する大きな可能性を示す。 教師なしのドメイン適応は様々な複雑なビジョンタスクに応用されているが、自動運転のレーン検出に焦点を当てた作業はごくわずかである。 これは、公開データセットの欠如による可能性がある。 そこで本研究では,2次元レーン検出のための3方向sim-to-realドメイン適応ベンチマークであるcarlaneを提案する。 CARLANEには、シングルターゲットデータセットのMoLaneとTuLane、マルチターゲットデータセットのMuLaneが含まれている。 これらのデータセットは、さまざまなシーンをカバーする3つの異なるドメインで構成されており、合計163kのユニークなイメージが含まれている。 さらに,原型的クロスドメイン自己教師型学習に基づく独自の手法を含む,体系的なベースラインの評価と報告を行う。 評価されたドメイン適応法の偽陽性率と偽陰性率は,完全教師付きベースラインと比較すると高い値を示した。 これは、レーン検出のための教師なしドメイン適応の研究をさらに強化するためにcarlaneのようなベンチマークが必要であることを裏付ける。 CARLANE、すべての評価モデルと対応する実装はhttps://carlanebenchmark.github.io.comで公開されている。

Unsupervised Domain Adaptation demonstrates great potential to mitigate domain shifts by transferring models from labeled source domains to unlabeled target domains. While Unsupervised Domain Adaptation has been applied to a wide variety of complex vision tasks, only few works focus on lane detection for autonomous driving. This can be attributed to the lack of publicly available datasets. To facilitate research in these directions, we propose CARLANE, a 3-way sim-to-real domain adaptation benchmark for 2D lane detection. CARLANE encompasses the single-target datasets MoLane and TuLane and the multi-target dataset MuLane. These datasets are built from three different domains, which cover diverse scenes and contain a total of 163K unique images, 118K of which are annotated. In addition we evaluate and report systematic baselines, including our own method, which builds upon Prototypical Cross-domain Self-supervised Learning. We find that false positive and false negative rates of the evaluated domain adaptation methods are high compared to those of fully supervised baselines. This affirms the need for benchmarks such as CARLANE to further strengthen research in Unsupervised Domain Adaptation for lane detection. CARLANE, all evaluated models and the corresponding implementations are publicly available at https://carlanebenchmark.github.io.
翻訳日:2022-06-18 04:28:11 公開日:2022-06-16
# (参考訳) 群衆カウントにおける正規変形型畳み込み法の改良

An Improved Normed-Deformable Convolution for Crowd Counting ( http://arxiv.org/abs/2206.08084v1 )

ライセンス: CC BY 4.0
Xin Zhong, Zhaoyi Yan, Jing Qin, Wangmeng Zuo and Weigang Lu(参考訳) 近年,コンピュータビジョンにおいて,群集カウントが重要な問題となっている。 ほとんどの方法では、密度マップは、人間の頭の中心にマークされた接地トラスドットマップからガウス核と結合して生成される。 cnnの固定幾何構造と不明瞭な頭部スケール情報により、頭部特徴が不完全に得られる。 頭の中のCNN機能のスケール適応機能を活用するために、変形可能な畳み込みを提案する。 サンプリング点の座標オフセットを学習することにより、受容場を調整する能力を向上させることができる。 しかし、ヘッドは変形可能な畳み込みにおいてサンプリングポイントによって均一に覆われず、ヘッド情報が失われる。 非一様サンプリングを扱うために,Normed-Deformable loss(\textit{i.e.,}NDConv)を改良したNormed-Deformable Convolution(\textit{i.e.,}NDloss)を提案する。 NDloss によって制約されるサンプリングポイントのオフセットは、さらに高くなる傾向にある。 その後、頭部の特徴がより完全に得られ、パフォーマンスが向上する。 特に提案したNDConvは、Deformable Convolutionと同じような計算負荷を共有する軽量モジュールである。 広汎な実験では,上海技術A,上海技術B,UCF\_QNRF,UCF\_CC\_50データセットにおいて,それぞれ61.4,7.8,91.2,167.2 MAEを達成し,最先端の手法よりも優れていた。 コードはhttps://github.com/bingshuangzhuzi/ndconvで入手できる。

In recent years, crowd counting has become an important issue in computer vision. In most methods, the density maps are generated by convolving with a Gaussian kernel from the ground-truth dot maps which are marked around the center of human heads. Due to the fixed geometric structures in CNNs and indistinct head-scale information, the head features are obtained incompletely. Deformable convolution is proposed to exploit the scale-adaptive capabilities for CNN features in the heads. By learning the coordinate offsets of the sampling points, it is tractable to improve the ability to adjust the receptive field. However, the heads are not uniformly covered by the sampling points in the deformable convolution, resulting in loss of head information. To handle the non-uniformed sampling, an improved Normed-Deformable Convolution (\textit{i.e.,}NDConv) implemented by Normed-Deformable loss (\textit{i.e.,}NDloss) is proposed in this paper. The offsets of the sampling points which are constrained by NDloss tend to be more even. Then, the features in the heads are obtained more completely, leading to better performance. Especially, the proposed NDConv is a light-weight module which shares similar computation burden with Deformable Convolution. In the extensive experiments, our method outperforms state-of-the-art methods on ShanghaiTech A, ShanghaiTech B, UCF\_QNRF, and UCF\_CC\_50 dataset, achieving 61.4, 7.8, 91.2, and 167.2 MAE, respectively. The code is available at https://github.com/bingshuangzhuzi/NDConv
翻訳日:2022-06-18 04:08:58 公開日:2022-06-16
# (参考訳) 近傍探索のための教師なし空間分割

Unsupervised Space Partitioning for Nearest Neighbor Search ( http://arxiv.org/abs/2206.08091v1 )

ライセンス: CC BY 4.0
Abrar Fahim, Mohammed Eunus Ali, Muhammad Aamir Cheema(参考訳) 高次元空間における近似Nearest Neighbor Search(ANNS)は、大量のデータを扱う多くの実生活アプリケーション(eコマース、Web、マルチメディアなど)にとって不可欠である。 本稿では,パーティショニング(ANNSの1つの重要なステップ)とカスタムロス関数を用いた学習とを結合したエンドツーエンド学習フレームワークを提案する。 提案したソリューションの重要な利点は、最先端アプローチの重要な制限のひとつであるデータセットの高価な前処理を必要としないことだ。 我々は、与えられたデータ空間の分割の品質を定量化するために基底真理ラベルを必要としない多目的カスタム損失関数を定式化し、完全に教師なしにする。 また,損失関数に様々な入力重みを加えることで,探索品質を高めるためにモデルのアンサンブルを訓練するアンサンブル手法を提案する。 annの標準ベンチマークでは,提案手法が最先端空間分割法とユビキタスk-meansクラスタリング法を上回り,パラメータを少なくし,オフライントレーニング時間を短縮した。 一般性を失うことなく、我々の教師なし分割手法はK平均クラスタリングやDBSCANのような広く使われているクラスタリング手法に代わる有望な選択肢として示される。

Approximate Nearest Neighbor Search (ANNS) in high dimensional spaces is crucial for many real-life applications (e.g., e-commerce, web, multimedia, etc.) dealing with an abundance of data. In this paper, we propose an end-to-end learning framework that couples the partitioning (one key step of ANNS) and learning-to-search steps using a custom loss function. A key advantage of our proposed solution is that it does not require any expensive pre-processing of the dataset, which is one of the key limitations of the state-of-the-art approach. We achieve the above edge by formulating a multi-objective custom loss function that does not need ground truth labels to quantify the quality of a given partition of the data space, making it entirely unsupervised. We also propose an ensembling technique by adding varying input weights to the loss function to train an ensemble of models to enhance the search quality. On several standard benchmarks for ANNS, we show that our method beats the state-of-the-art space partitioning method and the ubiquitous K-means clustering method while using fewer parameters and shorter offline training times. Without loss of generality, our unsupervised partitioning approach is shown as a promising alternative to many widely used clustering methods like K-means clustering and DBSCAN.
翻訳日:2022-06-18 03:51:28 公開日:2022-06-16
# (参考訳) ウェルスプレッド特性と線形回帰との関係について

On the well-spread property and its relation to linear regression ( http://arxiv.org/abs/2206.08092v1 )

ライセンス: CC BY 4.0
Hongjie Chen, Tommaso d'Orsi(参考訳) 頑健な線形回帰モデル $\boldsymbol{y} = X\beta^* + \boldsymbol{\eta}$ を考えると、設計に不利な逆元 $X \in \mathbb{R}^{n \times d}$ は、観測値 $\boldsymbol{y}$ の(おそらく消滅する)部分を除いて全てを任意の方法で破壊するために $\boldsymbol{\eta}$ を選択することができる。 最近の研究[dLN+21, dNS21]ではパラメータベクトルの一貫した回復のための効率的なアルゴリズムが導入された。 これらのアルゴリズムは設計マトリクスを良くスプレッドする(コラムスパンがスパースベクトルから遠く離れている場合、マトリクスはよくスプレッドされる)。 本稿では, 線形回帰モデルにおけるパラメータベクトルの整合性回復が情報理論的に不可能であるような, 疎結合性に欠ける設計行列群が存在することを示す。 さらに,ランダム行列の拡散性を証明する平均ケース時間複雑性について検討した。 我々は、与えられた$n$-by-d$ Gaussian行列が、周囲の次元において観測回数が二次的である場合、適切に証明可能であることを示す。 この結果は、観測回数が$o(d^2)$である場合に、同じ認証問題の計算硬さの厳密な証拠(低次多項式に対する下限)を示すことによって補完する。

We consider the robust linear regression model $\boldsymbol{y} = X\beta^* + \boldsymbol{\eta}$, where an adversary oblivious to the design $X \in \mathbb{R}^{n \times d}$ may choose $\boldsymbol{\eta}$ to corrupt all but a (possibly vanishing) fraction of the observations $\boldsymbol{y}$ in an arbitrary way. Recent work [dLN+21, dNS21] has introduced efficient algorithms for consistent recovery of the parameter vector. These algorithms crucially rely on the design matrix being well-spread (a matrix is well-spread if its column span is far from any sparse vector). In this paper, we show that there exists a family of design matrices lacking well-spreadness such that consistent recovery of the parameter vector in the above robust linear regression model is information-theoretically impossible. We further investigate the average-case time complexity of certifying well-spreadness of random matrices. We show that it is possible to efficiently certify whether a given $n$-by-$d$ Gaussian matrix is well-spread if the number of observations is quadratic in the ambient dimension. We complement this result by showing rigorous evidence -- in the form of a lower bound against low-degree polynomials -- of the computational hardness of this same certification problem when the number of observations is $o(d^2)$.
翻訳日:2022-06-18 03:31:49 公開日:2022-06-16
# (参考訳) deep neural imputation:不完全脳記録の回復のための枠組み

Deep Neural Imputation: A Framework for Recovering Incomplete Brain Recordings ( http://arxiv.org/abs/2206.08094v1 )

ライセンス: CC BY 4.0
Sabera Talukder, Jennifer J. Sun, Matthew Leonard, Bingni W. Brunton, Yisong Yue(参考訳) 神経科学者や神経工学者は長い間、脳を研究するために多電極神経記録に頼ってきた。 しかし、典型的な実験では、電気ノイズ、運動アーティファクト、欠陥製造など、個々の電極からの神経記録を破損させる要因が数多くある。 現在一般的には、これらの破損した記録を破棄し、収集が困難なデータを削減する。 この課題に対処するために、空間的位置、日、参加者間で収集されたデータから学習することで、電極から欠落した値を回復するフレームワークであるDeep Neural Imputation (DNI)を提案する。 我々は,DNIの柔軟性を実証し,近接する線形アプローチと2つの深層生成オートエンコーダを用いて,我々のフレームワークを探索する。 1つの深いオートエンコーダモデルは参加者を個別に、もう1つは多数の参加者を共同でモデル化するためにこのアーキテクチャを拡張します。 マルチ電極を用いた頭蓋内電図アレイを移植した12名の被験者を対象に,本モデルの評価を行った。 我々は,DNIが時系列だけでなく,周波数内容も回復し,科学的に関連のある下流神経復号処理において重要な性能を回復することにより,DNIの実用的価値を確立することを示す。

Neuroscientists and neuroengineers have long relied on multielectrode neural recordings to study the brain. However, in a typical experiment, many factors corrupt neural recordings from individual electrodes, including electrical noise, movement artifacts, and faulty manufacturing. Currently, common practice is to discard these corrupted recordings, reducing already limited data that is difficult to collect. To address this challenge, we propose Deep Neural Imputation (DNI), a framework to recover missing values from electrodes by learning from data collected across spatial locations, days, and participants. We explore our framework with a linear nearest-neighbor approach and two deep generative autoencoders, demonstrating DNI's flexibility. One deep autoencoder models participants individually, while the other extends this architecture to model many participants jointly. We evaluate our models across 12 human participants implanted with multielectrode intracranial electrocorticography arrays; participants had no explicit task and behaved naturally across hundreds of recording hours. We show that DNI recovers not only time series but also frequency content, and further establish DNI's practical value by recovering significant performance on a scientifically-relevant downstream neural decoding task.
翻訳日:2022-06-18 03:30:37 公開日:2022-06-16
# (参考訳) deepjscc-q: コンステレーション制約付きディープジョイントソースチャネルコーディング

DeepJSCC-Q: Constellation Constrained Deep Joint Source-Channel Coding ( http://arxiv.org/abs/2206.08100v1 )

ライセンス: CC BY 4.0
Tze-Yang Tung, David Burth Kurka, Mikolaj Jankowski, Deniz Gunduz(参考訳) 最近の研究によると、現代の機械学習技術は、長年のジョイントソースチャネル符号化(JSCC)問題に対する代替アプローチを提供することができる。 異なるソースとチャネルコードを利用する一般的なデジタルスキームよりも優れた、非常に有望な初期結果は、ディープニューラルネットワーク(DNN)を用いた無線画像およびビデオ伝送で実証されている。 しかし、このようなスキームのエンドツーエンドのトレーニングでは、異なるチャネル入力表現が必要であるため、事前の作業では、任意の複雑な値をチャネルを介して送信できると仮定している。 これにより、ハードウェアまたはプロトコルがデジタルコンステレーションによって規定された特定のチャネル入力のみを許容できるシナリオにおけるこれらのコードの適用を防止することができる。 本稿では、有限チャネル入力アルファベットを用いた無線画像伝送のためのエンドツーエンド最適化JSCCソリューションであるDeepJSCC-Qを提案する。 DeepJSCC-Qは、特に高変調順序が利用可能である場合、複雑なチャネル入力を許容する以前の作業と同じような性能を達成できることを示し、変調順序が増加するにつれて、非拘束チャネル入力に漸近的にアプローチできることを示す。 重要なことは、DeepJSCC-Qは予測不能なチャネル条件における画像品質の優雅な劣化を保ち、急速に変化するチャネル条件を持つモバイルシステムへのデプロイメントに望ましい特性である。

Recent works have shown that modern machine learning techniques can provide an alternative approach to the long-standing joint source-channel coding (JSCC) problem. Very promising initial results, superior to popular digital schemes that utilize separate source and channel codes, have been demonstrated for wireless image and video transmission using deep neural networks (DNNs). However, end-to-end training of such schemes requires a differentiable channel input representation; hence, prior works have assumed that any complex value can be transmitted over the channel. This can prevent the application of these codes in scenarios where the hardware or protocol can only admit certain sets of channel inputs, prescribed by a digital constellation. Herein, we propose DeepJSCC-Q, an end-to-end optimized JSCC solution for wireless image transmission using a finite channel input alphabet. We show that DeepJSCC-Q can achieve similar performance to prior works that allow any complex valued channel input, especially when high modulation orders are available, and that the performance asymptotically approaches that of unconstrained channel input as the modulation order increases. Importantly, DeepJSCC-Q preserves the graceful degradation of image quality in unpredictable channel conditions, a desirable property for deployment in mobile systems with rapidly changing channel conditions.
翻訳日:2022-06-18 03:11:36 公開日:2022-06-16
# (参考訳) 逆領域適応型非教師付き洪水予測のための簡易ベースライン

A Simple Baseline for Adversarial Domain Adaptation-based Unsupervised Flood Forecasting ( http://arxiv.org/abs/2206.08105v1 )

ライセンス: CC BY 4.0
Delong Chen, Ruizhi Zhou, Yanling Pan, and Fan Liu(参考訳) 洪水は社会と経済に大きな損失をもたらす。 しかし、伝統的な物理モデルと学習に基づく洪水予測モデルの両方が、モデルパラメータをトレーニングするために大量の過去の洪水データを必要とする。 十分な履歴データを持たない新しいサイトでは、過度な適合のためにモデルのパフォーマンスが劇的に低下します。 本稿では,洪水予測問題にUnsupervised Domain Adaptation (UDA)を適用するベースラインであるFlood Domain Adaptation Network (FloodDAN)を提案する。 具体的には、FloodDANのトレーニングには、第1段階で降雨エンコーダと予測ヘッドを訓練し、大規模ドメインデータ上で一般的な伝達可能な水文知識を学習し、第2段階では、事前訓練されたエンコーダの知識を敵ドメインアライメントを介してターゲットドメインの降雨エンコーダに転送する。 推定では,第2段階で訓練した目標領域降雨エンコーダと第1段階で訓練した予測ヘッドを用いて,洪水予測を行う。 tunxi と changhua flood dataset の実験結果は、フラウンドダンがゼロターゲットドメインの監視で効果的にフラウンド予測を行うことができることを示した。 FloodDANの性能は450-500時間の監視を行う教師付きモデルと同等である。

Flood disasters cause enormous social and economic losses. However, both traditional physical models and learning-based flood forecasting models require massive historical flood data to train the model parameters. When come to some new site that does not have sufficient historical data, the model performance will drop dramatically due to overfitting. This technical report presents a Flood Domain Adaptation Network (FloodDAN), a baseline of applying Unsupervised Domain Adaptation (UDA) to the flood forecasting problem. Specifically, training of FloodDAN includes two stages: in the first stage, we train a rainfall encoder and a prediction head to learn general transferable hydrological knowledge on large-scale source domain data; in the second stage, we transfer the knowledge in the pretrained encoder into the rainfall encoder of target domain through adversarial domain alignment. During inference, we utilize the target domain rainfall encoder trained in the second stage and the prediction head trained in the first stage to get flood forecasting predictions. Experimental results on Tunxi and Changhua flood dataset show that FloodDAN can perform flood forecasting effectively with zero target domain supervision. The performance of the FloodDAN is on par with supervised models that uses 450-500 hours of supervision.
翻訳日:2022-06-18 02:51:28 公開日:2022-06-16
# (参考訳) ネットワークゲームの構造を推論する学習

Learning to Infer Structures of Network Games ( http://arxiv.org/abs/2206.08119v1 )

ライセンス: CC BY 4.0
Emanuele Rossi, Federico Monti, Yan Leng, Michael M. Bronstein, Xiaowen Dong(参考訳) 個人または組織のグループ間の戦略的相互作用は、ネットワーク上でプレイされるゲームとしてモデル化することができる。 観測されたゲーム結果(均衡行動)からネットワーク構造を推定することは、経済学や社会科学における多くの潜在的な応用において重要な問題である。 既存の方法にはゲームに関連するユーティリティ関数の知識がほとんど必要であり、現実のシナリオでは入手できないことが多い。 我々は,問題の対称性を正しく説明し,均衡動作からゲーム内のネットワーク構造へのマッピングをユーティリティ関数の明示的な知識なしに学習するトランスフォーマーのようなアーキテクチャを採用する。 提案手法は,合成データと実世界のデータの両方を用いて3種類のネットワークゲーム上でテストし,ネットワーク構造推定の有効性と既存手法よりも優れた性能を示す。

Strategic interactions between a group of individuals or organisations can be modelled as games played on networks, where a player's payoff depends not only on their actions but also on those of their neighbours. Inferring the network structure from observed game outcomes (equilibrium actions) is an important problem with numerous potential applications in economics and social sciences. Existing methods mostly require the knowledge of the utility function associated with the game, which is often unrealistic to obtain in real-world scenarios. We adopt a transformer-like architecture which correctly accounts for the symmetries of the problem and learns a mapping from the equilibrium actions to the network structure of the game without explicit knowledge of the utility function. We test our method on three different types of network games using both synthetic and real-world data, and demonstrate its effectiveness in network structure inference and superior performance over existing methods.
翻訳日:2022-06-18 02:40:28 公開日:2022-06-16
# (参考訳) 非IIDデータに対する対向画像を用いたフェデレーション学習の結果の改善

Using adversarial images to improve outcomes of federated learning for non-IID data ( http://arxiv.org/abs/2206.08124v1 )

ライセンス: CC BY 4.0
Anastasiya Danilenka, Maria Ganzha, Marcin Paprzycki, Jacek Ma\'ndziuk(参考訳) 連合学習における重要な問題の1つは、不均衡なデータを扱う方法である。 このコントリビューションは、I-FGSM法による逆入力を用いてラベルスキュードされた非IIDデータを扱うように設計された新しい手法を導入する。 adversarial inputsはトレーニングプロセスをガイドし、重み付きフェデレーション平均化によって、"選択された"ローカルラベルディストリビューションを持つクライアントにとってより重要となるようにします。 MNISTとCIFAR-10データセットのための画像分類タスクから収集した実験結果を報告し分析した。

One of the important problems in federated learning is how to deal with unbalanced data. This contribution introduces a novel technique designed to deal with label skewed non-IID data, using adversarial inputs, created by the I-FGSM method. Adversarial inputs guide the training process and allow the Weighted Federated Averaging to give more importance to clients with 'selected' local label distributions. Experimental results, gathered from image classification tasks, for MNIST and CIFAR-10 datasets, are reported and analyzed.
翻訳日:2022-06-18 02:17:52 公開日:2022-06-16
# (参考訳) 終端自動走行のための軌道誘導制御予測:シンプルだが強力なベースライン

Trajectory-guided Control Prediction for End-to-end Autonomous Driving: A Simple yet Strong Baseline ( http://arxiv.org/abs/2206.08129v1 )

ライセンス: CC BY 4.0
Penghao Wu, Xiaosong Jia, Li Chen, Junchi Yan, Hongyang Li, Yu Qiao(参考訳) 現在のエンドツーエンドの自律運転法は、計画された軌道に基づいてコントローラを走らせるか、直接制御予測を行う。 本稿では,両者の相互利益の可能性を見据えて,これら2つの高度に発達した世界の組み合わせを探究する。 具体的には、軌道計画と直接制御のための2つのブランチがある。 軌道分岐は将来の軌道を予測するが、制御分岐は現在の動作と将来の状態の関係を推論できるような新しい多段階予測スキームを含む。 2つの分岐は、制御分岐が各タイミングステップで軌道分岐から対応する誘導を受けるように接続される。 2つの枝からの出力は相補的な利点を達成するために融合される。 本研究では,CARLAシミュレータを用いた都市運転環境の評価を行った。 モノクロカメラの入力であっても、提案されたアプローチは公式のCARLA Leaderboardで1ドルと評価され、複数のセンサーや融合機構を持つ他の複雑な候補よりも大きなマージンで優れている。 ソースコードとデータはhttps://github.com/OpenPerceptionX/TCPで公開されている。

Current end-to-end autonomous driving methods either run a controller based on a planned trajectory or perform control prediction directly, which have spanned two separately studied lines of research. Seeing their potential mutual benefits to each other, this paper takes the initiative to explore the combination of these two well-developed worlds. Specifically, our integrated approach has two branches for trajectory planning and direct control, respectively. The trajectory branch predicts the future trajectory, while the control branch involves a novel multi-step prediction scheme such that the relationship between current actions and future states can be reasoned. The two branches are connected so that the control branch receives corresponding guidance from the trajectory branch at each time step. The outputs from two branches are then fused to achieve complementary advantages. Our results are evaluated in the closed-loop urban driving setting with challenging scenarios using the CARLA simulator. Even with a monocular camera input, the proposed approach ranks $first$ on the official CARLA Leaderboard, outperforming other complex candidates with multiple sensors or fusion mechanisms by a large margin. The source code and data will be made publicly available at https://github.com/OpenPerceptionX/TCP.
翻訳日:2022-06-18 02:09:29 公開日:2022-06-16
# (参考訳) 音量教師付きコントラスト学習による地震セマンティクスセグメンテーション

Volumetric Supervised Contrastive Learning for Seismic Semantic Segmentation ( http://arxiv.org/abs/2206.08158v1 )

ライセンス: CC BY 4.0
Kiran Kokilepersaud and Mohit Prabhushankar and Ghassan AlRegib(参考訳) 地震の解釈では、様々な岩石構造のピクセルレベルラベルは、時間と費用がかかる。 結果として、従来のディープラーニング手法が完全なラベル付きボリュームへのアクセスに依存しているため、ラベル付きデータの非自明な量が存在することがよくある。 この問題を正すために,ラベルなしデータから有用な表現を学ぶために,自己教師あり手法を用いたコントラスト学習手法が提案されている。 しかし、伝統的なコントラスト学習アプローチは、地震の文脈を使用しない自然画像の領域からの仮定に基づいている。 この文脈をコントラスト学習に取り入れるために,地震体積内のスライスの位置に基づく新しい正のペア選択戦略を提案する。 本手法の学習表現は,セマンティックセグメンテーションタスクにおいて,芸術的コントラスト学習方法論の状態を上回っていることを示す。

In seismic interpretation, pixel-level labels of various rock structures can be time-consuming and expensive to obtain. As a result, there oftentimes exists a non-trivial quantity of unlabeled data that is left unused simply because traditional deep learning methods rely on access to fully labeled volumes. To rectify this problem, contrastive learning approaches have been proposed that use a self-supervised methodology in order to learn useful representations from unlabeled data. However, traditional contrastive learning approaches are based on assumptions from the domain of natural images that do not make use of seismic context. In order to incorporate this context within contrastive learning, we propose a novel positive pair selection strategy based on the position of slices within a seismic volume. We show that the learnt representations from our method out-perform a state of the art contrastive learning methodology in a semantic segmentation task.
翻訳日:2022-06-18 01:52:29 公開日:2022-06-16
# (参考訳) Long Range Graphベンチマーク

Long Range Graph Benchmark ( http://arxiv.org/abs/2206.08164v1 )

ライセンス: CC BY 4.0
Vijay Prakash Dwivedi, Ladislav Ramp\'a\v{s}ek, Mikhail Galkin, Ali Parviz, Guy Wolf, Anh Tuan Luu, Dominique Beaini(参考訳) グラフニューラルネットワーク(GNN)は、メッセージパッシング(MP)パラダイムに基づいて、1ホップ隣人間で情報を交換し、各層にノード表現を構築する。 原則として、そのようなネットワークは、グラフ上で所定のタスクを学ぶのに必要な長距離インタラクション(lri)をキャプチャできない。 近年、lriのモデリングを可能にするために、元のスパース構造を超えた完全なノード接続を考慮できるグラフのためのトランスフォーマティブベース手法の開発への関心が高まっている。 しかし、単に1ホップメッセージパッシングに頼るMP-GNNは、いくつかの既存のグラフベンチマークと位置的特徴表現を組み合わせると、しばしば改善され、トランスフォーマーのようなアーキテクチャの実用性やランキングが制限される。 本稿では,5つのグラフ学習データセット(PascalVOC-SP,COCO-SP,PCQM-Contact,Peptides-func,Peptides-struct)を用いたLong Range Graph Benchmark(LRGB)を提案する。 ベースラインのGNNとGraph Transformerネットワークの両方をベンチマークし、長距離依存をキャプチャするモデルがこれらのタスクにおいて著しく優れていることを検証した。 したがって、これらのデータセットは、LRIをキャプチャするためのMP-GNNとGraph Transformerアーキテクチャのベンチマークと探索に適している。

Graph Neural Networks (GNNs) that are based on the message passing (MP) paradigm exchange information between 1-hop neighbors to build node representations at each layer. In principle, such networks are not able to capture long-range interactions (LRI) that may be desired or necessary for learning a given task on graphs. Recently, there has been an increasing interest in development of Transformer-based methods for graphs that can consider full node connectivity beyond the original sparse structure, thus enabling the modeling of LRI. However, MP-GNNs that simply rely on 1-hop message passing often fare better in several existing graph benchmarks when combined with positional feature representations, among other innovations, hence limiting the perceived utility and ranking of Transformer-like architectures. Here, we present the Long Range Graph Benchmark (LRGB) with 5 graph learning datasets: PascalVOC-SP, COCO-SP, PCQM-Contact, Peptides-func and Peptides-struct that arguably require LRI reasoning to achieve strong performance in a given task. We benchmark both baseline GNNs and Graph Transformer networks to verify that the models which capture long-range dependencies perform significantly better on these tasks. Therefore, these datasets are suitable for benchmarking and exploration of MP-GNNs and Graph Transformer architectures that are intended to capture LRI.
翻訳日:2022-06-18 01:43:46 公開日:2022-06-16
# (参考訳) すべての宝くじが等しくされるわけではない

Not All Lotteries Are Made Equal ( http://arxiv.org/abs/2206.08175v1 )

ライセンス: CC BY-SA 4.0
Surya Kant Sahu, Sai Mitheran, Somya Suhans Mahapatra(参考訳) Lottery Ticket仮説(LTH)は、合理的な大きさのニューラルネットワークの場合、同じネットワーク内のサブネットワークは、同じ初期化からトレーニングされた場合、高密度のネットワークよりもパフォーマンスが劣る、と述べている。 本研究は, モデルサイズとこれらのスパースサブネットワークの発見容易性の関係について検討する。 有限予算下では、小さなモデルの方がチケット検索(ts)の恩恵を受ける実験を通した。

The Lottery Ticket Hypothesis (LTH) states that for a reasonably sized neural network, a sub-network within the same network yields no less performance than the dense counterpart when trained from the same initialization. This work investigates the relation between model size and the ease of finding these sparse sub-networks. We show through experiments that, surprisingly, under a finite budget, smaller models benefit more from Ticket Search (TS).
翻訳日:2022-06-18 01:16:08 公開日:2022-06-16
# (参考訳) モバイルヘルスアプリケーションにおけるユーザエンゲージメントとチャーン

User Engagement and Churn in Mobile Health Applications ( http://arxiv.org/abs/2206.08178v1 )

ライセンス: CC BY 4.0
Babaniyi Yusuf Olaniyi, Ana Fern\'andez del R\'io, \'Africa Peri\'a\~nez and Lauren Bellhouse(参考訳) モバイルヘルスアプリは、コミュニケーション、効率、サービスの品質を改善することで、医療エコシステムに革命をもたらしている。 低所得国や中所得国では、患者や医療従事者の健康成果や行動に関する情報の発信源として、また、個人的および集団的な政策介入を提供するための適切なチャネルを提供する。 本稿では,医療従事者や医療従事者を支援するデジタルヘルスアプリに焦点をあて,モバイルヘルスへのユーザエンゲージメントを研究するためのフレームワークを提案する。 これらのアプリによって生成される行動ログは、各ユーザーのアクティビティを特徴付ける日々の時系列に変換できる。 確率的・生存的分析を用いて、有意義なエンゲージメントの複数のパーソナライズされた尺度を構築し、各医療従事者の特定のニーズに合ったコンテンツやデジタル介入の調整に役立てる。 完全解離のマーカーとして理解されているチャーン検出の問題に特に注意が払われる。 本手法をインド人およびエチオピア人を対象に,有能な出生支援者のためのキャパシティ構築ツールであるSafe Delivery Appのユーザを対象に検討した。 この研究は、モバイル健康アプリケーションにおけるユーザエンゲージメントの完全な評価に向けた重要なステップであり、医療従事者の能力を大幅に向上させ、最終的には命を救うことができる。

Mobile health apps are revolutionizing the healthcare ecosystem by improving communication, efficiency, and quality of service. In low- and middle-income countries, they also play a unique role as a source of information about health outcomes and behaviors of patients and healthcare workers, while providing a suitable channel to deliver both personalized and collective policy interventions. We propose a framework to study user engagement with mobile health, focusing on healthcare workers and digital health apps designed to support them in resource-poor settings. The behavioral logs produced by these apps can be transformed into daily time series characterizing each user's activity. We use probabilistic and survival analysis to build multiple personalized measures of meaningful engagement, which could serve to tailor content and digital interventions suiting each health worker's specific needs. Special attention is given to the problem of detecting churn, understood as a marker of complete disengagement. We discuss the application of our methods to the Indian and Ethiopian users of the Safe Delivery App, a capacity-building tool for skilled birth attendants. This work represents an important step towards a full characterization of user engagement in mobile health applications, which can significantly enhance the abilities of health workers and, ultimately, save lives.
翻訳日:2022-06-18 01:09:15 公開日:2022-06-16
# (参考訳) LiDARシーケンスのオンラインセグメンテーション:データセットとアルゴリズム

Online Segmentation of LiDAR Sequences: Dataset and Algorithm ( http://arxiv.org/abs/2206.08194v1 )

ライセンス: CC BY 4.0
Romain Loiseau and Mathieu Aubry and Lo\"ic Landrieu(参考訳) 回転するLiDARセンサーは自動運転車で広く使われており、3Dポイントシーケンスをリアルタイムに処理する必要がある。 しかし、ほとんどのLiDARセマンティックセグメンテーションデータセットとアルゴリズムは、これらの取得を360^\circ$フレームに分割し、現実的なリアルタイムアプリケーションや評価と互換性のない取得遅延をもたらす。 我々はこの問題を2つの重要な貢献で解決する。 まず,細粒度ラベル,タイムスタンプ,センサ回転情報を備えた10億ドルのポイントデータセットであるhelixnetを導入し,セグメンテーションアルゴリズムのリアルタイム即応性を正確に評価する。 次に,LiDAR点列の回転に特化して設計された,コンパクトかつ効率的な時空間トランスアーキテクチャHelix4Dを提案する。 Helix4Dは、センサーの完全な回転の分数に相当する取得スライスで動作し、全体の遅延を著しく低減する。 本稿では,HelixNet と SemanticKITTI 上での最先端モデルの性能とリアルタイム性に関する広範なベンチマークを示す。 Helix4Dの精度は最高のセグメンテーションアルゴリズムと同等で、レイテンシの面では5\times$以上、モデルサイズでは50\times$以上である。 コードとデータは、https://romainloiseau.fr/helixnetで入手できる。

Roof-mounted spinning LiDAR sensors are widely used by autonomous vehicles, driving the need for real-time processing of 3D point sequences. However, most LiDAR semantic segmentation datasets and algorithms split these acquisitions into $360^\circ$ frames, leading to acquisition latency that is incompatible with realistic real-time applications and evaluations. We address this issue with two key contributions. First, we introduce HelixNet, a $10$ billion point dataset with fine-grained labels, timestamps, and sensor rotation information that allows an accurate assessment of real-time readiness of segmentation algorithms. Second, we propose Helix4D, a compact and efficient spatio-temporal transformer architecture specifically designed for rotating LiDAR point sequences. Helix4D operates on acquisition slices that correspond to a fraction of a full rotation of the sensor, significantly reducing the total latency. We present an extensive benchmark of the performance and real-time readiness of several state-of-the-art models on HelixNet and SemanticKITTI. Helix4D reaches accuracy on par with the best segmentation algorithms with a reduction of more than $5\times$ in terms of latency and $50\times$ in model size. Code and data are available at: https://romainloiseau.fr/helixnet
翻訳日:2022-06-18 00:52:12 公開日:2022-06-16
# (参考訳) MAGIC:Intelligent Computationによるマイクロレンズ解析

MAGIC: Microlensing Analysis Guided by Intelligent Computation ( http://arxiv.org/abs/2206.08199v1 )

ライセンス: CC BY 4.0
Haimeng Zhao and Wei Zhu(参考訳) 高次元パラメータ空間における時間的光曲線計算と病理的可能性ランドスケープのため、標準サンプリングベース法によるバイナリマイクロレンズ光曲線のモデリングは困難である。 そこで本研究では,バイナリイベントのマイクロレンズパラメータをリアルなデータ品質で効率的に正確に推定する機械学習フレームワークであるmagicを提案する。 MAGICでは、バイナリマイクロレンズパラメータは2つのグループに分けられ、異なるニューラルネットワークで別々に推論される。 MAGICの鍵となる特徴は神経制御微分方程式の導入であり、不規則なサンプリングと大きなデータギャップを持つ光曲線を扱う能力を提供する。 シミュレーション光曲線に基づいて, MRICは二乗質量比と分離で数パーセントの分数的不確かさを達成できることを示す。 また、実際のマイクロレンズイベントでMAGICをテストする。 MAGICは、大きなデータギャップが導入された場合でも、退化したソリューションを見つけることができる。 天文学的な調査では不規則なサンプリングが一般的であるため,本手法は時系列を含む他の研究にも影響を及ぼす。

The modeling of binary microlensing light curves via the standard sampling-based method can be challenging, because of the time-consuming light curve computation and the pathological likelihood landscape in the high-dimensional parameter space. In this work, we present MAGIC, which is a machine learning framework to efficiently and accurately infer the microlensing parameters of binary events with realistic data quality. In MAGIC, binary microlensing parameters are divided into two groups and inferred separately with different neural networks. The key feature of MAGIC is the introduction of neural controlled differential equation, which provides the capability to handle light curves with irregular sampling and large data gaps. Based on simulated light curves, we show that MAGIC can achieve fractional uncertainties of a few percent on the binary mass ratio and separation. We also test MAGIC on a real microlensing event. MAGIC is able to locate the degenerate solutions even when large data gaps are introduced. As irregular samplings are common in astronomical surveys, our method also has implications to other studies that involve time series.
翻訳日:2022-06-18 00:51:11 公開日:2022-06-16
# (参考訳) 低忠実度モデルと物理インフォームドガウス過程によるディジタル双極子間の物理学習

Learning Physics between Digital Twins with Low-Fidelity Models and Physics-Informed Gaussian Processes ( http://arxiv.org/abs/2206.08201v1 )

ライセンス: CC BY 4.0
Michail Spitieris and Ingelin Steinsland(参考訳) デジタル双生児(digital twin)は、個人、例えば、構成要素、患者またはプロセスを表すコンピュータモデルである。 多くの状況では、不完全な物理的知識を取り入れつつ、そのデータから個人に関する知識を得たいし、他の個人からデータから学びたい。 本稿では,デジタル双生児間の学習のためのベイズ的手法を,個々の物理的パラメータが興味のある環境で導入し,実証する。 各個人について、この方法論はモデル差のベイズ校正に基づいている。 ガウス過程としてモデル化された矛盾を通じて、不完全な低忠実性物理モデルが説明される。 ベイズ階層モデルのアイデアを用いて、デジタル双生児の合同確率モデルを構築し、それらを階層の新たなレベルを通して結びつける。 物理パラメータについて、この手法は関節モデルにおける対応するハイパーパラメータの後方である個々のモデルの事前分布を用いていると見なすことができる。 個人間の不完全な物理学の学習には、すべての個人に対して同じ相違を仮定する2つのアプローチと、その相違を表すガウス過程のパラメータについて、すべての個人から事前に学んだものとみなす1つのアプローチが導入された。 物理インフォームドプリエントに関する最近の進歩に基づき、ハミルトン・モンテカルロ法とこれらを逆問題に用いて、偏微分方程式と整列しない個々のデータに基づく物理モデルに対しても、我々のアプローチが計算可能となるように推論方法論を構築した。 この手法は2つの総合的なケーススタディで実証され、以前に論文で使われたおもちゃの例はより多くの個人に拡張され、例えば高血圧の治療に関係のある心血管ディファレンシャル方程式モデルに基づく例である。

A digital twin is a computer model that represents an individual, for example, a component, a patient or a process. In many situations, we want to gain knowledge about an individual from its data while incorporating imperfect physical knowledge and also learn from data from other individuals. In this paper, we introduce and demonstrate a fully Bayesian methodology for learning between digital twins in a setting where the physical parameters of each individual are of interest. For each individual, the methodology is based on Bayesian calibration with model discrepancy. Through the discrepancy, modelled as a Gaussian process, the imperfect low-fidelity physical model is accounted for. Using ideas from Bayesian hierarchical models, a joint probabilistic model of digital twins is constructed by connecting them through a new level in the hierarchy. For the physical parameters, the methodology can be seen as using a prior distribution in the individual model that is the posterior of the corresponding hyperparameter in the joint model. For learning the imperfect physics between individuals two approaches are introduced, one that assumes the same discrepancy for all individuals and one that can be seen as using a prior learned from all individuals for the parameters of the Gaussian processes representing the discrepancies. Based on recent advances related to physics-informed priors, Hamiltonian Monte Carlo methods and using these for inverse problems we set up an inference methodology that allows our approach to be computational feasible also for physical models based on partial differential equations and individual data that are not aligned. The methodology is demonstrated in two synthetic case studies, a toy example previously used in the literature extended to more individuals and an example based on a cardiovascular differential equation model relevant for the treatment of hypertension.
翻訳日:2022-06-18 00:22:00 公開日:2022-06-16
# (参考訳) 特徴重要度の不整合

Inherent Inconsistencies of Feature Importance ( http://arxiv.org/abs/2206.08204v1 )

ライセンス: CC BY 4.0
Nimrod Harel, Ran Gilad-Bachrach, Uri Obolski(参考訳) 現代の機械学習技術のブラックボックスの性質は、説明可能性に対する実践的で倫理的な要求を喚起する。 特徴の重要性は、特徴にスコアを割り当てることで、このニーズを満たすことを目的としている。 機能の重要性は、サンプル空間全体や特定のインスタンス、モデルの振る舞い、データ自体の依存関係など、異なる設定下での予測を説明するために利用することができる。 しかし、ほとんどのケースでは、これらの設定は独立して研究されている。 所望のプロパティの小さなセットを定義して,音特徴重要度スコアフレームワークの開発を試みる。 驚くべきことに、期待される性質が同時に保持できないことを示す不整合定理を証明する。 この難しさを克服するために,特徴空間を分離可能な集合に分割するという新しい概念を提案する。 このような集合は、対象変数に対する集合間独立性を示す特徴を含むように構成される。 分離可能な集合に一意な極大分割が存在することを示す。 さらに、単一の特徴ではなく、分離可能な集合にスコアを割り当てることで、一般的に使用される特徴重要度スコアの結果を統一し、実証した矛盾を解消する。

The black-box nature of modern machine learning techniques invokes a practical and ethical need for explainability. Feature importance aims to meet this need by assigning scores to features, so humans can understand their influence on predictions. Feature importance can be used to explain predictions under different settings: of the entire sample space or a specific instance; of model behavior, or the dependencies in the data themselves. However, in most cases thus far, each of these settings was studied in isolation. We attempt to develop a sound feature importance score framework by defining a small set of desired properties. Surprisingly, we prove an inconsistency theorem, showing that the expected properties cannot hold simultaneously. To overcome this difficulty, we propose the novel notion of re-partitioning the feature space into separable sets. Such sets are constructed to contain features that exhibit inter-set independence with respect to the target variable. We show that there exists a unique maximal partitioning into separable sets. Moreover, assigning scores to separable sets, instead of single features, unifies the results of commonly used feature importance scores and annihilates the inconsistencies we demonstrated.
翻訳日:2022-06-18 00:01:53 公開日:2022-06-16
# (参考訳) オブジェクト検出のための選択型マルチスケール学習

Selective Multi-Scale Learning for Object Detection ( http://arxiv.org/abs/2206.08206v1 )

ライセンス: CC BY 4.0
Junliang Chen, Weizeng Lu, Linlin Shen(参考訳) ピラミッドネットワークは、マルチスケールオブジェクト検出の標準手法である。 機能ピラミッドネットワークに関する現在の研究は、通常、機能階層の特定のレベルから機能を集めるためにレイヤ接続を採用しており、それらの大きな違いを考慮していない。 この問題に対処するために,選択型マルチスケール学習(SMSL)と呼ばれる特徴ピラミッドネットワークのアーキテクチャを提案する。 SMSLは効率的で汎用的であり、単段検出器と二段検出器の両方に統合して検出性能を向上させることができる。 RetinaNetとSMSLを組み合わせると、COCOデータセットのAP(39.1\%から40.9\%)が1.8.%向上する。 SMSLと統合すると、2段検出器はAPの約1.0倍の改善が得られる。

Pyramidal networks are standard methods for multi-scale object detection. Current researches on feature pyramid networks usually adopt layer connections to collect features from certain levels of the feature hierarchy, and do not consider the significant differences among them. We propose a better architecture of feature pyramid networks, named selective multi-scale learning (SMSL), to address this issue. SMSL is efficient and general, which can be integrated in both single-stage and two-stage detectors to boost detection performance, with nearly no extra inference cost. RetinaNet combined with SMSL obtains 1.8\% improvement in AP (from 39.1\% to 40.9\%) on COCO dataset. When integrated with SMSL, two-stage detectors can get around 1.0\% improvement in AP.
翻訳日:2022-06-17 23:44:37 公開日:2022-06-16
# (参考訳) ドメイン・アドバーサル・トレーニングにおける滑らかさについて

A Closer Look at Smoothness in Domain Adversarial Training ( http://arxiv.org/abs/2206.08213v1 )

ライセンス: CC BY 4.0
Harsh Rangwani, Sumukh K Aithal, Mayank Mishra, Arihant Jain, R. Venkatesh Babu(参考訳) ドメイン逆行訓練は不変表現を達成するためにユビキタスであり、様々なドメイン適応タスクに広く使われている。 近年,スムースオプティマへの収束法では,分類などの教師あり学習タスクの一般化が改善されている。 本研究は,課題損失(分類,回帰など)と敵語の組み合わせであるドメイン・アドバーサル・トレーニングにおける平滑性強化の効果を分析した。 タスク損失(w.r.t.)に関してスムーズな最小値に収束すると、敵の訓練が安定し、目標領域の性能が向上する。 タスク損失とは対照的に,スムーズな最小値w.r.t.逆数損失への収束は,対象領域の準最適一般化につながることを示す。 そこで本研究では,Smooth Domain Adversarial Training (SDAT) 手法を導入する。 また、我々の分析は、AdamよりSGDを広範囲に活用して、ドメインの敵対的訓練を行うための知見も提供する。

Domain adversarial training has been ubiquitous for achieving invariant representations and is used widely for various domain adaptation tasks. In recent times, methods converging to smooth optima have shown improved generalization for supervised learning tasks like classification. In this work, we analyze the effect of smoothness enhancing formulations on domain adversarial training, the objective of which is a combination of task loss (eg. classification, regression, etc.) and adversarial terms. We find that converging to a smooth minima with respect to (w.r.t.) task loss stabilizes the adversarial training leading to better performance on target domain. In contrast to task loss, our analysis shows that converging to smooth minima w.r.t. adversarial loss leads to sub-optimal generalization on the target domain. Based on the analysis, we introduce the Smooth Domain Adversarial Training (SDAT) procedure, which effectively enhances the performance of existing domain adversarial methods for both classification and object detection tasks. Our analysis also provides insight into the extensive usage of SGD over Adam in the community for domain adversarial training.
翻訳日:2022-06-17 23:35:44 公開日:2022-06-16
# (参考訳) hagrid -- ハンドジェスチャ認識画像データセット

HaGRID -- HAnd Gesture Recognition Image Dataset ( http://arxiv.org/abs/2206.08219v1 )

ライセンス: CC BY-SA 4.0
Alexander Kapitanov, Andrew Makhlyarchuk, Karina Kvanchiani(参考訳) 本稿では,ハンドジェスチャー認識(HGR)システムのための巨大なデータセットHaGRID(HAnd Gesture Recognition Image Dataset)を提案する。 このデータセットは、552,992のサンプルを18のクラスに分割する。 注釈は手の境界の箱にジェスチャーのラベルとリードハンドのマークアップがある。 提案したデータセットは、ビデオ会議サービス、ホームオートメーションシステム、自動車セクター、音声や聴覚障害のある人々のためのサービスなどに使われるHGRシステムの構築を可能にする。 私たちは特に、それらを管理するデバイスとのインタラクションに重点を置いています。 18種類のジェスチャがすべて機能し、ほとんどの人になじみがあり、何らかのアクションを取るインセンティブとなるのもそのためです。 さらに、クラウドソーシングプラットフォームを使用してデータセットを収集し、さまざまなパラメータを考慮してデータの多様性を確認しました。 既存のHGRデータセットをタスクに使用する際の課題について述べ、その概要を詳述する。 さらに,手検出およびジェスチャ分類タスクのベースラインを提案する。

In this paper, we introduce an enormous dataset HaGRID (HAnd Gesture Recognition Image Dataset) for hand gesture recognition (HGR) systems. This dataset contains 552,992 samples divided into 18 classes of gestures. The annotations consist of bounding boxes of hands with gesture labels and markups of leading hands. The proposed dataset allows for building HGR systems, which can be used in video conferencing services, home automation systems, the automotive sector, services for people with speech and hearing impairments, etc. We are especially focused on interaction with devices to manage them. That is why all 18 chosen gestures are functional, familiar to the majority of people, and may be an incentive to take some action. In addition, we used crowdsourcing platforms to collect the dataset and took into account various parameters to ensure data diversity. We describe the challenges of using existing HGR datasets for our task and provide a detailed overview of them. Furthermore, the baselines for the hand detection and gesture classification tasks are proposed.
翻訳日:2022-06-17 23:01:35 公開日:2022-06-16
# (参考訳) 不完全な畳み込みを伴う機能的出力回帰: Huber と $\epsilon$-insensitive Losses の探索

Functional Output Regression with Infimal Convolution: Exploring the Huber and $\epsilon$-insensitive Losses ( http://arxiv.org/abs/2206.08220v1 )

ライセンス: CC BY 4.0
Alex Lambert, Dimitri Bouche, Zoltan Szabo, Florence d'Alch\'e-Buc(参考訳) 論文の焦点は、畳み込み損失を伴う機能的出力回帰(for)である。 既存のほとんどの作品は正方形損失設定を考慮しているが、フーバーと$\epsilon$非感受性損失(インフィマル畳み込みによって引き起こされる)を活用し、様々な形の外れ値やforファミリーのスパーシティを扱える柔軟なフレームワークを提案している。 我々は、ベクトル値の再現核ヒルベルト空間の文脈で得られるタスクに取り組むために双対性に依存する計算可能なアルゴリズムを導出する。 このアプローチの効率性は、合成ベンチマークと実世界のベンチマークの両方において古典的な2乗損失設定と対比される。

The focus of the paper is functional output regression (FOR) with convoluted losses. While most existing work consider the square loss setting, we leverage extensions of the Huber and the $\epsilon$-insensitive loss (induced by infimal convolution) and propose a flexible framework capable of handling various forms of outliers and sparsity in the FOR family. We derive computationally tractable algorithms relying on duality to tackle the resulting tasks in the context of vector-valued reproducing kernel Hilbert spaces. The efficiency of the approach is demonstrated and contrasted with the classical squared loss setting on both synthetic and real-world benchmarks.
翻訳日:2022-06-17 22:50:31 公開日:2022-06-16
# (参考訳) 意識依存型マスキング一貫性による自己監督型視覚変換器の適応

Adapting Self-Supervised Vision Transformers by Probing Attention-Conditioned Masking Consistency ( http://arxiv.org/abs/2206.08222v1 )

ライセンス: CC BY 4.0
Viraj Prabhu, Sriram Yenamandra, Aaditya Singh, Judy Hoffman(参考訳) ビジュアルドメイン適応(DA)は、トレーニングされたモデルを、分散シフト全体にわたって見えなくラベル付けされていないドメインに転送することを目指しているが、一般的には、教師付きImageNet表現で初期化される畳み込みニューラルネットワークアーキテクチャの適応に重点を置いている。 本研究では,オブジェクト認識のための現代的アーキテクチャ – ますます普及しているビジョントランスフォーマ(vit) – と,自己教師付き学習(ssl)に基づく近代的事前トレーニングに重点を移す。 マスクやトリミングによって生成された部分的なイメージインプットから学ぶこと – 欠落したピクセルの予測を学ぶこと,あるいはそのような拡張に対する表現的不変性を学ぶこと – に基づいて,最近のSSLアプローチの設計に触発された我々は,自己管理型VTのためのシンプルな2段階適応アルゴリズムであるPACMACを提案する。 PACMACはまず、プールされたソースとターゲットデータ上でドメイン内SSLを実行し、タスクの識別的特徴を学習し、次に、新しい注意条件付きマスキング戦略によって生成された部分的なターゲット入力のセット間でモデルの予測一貫性を探索し、自己学習の信頼できる候補を特定する。 我々の単純なアプローチは、標準オブジェクト認識ベンチマーク上でViTと自己教師付き初期化を使用する競合メソッドよりも一貫したパフォーマンス向上をもたらす。 https://github.com/virajprabhu/PACMACで利用可能なコード

Visual domain adaptation (DA) seeks to transfer trained models to unseen, unlabeled domains across distribution shift, but approaches typically focus on adapting convolutional neural network architectures initialized with supervised ImageNet representations. In this work, we shift focus to adapting modern architectures for object recognition -- the increasingly popular Vision Transformer (ViT) -- and modern pretraining based on self-supervised learning (SSL). Inspired by the design of recent SSL approaches based on learning from partial image inputs generated via masking or cropping -- either by learning to predict the missing pixels, or learning representational invariances to such augmentations -- we propose PACMAC, a simple two-stage adaptation algorithm for self-supervised ViTs. PACMAC first performs in-domain SSL on pooled source and target data to learn task-discriminative features, and then probes the model's predictive consistency across a set of partial target inputs generated via a novel attention-conditioned masking strategy, to identify reliable candidates for self-training. Our simple approach leads to consistent performance gains over competing methods that use ViTs and self-supervised initializations on standard object recognition benchmarks. Code available at https://github.com/virajprabhu/PACMAC
翻訳日:2022-06-17 22:12:13 公開日:2022-06-16
# (参考訳) 物体検出におけるスケール変数問題への埋め込み

Delving into the Scale Variance Problem in Object Detection ( http://arxiv.org/abs/2206.08227v1 )

ライセンス: CC BY 4.0
Junliang Chen, Xiaodong Zhao, Linlin Shen(参考訳) オブジェクト検出は、オブジェクトの局所的なコンテキストを抽出する畳み込みの能力のため、この10年で大幅に進歩した。 しかし、オブジェクトのスケールは多様であり、現在の畳み込みは単一スケールの入力しか処理できない。 したがって、そのようなスケール分散問題に対処する際の固定受容場との伝統的な畳み込みの能力は制限される。 マルチスケール特徴表現は、スケール分散問題を解決する効果的な方法であることが証明されている。 最近の研究は、主に特定のスケールへの部分的接続、またはあらゆるスケールからの集合的特徴を採用し、スケール全体にわたるグローバル情報に焦点を当てている。 しかし、空間的次元と深さ的次元の情報を無視する。 そこで本研究では,この問題に対処するためのマルチスケール畳み込み(MSConv)を提案する。 スケール、空間、深さの情報を同時に考慮し、MSConvはより包括的なマルチスケール入力を処理することができる。 MSConvは効率的で計算効率が良いが、計算コストは少ない。 単一ステージのオブジェクト検出器のほとんどでは、従来の畳み込みを検出ヘッドのmsconvに置き換えることで、ap(coco 2017データセット上で)が2.5\%以上改善され、フラップは3\%しか増加しない。 MSConvは柔軟で、2段階の物体検出器にも有効である。 メインストリームの2段階の物体検出器に拡張すると、MSConvはAPの3.0\%の改善をもたらす。 単スケールテストにおける最良のモデルは、COCO 2017 \textit{test-dev} スプリットで48.9%のAPを達成する。

Object detection has made substantial progress in the last decade, due to the capability of convolution in extracting local context of objects. However, the scales of objects are diverse and current convolution can only process single-scale input. The capability of traditional convolution with a fixed receptive field in dealing with such a scale variance problem, is thus limited. Multi-scale feature representation has been proven to be an effective way to mitigate the scale variance problem. Recent researches mainly adopt partial connection with certain scales, or aggregate features from all scales and focus on the global information across the scales. However, the information across spatial and depth dimensions is ignored. Inspired by this, we propose the multi-scale convolution (MSConv) to handle this problem. Taking into consideration scale, spatial and depth information at the same time, MSConv is able to process multi-scale input more comprehensively. MSConv is effective and computationally efficient, with only a small increase of computational cost. For most of the single-stage object detectors, replacing the traditional convolutions with MSConvs in the detection head can bring more than 2.5\% improvement in AP (on COCO 2017 dataset), with only 3\% increase of FLOPs. MSConv is also flexible and effective for two-stage object detectors. When extended to the mainstream two-stage object detectors, MSConv can bring up to 3.0\% improvement in AP. Our best model under single-scale testing achieves 48.9\% AP on COCO 2017 \textit{test-dev} split, which surpasses many state-of-the-art methods.
翻訳日:2022-06-17 21:37:54 公開日:2022-06-16
# (参考訳) 勾配表現を用いたオープンセット認識

Open-Set Recognition with Gradient-Based Representations ( http://arxiv.org/abs/2206.08229v1 )

ライセンス: CC BY 4.0
Jinsol Lee, Ghassan AlRegib(参考訳) 画像分類タスクのためのニューラルネットワークは、推論中の任意の画像がトレーニングクラスに属すると仮定する。 このクローズドセットの仮定は、未知のクラスの入力にモデルが遭遇する現実世界のアプリケーションにおいて挑戦される。 オープンセット認識は、既知のクラスを正しく分類しながら未知のクラスを拒絶することで、この問題を解決することを目的としている。 本稿では,既知の分類器から得られた勾配に基づく表現を用いて未知検出器を既知のクラスのみのインスタンスで訓練する。 グラディエントは、与えられたサンプルを適切に表現するために必要とされるモデル更新の量に対応し、学習した特徴で入力を特徴づけるモデルの能力を理解するために利用します。 提案手法は,未知のサンプルの分布を明示的にモデル化することなく,既知のクラス上で教師付きで訓練された任意の分類器で利用することができる。 勾配に基づくアプローチは,オープンセット分類において,最先端手法を最大11.6%上回っている。

Neural networks for image classification tasks assume that any given image during inference belongs to one of the training classes. This closed-set assumption is challenged in real-world applications where models may encounter inputs of unknown classes. Open-set recognition aims to solve this problem by rejecting unknown classes while classifying known classes correctly. In this paper, we propose to utilize gradient-based representations obtained from a known classifier to train an unknown detector with instances of known classes only. Gradients correspond to the amount of model updates required to properly represent a given sample, which we exploit to understand the model's capability to characterize inputs with its learned features. Our approach can be utilized with any classifier trained in a supervised manner on known classes without the need to model the distribution of unknown samples explicitly. We show that our gradient-based approach outperforms state-of-the-art methods by up to 11.6% in open-set classification.
翻訳日:2022-06-17 21:23:31 公開日:2022-06-16
# (参考訳) ニューラルオデムの雑音学習はロバストネス・軌跡拡大に寄与する

Noisy Learning for Neural ODEs Acts as a Robustness Locus Widening ( http://arxiv.org/abs/2206.08237v1 )

ライセンス: CC BY 4.0
Martin Gonzalez, Hatem Hajri, Loic Cantat, Mihaly Petreczky(参考訳) 差分方程式に基づくネットワーク(DE)の合成分布シフトに対するロバスト性評価の課題と課題について検討する。 本稿では,本質的ロバスト性の評価とデータセット腐敗シミュレータの検証に使用できる,新しい簡易な精度指標を提案する。 また,ニューラルdesの頑健さを多面的に評価し,それらを個別に比較するために,提案手法を提案する。 次に、この基準を用いて、複数のデータセットにまたがるシミュレーション画像破損に対して、ニューラルネットワークodeの自然なロバスト性を示す信頼できる方法として、安価なデータ拡張手法を評価する。

We investigate the problems and challenges of evaluating the robustness of Differential Equation-based (DE) networks against synthetic distribution shifts. We propose a novel and simple accuracy metric which can be used to evaluate intrinsic robustness and to validate dataset corruption simulators. We also propose methodology recommendations, destined for evaluating the many faces of neural DEs' robustness and for comparing them with their discrete counterparts rigorously. We then use this criteria to evaluate a cheap data augmentation technique as a reliable way for demonstrating the natural robustness of neural ODEs against simulated image corruptions across multiple datasets.
翻訳日:2022-06-17 21:14:19 公開日:2022-06-16
# (参考訳) 勾配に基づく逆数・外分布検出

Gradient-Based Adversarial and Out-of-Distribution Detection ( http://arxiv.org/abs/2206.08255v1 )

ライセンス: CC BY 4.0
Jinsol Lee, Mohit Prabhushankar, Ghassan AlRegib(参考訳) 本稿では,逆分布および分布外サンプル検出のための勾配法を提案する。 我々は、ニューラルネットワークの効果的な表現性を調べるために、勾配生成においてコンバウンディングラベル(トレーニング中に見られる通常のラベルとは異なるラベル)を導入します。 勾配は、モデルが入力を適切に表現するために必要な変更量を表し、ネットワークアーキテクチャプロパティによって確立されたモデルの表現力とトレーニングデータに関する洞察を提供する。 異なる設計のラベルを導入することで、推論中の勾配生成のための基底真理ラベルへの依存性を取り除きます。 我々は,ハイパーパラメータチューニングや追加処理を伴わないモデルにおいて,入力の異常を効果的に表現し,対向的および分布外検出のための最先端手法より優れていることを示す。

We propose to utilize gradients for detecting adversarial and out-of-distribution samples. We introduce confounding labels -- labels that differ from normal labels seen during training -- in gradient generation to probe the effective expressivity of neural networks. Gradients depict the amount of change required for a model to properly represent given inputs, providing insight into the representational power of the model established by network architectural properties as well as training data. By introducing a label of different design, we remove the dependency on ground truth labels for gradient generation during inference. We show that our gradient-based approach allows for capturing the anomaly in inputs based on the effective expressivity of the models with no hyperparameter tuning or additional processing, and outperforms state-of-the-art methods for adversarial and out-of-distribution detection.
翻訳日:2022-06-17 20:58:41 公開日:2022-06-16
# (参考訳) ProGNNosis:グラフメトリックを使用してGNN計算時間を予測するデータ駆動モデル

ProGNNosis: A Data-driven Model to Predict GNN Computation Time Using Graph Metrics ( http://arxiv.org/abs/2206.08258v1 )

ライセンス: CC BY 4.0
Axel Wassington and Sergi Abadal(参考訳) グラフニューラルネットワーク(gnn)は、グラフ構造化データを扱う場合に大きな期待を示す。 GNNのユニークなポイントの1つは、複数の問題に適応する柔軟性である。これは幅広い適用性をもたらすだけでなく、特定の問題に対して最適なモデルやアクセラレーション技術を見つける際にも重要な課題を引き起こす。 そのような課題の例として、gnnモデルや加速技術の正確性や有効性が一般に基礎となるグラフの構造に依存するという事実がある。 本稿では,グラフ依存加速度の問題に対処する試みとして,入力グラフメトリクスを検査することにより,任意の特性のグラフ上で動作するGNNモデルのGNNトレーニング時間を予測できるデータ駆動モデルProGNNosisを提案する。 このような予測は、さまざまな合成グラフデータセットを使用してオフラインでトレーニングされた回帰に基づいて行われる。 実際、この手法は特定の問題に対してどの設計を使うべきかをインフォームドで決定できる。 本稿では,ProGNNosisを構築するための方法論を定義し,特定のユースケースに適用し,どのグラフ表現がよいかを決定するのに役立つ。 本稿では,GCN,GIN,GAT,GraphSAGEなどのGNNモデルにおいて,グラフ表現をランダムに選択することで,ProGNNosisが平均1.22倍の高速化を実現することを示す。

Graph Neural Networks (GNN) show great promise in problems dealing with graph-structured data. One of the unique points of GNNs is their flexibility to adapt to multiple problems, which not only leads to wide applicability, but also poses important challenges when finding the best model or acceleration technique for a particular problem. An example of such challenges resides in the fact that the accuracy or effectiveness of a GNN model or acceleration technique generally depends on the structure of the underlying graph. In this paper, in an attempt to address the problem of graph-dependent acceleration, we propose ProGNNosis, a data-driven model that can predict the GNN training time of a given GNN model running over a graph of arbitrary characteristics by inspecting the input graph metrics. Such prediction is made based on a regression that was previously trained offline using a diverse synthetic graph dataset. In practice, our method allows making informed decisions on which design to use for a specific problem. In the paper, the methodology to build ProGNNosis is defined and applied for a specific use case, where it helps to decide which graph representation is better. Our results show that ProGNNosis helps achieve an average speedup of 1.22X over randomly selecting a graph representation in multiple widely used GNN models such as GCN, GIN, GAT, or GraphSAGE.
翻訳日:2022-06-17 20:46:08 公開日:2022-06-16
# (参考訳) 少し混ぜて学ぶこと

Learning with little mixing ( http://arxiv.org/abs/2206.08269v1 )

ライセンス: CC BY 4.0
Ingvar Ziemann, Stephen Tu(参考訳) 我々は,martingale差分雑音を持つ実時間時系列フレームワークにおける正方形損失について検討する。 私たちの主な結果は、軌道上のハイパーコントラクティビティ条件が成立するたびに、依存するデータに対する最小二乗推定器のリスクがバーンイン後のiidレートの順番に一致することを示す、速いレート過剰なリスクバウンドです。 それに対して、依存データから学習する既存の結果の多くは、有効サンプルサイズがバーンイン時間後であっても、基礎プロセスの混合時間の要因によって膨張する速度を持つ。 さらに,共変量過程は,幾何学的エルゴード性よりもかなり弱い長距離相関を示すことができる。 l^2$ と $l^{2+\epsilon}$ノルムが等価である有界関数クラス、エルゴード有限状態マルコフ連鎖、様々なパラメトリックモデル、無限次元 $\ell^2(\mathbb{n})$ ellipsoids の広い族。 一般化線形モデル遷移による非線形力学のシステム同定に主結果をインスタンス化することにより、多項式バーンイン時間のみに制限された最小限の最適余剰リスクが得られる。

We study square loss in a realizable time-series framework with martingale difference noise. Our main result is a fast rate excess risk bound which shows that whenever a trajectory hypercontractivity condition holds, the risk of the least-squares estimator on dependent data matches the iid rate order-wise after a burn-in time. In comparison, many existing results in learning from dependent data have rates where the effective sample size is deflated by a factor of the mixing-time of the underlying process, even after the burn-in time. Furthermore, our results allow the covariate process to exhibit long range correlations which are substantially weaker than geometric ergodicity. We call this phenomenon learning with little mixing, and present several examples for when it occurs: bounded function classes for which the $L^2$ and $L^{2+\epsilon}$ norms are equivalent, ergodic finite state Markov chains, various parametric models, and a broad family of infinite dimensional $\ell^2(\mathbb{N})$ ellipsoids. By instantiating our main result to system identification of nonlinear dynamics with generalized linear model transitions, we obtain a nearly minimax optimal excess risk bound after only a polynomial burn-in time.
翻訳日:2022-06-17 20:29:12 公開日:2022-06-16
# (参考訳) 深層学習による新しいms病変の経時的検出

Longitudinal detection of new MS lesions using Deep Learning ( http://arxiv.org/abs/2206.08272v1 )

ライセンス: CC BY-SA 4.0
Reda Abdellah Kamraoui, Boris Mansencal, Jos\'e V Manjon, Pierrick Coup\'e(参考訳) 新しい多発性硬化症(MS)病変の検出は、疾患の進化の重要な指標である。 学習に基づく手法の適用性は、このタスクを効率的に自動化することができる。 しかし,新たに出現する病変を伴う注釈付き長手データの欠如は,ロバストおよび一般化モデルの訓練の限界要因である。 本研究では,新たなMS病変の検出とセグメント化という課題に対処するディープラーニングベースのパイプラインについて述べる。 まず,1つの時間点を用いたセグメンテーションタスクで訓練されたモデルからの移動学習を提案する。 したがって、より簡単なタスクから知識を活用し、より多くの注釈付きデータセットが利用できる。 第2に,単点スキャンを用いて新しい病変を有する現実的な縦長点を生成するためのデータ合成手法を提案する。 このようにして,大規模合成アノテートデータセットに対する検出モデルを事前学習する。 最後に、MRIにおけるデータの多様性をシミュレートするデータ拡張手法を用いる。 これにより、利用可能な小さな注釈付き縦長データセットのサイズを増やすことができる。 アブレーション研究の結果,それぞれの貢献がセグメント化精度の向上に繋がることが示された。 提案したパイプラインを用いて,MSSEG2 MICCAIチャレンジにおいて,セグメント化と新しいMS病変の検出に最適なスコアを得た。

The detection of new multiple sclerosis (MS) lesions is an important marker of the evolution of the disease. The applicability of learning-based methods could automate this task efficiently. However, the lack of annotated longitudinal data with new-appearing lesions is a limiting factor for the training of robust and generalizing models. In this work, we describe a deep-learning-based pipeline addressing the challenging task of detecting and segmenting new MS lesions. First, we propose to use transfer-learning from a model trained on a segmentation task using single time-points. Therefore, we exploit knowledge from an easier task and for which more annotated datasets are available. Second, we propose a data synthesis strategy to generate realistic longitudinal time-points with new lesions using single time-point scans. In this way, we pretrain our detection model on large synthetic annotated datasets. Finally, we use a data-augmentation technique designed to simulate data diversity in MRI. By doing that, we increase the size of the available small annotated longitudinal datasets. Our ablation study showed that each contribution lead to an enhancement of the segmentation accuracy. Using the proposed pipeline, we obtained the best score for the segmentation and the detection of new MS lesions in the MSSEG2 MICCAI challenge.
翻訳日:2022-06-17 20:27:59 公開日:2022-06-16
# (参考訳) パラメータ化量子回路におけるデータ符号化の集中

Concentration of Data Encoding in Parameterized Quantum Circuits ( http://arxiv.org/abs/2206.08273v1 )

ライセンス: CC BY 4.0
Guangxi Li, Ruilin Ye, Xuanqiang Zhao, Xin Wang(参考訳) 変分量子アルゴリズムは、機械学習や組合せ最適化を含む有意義なタスクにおいて、短期的な量子アドバンテージを実現するための主要な戦略として認識されている。 古典的データを含むタスクに適用する場合、そのようなアルゴリズムは通常、データエンコーディングのための量子回路から始まり、ターゲット関数を最小限にするために量子ニューラルネットワーク(QNN)を訓練する。 QNNは、これらのアルゴリズムの性能を実用的なタスクで改善するために広く研究されているが、データエンコーディングが最終的なパフォーマンスに与える影響を体系的に理解する上でギャップがある。 本稿では、パラメータ化量子回路に基づく共通データ符号化戦略を考えることにより、このギャップを埋めることの進展について述べる。 妥当な仮定の下では、平均符号化状態と最大混合状態との距離は、符号化回路の幅と深さに関して明らかに上界であることが証明できる。 この結果は、特に平均符号化状態が深さの指数関数的な速度で最大混合状態に集中することを意味する。 このような濃度は量子分類器の能力を著しく制限し、量子情報の観点からの符号化状態の識別性を厳密に制限する。 我々は,これらの結果を合成データと公開データの両方で数値的に検証することにより,この知見をさらに支持する。 本研究は、機械学習タスクにおける量子データエンコーディングの重要性を強調し、今後のエンコーディング戦略に光を当てるかもしれない。

Variational quantum algorithms have been acknowledged as a leading strategy to realize near-term quantum advantages in meaningful tasks, including machine learning and combinatorial optimization. When applied to tasks involving classical data, such algorithms generally begin with quantum circuits for data encoding and then train quantum neural networks (QNNs) to minimize target functions. Although QNNs have been widely studied to improve these algorithms' performance on practical tasks, there is a gap in systematically understanding the influence of data encoding on the eventual performance. In this paper, we make progress in filling this gap by considering the common data encoding strategies based on parameterized quantum circuits. We prove that, under reasonable assumptions, the distance between the average encoded state and the maximally mixed state could be explicitly upper-bounded with respect to the width and depth of the encoding circuit. This result in particular implies that the average encoded state will concentrate on the maximally mixed state at an exponential speed on depth. Such concentration seriously limits the capabilities of quantum classifiers, and strictly restricts the distinguishability of encoded states from a quantum information perspective. We further support our findings by numerically verifying these results on both synthetic and public data sets. Our results highlight the significance of quantum data encoding in machine learning tasks and may shed light on future encoding strategies.
翻訳日:2022-06-17 20:14:05 公開日:2022-06-16
# (参考訳) 代替モデル:人工知能技術の開発における障害定義の批判的考察

Alternative models: Critical examination of disability definitions in the development of artificial intelligence technologies ( http://arxiv.org/abs/2206.08287v1 )

ライセンス: CC BY 4.0
Denis Newman-Griffis, Jessica Sage Rauchberg, Rahaf Alharbi, Louise Hickman, Harry Hochheiser(参考訳) 障害者は、医療、雇用、政府の政策など様々な分野において、様々な複雑な意思決定プロセスに直面している。 これらのコンテキストは、すでに影響を受けた人々にとって不透明で、障害のある視点の適切な表現を欠いていることが多いが、データ分析に人工知能(AI)技術を採用して意思決定を通知し、不適切なアルゴリズムや不適切なアルゴリズムによる害のリスクを増大させている。 本稿では、障害レンズを介してAIデータ分析技術を批判的に調査するフレームワークを提案し、AI技術のデザイナが選択した障害の定義が障害者の分析対象に与える影響について検討する。 我々は,障害の3つの概念モデル,すなわち医療モデル,社会モデル,関係モデルを検討した。 医療および政府の障害給付におけるai分析の一般的なユースケースに関する議論を通じて、これらの設定におけるパワーダイナミクスとインクルージョンに影響を与える技術設計プロセスにおける具体的な考慮と決定ポイントを説明し、限界化やサポートへの方向性を決定するのに役立つ。 現在提案されているフレームワークは、AI技術の詳細な批判的検証と、障害関連AI分析のためのデザイン実践の開発の基礎となる。

Disabled people are subject to a wide variety of complex decision-making processes in diverse areas such as healthcare, employment, and government policy. These contexts, which are already often opaque to the people they affect and lack adequate representation of disabled perspectives, are rapidly adopting artificial intelligence (AI) technologies for data analytics to inform decision making, creating an increased risk of harm due to inappropriate or inequitable algorithms. This article presents a framework for critically examining AI data analytics technologies through a disability lens and investigates how the definition of disability chosen by the designers of an AI technology affects its impact on disabled subjects of analysis. We consider three conceptual models of disability: the medical model, the social model, and the relational model; and show how AI technologies designed under each of these models differ so significantly as to be incompatible with and contradictory to one another. Through a discussion of common use cases for AI analytics in healthcare and government disability benefits, we illustrate specific considerations and decision points in the technology design process that affect power dynamics and inclusion in these settings and help determine their orientation towards marginalisation or support. The framework we present can serve as a foundation for in-depth critical examination of AI technologies and the development of a design praxis for disability-related AI analytics.
翻訳日:2022-06-17 19:37:25 公開日:2022-06-16
# (参考訳) 焦点変調誘導畳み込みニューラルネットワークを用いたビデオカプセル内視鏡の分類

Video Capsule Endoscopy Classification using Focal Modulation Guided Convolutional Neural Network ( http://arxiv.org/abs/2206.08298v1 )

ライセンス: CC BY 4.0
Abhishek Srivastava, Nikhil Kumar Tomar, Ulas Bagci, Debesh Jha(参考訳) ビデオカプセル内視鏡はコンピュータビジョンと医療においてホットな話題である。 深層学習は、ビデオカプセル内視鏡技術の将来に肯定的な影響を与える可能性がある。 異常検出率を向上し、医師のスクリーニング時間を減らし、現実世界の臨床分析を支援することができる。 ビデオカプセル内視鏡のためのCADx分類システムでは,さらなる改善が期待できる。 例えば、癌性ポリープの検出と出血は、迅速な医療反応と患者の生存率の向上につながる可能性がある。 この目的のために、自動CADxシステムは高いスループットと適切な精度を持つ必要がある。 本稿では,小腸解剖学的ランドマークの分類と発光観察のために,軽量畳み込み層を統合した焦点変調ネットワークfocalconvnetを提案する。 focalconvnetはフォカル変調を利用してグローバルコンテキストを実現し、フォワードパスを通じてグローバルローカルな空間的相互作用を可能にする。 さらに,本質的な帰納的/学習バイアスと階層的特徴を抽出する能力を備えた畳み込みブロックにより,focalconvnetは高いスループットで望ましい結果を得ることができる。 我々のfocalconvnetとkvasir-capsule上の他のsotaを比較した。これは44,228フレームの大規模vceデータセットで、13種類の異なるアノマリーを持つ。 提案手法は0.6734, 0.6373, 0.2974の重み付きf1-score, recall および mcc} をそれぞれ他の sota 方法論よりも優れる。 さらに, リアルタイム臨床環境におけるfocalconvnetの可能性を確立するため, 148.02画像/秒のスループットが最も高いことを報告する。 FocalConvNetのコードはhttps://github.com/NoviceMAn-prog/FocalConvNetで公開されている。

Video capsule endoscopy is a hot topic in computer vision and medicine. Deep learning can have a positive impact on the future of video capsule endoscopy technology. It can improve the anomaly detection rate, reduce physicians' time for screening, and aid in real-world clinical analysis. CADx classification system for video capsule endoscopy has shown a great promise for further improvement. For example, detection of cancerous polyp and bleeding can lead to swift medical response and improve the survival rate of the patients. To this end, an automated CADx system must have high throughput and decent accuracy. In this paper, we propose FocalConvNet, a focal modulation network integrated with lightweight convolutional layers for the classification of small bowel anatomical landmarks and luminal findings. FocalConvNet leverages focal modulation to attain global context and allows global-local spatial interactions throughout the forward pass. Moreover, the convolutional block with its intrinsic inductive/learning bias and capacity to extract hierarchical features allows our FocalConvNet to achieve favourable results with high throughput. We compare our FocalConvNet with other SOTA on Kvasir-Capsule, a large-scale VCE dataset with 44,228 frames with 13 classes of different anomalies. Our proposed method achieves the weighted F1-score, recall and MCC} of 0.6734, 0.6373 and 0.2974, respectively outperforming other SOTA methodologies. Furthermore, we report the highest throughput of 148.02 images/second rate to establish the potential of FocalConvNet in a real-time clinical environment. The code of the proposed FocalConvNet is available at https://github.com/NoviceMAn-prog/FocalConvNet.
翻訳日:2022-06-17 19:17:31 公開日:2022-06-16
# (参考訳) デジタル病理の深部組織像

Deepfake histological images for enhancing digital pathology ( http://arxiv.org/abs/2206.08308v1 )

ライセンス: CC BY 4.0
Kianoush Falahkheirkhah, Saumya Tiwari, Kevin Yeh, Sounak Gupta, Loren Herrera-Hernandez, Michael R. McCarthy, Rafael E. Jimenez, John C. Cheville, Rohit Bhargava(参考訳) ffpe組織ブロックから作製したガラススライド上の薄い切片染色組織の光学顕微鏡による観察は、組織診断の金本位制である。 加えて、病理学者の診断能力と専門知識は、その一般的な経験と稀な変異形態学に依拠している。 近年,このようなタスクに対して高い精度を示すために,ディープラーニング手法が採用されている。 しかし, 専門家レベルの注釈画像を得ることは費用がかかり, 時間を要する作業であり, 人工的に合成した組織像は有益である。 本稿では, 共通疾患の診断形態学的特徴を再現する組織学的画像を生成するだけでなく, 新規かつ稀な形態形成をユーザに提供する方法を提案する。 本手法では,クラスラベルに制約された病理像を合成する生成的対向ネットワークモデルを開発する。 前立腺および大腸組織像のリアルな合成能力について検討し、これらの画像の有用性を機械学習手法の診断能力の向上と、経験豊富な解剖病理医のパネルによる有用性の評価を行った。 診断のための深層学習モデルの訓練において,本フレームワークが生成した合成データを実データと類似して実行した。 病理学者は、実際の画像と合成画像の区別ができず、前立腺がんの格付けに関して、同様のレベルのオブザーバー間合意を示した。 大腸生検からより複雑な画像へとアプローチを拡張し,このような組織における複雑な微小環境を再現できることを示した。 最後に,ユーザがセマティックラベルの単純なマークアップを用いて,深部組織像を作成できることを示す。

An optical microscopic examination of thinly cut stained tissue on glass slides prepared from a FFPE tissue blocks is the gold standard for tissue diagnostics. In addition, the diagnostic abilities and expertise of any pathologist is dependent on their direct experience with common as well as rarer variant morphologies. Recently, deep learning approaches have been used to successfully show a high level of accuracy for such tasks. However, obtaining expert-level annotated images is an expensive and time-consuming task and artificially synthesized histological images can prove greatly beneficial. Here, we present an approach to not only generate histological images that reproduce the diagnostic morphologic features of common disease but also provide a user ability to generate new and rare morphologies. Our approach involves developing a generative adversarial network model that synthesizes pathology images constrained by class labels. We investigated the ability of this framework in synthesizing realistic prostate and colon tissue images and assessed the utility of these images in augmenting diagnostic ability of machine learning methods as well as their usability by a panel of experienced anatomic pathologists. Synthetic data generated by our framework performed similar to real data in training a deep learning model for diagnosis. Pathologists were not able to distinguish between real and synthetic images and showed a similar level of inter-observer agreement for prostate cancer grading. We extended the approach to significantly more complex images from colon biopsies and showed that the complex microenvironment in such tissues can also be reproduced. Finally, we present the ability for a user to generate deepfake histological images via a simple markup of sematic labels.
翻訳日:2022-06-17 19:03:31 公開日:2022-06-16
# (参考訳) ニューラル制御微分方程式を用いた反実結果の連続時間モデリング

Continuous-Time Modeling of Counterfactual Outcomes Using Neural Controlled Differential Equations ( http://arxiv.org/abs/2206.08311v1 )

ライセンス: CC BY 4.0
Nabeel Seedat, Fergus Imrie, Alexis Bellot, Zhaozhi Qian, Mihaela van der Schaar(参考訳) カウンターファクトの成果を見積もると、意思決定者が'What-iF'の質問に答えることによって、パーソナライズされたヘルスケアをアンロックする可能性がある。 既存の因果推論アプローチでは、観察と治療の決定の間の規則的、離散的な時間間隔を考慮することが一般的であり、したがって不規則にサンプリングされたデータを自然にモデル化できない。 任意の観測パターンを扱うために,そのデータを基礎となる連続時間過程のサンプルとして解釈し,制御された微分方程式の数学を用いてその潜在軌道を明示的にモデル化する。 これにより、治療効果ニューラルコントロール微分方程式(te-cde)と呼ばれる新しいアプローチが生まれ、任意の時点において潜在的な結果を評価することができる。 また, 時系列設定において重要であり, 従来の時系列では発生しない課題である, 時間依存的コンファウンディングの調整に逆行訓練を用いる。 そこで本研究では, 様々な臨床シナリオに対する不規則なサンプリング反射を伴う様々なシナリオを対象とした腫瘍増殖モデルに基づく, 制御可能なシミュレーション環境を提案する。 TE-CDEは、不規則サンプリングを伴うすべてのシミュレーションシナリオにおいて、既存のアプローチを一貫して上回る。

Estimating counterfactual outcomes over time has the potential to unlock personalized healthcare by assisting decision-makers to answer ''what-iF'' questions. Existing causal inference approaches typically consider regular, discrete-time intervals between observations and treatment decisions and hence are unable to naturally model irregularly sampled data, which is the common setting in practice. To handle arbitrary observation patterns, we interpret the data as samples from an underlying continuous-time process and propose to model its latent trajectory explicitly using the mathematics of controlled differential equations. This leads to a new approach, the Treatment Effect Neural Controlled Differential Equation (TE-CDE), that allows the potential outcomes to be evaluated at any time point. In addition, adversarial training is used to adjust for time-dependent confounding which is critical in longitudinal settings and is an added challenge not encountered in conventional time-series. To assess solutions to this problem, we propose a controllable simulation environment based on a model of tumor growth for a range of scenarios with irregular sampling reflective of a variety of clinical scenarios. TE-CDE consistently outperforms existing approaches in all simulated scenarios with irregular sampling.
翻訳日:2022-06-17 18:53:53 公開日:2022-06-16
# (参考訳) 等変記述体:SE(3)-等変エネルギーモデルによる視覚ロボットマニピュレーション学習

Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for End-to-End Visual Robotic Manipulation Learning ( http://arxiv.org/abs/2206.08321v1 )

ライセンス: CC BY 4.0
Hyunwoo Ryu, Jeong-Hoon Lee, Hong-in Lee, Jongeun Choi(参考訳) 視覚ロボット操作のためのエンド・ツー・エンド学習はサンプルの非効率に苦しむことが知られており、多くのデモンストレーションを必要とする。 ロボット操作の学習におけるサンプル効率を向上させるために、空間ロトトランスレーション等分散(se(3)等分散)を利用することができる。 本稿では,ポイントクラウド入力からの視覚ロボット操作のための,完全エンドツーエンドSE(3)-equivariantモデルを提案する。 リー群の表現理論を利用して、高サンプリング効率のエンドツーエンド学習を可能にする新しいSE(3)-等変エネルギーベースモデルを構築する。 私たちのモデルは、事前の知識なしにゼロから学べるが、非常にサンプル効率が高い(約10のデモで十分)。 さらに、訓練されたモデルがタスクに一般化できることを示す。 (i)以前は見当たらない対象物のポーズ (ii) カテゴリの未確認対象オブジェクトインスタンス、及び (iii)以前は見えなかった視覚障害。 我々は,6-DoFロボット操作を用いて,モデルのサンプル効率と一般化性を検証する。 コードは、https://github.com/tomato1mule/edf.comで入手できる。

End-to-end learning for visual robotic manipulation is known to suffer from sample inefficiency, requiring a large number of demonstrations. The spatial roto-translation equivariance, or the SE(3)-equivariance can be exploited to improve the sample efficiency for learning robotic manipulation. In this paper, we present fully end-to-end SE(3)-equivariant models for visual robotic manipulation from a point cloud input. By utilizing the representation theory of the Lie group, we construct novel SE(3)-equivariant energy-based models that allow highly sample efficient end-to-end learning. We show that our models can learn from scratch without prior knowledge yet is highly sample efficient (~10 demonstrations are enough). Furthermore, we show that the trained models can generalize to tasks with (i) previously unseen target object poses, (ii) previously unseen target object instances of the category, and (iii) previously unseen visual distractors. We experiment with 6-DoF robotic manipulation tasks to validate our models' sample efficiency and generalizability. Codes are available at: https://github.com/tomato1mule/edf
翻訳日:2022-06-17 18:26:17 公開日:2022-06-16
# (参考訳) 有害テキストの特徴:言語モデルの厳密なベンチマークに向けて

Characteristics of Harmful Text: Towards Rigorous Benchmarking of Language Models ( http://arxiv.org/abs/2206.08325v1 )

ライセンス: CC BY 4.0
Maribeth Rauh, John Mellor, Jonathan Uesato, Po-Sen Huang, Johannes Welbl, Laura Weidinger, Sumanth Dathathri, Amelia Glaese, Geoffrey Irving, Iason Gabriel, William Isaac, Lisa Anne Hendricks(参考訳) 大規模な言語モデルは、多くのアプリケーションを動かす人間のようなテキストを生成する。 しかし、近年の文献や現実世界の観測により、これらのモデルが有害、偏見、非現実的、その他の有害な言語を生成できることが証明されている。 言語モデルの害を評価する作業は進行中であるが、厳格なベンチマークにどの害が生じるかの見通しを翻訳することは容易ではない。 この翻訳を容易にするために、新しいベンチマークを設計する際に明示的に考慮すべき有害なテキストを特徴付ける6つの方法について概説する。 次に、これらの特徴をレンズとして、既存のベンチマークの傾向とギャップを識別します。 最後に,重篤なベンチマークで広く使用されている毒性分類器である perspective api のケーススタディに適用する。 我々の特徴は,橋梁の1つの部分を提供し,前向きと有効評価の間を翻訳する。

Large language models produce human-like text that drive a growing number of applications. However, recent literature and, increasingly, real world observations, have demonstrated that these models can generate language that is toxic, biased, untruthful or otherwise harmful. Though work to evaluate language model harms is under way, translating foresight about which harms may arise into rigorous benchmarks is not straightforward. To facilitate this translation, we outline six ways of characterizing harmful text which merit explicit consideration when designing new benchmarks. We then use these characteristics as a lens to identify trends and gaps in existing benchmarks. Finally, we apply them in a case study of the Perspective API, a toxicity classifier that is widely used in harm benchmarks. Our characteristics provide one piece of the bridge that translates between foresight and effective evaluation.
翻訳日:2022-06-17 18:07:19 公開日:2022-06-16
# (参考訳) リアルなワンショットメッシュ型ヘッドアバター

Realistic One-shot Mesh-based Head Avatars ( http://arxiv.org/abs/2206.08343v1 )

ライセンス: CC BY-SA 4.0
Taras Khakhulin, Vanessa Sklyarova, Victor Lempitsky, Egor Zakharov(参考訳) 本稿では,人間の頭部アバターをリアルなワンショットメッシュで生成するシステムについて述べる。 一つの写真を用いて,人物固有の頭部メッシュと関連する神経テクスチャを推定し,局所的な測光と幾何学的詳細の両方を符号化する。 得られたアバターは具体化され、ニューラルネットワークを使ってレンダリングされ、メッシュとテクスチャ推定器と共に、wildビデオのデータセット上でトレーニングされる。 実験では,頭部の幾何回復とレンダリングの品質の両面で,特に対人的再現において競合的に機能することが確認された。 結果https://samsunglabs.github.io/rome/

We present a system for realistic one-shot mesh-based human head avatars creation, ROME for short. Using a single photograph, our model estimates a person-specific head mesh and the associated neural texture, which encodes both local photometric and geometric details. The resulting avatars are rigged and can be rendered using a neural network, which is trained alongside the mesh and texture estimators on a dataset of in-the-wild videos. In the experiments, we observe that our system performs competitively both in terms of head geometry recovery and the quality of renders, especially for the cross-person reenactment. See results https://samsunglabs.github.io/rome/
翻訳日:2022-06-17 17:30:18 公開日:2022-06-16
# (参考訳) 監督された対教師なし:画像表現学習の代表的ベンチマークと分析

Beyond Supervised vs. Unsupervised: Representative Benchmarking and Analysis of Image Representation Learning ( http://arxiv.org/abs/2206.08347v1 )

ライセンス: CC BY 4.0
Matthew Gwilliam, Abhinav Shrivastava(参考訳) コントラスト学習、クラスタリング、その他のプリテキストタスクを活用することで、イメージ表現を学習するための教師なしの手法が標準ベンチマークで印象的な結果に達した。 その結果は、非常に異なる実装を持つ多くのメソッドが、ImageNetの線形評価など、一般的なベンチマークでほぼ同じように見える結果をもたらします。 しかし、一つの結果は物語全体を語らない。 本稿では,線形評価や近辺の分類,複数のデータセットのクラスタリングなど,パフォーマンスベースのベンチマークを用いた手法を比較し,現状における明確なフロントランナーの欠如を実証する。 教師なし比較と教師なし比較のみを行う先行研究とは対照的に,複数の教師なし比較方法を比較した。 この比較を豊かにするために, 均一性, 耐性, 中心核アライメント(CKA)の測定値を用いた埋め込み解析を行い, 近接グラフ類似度と線形予測重なりの2つの新しい指標を提案する。 分析の結果,単一の一般的なメソッドは,単独でフィールド全体を表現しているかのように扱うべきではないこと,そして,これらのメソッドの補完的性質をどのように活用するかを今後の作業で検討する必要があることが明らかとなった。 また、CKAを利用して拡張不変性を堅牢に定量化するためのフレームワークを提供し、下流タスクではある種の不変性が望ましくないことを思い出させる。

By leveraging contrastive learning, clustering, and other pretext tasks, unsupervised methods for learning image representations have reached impressive results on standard benchmarks. The result has been a crowded field - many methods with substantially different implementations yield results that seem nearly identical on popular benchmarks, such as linear evaluation on ImageNet. However, a single result does not tell the whole story. In this paper, we compare methods using performance-based benchmarks such as linear evaluation, nearest neighbor classification, and clustering for several different datasets, demonstrating the lack of a clear front-runner within the current state-of-the-art. In contrast to prior work that performs only supervised vs. unsupervised comparison, we compare several different unsupervised methods against each other. To enrich this comparison, we analyze embeddings with measurements such as uniformity, tolerance, and centered kernel alignment (CKA), and propose two new metrics of our own: nearest neighbor graph similarity and linear prediction overlap. We reveal through our analysis that in isolation, single popular methods should not be treated as though they represent the field as a whole, and that future work ought to consider how to leverage the complimentary nature of these methods. We also leverage CKA to provide a framework to robustly quantify augmentation invariance, and provide a reminder that certain types of invariance will be undesirable for downstream tasks.
翻訳日:2022-06-17 17:26:38 公開日:2022-06-16
# (参考訳) 機械が因果仮説を学習する方法を理解する

Towards Understanding How Machines Can Learn Causal Overhypotheses ( http://arxiv.org/abs/2206.08353v1 )

ライセンス: CC BY 4.0
Eliza Kosoy, David M. Chan, Adrian Liu, Jasmine Collins, Bryanna Kaufmann, Sandy Han Huang, Jessica B. Hamrick, John Canny, Nan Rosemary Ke, Alison Gopnik(参考訳) 機械学習と認知科学における最近の研究は、因果情報を理解することが知性の発展に不可欠であることを示唆している。 blicket detector'環境を用いた認知科学の広範な文献は、子供が様々な因果推論と学習に適応していることを示している。 我々はその環境を機械学習エージェントに適用する。 現在の機械学習アルゴリズムにおける重要な課題の1つは、因果関係の集合に関する伝達可能な抽象仮説(英語版)のモデル化と理解である。 対照的に、幼児でさえ自然に学習し、因果的な過剰仮説を使う。 本稿では,変数因果オーバーハイポテーゼの下で既存の手法を評価するためのフレキシブルな環境である新しいベンチマークを提示し,既存の手法の多くがこの環境での一般化に問題を抱えていることを示す。 このベンチマークのコードとリソースはhttps://github.com/CannyLab/casual_overhypothesesで入手できる。

Recent work in machine learning and cognitive science has suggested that understanding causal information is essential to the development of intelligence. The extensive literature in cognitive science using the ``blicket detector'' environment shows that children are adept at many kinds of causal inference and learning. We propose to adapt that environment for machine learning agents. One of the key challenges for current machine learning algorithms is modeling and understanding causal overhypotheses: transferable abstract hypotheses about sets of causal relationships. In contrast, even young children spontaneously learn and use causal overhypotheses. In this work, we present a new benchmark -- a flexible environment which allows for the evaluation of existing techniques under variable causal overhypotheses -- and demonstrate that many existing state-of-the-art methods have trouble generalizing in this environment. The code and resources for this benchmark are available at https://github.com/CannyLab/casual_overhypotheses.
翻訳日:2022-06-17 17:24:32 公開日:2022-06-16
# サドルポイント問題に対するスケールド手法について

On Scaled Methods for Saddle Point Problems ( http://arxiv.org/abs/2206.08303v1 )

ライセンス: Link先を確認
Aleksandr Beznosikov, Aibek Alanov, Dmitry Kovalev, Martin Tak\'a\v{c}, Alexander Gasnikov(参考訳) 異なる特徴を適応的にスケーリングする手法は、主にGANSトレーニングを含む敵機械学習問題の解決にAdamが人気があるため、サドルポイント問題を解決する上で重要な役割を果たしている。 本稿では,Hutchison近似に基づくよく知られたAdamとRmsPropのスケーリングと,より新しいAdaHessianとOASISのスケーリング手法に関する理論的解析を行う。 基本手法としてExtra Gradientと負の運動量を持つ改良版を用いる。 GANに関する実験的研究は、Adamだけでなく、他のあまり普及していない方法にも良い適用性を示す。

Methods with adaptive scaling of different features play a key role in solving saddle point problems, primarily due to Adam's popularity for solving adversarial machine learning problems, including GANS training. This paper carries out a theoretical analysis of the following scaling techniques for solving SPPs: the well-known Adam and RmsProp scaling and the newer AdaHessian and OASIS based on Hutchison approximation. We use the Extra Gradient and its improved version with negative momentum as the basic method. Experimental studies on GANs show good applicability not only for Adam, but also for other less popular methods.
翻訳日:2022-06-17 16:59:57 公開日:2022-06-16
# ワクチン設計のための制約付きサブモジュラー最適化

Constrained Submodular Optimization for Vaccine Design ( http://arxiv.org/abs/2206.08336v1 )

ライセンス: Link先を確認
Zheng Dai, David Gifford(参考訳) 機械学習の進歩により、予防および治療ワクチンに対する免疫系の反応の予測が可能になった。 しかし、ワクチンを設計する工学的課題は依然として課題である。 特に、ヒト免疫系の遺伝的多様性は、接種された集団に広範な免疫を与えるペプチドワクチンの設計を困難にしている。 本稿では,確率的機械学習モデルを用いたペプチドワクチンの評価と設計の枠組みを紹介し,従来よりも優れたsars-cov-2ワクチンの設計能力を示す。 我々は、フレームワークの近似可能性、拡張性、複雑さに関する理論的分析を提供する。

Advances in machine learning have enabled the prediction of immune system responses to prophylactic and therapeutic vaccines. However, the engineering task of designing vaccines remains a challenge. In particular, the genetic variability of the human immune system makes it difficult to design peptide vaccines that provide widespread immunity in vaccinated populations. We introduce a framework for evaluating and designing peptide vaccines that uses probabilistic machine learning models, and demonstrate its ability to produce designs for a SARS-CoV-2 vaccine that outperform previous designs. We provide a theoretical analysis of the approximability, scalability, and complexity of our framework.
翻訳日:2022-06-17 16:59:46 公開日:2022-06-16
# PeQuENet:適応型・注意型ネットワークによる圧縮映像の知覚品質向上

PeQuENet: Perceptual Quality Enhancement of Compressed Video with Adaptation- and Attention-based Network ( http://arxiv.org/abs/2206.07893v1 )

ライセンス: Link先を確認
Saiping Zhang, Luis Herranz, Marta Mrak, Marc Gorriz Blanch, Shuai Wan, Fuzheng Yang(参考訳) 本稿では,圧縮映像の知覚的品質を高めるためのgan(generative adversarial network)フレームワークを提案する。 本フレームワークは,単一モデルにおける異なる量子化パラメータ (qps) に対する注意と適応を含む。 このアテンションモジュールは、連続するフレーム間の長距離相関をキャプチャして調整できるグローバルレセプションフィールドを活用し、ビデオの知覚品質を向上させるのに有用である。 強化されるフレームは、隣接するフレームとともにディープネットワークに供給され、第1段階では、異なる深さの特徴を抽出する。 抽出した特徴をアテンションブロックに入力し、グローバルな時間的相関を探索し、その後一連のアップサンプリングと畳み込み層が続く。 最後に、得られた特徴を対応するQP情報を利用するQP条件適応モジュールで処理する。 このようにして、複数のQP値に固有の複数のモデルを必要とせず、同様の性能を持つ単一のモデルを様々なQPに適応的に拡張することができる。 実験により,提案したPeQuENetの圧縮画質向上アルゴリズムと比較して優れた性能を示した。

In this paper we propose a generative adversarial network (GAN) framework to enhance the perceptual quality of compressed videos. Our framework includes attention and adaptation to different quantization parameters (QPs) in a single model. The attention module exploits global receptive fields that can capture and align long-range correlations between consecutive frames, which can be beneficial for enhancing perceptual quality of videos. The frame to be enhanced is fed into the deep network together with its neighboring frames, and in the first stage features at different depths are extracted. Then extracted features are fed into attention blocks to explore global temporal correlations, followed by a series of upsampling and convolution layers. Finally, the resulting features are processed by the QP-conditional adaptation module which leverages the corresponding QP information. In this way, a single model can be used to enhance adaptively to various QPs without requiring multiple models specific for every QP value, while having similar performance. Experimental results demonstrate the superior performance of the proposed PeQuENet compared with the state-of-the-art compressed video quality enhancement algorithms.
翻訳日:2022-06-17 16:59:37 公開日:2022-06-16
# SoundSpaces 2.0: 視覚音響学習のためのシミュレーションプラットフォーム

SoundSpaces 2.0: A Simulation Platform for Visual-Acoustic Learning ( http://arxiv.org/abs/2206.08312v1 )

ライセンス: Link先を確認
Changan Chen, Carl Schissler, Sanchit Garg, Philip Kobernik, Alexander Clegg, Paul Calamia, Dhruv Batra, Philip W Robinson, Kristen Grauman(参考訳) 3d環境のためのオンザフライジオメトリベースのオーディオレンダリングのためのプラットフォームであるsoundspaces 2.0を紹介する。 SoundSpacesは実環境の3Dメッシュを前提として、任意のマイク位置から取得した任意の音に対して、非常にリアルな音響を生成することができる。 既存の3Dビジュアルアセットとともに、オーディオ視覚ナビゲーション、マッピング、ソースのローカライゼーションと分離、音響マッチングなどのオーディオ視覚研究タスクをサポートする。 既存のリソースと比較すると、SoundSpaces 2.0は連続的な空間サンプリング、新しい環境への一般化、設定可能なマイクと材料特性の利点がある。 私たちの知る限りでは、これは幾何学に基づく最初の音響シミュレーションであり、高い忠実性とリアリズムを提供すると同時に、具体化学習に使えるほど高速である。 シミュレータの特性をデモし,実世界の音響計測に対する性能評価を行った。 さらに、埋め込みナビゲーションと遠距離自動音声認識を含む2つの下流タスクを通じて、後者の性能を強調した。 SoundSpaces 2.0は、視聴と聴取の両方が可能な知覚システムの広範な研究を促進するために公開されている。

We introduce SoundSpaces 2.0, a platform for on-the-fly geometry-based audio rendering for 3D environments. Given a 3D mesh of a real-world environment, SoundSpaces can generate highly realistic acoustics for arbitrary sounds captured from arbitrary microphone locations. Together with existing 3D visual assets, it supports an array of audio-visual research tasks, such as audio-visual navigation, mapping, source localization and separation, and acoustic matching. Compared to existing resources, SoundSpaces 2.0 has the advantages of allowing continuous spatial sampling, generalization to novel environments, and configurable microphone and material properties. To our best knowledge, this is the first geometry-based acoustic simulation that offers high fidelity and realism while also being fast enough to use for embodied learning. We showcase the simulator's properties and benchmark its performance against real-world audio measurements. In addition, through two downstream tasks covering embodied navigation and far-field automatic speech recognition, highlighting sim2real performance for the latter. SoundSpaces 2.0 is publicly available to facilitate wider research for perceptual systems that can both see and hear.
翻訳日:2022-06-17 16:59:19 公開日:2022-06-16
# EPG2S:マルチモーダル学習を用いたエレクトロラトグラフィーと音声信号に基づく音声生成と音声強調

EPG2S: Speech Generation and Speech Enhancement based on Electropalatography and Audio Signals using Multimodal Learning ( http://arxiv.org/abs/2206.07860v1 )

ライセンス: Link先を確認
Li-Chin Chen, Po-Hsun Chen, Richard Tzong-Han Tsai, and Yu Tsao(参考訳) 調音運動に基づく音声生成と強調は、言語コミュニケーションのスコープが欠如している場合、例えば、発話能力を失った患者において、コミュニケーションを促進する。 この目的のために様々な技術が提案されているが、発話中に舌と硬口蓋の接触を記録するモニタリング技術であるepg(electropalatography)は十分に研究されていない。 本稿では,EPGと音声信号を用いて音声生成と強調を行うマルチモーダルEPG-to-speech(EPG2S)システムを提案する。 複数組み合わせのEPGと雑音音声信号に基づいて異なる融合戦略について検討し,提案手法の有効性について検討した。 実験結果から,EPG2SはEPG信号のみに基づく望ましい音声生成結果が得られることがわかった。 さらに、ノイズの多い音声信号の追加は、品質と知性を向上させるために観察される。 さらに、EPG2Sは、音声信号のみに基づく高品質な音声強調を実現し、EPG信号の追加により、さらなる性能向上を実現している。 後期融合戦略は、同時発声と強調のための最も効果的なアプローチであると考えられている。

Speech generation and enhancement based on articulatory movements facilitate communication when the scope of verbal communication is absent, e.g., in patients who have lost the ability to speak. Although various techniques have been proposed to this end, electropalatography (EPG), which is a monitoring technique that records contact between the tongue and hard palate during speech, has not been adequately explored. Herein, we propose a novel multimodal EPG-to-speech (EPG2S) system that utilizes EPG and speech signals for speech generation and enhancement. Different fusion strategies based on multiple combinations of EPG and noisy speech signals are examined, and the viability of the proposed method is investigated. Experimental results indicate that EPG2S achieves desirable speech generation outcomes based solely on EPG signals. Further, the addition of noisy speech signals is observed to improve quality and intelligibility. Additionally, EPG2S is observed to achieve high-quality speech enhancement based solely on audio signals, with the addition of EPG signals further improving the performance. The late fusion strategy is deemed to be the most effective approach for simultaneous speech generation and enhancement.
翻訳日:2022-06-17 16:58:30 公開日:2022-06-16
# 共認証ネットワークにおけるトピックフローの研究

Research Topic Flows in Co-Authorship Networks ( http://arxiv.org/abs/2206.07980v1 )

ライセンス: Link先を確認
Bastian Sch\"afermeier and Johannes Hirth and Tom Hanika(参考訳) サイエントメトリックスでは、科学的協力はしばしば共著者によって分析される。 しばしば見過ごされ、定量化が難しい側面は、異なる研究トピックの著者間の専門知識の流れであり、これは科学的な進歩の重要な部分である。 Topic Flow Network (TFN) を用いて, 研究者とその研究分野間の研究トピックフローの解析のためのグラフ構造を提案する。 マルチグラフとトピックモデルに基づいて、提案するネットワーク構造は、トピック内およびトピック間の流れを考慮に入れている。 我々の方法は、出版物のコーパス(すなわち著者と抽象的な情報)のみを構築することを必要とする。 この結果、非負行列分解により研究トピックが自動的に発見される。 これらのTFNは、共通メトリクスやコミュニティ検出などのソーシャルネットワーク分析技術の適用を可能にする。 最も重要なことは、大きな巨視的スケール、すなわち研究トピック間、あるいは特定の著者セット間の微視的スケールにおける、異種間流れの分析を可能にすることである。 20 Mioの包括的コーパスに本手法を適用し,TFNの有用性を実証した。 コンピュータ科学と数学の分野で60年以上研究されてきた出版物です 以上の結果から, tfnsは, 話題コミュニティの分析, 異なる分野における重要な著者の発見, および特に, 話題間の流れの分析, すなわち, 話題専門知識の移転に適していることが示された。 さらに,本手法は,研究分野間の影響関係の調査など,今後の研究への新たな方向性を開く。

In scientometrics, scientific collaboration is often analyzed by means of co-authorships. An aspect which is often overlooked and more difficult to quantify is the flow of expertise between authors from different research topics, which is an important part of scientific progress. With the Topic Flow Network (TFN) we propose a graph structure for the analysis of research topic flows between scientific authors and their respective research fields. Based on a multi-graph and a topic model, our proposed network structure accounts for intratopic as well as intertopic flows. Our method requires for the construction of a TFN solely a corpus of publications (i.e., author and abstract information). From this, research topics are discovered automatically through non-negative matrix factorization. The thereof derived TFN allows for the application of social network analysis techniques, such as common metrics and community detection. Most importantly, it allows for the analysis of intertopic flows on a large, macroscopic scale, i.e., between research topic, as well as on a microscopic scale, i.e., between certain sets of authors. We demonstrate the utility of TFNs by applying our method to two comprehensive corpora of altogether 20 Mio. publications spanning more than 60 years of research in the fields computer science and mathematics. Our results give evidence that TFNs are suitable, e.g., for the analysis of topical communities, the discovery of important authors in different fields, and, most notably, the analysis of intertopic flows, i.e., the transfer of topical expertise. Besides that, our method opens new directions for future research, such as the investigation of influence relationships between research fields.
翻訳日:2022-06-17 16:57:06 公開日:2022-06-16
# DCASE 2022:低複雑さを考慮した音響シーン分類のためのCNNの比較分析

DCASE 2022: Comparative Analysis Of CNNs For Acoustic Scene Classification Under Low-Complexity Considerations ( http://arxiv.org/abs/2206.08007v1 )

ライセンス: Link先を確認
Josep Zaragoza-Paredes, Javier Naranjo-Alcazar, Valery Naranjo and Pedro Zuccarello(参考訳) 音響シーン分類は、音声データに基づいて予め定義されたシーンに音声録音を割り当てることを目的とした自動聴取問題である。 長年にわたり(そして過去のdcaseの版では)この問題はアンサンブルと呼ばれる手法で解決されてきた(推論フェーズで予測を組み合わせるためにいくつかの機械学習モデルを使用する)。 これらのソリューションは精度でパフォーマンスを示すことができるが、計算能力の面では非常に高価であり、IoTデバイスにデプロイすることは不可能である。 この研究分野におけるドリフトのため、このタスクはモデル複雑性の点で2つの制限がある。 また、ミスマッチデバイス(提供されたオーディオは異なる情報源によって記録される)の複雑さも増している点に注意が必要だ。 この技術報告では、従来のCNNとConv-mixerの2つの異なるネットワークアーキテクチャを比較した。 どちらのネットワークも競合が必要とするベースラインを上回っているが、従来のcnnはベースラインを8ポイント上回る高いパフォーマンスを示している。 Conv-mixerアーキテクチャに基づくソリューションは、より軽量なソリューションであるにもかかわらず、パフォーマンスが悪くなる。

Acoustic scene classification is an automatic listening problem that aims to assign an audio recording to a pre-defined scene based on its audio data. Over the years (and in past editions of the DCASE) this problem has often been solved with techniques known as ensembles (use of several machine learning models to combine their predictions in the inference phase). While these solutions can show performance in terms of accuracy, they can be very expensive in terms of computational capacity, making it impossible to deploy them in IoT devices. Due to the drift in this field of study, this task has two limitations in terms of model complexity. It should be noted that there is also the added complexity of mismatching devices (the audios provided are recorded by different sources of information). This technical report makes a comparative study of two different network architectures: conventional CNN and Conv-mixer. Although both networks exceed the baseline required by the competition, the conventional CNN shows a higher performance, exceeding the baseline by 8 percentage points. Solutions based on Conv-mixer architectures show worse performance although they are much lighter solutions.
翻訳日:2022-06-17 16:56:41 公開日:2022-06-16
# 音声強調における敵対的プライバシー保護

Adversarial Privacy Protection on Speech Enhancement ( http://arxiv.org/abs/2206.08170v1 )

ライセンス: Link先を確認
Mingyu Dong and Diqun Yan and Rangding Wang(参考訳) 音声は、異なる状況で携帯電話によって記録されるなど、容易に漏れやすい。 音声中のプライベートコンテンツは、音声強調技術によって悪意をもって抽出される。 音声強調技術はディープニューラルネットワーク(DNN)とともに急速に発展してきたが、敵対的な例としてはDNNが失敗することがある。 そこで本研究では,音声強調システムにおける逆解析手法を提案する。 実験の結果,生成した逆例では,原例のほとんどのコンテンツ情報が消去されるか,音声強調によって対象音声に置き換えられることがわかった。 拡張元例と拡張元例認識結果との間の単語誤り率(WER)は89.0%に達する。 強化された敵の例と標的の例の間の標的攻撃は33.75%である。 対向的な摂動は、元の例に変化の速度を1.4430以上に導くことができる。 この作業は、悪意ある音声の抽出を防ぐことができる。

Speech is easily leaked imperceptibly, such as being recorded by mobile phones in different situations. Private content in speech may be maliciously extracted through speech enhancement technology. Speech enhancement technology has developed rapidly along with deep neural networks (DNNs), but adversarial examples can cause DNNs to fail. In this work, we propose an adversarial method to degrade speech enhancement systems. Experimental results show that generated adversarial examples can erase most content information in original examples or replace it with target speech content through speech enhancement. The word error rate (WER) between an enhanced original example and enhanced adversarial example recognition result can reach 89.0%. WER of target attack between enhanced adversarial example and target example is low to 33.75% . Adversarial perturbation can bring the rate of change to the original example to more than 1.4430. This work can prevent the malicious extraction of speech.
翻訳日:2022-06-17 16:56:24 公開日:2022-06-16
# GoodBye WaveNet - 1/2万サンプルのコンテキストを持つ生オーディオのための言語モデル

GoodBye WaveNet -- A Language Model for Raw Audio with Context of 1/2 Million Samples ( http://arxiv.org/abs/2206.08297v1 )

ライセンス: Link先を確認
Prateek Verma(参考訳) 音声信号の長期依存関係をモデル化することは特に難しい問題であり、たとえ小さなスケールであっても10万のサンプルの順序で収まる。 最近のトランスフォーマーの出現により、ニューラルネットワークはより長い時間スケールでの依存関係のモデリングが得意になったが、スケールするには二次的な制約に苦しんだ。 我々は,50万以上のサンプルを含む,かなり広い文脈で音響波形をモデル化できる生成的自己回帰型アーキテクチャを提案する。 私たちの仕事は、cnnフロントエンドで潜在表現を学習し、トランスフォーマーエンコーダを使ってこれらの表現に対する依存関係を学習することで、時間依存を学習するように適応しています。 改善を示すために異なる時間スケールを比較する以前の作業とは異なり、改善を示すために同じ数のパラメータ/コンテキストを持つ標準データセットを使用します。 本研究では,Wavenet,SaSHMI,Sample-RNNといった他の手法と比較して,長期構造をモデル化するための標準データセットにおける最先端性能を実現する。 この作業は、より多くのデータでスケール可能なコンテキストモデリングの改善に加えて、数十億/3のパラメータを使うことで、よりよい結果が得られることを前提に、この分野に非常にエキサイティングな方向を与えます。

Modeling long-term dependencies for audio signals is a particularly challenging problem, as even small-time scales yield on the order of a hundred thousand samples. With the recent advent of Transformers, neural architectures became good at modeling dependencies over longer time scales, but they suffered from quadratic constraints to scale them. We propose a generative auto-regressive architecture that can model audio waveforms over quite a large context, greater than 500,000 samples. Our work is adapted to learn time dependencies by learning a latent representation by a CNN front-end, and then learning dependencies over these representations using Transformer encoders, fully trained end-to-end: thereby allowing to learn representations as it deems fit for the next sample. Unlike previous works that compared different time scales to show improvement, we use a standard dataset, with the same number of parameters/context to show improvements. We achieve a state-of-the-art performance as compared to other approaches such as Wavenet, SaSHMI, and Sample-RNN on a standard dataset for modeling long-term structure. This work gives very exciting direction for the field, given improvements in context modeling that can be scaled with more data, as well as potentially better results by using billions/trillions of parameters.
翻訳日:2022-06-17 16:52:59 公開日:2022-06-16
# 分散・フェデレーション学習のための非同期SGDのためのシャーパ収束保証

Sharper Convergence Guarantees for Asynchronous SGD for Distributed and Federated Learning ( http://arxiv.org/abs/2206.08307v1 )

ライセンス: Link先を確認
Anastasia Koloskova, Sebastian U. Stich, Martin Jaggi(参考訳) 分散学習のための非同期確率的勾配降下アルゴリズムを,計算時間と通信周波数の異なるn$ワーカーに対して検討した。 このアルゴリズムでは、作業者は自身のペースで確率勾配を並列に計算し、同期なしでサーバに返す。 非凸滑らかな目的に対するこのアルゴリズムの既存の収束速度は、最大勾配遅延$\tau_{\max}$に依存し、$\epsilon$-stationary pointが$\mathcal{O}\! \left(\sigma^2\epsilon^{-2}+ \tau_{\max}\epsilon^{-1}\right)$ iterations ここで$\sigma$は確率勾配の分散を表す。 この作品では (i)よりタイトな収束率は$\mathcal{o}\! \left(\sigma^2\epsilon^{-2}+ \sqrt{\tau_{\max}\tau_{avg}}\epsilon^{-1}\right)$\tau_{avg}$が平均遅延であり、$\tau_{\max}$よりもかなり小さい。 私たちはまた (ii)単純な遅延適応学習率スキームで、非同期sgdは$\mathcal{o}\! \left(\sigma^2\epsilon^{-2}+ \tau_{avg}\epsilon^{-1}\right)$, 余分なハイパーパラメータチューニングや余分な通信は不要である。 その結果、非同期SGDは常にミニバッチSGDよりも高速であることを示すことができる。 また、 (iii)フェデレーション学習による不均一関数の場合について検討し,先行研究に比べて最大遅延依存性の弱さを証明し,収束率の向上を図る。 特に、収束率の不均一性項は、各作業者の平均遅延によってのみ影響を受けることを示す。

We study the asynchronous stochastic gradient descent algorithm for distributed training over $n$ workers which have varying computation and communication frequency over time. In this algorithm, workers compute stochastic gradients in parallel at their own pace and return those to the server without any synchronization. Existing convergence rates of this algorithm for non-convex smooth objectives depend on the maximum gradient delay $\tau_{\max}$ and show that an $\epsilon$-stationary point is reached after $\mathcal{O}\!\left(\sigma^2\epsilon^{-2}+ \tau_{\max}\epsilon^{-1}\right)$ iterations, where $\sigma$ denotes the variance of stochastic gradients. In this work (i) we obtain a tighter convergence rate of $\mathcal{O}\!\left(\sigma^2\epsilon^{-2}+ \sqrt{\tau_{\max}\tau_{avg}}\epsilon^{-1}\right)$ without any change in the algorithm where $\tau_{avg}$ is the average delay, which can be significantly smaller than $\tau_{\max}$. We also provide (ii) a simple delay-adaptive learning rate scheme, under which asynchronous SGD achieves a convergence rate of $\mathcal{O}\!\left(\sigma^2\epsilon^{-2}+ \tau_{avg}\epsilon^{-1}\right)$, and does not require any extra hyperparameter tuning nor extra communications. Our result allows to show for the first time that asynchronous SGD is always faster than mini-batch SGD. In addition, (iii) we consider the case of heterogeneous functions motivated by federated learning applications and improve the convergence rate by proving a weaker dependence on the maximum delay compared to prior works. In particular, we show that the heterogeneity term in convergence rate is only affected by the average delay within each worker.
翻訳日:2022-06-17 16:52:38 公開日:2022-06-16
# (参考訳) 仮想対応: 極端な視点幾何学の手がかりとしての人間

Virtual Correspondence: Humans as a Cue for Extreme-View Geometry ( http://arxiv.org/abs/2206.08365v1 )

ライセンス: CC BY 4.0
Wei-Chiu Ma, Anqi Joyce Yang, Shenlong Wang, Raquel Urtasun, Antonio Torralba(参考訳) カメラの空間配置とシーンの形状をエクストリームビュー画像から復元することは、コンピュータビジョンにおける長年の課題である。 一般的な3d再構成アルゴリズムは、しばしば画像マッチングパラダイムを採用し、シーンの一部が画像間で共有可能であり、入力が重なり合っていない場合に性能が低下すると仮定する。 対照的に、人間がある画像の可視部分と別の画像の対応する可視部分とを、その形状の事前の知識を通して関連付けることができる。 この事実に触発されて、我々は仮想対応(VC)と呼ばれる新しい概念を提示する。 VCは、カメラが3Dで交差する2枚の画像の1対のピクセルである。 古典的対応と同様に、VCはエピポーラ幾何学に準拠するが、古典的対応とは異なり、VCはビュー間でコビジュアライズされる必要はない。 したがって、画像が重なり合っていない場合でも、VCを確立して利用することができる。 現場における人間に基づく仮想対応を見つける手法を提案する。 極端な視点でカメラのポーズを回復するために、VCが古典的なバンドル調整とシームレスに統合できる方法を紹介します。 実験により,本手法は難解なシナリオにおいて,最先端カメラのポーズ推定法を著しく上回り,従来の密集撮影方式に匹敵する性能を示した。 また,マルチビューステレオからのシーン復元や,エクストリームビューシナリオにおける新たなビュー合成など,複数の下流タスクの可能性を解き明かした。

Recovering the spatial layout of the cameras and the geometry of the scene from extreme-view images is a longstanding challenge in computer vision. Prevailing 3D reconstruction algorithms often adopt the image matching paradigm and presume that a portion of the scene is co-visible across images, yielding poor performance when there is little overlap among inputs. In contrast, humans can associate visible parts in one image to the corresponding invisible components in another image via prior knowledge of the shapes. Inspired by this fact, we present a novel concept called virtual correspondences (VCs). VCs are a pair of pixels from two images whose camera rays intersect in 3D. Similar to classic correspondences, VCs conform with epipolar geometry; unlike classic correspondences, VCs do not need to be co-visible across views. Therefore VCs can be established and exploited even if images do not overlap. We introduce a method to find virtual correspondences based on humans in the scene. We showcase how VCs can be seamlessly integrated with classic bundle adjustment to recover camera poses across extreme views. Experiments show that our method significantly outperforms state-of-the-art camera pose estimation methods in challenging scenarios and is comparable in the traditional densely captured setup. Our approach also unleashes the potential of multiple downstream tasks such as scene reconstruction from multi-view stereo and novel view synthesis in extreme-view scenarios.
翻訳日:2022-06-17 16:51:18 公開日:2022-06-16
# 事前学習テキスト音声モデルによる韻律自動アノテーション

Automatic Prosody Annotation with Pre-Trained Text-Speech Model ( http://arxiv.org/abs/2206.07956v1 )

ライセンス: Link先を確認
Ziqian Dai, Jianwei Yu, Yan Wang, Nuo Chen, Yanyao Bian, Guangzhi Li, Deng Cai, Dong Yu(参考訳) 韻律境界は自然性と可読性の観点からテキスト音声合成(TTS)において重要な役割を果たす。 しかし、韻律境界ラベルの取得は、コストと時間を要する手動アノテーションに依存している。 本稿では,事前学習した音声エンコーダを用いたニューラルテキスト音声モデルを用いて,テキストオーディオデータから韻律境界ラベルを自動的に抽出する手法を提案する。 このモデルは、テキストデータと音声データに個別に事前訓練され、TTSデータに3重奏形式(speech, text, prosody})で調整される。 自動評価と人間評価の両立に関する実験結果から, 以下のことが分かる。 1) 提案する韻律アノテーションフレームワークは, テキストのみのベースラインを著しく上回っている。 2) 自動韻律境界アノテーションの品質は,人間のアノテーションに匹敵する。 3)モデルアノテート境界で訓練されたttsシステムは,マニュアルシステムよりも若干優れている。

Prosodic boundary plays an important role in text-to-speech synthesis (TTS) in terms of naturalness and readability. However, the acquisition of prosodic boundary labels relies on manual annotation, which is costly and time-consuming. In this paper, we propose to automatically extract prosodic boundary labels from text-audio data via a neural text-speech model with pre-trained audio encoders. This model is pre-trained on text and speech data separately and jointly fine-tuned on TTS data in a triplet format: {speech, text, prosody}. The experimental results on both automatic evaluation and human evaluation demonstrate that: 1) the proposed text-speech prosody annotation framework significantly outperforms text-only baselines; 2) the quality of automatic prosodic boundary annotations is comparable to human annotations; 3) TTS systems trained with model-annotated boundaries are slightly better than systems that use manual ones.
翻訳日:2022-06-17 16:33:37 公開日:2022-06-16
# 幼児の言語発達テストにおける非単語の発音分類

Nonwords Pronunciation Classification in Language Development Tests for Preschool Children ( http://arxiv.org/abs/2206.08058v1 )

ライセンス: Link先を確認
Ilja Baumann, Dominik Wagner, Sebastian Bayerl, Tobias Bocklet(参考訳) 本研究の目的は,子どもの言語発達が年齢的に適切かどうかを自動評価することである。 この目的のために、音声と言語による検証を行い、聴覚記憶をテストする。 本研究の課題は,話し言葉が正しく発声されたかどうかを判断することである。 低レベル特徴(FFT)、話者埋め込み(ECAPA-TDNN)、グラファイムを動機とした埋め込み(wav2vec 2.0)、セノン(ASR音響モデル)などの言語構造をモデル化するための様々なアプローチを比較した。 それぞれのアプローチはVGGライクな5層CNN分類器の入力を提供する。 ノンワードによる適応についても検討する。 提案システムの評価は,話し言葉の異なる幼稚園の音声記録を用いて行った。 ECAPA-TDNNと低レベルFFT機能は、明示的に音声情報をモデル化しない。wav2vec2.0は、グラファイムラベルに基づいて訓練されており、ASR音響モデルは、(サブ)音声情報を含む。 その結果,音素モデルの方が粒度が高いほど認識率が高くなることがわかった。 VTLNでASR音響モデルの特徴を訓練した最良のシステムは89.4%の精度で、LOC曲線(AUC) 0.923の領域を達成した。 これはFFTベースラインと比較して精度が20.2%、AUCが0.309である。

This work aims to automatically evaluate whether the language development of children is age-appropriate. Validated speech and language tests are used for this purpose to test the auditory memory. In this work, the task is to determine whether spoken nonwords have been uttered correctly. We compare different approaches that are motivated to model specific language structures: Low-level features (FFT), speaker embeddings (ECAPA-TDNN), grapheme-motivated embeddings (wav2vec 2.0), and phonetic embeddings in form of senones (ASR acoustic model). Each of the approaches provides input for VGG-like 5-layer CNN classifiers. We also examine the adaptation per nonword. The evaluation of the proposed systems was performed using recordings from different kindergartens of spoken nonwords. ECAPA-TDNN and low-level FFT features do not explicitly model phonetic information; wav2vec2.0 is trained on grapheme labels, our ASR acoustic model features contain (sub-)phonetic information. We found that the more granular the phonetic modeling is, the higher are the achieved recognition rates. The best system trained on ASR acoustic model features with VTLN achieved an accuracy of 89.4% and an area under the ROC (Receiver Operating Characteristic) curve (AUC) of 0.923. This corresponds to an improvement in accuracy of 20.2% and AUC of 0.309 relative compared to the FFT-baseline.
翻訳日:2022-06-17 16:33:24 公開日:2022-06-16
# 非自己回帰型エンドツーエンド音声認識のための高速かつ高精度並列変換器

Paraformer: Fast and Accurate Parallel Transformer for Non-autoregressive End-to-End Speech Recognition ( http://arxiv.org/abs/2206.08317v1 )

ライセンス: Link先を確認
Zhifu Gao, Shiliang Zhang, Ian McLoughlin, Zhijie Yan(参考訳) トランスフォーマーは最近ASRの分野を支配した。 優れた性能が得られるが、オートレグレッシブ(AR)デコーダが1つずつトークンを生成し、これは計算的に非効率である。 推論を高速化するため、単一ステップのNARのような非自己回帰(NAR)手法が設計され、並列生成が可能になった。 しかし、出力トークン内の独立性の仮定のため、単一ステップのNARの性能はARモデル、特に大規模コーパスよりも劣る。 ひとつは、出力トークンの数を正確に予測し、隠れた変数を抽出すること、もうひとつは、出力トークン間の相互依存性のモデリングを強化することである。 両課題に対処するため,Paraformerと呼ばれる高速かつ高精度な並列トランスを提案する。 これは連続的な統合とファイアベースの予測器を使用してトークンの数を予測し、隠れた変数を生成する。 グリランシング言語モデル(GLM)は、コンテキスト相互依存性をモデル化するNARデコーダの能力を高めるためにセマンティック埋め込みを生成する。 最後に,最小単語誤り率トレーニングのための負のサンプルを生成する戦略を考案し,さらに性能を向上させる。 パブリックなAISHELL-1、AISHELL-2ベンチマーク、産業レベルの20,000時間のタスクを使用した実験は、提案されたParaformerが10倍以上のスピードアップで最先端のARトランスフォーマーと同等のパフォーマンスを達成できることを実証している。

Transformers have recently dominated the ASR field. Although able to yield good performance, they involve an autoregressive (AR) decoder to generate tokens one by one, which is computationally inefficient. To speed up inference, non-autoregressive (NAR) methods, e.g. single-step NAR, were designed, to enable parallel generation. However, due to an independence assumption within the output tokens, performance of single-step NAR is inferior to that of AR models, especially with a large-scale corpus. There are two challenges to improving single-step NAR: Firstly to accurately predict the number of output tokens and extract hidden variables; secondly, to enhance modeling of interdependence between output tokens. To tackle both challenges, we propose a fast and accurate parallel transformer, termed Paraformer. This utilizes a continuous integrate-and-fire based predictor to predict the number of tokens and generate hidden variables. A glancing language model (GLM) sampler then generates semantic embeddings to enhance the NAR decoder's ability to model context interdependence. Finally, we design a strategy to generate negative samples for minimum word error rate training to further improve performance. Experiments using the public AISHELL-1, AISHELL-2 benchmark, and an industrial-level 20,000 hour task demonstrate that the proposed Paraformer can attain comparable performance to the state-of-the-art AR transformer, with more than 10x speedup.
翻訳日:2022-06-17 16:33:00 公開日:2022-06-16
# argoverse2 challenge 2022 - motion forecasting task の技術報告

Technical Report for Argoverse2 Challenge 2022 -- Motion Forecasting Task ( http://arxiv.org/abs/2206.07934v1 )

ライセンス: Link先を確認
Chen Zhang, Honglin Sun, Chen Chen, Yandong Guo(参考訳) 我々は境界認識ネットワークであるbanetと呼ばれる動作予測モデルを提案し, lanegcn の変種である。 ベクトルマップノードの埋め込み特性を得るためには,レーン中心線のみを入力として使用するだけでは不十分である。 レーンの中心線はレーンのトポロジーのみを提供することができ、ベクターマップの他の要素も豊富な情報を含んでいる。 例えば、車線境界は、非常に重要な車線変更が可能かどうかなどの交通規則制約情報を提供することができる。 そこで,我々は2022年のargoverse2モーション予測チャレンジにおいて,より多くのベクターマップ要素をエンコードすることで,よりよい性能を達成し,テストリーダボード上では第2位となった。

We propose a motion forecasting model called BANet, which means Boundary-Aware Network, and it is a variant of LaneGCN. We believe that it is not enough to use only the lane centerline as input to obtain the embedding features of the vector map nodes. The lane centerline can only provide the topology of the lanes, and other elements of the vector map also contain rich information. For example, the lane boundary can provide traffic rule constraint information such as whether it is possible to change lanes which is very important. Therefore, we achieved better performance by encoding more vector map elements in the motion forecasting model.We report our results on the 2022 Argoverse2 Motion Forecasting challenge and rank 2nd on the test leaderboard.
翻訳日:2022-06-17 16:32:13 公開日:2022-06-16
# アルツハイマー病予測のための不完全縦型およびマルチモーダルデータに基づくマルチビューインプテーションとクロス・アテンション・ネットワーク

Multi-View Imputation and Cross-Attention Network Based on Incomplete Longitudinal and Multi-Modal Data for Alzheimer's Disease Prediction ( http://arxiv.org/abs/2206.08019v1 )

ライセンス: Link先を確認
Meiyan Huang, Tao Wang, Xiumei Chen, Xiaoling Zhang, Shuoling Zhou and Qianjin Feng(参考訳) 縦・多モードデータに固有の経時的変化と相補的情報は、アルツハイマー病(AD)の予測において重要な役割を担っている。 しかし、長手およびマルチモーダルデータの欠落は、これらのデータの効果的な適用を妨げる可能性がある。 さらに, 既往の経年変化予測には, 既往の経年データが必要であるが, AD予測は臨床実習において患者のベースライン訪問(BL)において行われることが期待される。 そこで我々は,データインプットとAD予測を統合し,正確なAD予測を実現するためのマルチビュー・インプット・クロスアテンション・ネットワーク(MCNet)を提案する。 まず,多視点インプテーション法と逆学習を組み合わせることで,様々なデータ状況に対応でき,インプテーション誤差を低減できることを示す。 第2に、2つのクロスアテンションブロックを導入し、長手およびマルチモーダルデータの潜在的な関連性を利用した。 最後に、データ計算、縦型分類、AD予測タスクのためのマルチタスク学習モデルを構築した。 モデルが適切に訓練された場合、長手データから得られた疾患進行情報をBLデータにより活用し、AD予測を改善する。 提案手法は,2つの独立したテストセットと単一モデルデータを用いて,AD予測の有効性と柔軟性を検証した。 その結果,mcnetは最先端の手法よりも優れていた。 さらに,mcnetの解釈可能性を示した。 したがって、我々のMCNetは、AD予測のための長手およびマルチモーダルデータ解析に優れた応用可能性を持つツールである。 コードはhttps://github.com/Meiyan88/MCNETで入手できる。

Longitudinal variations and complementary information inherent in longitudinal and multi-modal data play an important role in Alzheimer's disease (AD) prediction, particularly in identifying subjects with mild cognitive impairment who are about to have AD. However, longitudinal and multi-modal data may have missing data, which hinders the effective application of these data. Additionally, previous longitudinal studies require existing longitudinal data to achieve prediction, but AD prediction is expected to be conducted at patients' baseline visit (BL) in clinical practice. Thus, we proposed a multi-view imputation and cross-attention network (MCNet) to integrate data imputation and AD prediction in a unified framework and achieve accurate AD prediction. First, a multi-view imputation method combined with adversarial learning, which can handle a wide range of missing data situations and reduce imputation errors, was presented. Second, two cross-attention blocks were introduced to exploit the potential associations in longitudinal and multi-modal data. Finally, a multi-task learning model was built for data imputation, longitudinal classification, and AD prediction tasks. When the model was properly trained, the disease progression information learned from longitudinal data can be leveraged by BL data to improve AD prediction. The proposed method was tested on two independent testing sets and single-model data at BL to verify its effectiveness and flexibility on AD prediction. Results showed that MCNet outperformed several state-of-the-art methods. Moreover, the interpretability of MCNet was presented. Thus, our MCNet is a tool with a great application potential in longitudinal and multi-modal data analysis for AD prediction. Codes are available at https://github.com/Meiyan88/MCNET.
翻訳日:2022-06-17 16:31:57 公開日:2022-06-16
# DeepFormableTag: 変形可能なフィジュアルマーカーのエンドツーエンド生成と認識

DeepFormableTag: End-to-end Generation and Recognition of Deformable Fiducial Markers ( http://arxiv.org/abs/2206.08026v1 )

ライセンス: Link先を確認
Mustafa B. Yaldiz, Andreas Meuleman, Hyeonjoong Jang, Hyunho Ha, Min H. Kim(参考訳) fiducial markerは、カメラが検出できるオブジェクトの識別やメッセージの埋め込みに広く使われている。 既存の検出方法は、マーカーが理想的に平面面に印刷されていると仮定する。 マーカーはしばしば、光学的/観察的歪みと動きのぼかしの様々な画像アーティファクトのために認識されない。 まず,図形マーカー生成器が自由形式のカラーパターンのセットを作成し,視覚的コードで大規模情報を符号化する手法を提案する。 第二に、微分可能な画像シミュレータは、デフォルメ付きフォトリアリスティックシーンイメージのトレーニングデータセットを作成し、最適化時に異なる方法でレンダリングする。 レンダリングされた画像には、スペックル反射による現実的なシェーディング、光学歪み、デフォーカスと動きのぼかし、色の変化、画像ノイズ、マーカーの形状変形が含まれる。 最後に、訓練されたマーカー検出器は、関心領域を求め、逆変形変換を介して複数のマーカーパターンを同時に認識する。 変形マーカー作成ネットワークと検出器ネットワークは、両端から端まで微分可能なフォトリアリスティックレンダラーを介して協調的に最適化されており、変形マーカーの広い範囲を高精度に認識することができる。 変形可能なマーカーシステムは、36ビットのメッセージを29fps程度の形状変形で復号することができる。 その結果,本システムは従来のマーカー法やデータ駆動マーカー法よりも優れていた。 学習に基づくマーカーシステムは、人体の費用対効果の高いモーションキャプチャ、我々のfiducial markersの配列を構造化光パターンとして使用したアクティブ3dスキャン、動的表面上の仮想物体の堅牢な拡張現実レンダリングなど、fiducial markersの新たな興味深い応用を開拓します。

Fiducial markers have been broadly used to identify objects or embed messages that can be detected by a camera. Primarily, existing detection methods assume that markers are printed on ideally planar surfaces. Markers often fail to be recognized due to various imaging artifacts of optical/perspective distortion and motion blur. To overcome these limitations, we propose a novel deformable fiducial marker system that consists of three main parts: First, a fiducial marker generator creates a set of free-form color patterns to encode significantly large-scale information in unique visual codes. Second, a differentiable image simulator creates a training dataset of photorealistic scene images with the deformed markers, being rendered during optimization in a differentiable manner. The rendered images include realistic shading with specular reflection, optical distortion, defocus and motion blur, color alteration, imaging noise, and shape deformation of markers. Lastly, a trained marker detector seeks the regions of interest and recognizes multiple marker patterns simultaneously via inverse deformation transformation. The deformable marker creator and detector networks are jointly optimized via the differentiable photorealistic renderer in an end-to-end manner, allowing us to robustly recognize a wide range of deformable markers with high accuracy. Our deformable marker system is capable of decoding 36-bit messages successfully at ~29 fps with severe shape deformation. Results validate that our system significantly outperforms the traditional and data-driven marker methods. Our learning-based marker system opens up new interesting applications of fiducial markers, including cost-effective motion capture of the human body, active 3D scanning using our fiducial markers' array as structured light patterns, and robust augmented reality rendering of virtual objects on dynamic surfaces.
翻訳日:2022-06-17 16:31:21 公開日:2022-06-16
# バーチャルリアリティにおけるジェスチャベースロコモーションにおけるレイピーの学習効果

Learning Effect of Lay People in Gesture-Based Locomotion in Virtual Reality ( http://arxiv.org/abs/2206.08076v1 )

ライセンス: Link先を確認
Alexander Sch\"afer, Gerd Reis, Didier Stricker(参考訳) Locomotion in Virtual Reality (VR)はVRアプリケーションにおいて重要な部分である。 多くの科学者が、VRの移動を可能にするさまざまなバリエーションでコミュニティを豊かにしている。 最も有望な方法はジェスチャーベースであり、追加のハンドヘルドハードウェアを必要としない。 最近の研究は、主に異なるロコモーションテクニックのユーザ好みとパフォーマンスに焦点を当てている。 これは、新しい方法が検討されている間、ユーザーが通る学習効果を無視します。 本研究は,VRにおける手のジェスチャーに基づく移動システムへの適応の迅速さについて検討した。 4つの異なる移動技術が参加者によって実装され、テストされる。 この論文の目的は2つある: まず、研究者が研究における学習効果を考えることを奨励することである。 第2に,ジェスチャーシステムにおけるユーザの学習効果に関する知見を提供する。

Locomotion in Virtual Reality (VR) is an important part of VR applications. Many scientists are enriching the community with different variations that enable locomotion in VR. Some of the most promising methods are gesture-based and do not require additional handheld hardware. Recent work focused mostly on user preference and performance of the different locomotion techniques. This ignores the learning effect that users go through while new methods are being explored. In this work, it is investigated whether and how quickly users can adapt to a hand gesture-based locomotion system in VR. Four different locomotion techniques are implemented and tested by participants. The goal of this paper is twofold: First, it aims to encourage researchers to consider the learning effect in their studies. Second, this study aims to provide insight into the learning effect of users in gesture-based systems.
翻訳日:2022-06-17 16:30:49 公開日:2022-06-16
# 1台のデバイス上でのレベル2の自動運転:openpilotの悪魔に潜り込む

Level 2 Autonomous Driving on a Single Device: Diving into the Devils of Openpilot ( http://arxiv.org/abs/2206.08176v1 )

ライセンス: Link先を確認
Li Chen, Tutian Tang, Zhitian Cai, Yang Li, Penghao Wu, Hongyang Li, Jianping Shi, Junchi Yan, Yu Qiao(参考訳) センサーが幅広く備わっているため、自律運転ソリューションは安全なシステム設計のためのモジュラー指向化が進んでいる。 これらのセンサーは確固たる基盤を築いているが、これまでの大量生産ソリューションのほとんどはl2段階にある。 その中でもComma.aiは、カメラとボードを内蔵した999ドルのアフターマーケットデバイスがL2シナリオを処理できる、と主張している。 Comma.aiがリリースした全システムのオープンソースソフトウェアとともに、プロジェクトはOpenpilotと名付けられた。 可能ですか? もしそうなら、どうやって可能でしょうか? 好奇心を念頭に置いて、私たちはopenpilotを深く掘り下げて、成功への鍵は従来のモジュラーフレームワークではなくエンドツーエンドのシステム設計にあると結論付けました。 モデルはスーパーコンボ(supercombo)と略され、単眼入力からエゴの将来の軌道や他の道路の意味を予測できる。 残念ながら、これらすべての作業を行うためのトレーニングプロセスと大量のデータは、公開されていない。 集中的な調査を実現するため、トレーニングの詳細を再実装し、公開ベンチマークでパイプラインをテストする。 この研究で提案されたリファクタリングされたネットワークはOP-Deepdiveと呼ばれる。 私たちのバージョンとオリジナルのsupercomboを公正に比較するために、実世界の運転性能をテストするためにデュアルモデルデプロイメントスキームを導入します。 nuScenes、Comma2k19、CARLA、および社内の現実的なシナリオに関する実験結果は、低コストのデバイスがほとんどのL2機能を実現でき、オリジナルのSupercomboモデルと同等であることを確認した。 このレポートでは、最新の調査結果を共有し、産業製品レベルでのエンド・ツー・エンドの自動運転の新しい視点に光を当て、コミュニティにパフォーマンス向上の継続を促す可能性がある。 私たちのコード、ベンチマークはhttps://github.com/OpenPerceptionX/Openpilot-Deepdive.orgにある。

Equipped with a wide span of sensors, predominant autonomous driving solutions are becoming more modular-oriented for safe system design. Though these sensors have laid a solid foundation, most massive-production solutions up to date still fall into L2 phase. Among these, Comma.ai comes to our sight, claiming one $999 aftermarket device mounted with a single camera and board inside owns the ability to handle L2 scenarios. Together with open-sourced software of the entire system released by Comma.ai, the project is named Openpilot. Is it possible? If so, how is it made possible? With curiosity in mind, we deep-dive into Openpilot and conclude that its key to success is the end-to-end system design instead of a conventional modular framework. The model is briefed as Supercombo, and it can predict the ego vehicle's future trajectory and other road semantics on the fly from monocular input. Unfortunately, the training process and massive amount of data to make all these work are not publicly available. To achieve an intensive investigation, we try to reimplement the training details and test the pipeline on public benchmarks. The refactored network proposed in this work is referred to as OP-Deepdive. For a fair comparison of our version to the original Supercombo, we introduce a dual-model deployment scheme to test the driving performance in the real world. Experimental results on nuScenes, Comma2k19, CARLA, and in-house realistic scenarios verify that a low-cost device can indeed achieve most L2 functionalities and be on par with the original Supercombo model. In this report, we would like to share our latest findings, shed some light on the new perspective of end-to-end autonomous driving from an industrial product-level side, and potentially inspire the community to continue improving the performance. Our code, benchmarks are at https://github.com/OpenPerceptionX/Openpilot-Deepdive.
翻訳日:2022-06-17 16:29:58 公開日:2022-06-16
# 雨条件下における実世界単一画像超解像

Real-World Single Image Super-Resolution Under Rainy Condition ( http://arxiv.org/abs/2206.08345v1 )

ライセンス: Link先を確認
Mohammad Shahab Uddin(参考訳) 画像超解像はコンピュータビジョンにおいて重要な研究領域であり、監視、医用画像など様々な応用がある。 実世界の信号画像スーパーレゾリューションは、そのリアルタイム応用により、現在非常に人気のあるものとなっている。 挑戦的な気象シナリオにおいて、特に超高解像度の現実世界のイメージを改善するためのスコープは、まだたくさんある。 本稿では,降雨条件下で実世界の単一画像の超解像を行うための新しいアルゴリズムを提案する。 提案手法は,超解像時の雨条件の影響を軽減できる。 実験の結果,提案アルゴリズムは降雨の負の効果を低減させる画像超解像を行うことができることがわかった。

Image super-resolution is an important research area in computer vision that has a wide variety of applications including surveillance, medical imaging etc. Real-world signal image super-resolution has become very popular now-a-days due to its real-time application. There are still a lot of scopes to improve real-world single image super-resolution specially during challenging weather scenarios. In this paper, we have proposed a new algorithm to perform real-world single image super-resolution during rainy condition. Our proposed method can mitigate the influence of rainy conditions during image super-resolution. Our experiment results show that our proposed algorithm can perform image super-resolution decreasing the negative effects of the rain.
翻訳日:2022-06-17 16:29:26 公開日:2022-06-16
# 地上のUAV:DARPA SubTにおける地下探査と救助のための協力的自律性

UAVs Beneath the Surface: Cooperative Autonomy for Subterranean Search and Rescue in DARPA SubT ( http://arxiv.org/abs/2206.08185v1 )

ライセンス: Link先を確認
Matej Petrlik, Pavel Petracek, Vit Kratky, Tomas Musil, Yurii Stasinchuk, Matous Vrba, Tomas Baca, Daniel Hert, Martin Pecka, Tomas Svoboda, Martin Saska(参考訳) 本稿では,複雑なトポロジーを有する地下領域における自律協調型uavの探索・救難操作に対する新しいアプローチを提案する。 提案されたシステムは、DARPA SubTファイナルのVirtual TrackでCTU-CRAS-NORLABチームの一員として第2位にランクされた。 仮想軌道専用に開発された勝利のソリューションとは対照的に、提案されたソリューションは、現実世界の競争の極端に厳しく制限された環境で飛行する物理的UAVに展開するための堅牢なシステムであることが証明された。 提案したアプローチは,シームレスなシミュレーションとワールドトランスファーを備えたUAVチームの完全自律分散デプロイを可能にし,多様な環境の飛行可能な領域において,より少ない移動型UGVチームに対して,その優位性を証明している。 この論文の主な貢献は、マッピングとナビゲーションのパイプラインにある。 このマッピングアプローチでは、効率的なリスク対応長距離計画のためのspheremap、表面カバレッジのためのfacetmap、低帯域幅通信下でのマルチロボット協調を可能にする圧縮トポロジカルボリュームltvmapという新しいマップ表現が採用されている。 これらの表現は、一般的な3次元環境における視認性に制約のある情報探索のための新しい手法とともに、環境構造を仮定せずにナビゲーションに使用される。 提案ソリューションには、専用のGPUを使わずに、4つのRGBストリームで関心のあるオブジェクトを5Hzで検出およびローカライズするための視覚知覚パイプラインも含まれている。 DARPA SubTへの参加とは別に、UAVシステムの性能は、質的および定量的評価の両面から、多様な環境における広範な実験的検証によって支えられている。

This paper presents a novel approach for autonomous cooperating UAVs in search and rescue operations in subterranean domains with complex topology. The proposed system was ranked second in the Virtual Track of the DARPA SubT Finals as part of the team CTU-CRAS-NORLAB. In contrast to the winning solution that was developed specifically for the Virtual Track, the proposed solution also proved to be a robust system for deployment onboard physical UAVs flying in the extremely harsh and confined environment of the real-world competition. The proposed approach enables fully autonomous and decentralized deployment of a UAV team with seamless simulation-to-world transfer, and proves its advantage over less mobile UGV teams in the flyable space of diverse environments. The main contributions of the paper are present in the mapping and navigation pipelines. The mapping approach employs novel map representations -- SphereMap for efficient risk-aware long-distance planning, FacetMap for surface coverage, and the compressed topological-volumetric LTVMap for allowing multi-robot cooperation under low-bandwidth communication. These representations are used in navigation together with novel methods for visibility-constrained informed search in a general 3D environment with no assumptions about the environment structure, while balancing deep exploration with sensor-coverage exploitation. The proposed solution also includes a visual-perception pipeline for on-board detection and localization of objects of interest in four RGB stream at 5 Hz each without a dedicated GPU. Apart from participation in the DARPA SubT, the performance of the UAV system is supported by extensive experimental verification in diverse environments with both qualitative and quantitative evaluation.
翻訳日:2022-06-17 16:29:15 公開日:2022-06-16
# BlindFL: データを覗かずに、垂直にフェデレーションされた機械学習

BlindFL: Vertical Federated Machine Learning without Peeking into Your Data ( http://arxiv.org/abs/2206.07975v1 )

ライセンス: Link先を確認
Fangcheng Fu, Huanran Xue, Yong Cheng, Yangyu Tao, Bin Cui(参考訳) プライバシ保護に対する懸念が高まっているため、セキュリティ保証のあるさまざまなデータソース上で機械学習(ML)モデルを構築する方法が人気を集めている。 Vertical Federated Learning (VFL)は、MLモデルが、さまざまな参加者のプライベートデータに基づいて構築され、同じインスタンスの非結合機能を持つ場合について説明している。 それにもかかわらず、vflの既存のソリューションは限られた種類の入力機能をサポートするか、フェデレーション実行中に潜在的なデータ漏洩に悩まされている。 そこで本研究では,VFLシナリオにおけるMLモードの機能とセキュリティの両面について検討する。 具体的には、VFLトレーニングと推論のための新しいフレームワークであるBlindFLを紹介する。 まず、VFLモデルの機能性に対処するため、異なるパーティからのデータを統一するフェデレーションされたソース層を提案する。 各種の特徴は, 密度, スパース, 数値, カテゴリー的特徴など, 連合源層によって効率的に支持することができる。 第2に、フェデレーション実行中のセキュリティを慎重に分析し、プライバシ要件を形式化する。 この分析に基づいて,セキュアで正確なアルゴリズムプロトコルを考案し,理想現実シミュレーションパラダイムの下でのセキュリティ保証をさらに証明する。 大規模な実験により、BlindFLは多様なデータセットとモデルを効率的にサポートし、堅牢なプライバシー保証を実現する。

Due to the rising concerns on privacy protection, how to build machine learning (ML) models over different data sources with security guarantees is gaining more popularity. Vertical federated learning (VFL) describes such a case where ML models are built upon the private data of different participated parties that own disjoint features for the same set of instances, which fits many real-world collaborative tasks. Nevertheless, we find that existing solutions for VFL either support limited kinds of input features or suffer from potential data leakage during the federated execution. To this end, this paper aims to investigate both the functionality and security of ML modes in the VFL scenario. To be specific, we introduce BlindFL, a novel framework for VFL training and inference. First, to address the functionality of VFL models, we propose the federated source layers to unite the data from different parties. Various kinds of features can be supported efficiently by the federated source layers, including dense, sparse, numerical, and categorical features. Second, we carefully analyze the security during the federated execution and formalize the privacy requirements. Based on the analysis, we devise secure and accurate algorithm protocols, and further prove the security guarantees under the ideal-real simulation paradigm. Extensive experiments show that BlindFL supports diverse datasets and models efficiently whilst achieves robust privacy guarantees.
翻訳日:2022-06-17 16:26:06 公開日:2022-06-16
# RFがCNNとGRUに勝つとき - 暗号化されたマルウェアトラフィック分類のためのディープラーニングと古典的機械学習アプローチの比較-

When a RF Beats a CNN and GRU, Together -- A Comparison of Deep Learning and Classical Machine Learning Approaches for Encrypted Malware Traffic Classification ( http://arxiv.org/abs/2206.08004v1 )

ライセンス: Link先を確認
Adi Lichy, Ofek Bader, Ran Dubin, Amit Dvir, Chen Hajaj(参考訳) インターネットトラフィックの分類は、ネットワーク管理を容易にするために広く使われている。 品質・オブ・サービス(QoS)、品質・オブ・エクスペリエンス(QoE)、ネットワークの可視性、侵入検出、トラフィックトレンド分析において重要な役割を果たす。 ディープラーニング(DL)ベースのソリューションが従来の機械学習(ML)ベースのソリューションよりも優れているという理論的保証はないが、DLベースのモデルは一般的なデフォルトになっている。 本稿では、有名なDLベースモデルとMLベースモデルを比較し、悪意のあるトラフィック分類の場合、最先端のDLベースソリューションが古典的なMLベースモデルを上回るとは限らないことを示す。 マルウェアの検出,マルウェアの分類,ゼロデイアタックの検出,反復的に増加するデータセットの分類など,さまざまなタスクに対して,よく知られた2つのデータセットを使用してこの発見を例示する。 具体的なステートメントを作るために可能なすべてのモデルを評価することは不可能であり、上記の発見はDLベースのモデルを避けるための推奨ではなく、より単純な解が存在するという実証的な証明である。

Internet traffic classification is widely used to facilitate network management. It plays a crucial role in Quality of Services (QoS), Quality of Experience (QoE), network visibility, intrusion detection, and traffic trend analyses. While there is no theoretical guarantee that deep learning (DL)-based solutions perform better than classic machine learning (ML)-based ones, DL-based models have become the common default. This paper compares well-known DL-based and ML-based models and shows that in the case of malicious traffic classification, state-of-the-art DL-based solutions do not necessarily outperform the classical ML-based ones. We exemplify this finding using two well-known datasets for a varied set of tasks, such as: malware detection, malware family classification, detection of zero-day attacks, and classification of an iteratively growing dataset. Note that, it is not feasible to evaluate all possible models to make a concrete statement, thus, the above finding is not a recommendation to avoid DL-based models, but rather empirical proof that in some cases, there are more simplistic solutions, that may perform even better.
翻訳日:2022-06-17 16:24:01 公開日:2022-06-16
# アンサンブル学習に基づく時効硬化アルミニウム合金の硬さ予測

Hardness prediction of age-hardening aluminum alloy based on ensemble learning ( http://arxiv.org/abs/2206.08011v1 )

ライセンス: Link先を確認
Zuo Houchen (1), Jiang Yongquan (2), Yang Yan (2), Liu Baoying (2) and Hu Jie (1) ((1) State Key Labratory of Traction Power, Southwest Jiaotong University, Chengdu, China, (2) School of Computing and Artificial Intelligence, Southwest Jiaotong University, Chengdu, China.)(参考訳) 人工知能の急速な発展に伴い、材料データベースと機械学習の組み合わせにより、材料情報技術の進歩が加速した。 アルミニウム合金は様々な分野で広く使われているため、アルミニウム合金の特性を予測することは重要である。 この論文では、Al-Cu-Mg-X(X:Zn,Zrなど)合金の組成、加齢条件(時間と温度)を入力し、その硬さを予測する。 ディープニューラルネットワークの第2学習者に対して,自動機械学習に基づくアンサンブル学習ソリューションと注意機構をそれぞれ提案する。 実験の結果, 正しい二次学習者を選択することで, モデルの予測精度をさらに向上できることがわかった。 本書では,深層ニューラルネットワークに基づく二次学習者を改善するための注意機構を導入し,より優れた融合モデルを得る。 R-Squareは0.9697、MAEは3.4518HVである。

With the rapid development of artificial intelligence, the combination of material database and machine learning has driven the progress of material informatics. Because aluminum alloy is widely used in many fields, so it is significant to predict the properties of aluminum alloy. In this thesis, the data of Al-Cu-Mg-X (X: Zn, Zr, etc.) alloy are used to input the composition, aging conditions (time and temperature) and predict its hardness. An ensemble learning solution based on automatic machine learning and an attention mechanism introduced into the secondary learner of deep neural network are proposed respectively. The experimental results show that selecting the correct secondary learner can further improve the prediction accuracy of the model. This manuscript introduces the attention mechanism to improve the secondary learner based on deep neural network, and obtains a fusion model with better performance. The R-Square of the best model is 0.9697 and the MAE is 3.4518HV.
翻訳日:2022-06-17 16:23:39 公開日:2022-06-16
# 統計機械学習を用いた原子シミュレーションによる連続体場の自動解析

Automated analysis of continuum fields from atomistic simulations using statistical machine learning ( http://arxiv.org/abs/2206.08048v1 )

ライセンス: Link先を確認
Aruna Prakash and Stefan Sandfeld(参考訳) 分子動力学/静力学の原子論シミュレーションは、小型の塑性の研究に定期的に用いられている。 現代のシミュレーションは数千から数億の原子で行われ、これらの配置のスナップショットは定期的に書き出され、さらなる分析が行われる。 物質挙動の連続体スケール構成モデルは、原子スケールの情報、特に変形機構、総ひずみの調節および個々の粒内の応力およびひずみ場の分割から恩恵を受けることができる。 本研究では,統計データマイニングと機械学習アルゴリズムを用いて,原子シミュレーションにおける連続体場変数の解析を自動化する手法を開発した。 我々は,全ひずみ,弾性ひずみ,ミクロ回転の3つの重要な場変数に着目した。 その結果,各粒の弾性ひずみは一様対数正規分布を示し,全ひずみと微小回転場は多様分布を示すことがわかった。 総ひずみ分布のピークをガウス混合モデルで同定し, オーバーフィッティング問題を回避する手法を提案する。 次に, 粒内における変形機構の観点から同定されたピークを評価し, 個々の変形機構が関与するひずみの定量化に寄与する。 すべての粒子上の分布の全体統計は、より高いスケールモデルにとって重要な入力であり、最終的に現象学的モデルへの情報伝達の意義を定量的に議論するのに役立つ。

Atomistic simulations of the molecular dynamics/statics kind are regularly used to study small scale plasticity. Contemporary simulations are performed with tens to hundreds of millions of atoms, with snapshots of these configurations written out at regular intervals for further analysis. Continuum scale constitutive models for material behavior can benefit from information on the atomic scale, in particular in terms of the deformation mechanisms, the accommodation of the total strain and partitioning of stress and strain fields in individual grains. In this work we develop a methodology using statistical data mining and machine learning algorithms to automate the analysis of continuum field variables in atomistic simulations. We focus on three important field variables: total strain, elastic strain and microrotation. Our results show that the elastic strain in individual grains exhibits a unimodal log-normal distribution, whilst the total strain and microrotation fields evidence a multimodal distribution. The peaks in the distribution of total strain are identified with a Gaussian mixture model and methods to circumvent overfitting problems are presented. Subsequently, we evaluate the identified peaks in terms of deformation mechanisms in a grain, which e.g., helps to quantify the strain for which individual deformation mechanisms are responsible. The overall statistics of the distributions over all grains are an important input for higher scale models, which ultimately also helps to be able to quantitatively discuss the implications for information transfer to phenomenological models.
翻訳日:2022-06-17 16:23:25 公開日:2022-06-16
# Edge-PRUNEフレームワークによる耐故障性協調推論

Fault-Tolerant Collaborative Inference through the Edge-PRUNE Framework ( http://arxiv.org/abs/2206.08152v1 )

ライセンス: Link先を確認
Jani Boutellier, Bo Tan, Jari Nurmi(参考訳) 協調推論は、計算負荷を分散し、レイテンシを低減し、通信におけるプライバシー保護に対処する手段として、機械学習に大きな研究関心を集めている。 最近の協調推論フレームワークでは、ニューラルネットワークの早期実行や実行時のパーティショニングのような動的推論手法が採用されている。 しかし、機械学習フレームワークは、例えば監視アプリケーションにおいて、推論入力の数をスケールするため、デバイス障害に関連するフォールトトレランスを考慮する必要がある。 本稿では,フォールトトレラントな協調推論のための柔軟なインフラストラクチャを提供する,形式的に定義された計算モデルに基づくエッジ・プルーン分散コンピューティングフレームワークを提案する。 本研究の実験的セクションでは、協調推論による予測時間削減の達成結果を示し、フォールトトレラントなシステムトポロジを示し、実行時間オーバーヘッドの観点からそれらのコストを分析する。

Collaborative inference has received significant research interest in machine learning as a vehicle for distributing computation load, reducing latency, as well as addressing privacy preservation in communications. Recent collaborative inference frameworks have adopted dynamic inference methodologies such as early-exit and run-time partitioning of neural networks. However, as machine learning frameworks scale in the number of inference inputs, e.g., in surveillance applications, fault tolerance related to device failure needs to be considered. This paper presents the Edge-PRUNE distributed computing framework, built on a formally defined model of computation, which provides a flexible infrastructure for fault tolerant collaborative inference. The experimental section of this work shows results on achievable inference time savings by collaborative inference, presents fault tolerant system topologies and analyzes their cost in terms of execution time overhead.
翻訳日:2022-06-17 16:23:04 公開日:2022-06-16
# 低ランク関数の勾配降下

Gradient Descent for Low-Rank Functions ( http://arxiv.org/abs/2206.08257v1 )

ライセンス: Link先を確認
Romain Cosson, Ali Jadbabaie, Anuran Makur, Amirhossein Reisizadeh, Devavrat Shah(参考訳) 最近の実験研究では、深層ニューラルネットワークのトレーニングのような重要な機械学習タスクが低ランク構造を示しており、損失関数は入力空間のわずか数方向に大きく変化する。 本稿では,このような低ランク構造を利用して,勾配降下 (gd) などの標準勾配に基づく手法の計算コストを低減した。 提案するlrgdアルゴリズムは、まず、r \leq p$ 有意方向を同定し、その後、r$ 方向のみに沿って方向微分を計算して、各イテレーションにおける真の p$ 次元勾配を推定することにより、p$-次元関数の定点である $\epsilon$-approximate stationary point を求める。 強凸および非凸対象関数に対する lrgd の「方向性オラクル複雑性」は、それぞれ $\mathcal{o}(r \log(1/\epsilon) + rp)$ と $\mathcal{o}(r/\epsilon^2 + rp)$ である。 r \ll p$ の場合、これらの複素性は、強凸および非凸設定でそれぞれ $\mathcal{o}(p \log(1/\epsilon))$ と $\mathcal{o}(p/\epsilon^2)$ of {\gd} の既知の複素性よりも小さい。 したがって、LRGDは十分に低ランク関数に対する勾配に基づく手法の計算コストを大幅に削減する。 分析の過程で、我々はまた、厳密かつ概して低ランクな関数のクラスを正式に定義し、特徴づける。

Several recent empirical studies demonstrate that important machine learning tasks, e.g., training deep neural networks, exhibit low-rank structure, where the loss function varies significantly in only a few directions of the input space. In this paper, we leverage such low-rank structure to reduce the high computational cost of canonical gradient-based methods such as gradient descent (GD). Our proposed \emph{Low-Rank Gradient Descent} (LRGD) algorithm finds an $\epsilon$-approximate stationary point of a $p$-dimensional function by first identifying $r \leq p$ significant directions, and then estimating the true $p$-dimensional gradient at every iteration by computing directional derivatives only along those $r$ directions. We establish that the "directional oracle complexities" of LRGD for strongly convex and non-convex objective functions are $\mathcal{O}(r \log(1/\epsilon) + rp)$ and $\mathcal{O}(r/\epsilon^2 + rp)$, respectively. When $r \ll p$, these complexities are smaller than the known complexities of $\mathcal{O}(p \log(1/\epsilon))$ and $\mathcal{O}(p/\epsilon^2)$ of {\gd} in the strongly convex and non-convex settings, respectively. Thus, LRGD significantly reduces the computational cost of gradient-based methods for sufficiently low-rank functions. In the course of our analysis, we also formally define and characterize the classes of exact and approximately low-rank functions.
翻訳日:2022-06-17 16:22:50 公開日:2022-06-16
# シャロンのクレーターの機械生成カタログとカイパーベルトへの示唆

A machine-generated catalogue of Charon's craters and implications for the Kuiper belt ( http://arxiv.org/abs/2206.08277v1 )

ライセンス: Link先を確認
Mohamad Ali-Dib(参考訳) 本稿では,深層学習モデルを用いたCharonのクレーターサイズ分布について検討する。 これは、singer et al. (2019) の最近の結果に動機付けられており、手作業によるカタログ作成により、直径12km以下のクレーターの大きさ分布の勾配が変化し、小型のカイパーベルト天体に翻訳された。 これらの結果はRobins and Singer (2021) によって裏付けられたが、Morbidelli et al. (2021) は反対し、独立したレビューを必要とした。 我々のMaskRCNNベースのモデルアンサンブルは、Lunar、Mercurian、Martianのクレーターカタログと光学的およびデジタル的標高画像に基づいて訓練された。 我々は、モデルに氷のオブジェクトへの一般化と転送を強制するためにロバストな画像拡張スキームを使用する。 先行バイアスやカロンへの曝露がなく、10km以下のクレーターではq =-1.47+-0.33、15km以上のクレーターではq =-2.91+-0.51が最適である。 これらの値は、singer et al. (2019) が示唆する15km前後の傾斜の明確な変化を示し、その結果を独立に確認する。 しかし、我々の斜面は、Robins と Singer (2021) が最近発見した斜面よりもわずかに平坦である。 トレーニング済みのモデルと関連するコードはgithub.com/malidib/acidでオンラインで利用できます。

In this paper we investigate Charon's craters size distribution using a deep learning model. This is motivated by the recent results of Singer et al. (2019) who, using manual cataloging, found a change in the size distribution slope of craters smaller than 12 km in diameter, translating into a paucity of small Kuiper Belt objects. These results were corroborated by Robbins and Singer (2021), but opposed by Morbidelli et al. (2021), necessitating an independent review. Our MaskRCNN-based ensemble of models was trained on Lunar, Mercurian, and Martian crater catalogues and both optical and digital elevation images. We use a robust image augmentation scheme to force the model to generalize and transfer-learn into icy objects. With no prior bias or exposure to Charon, our model find best fit slopes of q =-1.47+-0.33 for craters smaller than 10 km, and q =-2.91+-0.51 for craters larger than 15 km. These values indicate a clear change in slope around 15 km as suggested by Singer et al. (2019) and thus independently confirm their conclusions. Our slopes however are both slightly flatter than those found more recently by Robbins and Singer (2021). Our trained models and relevant codes are available online on github.com/malidib/ACID .
翻訳日:2022-06-17 16:22:11 公開日:2022-06-16
# (参考訳) FWD:フォワードワープと深さを用いたリアルタイム新しいビュー合成

FWD: Real-time Novel View Synthesis with Forward Warping and Depth ( http://arxiv.org/abs/2206.08355v1 )

ライセンス: CC BY 4.0
Ang Cao, Chris Rockwell, Justin Johnson(参考訳) 新しいビュー合成(NVS)は、アプリケーションにとって品質と速度の両方が重要である新しい視点からシーンの写実的画像を生成するシステムを必要とする課題である。 従来のイメージベースレンダリング(ibr)メソッドは高速だが、入力ビューがスパースする場合は品質が劣る。 最近のneural radiance field (nerf)とgeneralizable variantsは印象的な結果をもたらすが、リアルタイムではない。 本稿では,高品位な合成をリアルタイムに行うために,スパース入力を用いた一般化したnvs法を提案する。 鮮明な深度と異なるレンダリングにより、130-1000倍のスピードアップと知覚品質の優れたSOTA法と競合する結果が得られる。 利用可能であれば、トレーニング中や推論中にセンサーの深度をシームレスに統合して、リアルタイムな速度を維持しながら画質を向上させることができる。 深度センサの普及に伴い、深さを利用した方法がますます有用になることを願っている。

Novel view synthesis (NVS) is a challenging task requiring systems to generate photorealistic images of scenes from new viewpoints, where both quality and speed are important for applications. Previous image-based rendering (IBR) methods are fast, but have poor quality when input views are sparse. Recent Neural Radiance Fields (NeRF) and generalizable variants give impressive results but are not real-time. In our paper, we propose a generalizable NVS method with sparse inputs, called FWD, which gives high-quality synthesis in real-time. With explicit depth and differentiable rendering, it achieves competitive results to the SOTA methods with 130-1000x speedup and better perceptual quality. If available, we can seamlessly integrate sensor depth during either training or inference to improve image quality while retaining real-time speed. With the growing prevalence of depths sensors, we hope that methods making use of depth will become increasingly useful.
翻訳日:2022-06-17 16:21:14 公開日:2022-06-16
# Dual Contrastive Attributed Graph Clustering Network

Dual Contrastive Attributed Graph Clustering Network ( http://arxiv.org/abs/2206.07897v1 )

ライセンス: Link先を確認
Tong Wang, Guanyu Yang, Junhua Wu, Qijia He, and Zhenquan Zhang(参考訳) フェクトグラフクラスタリングは、グラフ分析の分野で最も重要なタスクの1つであり、手動のガイダンスなしで、同じ表現を持つノードを同じクラスタにグループ化するのが目標である。 グラフコントラスト学習に基づく最近の研究は,グラフ構造化データの処理において顕著な成果を上げている。 しかし、既存のグラフコントラスト学習に基づく手法 1) 表現学習とクラスタリングプロセスが分離されているため,クラスタリングタスクに直接対処しない。 2)グラフデータの強化に大きく依存するので,コントラスト学習の能力は大きく制限される。 3) サブスペースクラスタリングのコントラストメッセージは無視する。 上記の問題に対処するため,DCAGC(Dual Contrastive Attributed Graph Clustering Network)と呼ばれる汎用フレームワークを提案する。 DCAGCでは、隣接コントラストモジュールを利用することで、近隣ノードの類似性を最大化し、ノード表現の品質を向上させる。 一方、自己表現層の再構築前後のノード表現を最小化し、スペクトルクラスタリングのための識別的自己表現行列を得ることで、対比自己表現モジュールを構築する。 DCAGCのすべてのモジュールは、統一されたフレームワークでトレーニングされ、最適化されているため、学習されたノード表現にはクラスタリング指向のメッセージが含まれている。 4つの属性グラフデータセットの総合的な実験結果から,DCAGCは16の最先端クラスタリング法に比べて優れていた。 この記事のコードはhttps://github.com/wangtong627/Dual-Contrastive-Attributed-Graph-Clustering-Networkで公開されている。

Attributed graph clustering is one of the most important tasks in graph analysis field, the goal of which is to group nodes with similar representations into the same cluster without manual guidance. Recent studies based on graph contrastive learning have achieved impressive results in processing graph-structured data. However, existing graph contrastive learning based methods 1) do not directly address the clustering task, since the representation learning and clustering process are separated; 2) depend too much on graph data augmentation, which greatly limits the capability of contrastive learning; 3) ignore the contrastive message for subspace clustering. To accommodate the aforementioned issues, we propose a generic framework called Dual Contrastive Attributed Graph Clustering Network (DCAGC). In DCAGC, by leveraging Neighborhood Contrast Module, the similarity of the neighbor nodes will be maximized and the quality of the node representation will be improved. Meanwhile, the Contrastive Self-Expression Module is built by minimizing the node representation before and after the reconstruction of the self-expression layer to obtain a discriminative self-expression matrix for spectral clustering. All the modules of DCAGC are trained and optimized in a unified framework, so the learned node representation contains clustering-oriented messages. Extensive experimental results on four attributed graph datasets show the superiority of DCAGC compared with 16 state-of-the-art clustering methods. The code of this paper is available at https://github.com/wangtong627/Dual-Contrastive-Attributed-Graph-Clustering-Network.
翻訳日:2022-06-17 16:01:28 公開日:2022-06-16
# LiDARのないBEV知覚のための簡易ベースライン

A Simple Baseline for BEV Perception Without LiDAR ( http://arxiv.org/abs/2206.07959v1 )

ライセンス: Link先を確認
Adam W. Harley and Zhaoyuan Fang and Jie Li and Rares Ambrus and Katerina Fragkiadaki(参考訳) LiDARシステムに頼らない自動運転車の3D認識システムの構築は、カメラや他のセンサーと比較してLiDARシステムのコストが高いため、重要な研究課題である。 現在の方法では、車両の周囲のカメラから収集された多視点RGBデータと、視線画像から2D地上面へのニューラルな「リフト」特徴を使い、車両周辺の3D空間の「鳥の目視」(BEV)特徴表現が得られる。 最近の研究は、画像からBEV平面へ機能を持ち上げる方法に焦点を当てている。 その代わりに、単純なベースラインモデルを提案し、"リフト"ステップは単純に全ての投影された画像位置から特徴を平均し、BEV車両セグメンテーションにおける現在の最先端技術よりも優れていることを確かめる。 私たちの短縮は、バッチサイズ、データ拡張、入力解像度がパフォーマンスに大きな役割を果たしていることを示している。 また,これまで無視されたか,あるいは近年の研究で役に立たなかったレーダー入力の有用性を再考する。 単純なRGB-レーダー融合モジュールを用いて,LiDAR対応システムの精度にアプローチして,大幅な性能向上を実現する。

Building 3D perception systems for autonomous vehicles that do not rely on LiDAR is a critical research problem because of the high expense of LiDAR systems compared to cameras and other sensors. Current methods use multi-view RGB data collected from cameras around the vehicle and neurally "lift" features from the perspective images to the 2D ground plane, yielding a "bird's eye view" (BEV) feature representation of the 3D space around the vehicle. Recent research focuses on the way the features are lifted from images to the BEV plane. We instead propose a simple baseline model, where the "lifting" step simply averages features from all projected image locations, and find that it outperforms the current state-of-the-art in BEV vehicle segmentation. Our ablations show that batch size, data augmentation, and input resolution play a large part in performance. Additionally, we reconsider the utility of radar input, which has previously been either ignored or found non-helpful by recent works. With a simple RGB-radar fusion module, we obtain a sizable boost in performance, approaching the accuracy of a LiDAR-enabled system.
翻訳日:2022-06-17 16:01:05 公開日:2022-06-16
# DreamNet:視覚分類のためのSPDマニフォールド学習に基づくディープリーマンネットワーク

DreamNet: A Deep Riemannian Network based on SPD Manifold Learning for Visual Classification ( http://arxiv.org/abs/2206.07967v1 )

ライセンス: Link先を確認
Rui Wang, Xiao-Jun Wu, Ziheng Chen, Tianyang Xu, Josef Kittler(参考訳) 画像集合に基づく視覚分類法は、対称正定値(SPD)多様体上の非特異共分散行列を用いて画像集合を特徴付けることにより、顕著な性能を達成した。 複雑な視覚シナリオに適応するために、SPD行列非線形処理のためのいくつかのリーマンネットワーク(RiemNets)が最近研究されている。 しかし、RiemNetsの深さを単純に増やすことで、より精度の高いゲインが達成できるかどうかを問う必要がある。 RiemNetsは一般化能力を失う傾向にあるため、この答えは否定的であるようだ。 そこで本研究では,SPD行列学習のための新しいアーキテクチャを提案する。 具体的には、深部表現を豊かにするために、尾部にRiemannian autoencoder (SRAE) を積み重ねたSPDNet [1] をバックボーンとして採用する。 関連する再構成誤り項は、SRAEと各RAEの埋め込み機能を近似IDマッピングとし、統計情報の劣化を防止するのに役立つ。 次に,sraeの表現能力を高めるために近距離接続を持つ残差状ブロックを複数挿入し,より深いネットワークの訓練を簡素化する。 実験により,DreamNetがネットワークの深度を増大させて精度を向上できることが実証された。

Image set-based visual classification methods have achieved remarkable performance, via characterising the image set in terms of a non-singular covariance matrix on a symmetric positive definite (SPD) manifold. To adapt to complicated visual scenarios better, several Riemannian networks (RiemNets) for SPD matrix nonlinear processing have recently been studied. However, it is pertinent to ask, whether greater accuracy gains can be achieved by simply increasing the depth of RiemNets. The answer appears to be negative, as deeper RiemNets tend to lose generalization ability. To explore a possible solution to this issue, we propose a new architecture for SPD matrix learning. Specifically, to enrich the deep representations, we adopt SPDNet [1] as the backbone, with a stacked Riemannian autoencoder (SRAE) built on the tail. The associated reconstruction error term can make the embedding functions of both SRAE and of each RAE an approximate identity mapping, which helps to prevent the degradation of statistical information. We then insert several residual-like blocks with shortcut connections to augment the representational capacity of SRAE, and to simplify the training of a deeper network. The experimental evidence demonstrates that our DreamNet can achieve improved accuracy with increased depth of the network.
翻訳日:2022-06-17 16:00:42 公開日:2022-06-16
# ビデオにおけるマルチモーダル感情分析のためのマルチスケール協調マルチモーダルトランスフォーマ

Multi-scale Cooperative Multimodal Transformers for Multimodal Sentiment Analysis in Videos ( http://arxiv.org/abs/2206.07981v1 )

ライセンス: Link先を確認
Lianyang Ma, Yu Yao, Tao Liang, Tongliang Liu(参考訳) ビデオにおけるマルチモーダル感情分析は、多くの現実世界アプリケーションにおいて重要なタスクであり、視覚、言語、音響的振る舞いを含むマルチモーダルストリームを統合する必要がある。 マルチモーダル核融合の堅牢性を改善するために、既存手法のいくつかは異なるモーダルを相互に通信させ、トランスフォーマーを介して相互モーダル相互作用を変調する。 しかし、これらの手法は相互作用中にのみ単一スケール表現を使用するが、異なるレベルの意味情報を含むマルチスケール表現を利用することを忘れる。 その結果、トランスフォーマーによって学習される表現は、特に不整列マルチモーダルデータに対して偏りがある。 本稿では,マルチモーダル感情分析のためのマルチスケール協調型マルチモーダルトランス (MCMulT) アーキテクチャを提案する。 全体として、"マルチスケール"メカニズムは、細粒度のクロスモーダル相互作用に使用される各モダリティの意味情報の異なるレベルを利用することができる。 一方、各モダリティは、元のモダリティの複数のレベル特徴からのクロスモーダル相互作用を統合することによって特徴階層を学習する。 このように、それぞれのモダリティのペアはそれぞれ協調的な方法で機能階層を段階的に構築する。 実験の結果,mcmultモデルが既存のマルチモーダル配列のアプローチよりも優れているだけでなく,マルチモーダル配列のアライメントの性能も高いことがわかった。

Multimodal sentiment analysis in videos is a key task in many real-world applications, which usually requires integrating multimodal streams including visual, verbal and acoustic behaviors. To improve the robustness of multimodal fusion, some of the existing methods let different modalities communicate with each other and modal the crossmodal interaction via transformers. However, these methods only use the single-scale representations during the interaction but forget to exploit multi-scale representations that contain different levels of semantic information. As a result, the representations learned by transformers could be biased especially for unaligned multimodal data. In this paper, we propose a multi-scale cooperative multimodal transformer (MCMulT) architecture for multimodal sentiment analysis. On the whole, the "multi-scale" mechanism is capable of exploiting the different levels of semantic information of each modality which are used for fine-grained crossmodal interactions. Meanwhile, each modality learns its feature hierarchies via integrating the crossmodal interactions from multiple level features of its source modality. In this way, each pair of modalities progressively builds feature hierarchies respectively in a cooperative manner. The empirical results illustrate that our MCMulT model not only outperforms existing approaches on unaligned multimodal sequences but also has strong performance on aligned multimodal sequences.
翻訳日:2022-06-17 16:00:16 公開日:2022-06-16
# 特徴の精細化と反射復号化に基づく画像キャプション

Image Captioning based on Feature Refinement and Reflective Decoding ( http://arxiv.org/abs/2206.07986v1 )

ライセンス: Link先を確認
Ghadah Alabduljabbar, Hafida Benhidour, Said Kerrache(参考訳) 自然言語で画像の記述を自動的に生成するのは、画像キャプションと呼ばれる。 これは、人工知能、コンピュータビジョン、自然言語処理の2つの主要な分野の交差点にある活発な研究トピックである。 イメージキャプションは、画像内の健全なオブジェクトを認識するだけでなく、それらの属性や相互作用の仕方も認識する必要があるため、画像理解において重要な課題の1つである。 次にシステムは、自然言語で画像内容を記述する構文的かつ意味的に正しいキャプションを生成する必要がある。 ディープラーニングモデルの著しい進歩と、大規模な画像セットを効果的にエンコードし、正しい文を生成する能力によって、ニューラルネットワークに基づくキャプションアプローチが最近提案され、それぞれが精度とキャプション品質の向上を図っている。 本稿では,resnet-101をバックボーンとする高速r-cnnを用いて,画像内の各領域の空間的特徴と大域的特徴を抽出したエンコーダ・デコーダに基づく画像キャプションシステムを提案する。 この段階では、対象のイメージオブジェクトの視覚的特徴を抽出し、それらの相互作用を決定するために、アテンション・オン・アテンション・メカニズムを使用する精細化モデルが続く。 デコーダはアテンションベースのリカレントモジュールとリフレクティブアテンションモジュールで構成されており、視覚的およびテキスト的特徴に協調的に注目することで、デコーダの長期的依存関係をモデル化する能力を高める。 MSCOCOとFlickr30Kという2つのベンチマークデータセットで実施された大規模な実験は、提案手法の有効性と生成されたキャプションの高品質さを示している。

Automatically generating a description of an image in natural language is called image captioning. It is an active research topic that lies at the intersection of two major fields in artificial intelligence, computer vision, and natural language processing. Image captioning is one of the significant challenges in image understanding since it requires not only recognizing salient objects in the image but also their attributes and the way they interact. The system must then generate a syntactically and semantically correct caption that describes the image content in natural language. With the significant progress in deep learning models and their ability to effectively encode large sets of images and generate correct sentences, several neural-based captioning approaches have been proposed recently, each trying to achieve better accuracy and caption quality. This paper introduces an encoder-decoder-based image captioning system in which the encoder extracts spatial and global features for each region in the image using the Faster R-CNN with ResNet-101 as a backbone. This stage is followed by a refining model, which uses an attention-on-attention mechanism to extract the visual features of the target image objects, then determine their interactions. The decoder consists of an attention-based recurrent module and a reflective attention module, which collaboratively apply attention to the visual and textual features to enhance the decoder's ability to model long-term sequential dependencies. Extensive experiments performed on two benchmark datasets, MSCOCO and Flickr30K, show the effectiveness the proposed approach and the high quality of the generated captions.
翻訳日:2022-06-17 15:59:54 公開日:2022-06-16
# 雑音ラベルを用いたロバスト医用画像セグメンテーションに対するジョイントクラスアフィニティ損失補正

Joint Class-Affinity Loss Correction for Robust Medical Image Segmentation with Noisy Labels ( http://arxiv.org/abs/2206.07994v1 )

ライセンス: Link先を確認
Xiaoqing Guo and Yixuan Yuan(参考訳) 限定的なアノテーションコストで収集されたノイズラベルは、医用画像分割アルゴリズムが正確な意味相関を学習することを妨げる。 従来のノイズラベルによる学習のセグメンテーションは、単にピクセルワイズラベルの補正のようなセマンティクスを保存するためにピクセルワイズな方法を実行するだけで、ペアワイズを無視する。 実際、画素間の親和関係をペアワイズにキャプチャすることで、ラベルノイズ率を大幅に低減することができる。 そこで,本研究では,それぞれがノイズクラスと親和性ラベルから監督を導出する画素ワイドとペアワイドの両方を取り入れたノイズ緩和の新たな視点を提案する。 医用画像セグメンテーションにおけるラベルノイズ問題に対処するため, 画素ワイドとペアワイドを一体化して, JCAS(Joint Class-Affinity Segmentation)フレームワークを提案する。 ペアワイズ方式の親和性を考慮すると、クラス内親和関係とクラス間親和関係を推論することにより、画素毎のセグメンテーション予測を正すために微分親和性推論(dar)モジュールが考案される。 耐雑音性をさらに高めるため、クラスアフィニティ損失補正(CALC)戦略は、クラスおよびアフィニティラベルのモデル付きノイズラベル分布を介して監視信号を補正するように設計されている。 一方、CALC戦略は理論的に導出された整合正則化を通じてピクセルワイドおよびペアワイドの方法と相互作用する。 合成および実世界の雑音ラベルを併用した大規模実験は, 上界性能に最小限のギャップを有するJCASフレームワークの有効性を裏付けるものである。 ソースコードは \url{https://github.com/CityU-AIM-Group/JCAS} で入手できる。

Noisy labels collected with limited annotation cost prevent medical image segmentation algorithms from learning precise semantic correlations. Previous segmentation arts of learning with noisy labels merely perform a pixel-wise manner to preserve semantics, such as pixel-wise label correction, but neglect the pair-wise manner. In fact, we observe that the pair-wise manner capturing affinity relations between pixels can greatly reduce the label noise rate. Motivated by this observation, we present a novel perspective for noisy mitigation by incorporating both pixel-wise and pair-wise manners, where supervisions are derived from noisy class and affinity labels, respectively. Unifying the pixel-wise and pair-wise manners, we propose a robust Joint Class-Affinity Segmentation (JCAS) framework to combat label noise issues in medical image segmentation. Considering the affinity in pair-wise manner incorporates contextual dependencies, a differentiated affinity reasoning (DAR) module is devised to rectify the pixel-wise segmentation prediction by reasoning about intra-class and inter-class affinity relations. To further enhance the noise resistance, a class-affinity loss correction (CALC) strategy is designed to correct supervision signals via the modeled noise label distributions in class and affinity labels. Meanwhile, CALC strategy interacts the pixel-wise and pair-wise manners through the theoretically derived consistency regularization. Extensive experiments under both synthetic and real-world noisy labels corroborate the efficacy of the proposed JCAS framework with a minimum gap towards the upper bound performance. The source code is available at \url{https://github.com/CityU-AIM-Group/JCAS}.
翻訳日:2022-06-17 15:59:25 公開日:2022-06-16
# Backbones-Review:Deep LearningとDeep Reinforcement Learningのための特徴抽出ネットワーク

Backbones-Review: Feature Extraction Networks for Deep Learning and Deep Reinforcement Learning Approaches ( http://arxiv.org/abs/2206.08016v1 )

ライセンス: Link先を確認
Omar Elharroussad, Younes Akbari, Noor Almaadeed, Somaya Al-Maadeed(参考訳) 様々な種類のデータを使って現実世界を理解するために、人工知能(AI)が近年最も使われている技術である。 分析データ内のパターンを見つけることは、メインタスクを表します。 これは、統計アルゴリズムや特定のフィルタを用いて進行する代表的特徴ステップを抽出することによって行われる。 しかし,大規模データから有用な機能を選択することは重要な課題であった。 現在、畳み込みニューラルネットワーク(CNN)の開発により、特徴抽出操作はより自動化され、容易になっている。 CNNは、大規模なデータサイズに取り組むだけでなく、特定のタスクのさまざまなシナリオをカバーすることができる。 コンピュータビジョンタスクでは、畳み込みネットワークがディープラーニングモデルの他の部分でも機能を抽出するために使用される。 特徴抽出やDLモデルの他の部分に適したネットワークの選択は、ランダムな作業ではない。 したがって、そのようなモデルの実装は、対象のタスクとそれの計算複雑性に関連付けられる。 多くのネットワークが提案され、あらゆるaiタスクでdlモデルに使用される有名なネットワークとなった。 これらのネットワークは機能抽出やバックボーンと呼ばれる任意のDLモデルの開始時に利用される。 バックボーンは、他の多くのタスクでトレーニングされた既知のネットワークであり、その効果を実証する。 本稿では,VGGs,ResNets,DenseNetなどの既存のバックボーンの概要を詳述する。 また、使用するバックボーンに関する各タスクのレビューを提供することで、コンピュータビジョンタスクの2つについて論じる。 さらに、各タスクに使用されるバックボーンに基づいて、パフォーマンスの面での比較も提供される。

To understand the real world using various types of data, Artificial Intelligence (AI) is the most used technique nowadays. While finding the pattern within the analyzed data represents the main task. This is performed by extracting representative features step, which is proceeded using the statistical algorithms or using some specific filters. However, the selection of useful features from large-scale data represented a crucial challenge. Now, with the development of convolution neural networks (CNNs), the feature extraction operation has become more automatic and easier. CNNs allow to work on large-scale size of data, as well as cover different scenarios for a specific task. For computer vision tasks, convolutional networks are used to extract features also for the other parts of a deep learning model. The selection of a suitable network for feature extraction or the other parts of a DL model is not random work. So, the implementation of such a model can be related to the target task as well as the computational complexity of it. Many networks have been proposed and become the famous networks used for any DL models in any AI task. These networks are exploited for feature extraction or at the beginning of any DL model which is named backbones. A backbone is a known network trained in many other tasks before and demonstrates its effectiveness. In this paper, an overview of the existing backbones, e.g. VGGs, ResNets, DenseNet, etc, is given with a detailed description. Also, a couple of computer vision tasks are discussed by providing a review of each task regarding the backbones used. In addition, a comparison in terms of performance is also provided, based on the backbone used for each task.
翻訳日:2022-06-17 15:58:53 公開日:2022-06-16
# マイトショット画像分類におけるチャンネルの重要性

Channel Importance Matters in Few-Shot Image Classification ( http://arxiv.org/abs/2206.08126v1 )

ライセンス: Link先を確認
Xu Luo, Jing Xu, Zenglin Xu(参考訳) FSL(Few-Shot Learning)は、タスク分布の変化を伴う新しい分類タスクに素早く適応するために視覚モデルを必要とする。 このタスク分散シフトによって引き起こされる困難を理解することは、FSLの中心である。 本稿では,この秘密をチャネルの観点から解き明かす鍵として,単純なチャネルワイドな特徴変換が重要であることを示す。 この変換は、テスト時データセットの新たな少数タスクに直面すると、トレーニングアルゴリズムやデータセットの選択によらず、学習された画像表現の一般化能力を大幅に向上させることができる。 この変換の詳細な分析により、FSLにおける表現伝達の難しさは、画像表現の重大チャネルバイアス問題に起因することが判明した。 これは、現代のビジョンシステムの一般化能力の核となる問題を示しており、将来はさらに注意が必要である。

Few-Shot Learning (FSL) requires vision models to quickly adapt to brand-new classification tasks with a shift in task distribution. Understanding the difficulties posed by this task distribution shift is central to FSL. In this paper, we show that a simple channel-wise feature transformation may be the key to unraveling this secret from a channel perspective. When facing novel few-shot tasks in the test-time datasets, this transformation can greatly improve the generalization ability of learned image representations, while being agnostic to the choice of training algorithms and datasets. Through an in-depth analysis of this transformation, we find that the difficulty of representation transfer in FSL stems from the severe channel bias problem of image representations: channels may have different importance in different tasks, while convolutional neural networks are likely to be insensitive, or respond incorrectly to such a shift. This points out a core problem of the generalization ability of modern vision systems and needs further attention in the future.
翻訳日:2022-06-17 15:58:30 公開日:2022-06-16
# 半教師付きFew-shot分類のための自己適応ラベル拡張

Self-Adaptive Label Augmentation for Semi-supervised Few-shot Classification ( http://arxiv.org/abs/2206.08150v1 )

ライセンス: Link先を確認
Xueliang Wang, Jianyu Cai, Shuiwang Ji, Houqiang Li, Feng Wu, Jie Wang(参考訳) 少数のラベル付きサンプルしか手に入らない場合、新しいタスクにうまく一般化できるモデルを学ぶことを目的としている。 Ren氏らは、実際のアプリケーションでより多く利用できるラベルのないデータを活用する。 \shortcite{ren2018meta} は、手動で定義されたメートル法によってラベルのない各サンプルに適切なラベルを割り当てる半教師付き少数ショット分類法を提案する。 しかし、手動で定義されたメトリックは、データの本質的な特性を捉えることに失敗します。 本稿では,半教師付き小ショット分類のために,textbf{S}elf-\textbf{A}daptive \textbf{L}abel \textbf{A}ugmentation approach を提案する。 SALAの目新しいところは、タスク適応計量であり、エンドツーエンドの方法で異なるタスクに対するメトリックを適応的に学習することができる。 SALAのもうひとつの魅力は、トレーニングフェーズを通じて、高い信頼度でラベル付きデータを段階的に選択する、プログレッシブな隣人選択戦略である。 実験により、SALAはベンチマークデータセット上で半教師付き小ショット分類のための最先端のいくつかの手法より優れていることが示された。

Few-shot classification aims to learn a model that can generalize well to new tasks when only a few labeled samples are available. To make use of unlabeled data that are more abundantly available in real applications, Ren et al. \shortcite{ren2018meta} propose a semi-supervised few-shot classification method that assigns an appropriate label to each unlabeled sample by a manually defined metric. However, the manually defined metric fails to capture the intrinsic property in data. In this paper, we propose a \textbf{S}elf-\textbf{A}daptive \textbf{L}abel \textbf{A}ugmentation approach, called \textbf{SALA}, for semi-supervised few-shot classification. A major novelty of SALA is the task-adaptive metric, which can learn the metric adaptively for different tasks in an end-to-end fashion. Another appealing feature of SALA is a progressive neighbor selection strategy, which selects unlabeled data with high confidence progressively through the training phase. Experiments demonstrate that SALA outperforms several state-of-the-art methods for semi-supervised few-shot classification on benchmark datasets.
翻訳日:2022-06-17 15:57:15 公開日:2022-06-16
# refcrowd:参照表現で群衆のターゲットを接地する

RefCrowd: Grounding the Target in Crowd with Referring Expressions ( http://arxiv.org/abs/2206.08172v1 )

ライセンス: Link先を確認
Heqian Qiu, Hongliang Li, Taijin Zhao, Lanxiao Wang, Qingbo Wu and Fanman Meng(参考訳) 群衆の理解は、その重要な実用的重要性から、視覚領域への広範な関心を喚起している。 残念ながら、自然言語とコンピュータビジョンを橋渡しするマルチモーダルドメインの大衆理解を探求する努力はありません。 参照式理解(REF)は、そのような代表的なマルチモーダルタスクである。 現在のREF研究は、一般的なシナリオにおいて、対象対象を複数の異なるカテゴリから基礎づけることに焦点を当てている。 複雑な現実世界の群衆の理解には適用が難しい。 このギャップを埋めるため,我々は,群衆内の対象者を参照表現で探すための,refcrowdと呼ばれる新しい挑戦的データセットを提案する。 自然言語情報を十分にマイニングする必要があるだけでなく、言語から視覚への細かなマッピングを実現するために、ターゲットと類似の人物群との微妙な違いに慎重に焦点を合わせる必要がある。 さらに,群衆理解におけるREFを扱うためのFMAC(Fulti-modal Attribute Contrastive Network)を提案する。 まず、複雑な視覚的特徴と言語的特徴を属性対応のマルチモーダル特徴に分解し、識別的だが頑健な属性特徴を捉え、類似した人物間の微妙な違いを効果的に識別する。 提案手法は,RefCrowdデータセットおよび既存のREFデータセット上で,既存の最先端(SoTA)メソッドよりも優れている。 さらに,マルチモーダルドメインのより深い研究のために,エンドツーエンドのREFツールボックスを実装した。 私たちのデータセットとコードは、 \url{https://qiuheqian.github.io/datasets/refcrowd/}で利用できます。

Crowd understanding has aroused the widespread interest in vision domain due to its important practical significance. Unfortunately, there is no effort to explore crowd understanding in multi-modal domain that bridges natural language and computer vision. Referring expression comprehension (REF) is such a representative multi-modal task. Current REF studies focus more on grounding the target object from multiple distinctive categories in general scenarios. It is difficult to applied to complex real-world crowd understanding. To fill this gap, we propose a new challenging dataset, called RefCrowd, which towards looking for the target person in crowd with referring expressions. It not only requires to sufficiently mine the natural language information, but also requires to carefully focus on subtle differences between the target and a crowd of persons with similar appearance, so as to realize the fine-grained mapping from language to vision. Furthermore, we propose a Fine-grained Multi-modal Attribute Contrastive Network (FMAC) to deal with REF in crowd understanding. It first decomposes the intricate visual and language features into attribute-aware multi-modal features, and then captures discriminative but robustness fine-grained attribute features to effectively distinguish these subtle differences between similar persons. The proposed method outperforms existing state-of-the-art (SoTA) methods on our RefCrowd dataset and existing REF datasets. In addition, we implement an end-to-end REF toolbox for the deeper research in multi-modal domain. Our dataset and code can be available at: \url{https://qiuheqian.github.io/datasets/refcrowd/}.
翻訳日:2022-06-17 15:56:51 公開日:2022-06-16
# オンライン知識蒸留のためのマルチスケール特徴抽出と融合

Multi scale Feature Extraction and Fusion for Online Knowledge Distillation ( http://arxiv.org/abs/2206.08224v1 )

ライセンス: Link先を確認
Panpan Zou, Yinglei Teng, Tao Niu(参考訳) オンライン知識蒸留は、事前訓練されたモデルへの依存を軽減するために、すべての学生モデル間で知識伝達を行う。 しかし、既存のオンライン手法は予測分布に大きく依存しており、表現的知識のさらなる探求を無視している。 本稿では, オンライン知識蒸留のための新しいマルチスケール特徴抽出・融合法(MFEF)を提案する。 チャネル次元の分割結合を利用したマルチスケール特徴抽出により,特徴写像のマルチスケール表現能力の向上が期待できる。 より正確な情報を得るため、重要なチャンネルと空間領域を適応的に強化するデュアルアテンションを設計する。 さらに,前者の処理した特徴マップを機能融合によって集約・融合し,学生モデルの学習を支援する。 CIF AR-10、CIF AR-100、CINIC-10の広範囲にわたる実験により、MFEFは蒸留においてより有益な表現的知識を伝達し、様々なネットワークアーキテクチャにおける代替手法より優れていることが示された。

Online knowledge distillation conducts knowledge transfer among all student models to alleviate the reliance on pre-trained models. However, existing online methods rely heavily on the prediction distributions and neglect the further exploration of the representational knowledge. In this paper, we propose a novel Multi-scale Feature Extraction and Fusion method (MFEF) for online knowledge distillation, which comprises three key components: Multi-scale Feature Extraction, Dual-attention and Feature Fusion, towards generating more informative feature maps for distillation. The multiscale feature extraction exploiting divide-and-concatenate in channel dimension is proposed to improve the multi-scale representation ability of feature maps. To obtain more accurate information, we design a dual-attention to strengthen the important channel and spatial regions adaptively. Moreover, we aggregate and fuse the former processed feature maps via feature fusion to assist the training of student models. Extensive experiments on CIF AR-10, CIF AR-100, and CINIC-10 show that MFEF transfers more beneficial representational knowledge for distillation and outperforms alternative methods among various network architectures
翻訳日:2022-06-17 15:56:27 公開日:2022-06-16
# 条件付き生成作業場を用いた3次元顔合成

Controllable 3D Face Synthesis with Conditional Generative Occupancy Fields ( http://arxiv.org/abs/2206.08361v1 )

ライセンス: Link先を確認
Keqiang Sun, Shangzhe Wu, Zhaoyang Huang, Ning Zhang, Quan Wang, HongSheng Li(参考訳) 画像生成モデルの最近の進歩を活かして、既存の制御可能な顔画像合成手法は、生成した顔画像の形状、表情、テクスチャ、ポーズの制御など、ある程度の制御性を持つ高忠実な画像を生成することができる。 しかし、これらの手法は2次元画像生成モデルに焦点をあて、大きな表情とポーズ変化の下で一貫性のない顔画像を生成する傾向がある。 本稿では,3次元顔先行画像から3次元条件を明示することにより,生成した顔画像の3次元制御を可能にする,NeRFベースの条件付き3次元顔合成フレームワークを提案する。 中心となるのは条件付き生成活動場(cGOF)で、生成された顔の形状を効果的に強制し、与えられた3Dモルファブルモデル(3DMM)メッシュにコミットする。 合成画像の微細な3次元顔形状の正確な制御を実現するため,合成アルゴリズムに3次元ランドマークの損失と体積の歪みの損失を取り入れた。 提案手法の有効性を検証し,高忠実な顔画像を生成し,最先端の2Dベースの制御可能な顔合成法よりも高精度な3D制御性を示す。 コードとデモはhttps://keqiangsun.github.io/projects/cgofにある。

Capitalizing on the recent advances in image generation models, existing controllable face image synthesis methods are able to generate high-fidelity images with some levels of controllability, e.g., controlling the shapes, expressions, textures, and poses of the generated face images. However, these methods focus on 2D image generative models, which are prone to producing inconsistent face images under large expression and pose changes. In this paper, we propose a new NeRF-based conditional 3D face synthesis framework, which enables 3D controllability over the generated face images by imposing explicit 3D conditions from 3D face priors. At its core is a conditional Generative Occupancy Field (cGOF) that effectively enforces the shape of the generated face to commit to a given 3D Morphable Model (3DMM) mesh. To achieve accurate control over fine-grained 3D face shapes of the synthesized image, we additionally incorporate a 3D landmark loss as well as a volume warping loss into our synthesis algorithm. Experiments validate the effectiveness of the proposed method, which is able to generate high-fidelity face images and shows more precise 3D controllability than state-of-the-art 2D-based controllable face synthesis methods. Find code and demo at https://keqiangsun.github.io/projects/cgof.
翻訳日:2022-06-17 15:53:56 公開日:2022-06-16
# 統一フーリエ核と等質空間上の同変ネットワークの非線形性設計

Unified Fourier-based Kernel and Nonlinearity Design for Equivariant Networks on Homogeneous Spaces ( http://arxiv.org/abs/2206.08362v1 )

ライセンス: Link先を確認
Yinshuang Xu and Jiahui Lei and Edgar Dobriban and Kostas Daniilidis(参考訳) フーリエパースペクティブから導かれた同次空間上の群同変ネットワークに対する統一的枠組みを導入する。 我々は、畳み込み層の前後にテンソル値を持つ特徴フィールドのケースに対処する。 本稿では, フーリエ領域を経由する核の統一導出について, 持ち上げられた特徴場のフーリエ係数のスパース性を利用して述べる。 疎度は、同次空間の安定化部分群がコンパクトリー群であるときに現れる。 さらに,同変畳み込みによってフィールドへ持ち上げ,投影した後,正則表現の要素的非線形性を介して活性化法を導入する。 安定化部分群におけるフーリエ係数としての特徴を取り扱う他の方法が、我々のアクティベーションの特別な場合であることを示す。 so(3)$ と $se(3)$ の実験は、球面ベクトルの回帰、点雲の分類、分子の完成における最先端のパフォーマンスを示す。

We introduce a unified framework for group equivariant networks on homogeneous spaces derived from a Fourier perspective. We address the case of feature fields being tensor valued before and after a convolutional layer. We present a unified derivation of kernels via the Fourier domain by taking advantage of the sparsity of Fourier coefficients of the lifted feature fields. The sparsity emerges when the stabilizer subgroup of the homogeneous space is a compact Lie group. We further introduce an activation method via an elementwise nonlinearity on the regular representation after lifting and projecting back to the field through an equivariant convolution. We show that other methods treating features as the Fourier coefficients in the stabilizer subgroup are special cases of our activation. Experiments on $SO(3)$ and $SE(3)$ show state-of-the-art performance in spherical vector field regression, point cloud classification, and molecular completion.
翻訳日:2022-06-17 15:53:32 公開日:2022-06-16
# unbiased 4d : 神経変形モデルを用いた単眼4次元再構成

Unbiased 4D: Monocular 4D Reconstruction with a Neural Deformation Model ( http://arxiv.org/abs/2206.08368v1 )

ライセンス: Link先を確認
Erik C.M. Johnson and Marc Habermann and Soshi Shimada and Vladislav Golyanik and Christian Theobalt(参考訳) 一般的なデフォーミングシーンのキャプチャは、多くのコンピュータグラフィックスや視覚アプリケーションにとって不可欠であり、シーンの単眼のRGBビデオのみが利用可能である場合、特に困難である。 競合する手法では、密度の高いポイントトラック、3dテンプレート、大規模なトレーニングデータセット、あるいは小さな変形のみをキャプチャする。 それとは対照的に、我々の方法であるUb4Dは、これらの仮定を全く行わず、挑戦的なシナリオにおいて、過去の技術状況よりも優れています。 本手法は,非剛性3次元再構成,コンポーネント,すなわち,2つの新しい手法を含む。 1)動的シーンの偏りのない再構成を可能にする非剛性シーンのための座標ベースおよび暗黙的ニューラルネットワーク表現 2) 大きな変形の復元を可能にする新しい動的シーンフロー損失。 我々の新しいデータセットの結果は公開され、表面の復元精度と大きな変形に対する堅牢性の観点から、技術の現状に対する明確な改善が示される。 プロジェクトページ https://4dqv.mpi-inf.mpg.de/Ub4D/

Capturing general deforming scenes is crucial for many computer graphics and vision applications, and it is especially challenging when only a monocular RGB video of the scene is available. Competing methods assume dense point tracks, 3D templates, large-scale training datasets, or only capture small-scale deformations. In contrast to those, our method, Ub4D, makes none of these assumptions while outperforming the previous state of the art in challenging scenarios. Our technique includes two new, in the context of non-rigid 3D reconstruction, components, i.e., 1) A coordinate-based and implicit neural representation for non-rigid scenes, which enables an unbiased reconstruction of dynamic scenes, and 2) A novel dynamic scene flow loss, which enables the reconstruction of larger deformations. Results on our new dataset, which will be made publicly available, demonstrate the clear improvement over the state of the art in terms of surface reconstruction accuracy and robustness to large deformations. Visit the project page https://4dqv.mpi-inf.mpg.de/Ub4D/.
翻訳日:2022-06-17 15:53:17 公開日:2022-06-16
# テキスト検索のためのロバストランカを目指して

Towards Robust Ranker for Text Retrieval ( http://arxiv.org/abs/2206.08063v1 )

ライセンス: Link先を確認
Yucheng Zhou, Tao Shen, Xiubo Geng, Chongyang Tao, Can Xu, Guodong Long, Binxing Jiao, Daxin Jiang(参考訳) ローダは事実上の'検索と再実行'パイプラインで必須の役割を担いますが、トレーニングは依然として遅れています -- 適度なネガティブから学び、レトリバーの補助モジュールとして機能します。 本研究では,まず,ロバストなランカに対する2つの主要な障壁,すなわち,よく訓練されたレトリバーによる固有ラベルノイズと,高機能ランカのためにサンプリングされた非理想的負の2つを同定する。 これにより、負のジェネレータがランサーのロバスト性を向上させるために複数のレトリバーを提案する。 一 広範囲の分布外ラベルノイズを伴って各騒音分布に対してランク付けを行い、 二 関節分布の多様な硬質陰性は、ランクの負の分布に比較的近いため、より困難で効果的な訓練につながる。 ランサー(R$^2$anker)を評価するため,BM25リグレード,フルグレード,レトリバー蒸留など,一般的な航路検索ベンチマークの様々な設定で実験を行った。 実験により,本モデルの有効性が検証された。

A ranker plays an indispensable role in the de facto 'retrieval & rerank' pipeline, but its training still lags behind -- learning from moderate negatives or/and serving as an auxiliary module for a retriever. In this work, we first identify two major barriers to a robust ranker, i.e., inherent label noises caused by a well-trained retriever and non-ideal negatives sampled for a high-capable ranker. Thereby, we propose multiple retrievers as negative generators improve the ranker's robustness, where i) involving extensive out-of-distribution label noises renders the ranker against each noise distribution, and ii) diverse hard negatives from a joint distribution are relatively close to the ranker's negative distribution, leading to more challenging thus effective training. To evaluate our robust ranker (dubbed R$^2$anker), we conduct experiments in various settings on the popular passage retrieval benchmark, including BM25-reranking, full-ranking, retriever distillation, etc. The empirical results verify the new state-of-the-art effectiveness of our model.
翻訳日:2022-06-17 15:53:01 公開日:2022-06-16
# 時系列分類のための選択一貫性規則化による領域一般化

Domain Generalization via Selective Consistency Regularization for Time Series Classification ( http://arxiv.org/abs/2206.07876v1 )

ライセンス: Link先を確認
Wenyu Zhang, Mohamed Ragab, Chuan-Sheng Foo(参考訳) ドメイン一般化手法は、限られた数のソースドメインからのデータと、トレーニング中に対象ドメインサンプルにアクセスすることなく、ドメインシフトに頑健なモデルを学習することを目的としている。 ドメイン一般化のための一般的なドメインアライメント手法は、ドメイン間の関係を無視して、すべてのドメインにまたがる特徴分布の差を最小限にして、ドメイン不変の特徴を抽出しようとする。 そこで本稿では,近縁と推定されるソース領域間の予測一貫性を選択的に適用する表現学習手法を提案する。 具体的には、ドメインが異なるクラス不変表現を共有することを仮定し、負の遷移を引き起こす全てのドメインを整列するのではなく、密接に関連するドメイン間の相違を規則化する。 本手法を時系列分類タスクに適用し,3つの公開実世界のデータセットに対する包括的実験を行う。 本手法はベースラインよりも大幅に改善し,精度とモデルキャリブレーションの両面で最先端手法と比較し,優れた性能と競争力を実現する。

Domain generalization methods aim to learn models robust to domain shift with data from a limited number of source domains and without access to target domain samples during training. Popular domain alignment methods for domain generalization seek to extract domain-invariant features by minimizing the discrepancy between feature distributions across all domains, disregarding inter-domain relationships. In this paper, we instead propose a novel representation learning methodology that selectively enforces prediction consistency between source domains estimated to be closely-related. Specifically, we hypothesize that domains share different class-informative representations, so instead of aligning all domains which can cause negative transfer, we only regularize the discrepancy between closely-related domains. We apply our method to time-series classification tasks and conduct comprehensive experiments on three public real-world datasets. Our method significantly improves over the baseline and achieves better or competitive performance in comparison with state-of-the-art methods in terms of both accuracy and model calibration.
翻訳日:2022-06-17 15:50:57 公開日:2022-06-16
# 木組の圧縮による説明可能なモデル

Explainable Models via Compression of Tree Ensembles ( http://arxiv.org/abs/2206.07904v1 )

ライセンス: Link先を確認
Siwen Yan, Sriraam Natarajan, Saket Joshi, Roni Khardon and Prasad Tadepalli(参考訳) リレーショナル決定木のアンサンブルモデル(バッグと勾配ブースティング)は確率論理モデル(PLM)の領域において最も効果的な学習方法の1つであることが証明されている。 実効性はあるものの、plmの最も重要な側面である解釈性を失う。本論文では、学習された木の集合を単一の説明可能なモデルに圧縮する問題を考える。このため、圧縮表現として単一の小さな決定リストを生成するcote -- ツリーアンサンブルの圧縮 -- を提案する。 CoTEはまず木を決定リストに変換し、次に元のトレーニングセットの助けを借りて組み合わせと圧縮を実行する。 いくつかのベンチマーク関係データセットにおけるCoTEの有効性を実験的に評価した。

Ensemble models (bagging and gradient-boosting) of relational decision trees have proved to be one of the most effective learning methods in the area of probabilistic logic models (PLMs). While effective, they lose one of the most important aspect of PLMs -- interpretability. In this paper we consider the problem of compressing a large set of learned trees into a single explainable model. To this effect, we propose CoTE -- Compression of Tree Ensembles -- that produces a single small decision list as a compressed representation. CoTE first converts the trees to decision lists and then performs the combination and compression with the aid of the original training set. An experimental evaluation demonstrates the effectiveness of CoTE in several benchmark relational data sets.
翻訳日:2022-06-17 15:50:40 公開日:2022-06-16
# 一般グラフフィードバックを用いた確率帯域と逆帯域の同時学習

Simultaneously Learning Stochastic and Adversarial Bandits with General Graph Feedback ( http://arxiv.org/abs/2206.07908v1 )

ライセンス: Link先を確認
Fang Kong, Yichi Zhou, Shuai Li(参考訳) グラフフィードバックによるオンライン学習の問題は,その汎用性と様々な学習タスクをモデル化する可能性から,文献で広く研究されている。 既存の著作は主に逆境フィードバックと確率フィードバックを別々に研究している。 フィードバックメカニズムに関する事前の知識が利用できなければ、そのような特別に設計されたアルゴリズムは大きな損失を被る可能性がある。 この問題を避けるため、 \citet{erez2021towards} は両方の環境に最適化を試みる。 しかし、フィードバックグラフは非指向であり、各頂点には自己ループがあり、フレームワークの汎用性を損なうものであり、アプリケーションでは満足できない可能性がある。 一般的なフィードバックグラフでは、このアームを引っ張ると腕の観察が不可能になり、探索が高価になり、アルゴリズムが両方の環境で最適に実行することがより困難になる。 そこで本研究では,探索と搾取を念入りに設計した新たなトレードオフ機構によって,この課題を克服した。 提案アルゴリズムは, 確率的設定において, $\mathrm{poly} \log T$後悔と$\tilde{O}(T^{2/3})$の最小最適後悔を同時に達成し, $T$が地平線であり, $\tilde{O}$が$T$に依存しないパラメータを隠蔽する。 私たちの知る限りでは、これは一般的なフィードバックグラフのための世界で最初の最良の結果である。

The problem of online learning with graph feedback has been extensively studied in the literature due to its generality and potential to model various learning tasks. Existing works mainly study the adversarial and stochastic feedback separately. If the prior knowledge of the feedback mechanism is unavailable or wrong, such specially designed algorithms could suffer great loss. To avoid this problem, \citet{erez2021towards} try to optimize for both environments. However, they assume the feedback graphs are undirected and each vertex has a self-loop, which compromises the generality of the framework and may not be satisfied in applications. With a general feedback graph, the observation of an arm may not be available when this arm is pulled, which makes the exploration more expensive and the algorithms more challenging to perform optimally in both environments. In this work, we overcome this difficulty by a new trade-off mechanism with a carefully-designed proportion for exploration and exploitation. We prove the proposed algorithm simultaneously achieves $\mathrm{poly} \log T$ regret in the stochastic setting and minimax-optimal regret of $\tilde{O}(T^{2/3})$ in the adversarial setting where $T$ is the horizon and $\tilde{O}$ hides parameters independent of $T$ as well as logarithmic terms. To our knowledge, this is the first best-of-both-worlds result for general feedback graphs.
翻訳日:2022-06-17 15:50:28 公開日:2022-06-16
# 連続的な学習は連続的に学習するか?

Is Continual Learning Truly Learning Representations Continually? ( http://arxiv.org/abs/2206.08101v1 )

ライセンス: Link先を確認
Sungmin Cha, Dongsub Shim, Hyunwoo Kim, Moontae Lee, Honglak Lee, and Taesup Moon(参考訳) 連続学習(CL)は、タスクを忘れずに連続的に到着するタスクから学習することを目的としている。 CLアルゴリズムはこれまでに学んだ全てのタスクの平均テスト精度を向上しようと試みてきたが、連続的な有用な表現の学習は一般化と下流転送の成功に不可欠である。 表象的品質を測定するために,すべてのタスクに対して小さなバランスデータセットを使用して,出力層のみを再トレーニングし,現在のタスクに対してバイアスのある予測をすることなく,平均精度を評価する。 また、学習した表現の伝達学習精度を計測し、下流タスクについても検証する。 imagenet-100とimagenet-1000で新しい形式をテストした結果、学習した表現に意味のある違いを与える唯一の選択肢は、より多くのexemplar memoryを使うことであり、exemplar memoryを使用する正規化または蒸留ベースのclアルゴリズムのほとんどは、クラスインクリメンタル学習で継続的に有用な表現を学ぶことができないことがわかった。 驚くべきことに、十分なメモリサイズを持つ教師なし(または自己教師なし)clは、教師なしclと同等の性能を達成できる。 非自明なラベリングコストを考慮すると、模範メモリを最小限に使用するより効率的な教師なしCLアルゴリズムを見つけることが、CL研究の次の有望な方向であると主張する。

Continual learning (CL) aims to learn from sequentially arriving tasks without forgetting previous tasks. Whereas CL algorithms have tried to achieve higher average test accuracy across all the tasks learned so far, learning continuously useful representations is critical for successful generalization and downstream transfer. To measure representational quality, we re-train only the output layers using a small balanced dataset for all the tasks, evaluating the average accuracy without any biased predictions toward the current task. We also test on several downstream tasks, measuring transfer learning accuracy of the learned representations. By testing our new formalism on ImageNet-100 and ImageNet-1000, we find that using more exemplar memory is the only option to make a meaningful difference in learned representations, and most of the regularization- or distillation-based CL algorithms that use the exemplar memory fail to learn continuously useful representations in class-incremental learning. Surprisingly, unsupervised (or self-supervised) CL with sufficient memory size can achieve comparable performance to the supervised counterparts. Considering non-trivial labeling costs, we claim that finding more efficient unsupervised CL algorithms that minimally use exemplary memory would be the next promising direction for CL research.
翻訳日:2022-06-17 15:50:03 公開日:2022-06-16
# ネットワークボトルネック同定のための文脈組合せ半帯域法

A Contextual Combinatorial Semi-Bandit Approach to Network Bottleneck Identification ( http://arxiv.org/abs/2206.08144v1 )

ライセンス: Link先を確認
Fazeleh Hoseini, Niklas {\AA}kerblom, Morteza Haghir Chehreghani(参考訳) ボトルネック識別は、特にネットワークが完全に特定されていない場合、ネットワーク分析において難しい課題である。 この課題に対処するために,ネットワークの仕様を学習しながらボトルネック識別を行う組込みセミバンドに基づく統合オンライン学習フレームワークを開発した。 本枠組みでは,epsilon-greedy,LinUCB,BayesUCB,Thompson Samplingなどの組合せ半帯域法を適用し,検討する。 われわれのフレームワークは文脈情報を文脈的盗賊の形で利用することができる。 我々は,道路ネットワークの現実的応用に関する枠組みを評価し,その効果を異なる設定で示す。

Bottleneck identification is a challenging task in network analysis, especially when the network is not fully specified. To address this task, we develop a unified online learning framework based on combinatorial semi-bandits that performs bottleneck identification alongside learning the specifications of the underlying network. Within this framework, we adapt and investigate several combinatorial semi-bandit methods such as epsilon-greedy, LinUCB, BayesUCB, and Thompson Sampling. Our framework is able to employ contextual information in the form of contextual bandits. We evaluate our framework on the real-world application of road networks and demonstrate its effectiveness in different settings.
翻訳日:2022-06-17 15:47:13 公開日:2022-06-16
# resnorm:正規化によるグラフニューラルネットワークの長テール次数分布問題への取り組み

ResNorm: Tackling Long-tailed Degree Distribution Issue in Graph Neural Networks via Normalization ( http://arxiv.org/abs/2206.08181v1 )

ライセンス: Link先を確認
Langzhang Liang, Zenglin Xu, Zixing Song, Irwin King, Jieping Ye(参考訳) グラフニューラルネットワーク(GNN)は,グラフ構造化データから表現を学習する能力から注目されている。 多くの領域でGNNが成功したにもかかわらず、GNNの最適化はあまり研究されておらず、ノード分類の性能は長い尾のノード次数分布に大きく左右される。 本稿では,正規化によるGNNの性能向上に焦点をあてる。 詳しくは、グラフ内のノード次数の長期分布を研究することにより、ResNorm (\textbf{Res}haping the long-tailed distribution to a normal-like distribution via \textbf{norm}alization)と呼ばれるGNNの新しい正規化法を提案する。 ResNormの$scale$操作は、尾ノード(\textit{i})の精度を改善するために、ノード単位の標準偏差(NStd)分布を再設定する。 \textit{e}。 、低度ノード)。 上記の$scale$のメカニズムを理解するための理論的解釈と実証的な証拠を提供する。 長期にわたる流通問題に加えて、過密はコミュニティを悩ませる根本的な問題でもある。 この目的のために,標準シフトの挙動を分析し,標準シフトが重み行列のプレコンディショナーとして働くことを証明し,オーバースモーシングのリスクを増大させる。 過度にスムースな問題を念頭に置いて、低コストで次数固有のパラメータ戦略をシミュレートするResNormの$shift$演算を設計する。 大規模な実験により、いくつかのノード分類ベンチマークデータセットにおけるResNormの有効性が検証された。

Graph Neural Networks (GNNs) have attracted much attention due to their ability in learning representations from graph-structured data. Despite the successful applications of GNNs in many domains, the optimization of GNNs is less well studied, and the performance on node classification heavily suffers from the long-tailed node degree distribution. This paper focuses on improving the performance of GNNs via normalization. In detail, by studying the long-tailed distribution of node degrees in the graph, we propose a novel normalization method for GNNs, which is termed ResNorm (\textbf{Res}haping the long-tailed distribution into a normal-like distribution via \textbf{norm}alization). The $scale$ operation of ResNorm reshapes the node-wise standard deviation (NStd) distribution so as to improve the accuracy of tail nodes (\textit{i}.\textit{e}., low-degree nodes). We provide a theoretical interpretation and empirical evidence for understanding the mechanism of the above $scale$. In addition to the long-tailed distribution issue, over-smoothing is also a fundamental issue plaguing the community. To this end, we analyze the behavior of the standard shift and prove that the standard shift serves as a preconditioner on the weight matrix, increasing the risk of over-smoothing. With the over-smoothing issue in mind, we design a $shift$ operation for ResNorm that simulates the degree-specific parameter strategy in a low-cost manner. Extensive experiments have validated the effectiveness of ResNorm on several node classification benchmark datasets.
翻訳日:2022-06-17 15:47:02 公開日:2022-06-16
# 圧縮VFL:垂直分割データによるコミュニケーション効率の高い学習

Compressed-VFL: Communication-Efficient Learning with Vertically Partitioned Data ( http://arxiv.org/abs/2206.08330v1 )

ライセンス: Link先を確認
Timothy Castiglia, Anirban Das, Shiqiang Wang, Stacy Patterson(参考訳) 垂直分割データにおける通信効率向上のための圧縮垂直フェデレート学習(C-VFL)を提案する。 C-VFLでは、サーバと複数のパーティが、複数のローカルイテレーションを使用して各機能のモデルを協調的にトレーニングし、定期的に圧縮された中間結果を共有する。 本研究は,メッセージ圧縮が垂直分割データに対する分散トレーニングに与える影響について,最初の理論的解析を提供する。 圧縮誤差がトレーニングの過程で限定されている場合、非凸対象の収束率を$o(\frac{1}{\sqrt{t}})$で証明する。 量子化やトップ$k$のスパーシフィケーションといった一般的な圧縮技術と収束するための特別な要件を提供する。 最後に, 圧縮なしでVFLの精度を著しく低下させることなく, 圧縮により通信コストを90 %以上削減できることを示す。

We propose Compressed Vertical Federated Learning (C-VFL) for communication-efficient training on vertically partitioned data. In C-VFL, a server and multiple parties collaboratively train a model on their respective features utilizing several local iterations and sharing compressed intermediate results periodically. Our work provides the first theoretical analysis of the effect message compression has on distributed training over vertically partitioned data. We prove convergence of non-convex objectives at a rate of $O(\frac{1}{\sqrt{T}})$ when the compression error is bounded over the course of training. We provide specific requirements for convergence with common compression techniques, such as quantization and top-$k$ sparsification. Finally, we experimentally show compression can reduce communication by over $90\%$ without a significant decrease in accuracy over VFL without compression.
翻訳日:2022-06-17 15:46:33 公開日:2022-06-16
# (参考訳) 解釈性レンズによる不均一処理効果モデルのベンチマーク

Benchmarking Heterogeneous Treatment Effect Models through the Lens of Interpretability ( http://arxiv.org/abs/2206.08363v1 )

ライセンス: CC BY 4.0
Jonathan Crabb\'e, Alicia Curth, Ioana Bica, Mihaela van der Schaar(参考訳) 治療のパーソナライズされた効果を推定することは複雑だが、広く受け入れられる問題である。 機械学習(ml)のヘテロジニアスな治療効果の推定に関する最近の研究は、柔軟性、モジュール性、制約のある表現を学習する能力から、特にニューラルネットワークがこの文献の中心となっている、洗練された、しかし不透明なツールを生み出した。 残念ながら、このようなブラックボックスの資産はコストがかかる。モデルは通常、数え切れないほどの非自明な操作を伴い、彼らが何を学んだかを理解するのが難しくなる。 しかし、これらのモデルを理解することは不可欠であり、例えば医学的な文脈では、治療効果の多様性に関する知識の発見は、臨床治療の処方薬に影響を及ぼす可能性がある。 そこで本研究では,モデル予測に影響を与える特徴を同定するために,ポストホック特徴重要度法を用いる。 This allows us to evaluate treatment effect estimators along a new and important dimension that has been overlooked in previous work: We construct a benchmarking environment to empirically investigate the ability of personalized treatment effect models to identify predictive covariates -- covariates that determine differential responses to treatment. Our benchmarking environment then enables us to provide new insight into the strengths and weaknesses of different types of treatment effects models as we modulate different challenges specific to treatment effect estimation -- e.g. the ratio of prognostic to predictive information, the possible nonlinearity of potential outcomes and the presence and type of confounding.

Estimating personalized effects of treatments is a complex, yet pervasive problem. To tackle it, recent developments in the machine learning (ML) literature on heterogeneous treatment effect estimation gave rise to many sophisticated, but opaque, tools: due to their flexibility, modularity and ability to learn constrained representations, neural networks in particular have become central to this literature. Unfortunately, the assets of such black boxes come at a cost: models typically involve countless nontrivial operations, making it difficult to understand what they have learned. Yet, understanding these models can be crucial -- in a medical context, for example, discovered knowledge on treatment effect heterogeneity could inform treatment prescription in clinical practice. In this work, we therefore use post-hoc feature importance methods to identify features that influence the model's predictions. This allows us to evaluate treatment effect estimators along a new and important dimension that has been overlooked in previous work: We construct a benchmarking environment to empirically investigate the ability of personalized treatment effect models to identify predictive covariates -- covariates that determine differential responses to treatment. Our benchmarking environment then enables us to provide new insight into the strengths and weaknesses of different types of treatment effects models as we modulate different challenges specific to treatment effect estimation -- e.g. the ratio of prognostic to predictive information, the possible nonlinearity of potential outcomes and the presence and type of confounding.
翻訳日:2022-06-17 15:44:02 公開日:2022-06-16
# GANインバージョンと編集のための空間適応型多層膜選択

Spatially-Adaptive Multilayer Selection for GAN Inversion and Editing ( http://arxiv.org/abs/2206.08357v1 )

ライセンス: Link先を確認
Gaurav Parmar, Yijun Li, Jingwan Lu, Richard Zhang, Jun-Yan Zhu, Krishna Kumar Singh(参考訳) 既存のganインバージョンや編集手法は、ポートレートや動物の顔などのクリーンな背景を持つオブジェクトのアライメントには適しているが、複雑なシーンレイアウトや車、動物、屋外画像といったオブジェクトのオクルージョンといった複雑なカテゴリでは苦労することが多い。 そこで本研究では,ganの潜伏空間におけるstylegan2のような複雑な画像の反転と編集を行う新しい手法を提案する。 我々のキーとなる考え方は、画像の難易度に逆過程を空間的に適応させることで、レイヤーの集合による逆転を探索することである。 我々は、異なる画像セグメントの「可逆性」を予測し、各セグメントを潜在層に投影することを学ぶ。 より容易な領域はジェネレータの潜在空間の以前の層に逆転し、より困難な領域は後の特徴空間に逆転することができる。 実験の結果, 下流の編集性を維持しつつ, 複雑なカテゴリに対する最近のアプローチと比較して, より良い逆変換結果が得られることがわかった。 プロジェクトのページはhttps://www.cs.cmu.edu/~SAMInversionを参照してください。

Existing GAN inversion and editing methods work well for aligned objects with a clean background, such as portraits and animal faces, but often struggle for more difficult categories with complex scene layouts and object occlusions, such as cars, animals, and outdoor images. We propose a new method to invert and edit such complex images in the latent space of GANs, such as StyleGAN2. Our key idea is to explore inversion with a collection of layers, spatially adapting the inversion process to the difficulty of the image. We learn to predict the "invertibility" of different image segments and project each segment into a latent layer. Easier regions can be inverted into an earlier layer in the generator's latent space, while more challenging regions can be inverted into a later feature space. Experiments show that our method obtains better inversion results compared to the recent approaches on complex categories, while maintaining downstream editability. Please refer to our project page at https://www.cs.cmu.edu/~SAMInversion.
翻訳日:2022-06-17 15:05:20 公開日:2022-06-16
# 絶滅危惧言語におけるテキスト正規化:ligurianの場合

Text normalization for endangered languages: the case of Ligurian ( http://arxiv.org/abs/2206.07861v1 )

ライセンス: Link先を確認
Stefano Lusito and Edoardo Ferrante and Jean Maillard(参考訳) テキスト正規化は、厳密な綴り規則に欠ける低リソース言語にとって重要な技術である。 これまでのところ、低リソースのテキスト正規化は手作りのルールに依存しており、これはニューラルネットワークよりもデータ効率が高いと考えられている。 本稿では,絶滅危惧言語であるリグリア語のテキスト正規化事例について検討する。 正規化版と組み合わせた4,394のリグリア文と、リグリア語のための最初の単言語コーパスを収集する。 少ないデータ量にもかかわらず、バックトランスや適切なトークン化を用いることで、コンパクトなトランスフォーマーベースのモデルを非常に低いエラー率を達成するように訓練できることを実証する。 私たちのデータセットは公開されています。

Text normalization is a crucial technology for low-resource languages which lack rigid spelling conventions. Low-resource text normalization has so far relied upon hand-crafted rules, which are perceived to be more data efficient than neural methods. In this paper we examine the case of text normalization for Ligurian, an endangered Romance language. We collect 4,394 Ligurian sentences paired with their normalized versions, as well as the first monolingual corpus for Ligurian. We show that, in spite of the small amounts of data available, a compact transformer-based model can be trained to achieve very low error rates by the use of backtranslation and appropriate tokenization. Our datasets are released to the public.
翻訳日:2022-06-17 15:04:39 公開日:2022-06-16
# 自己生成型インコンテキスト学習: 自己回帰型言語モデルをデモジェネレータとして活用する

Self-Generated In-Context Learning: Leveraging Auto-regressive Language Models as a Demonstration Generator ( http://arxiv.org/abs/2206.08082v1 )

ライセンス: Link先を確認
Hyuhng Joon Kim, Hyunsoo Cho, Junyeob Kim, Taeuk Kim, Kang Min Yoo, Sang-goo Lee(参考訳) 大規模事前訓練言語モデル(PLM)は、所望の下流タスクに明示的に調整されることなく、プロンプトにデモと呼ばれるいくつかのインプットラベルペアを条件付けるだけでタスクを解くことができることでよく知られている。 しかし、このようなプロセス(すなわち、文脈内学習)は、通常外部データセットから選択されるデモに大きく依存する。 本稿では,plm自体から文脈内学習のための実演を生成する自己生成型in-context learning (sg-icl)を提案する。 我々は4つの異なるテキスト分類タスクの実験を行い、SG-ICLがゼロショット学習を著しく上回ることを示す。 さらに,我々の生成した実演では,トレーニングデータセットからランダムに選択した実演に比べて,低分散で一貫した性能を示した。

Large-scale pre-trained language models (PLMs) are well-known for being capable of solving a task simply by conditioning a few input-label pairs dubbed demonstrations on a prompt without being explicitly tuned for the desired downstream task. Such a process (i.e., in-context learning), however, naturally leads to high reliance on the demonstrations which are usually selected from external datasets. In this paper, we propose self-generated in-context learning (SG-ICL), which generates demonstrations for in-context learning from PLM itself to minimize the reliance on the external demonstration. We conduct experiments on four different text classification tasks and show SG-ICL significantly outperforms zero-shot learning and is generally worth approximately 0.6 gold training samples. Moreover, our generated demonstrations show more consistent performance with low variance compared to randomly selected demonstrations from the training dataset.
翻訳日:2022-06-17 15:02:26 公開日:2022-06-16
# コストと品質のバランス - 短い回答自動スコアリングのためのヒューマン・イン・ザ・ループフレームワークの探索

Balancing Cost and Quality: An Exploration of Human-in-the-loop Frameworks for Automated Short Answer Scoring ( http://arxiv.org/abs/2206.08288v1 )

ライセンス: Link先を確認
Hiroaki Funayama, Tasuku Sato, Yuichiroh Matsubayashi, Tomoya Mizumoto, Jun Suzuki and Kentaro Inui(参考訳) short answer scoring (sas) は、学習者によって書かれた短いテキストを採点するタスクである。 近年、深層学習に基づくアプローチは、SASモデルの性能を大幅に向上させているが、そのようなモデルを教育分野に適用する場合、高品質な予測を保証する方法が依然として重要な課題である。 高品質な予測の確保に向けて,SASモデルで評価タスクを人間のグルーパーと共有させることにより,評価品質を確保しつつ,評価コストを最小化するためのヒューマン・イン・ザ・ループ・フレームワークの活用を初めて検討する。 具体的には、モデル予測の信頼性を示す信頼度推定手法を導入することにより、スコアリング結果に対する信頼性の高い予測と、ヒトグレーダに対する信頼性の低い鋳造予測のみを利用して、スコア品質の保証を行うことができる。 本研究では,複数の信頼度推定手法と複数のSASデータセットを用いて提案手法の有効性を検討する。 提案手法により,自動スコアリングモデルと人間のグリーマーによる目標スコアリング品質の達成が可能となった。

Short answer scoring (SAS) is the task of grading short text written by a learner. In recent years, deep-learning-based approaches have substantially improved the performance of SAS models, but how to guarantee high-quality predictions still remains a critical issue when applying such models to the education field. Towards guaranteeing high-quality predictions, we present the first study of exploring the use of human-in-the-loop framework for minimizing the grading cost while guaranteeing the grading quality by allowing a SAS model to share the grading task with a human grader. Specifically, by introducing a confidence estimation method for indicating the reliability of the model predictions, one can guarantee the scoring quality by utilizing only predictions with high reliability for the scoring results and casting predictions with low reliability to human graders. In our experiments, we investigate the feasibility of the proposed framework using multiple confidence estimation methods and multiple SAS datasets. We find that our human-in-the-loop framework allows automatic scoring models and human graders to achieve the target scoring quality.
翻訳日:2022-06-17 15:02:08 公開日:2022-06-16
# HinglishEvalにおけるPreCogIIITH : Code-Mixing Metrics & Language Model Embeddingsの活用によるコード-Mix品質の推定

PreCogIIITH at HinglishEval : Leveraging Code-Mixing Metrics & Language Model Embeddings To Estimate Code-Mix Quality ( http://arxiv.org/abs/2206.07988v1 )

ライセンス: Link先を確認
Prashant Kodali, Tanmay Sachan, Akshay Goindani, Anmol Goel, Naman Ahuja, Manish Shrivastava, Ponnurangam Kumaraguru(参考訳) コードミキシング(Code-Mixing)は、2つ以上の言語を混合した音声イベントであり、多言語社会で普及している。 Code-Mixingの低リソース性を考えると、コード混合テキストのマシン生成はデータ拡張の一般的なアプローチである。 しかし、このような機械が生成するコード混合テキストの品質評価は、オープンな問題である。 inlg2022と共通した共有タスクであるhinglishevalへの提案では、コード混合品質のレーティングを予測することによって、合成生成コード混合テキストの品質に影響を与えるモデル要素の構築を試みる。

Code-Mixing is a phenomenon of mixing two or more languages in a speech event and is prevalent in multilingual societies. Given the low-resource nature of Code-Mixing, machine generation of code-mixed text is a prevalent approach for data augmentation. However, evaluating the quality of such machine generated code-mixed text is an open problem. In our submission to HinglishEval, a shared-task collocated with INLG2022, we attempt to build models factors that impact the quality of synthetically generated code-mix text by predicting ratings for code-mix quality.
翻訳日:2022-06-17 15:01:47 公開日:2022-06-16
# (参考訳) ShiFT: 連続マルチタスクドメイン適応のための合成駆動データセット

SHIFT: A Synthetic Driving Dataset for Continuous Multi-Task Domain Adaptation ( http://arxiv.org/abs/2206.08367v1 )

ライセンス: CC BY-SA 4.0
Tao Sun, Mattia Segu, Janis Postels, Yuxuan Wang, Luc Van Gool, Bernt Schiele, Federico Tombari, Fisher Yu(参考訳) 継続的に進化する環境への適応は、すべての自動運転システムが必然的に直面する安全-クリティカルな課題である。 しかし、既存の画像とビデオの駆動データセットは、現実世界の変動する性質を捉えていない。 本稿では,自動運転のための多タスク合成データセットShiFTを紹介する。 それは、曇り、雨と霧の強度、昼の時間、車と歩行者の密度の離散的で連続的な変化を示す。 総合的なセンサスイートとアノテーションを主要な知覚タスクとして備えたShiftは、ドメインシフトの増大による知覚システム性能の劣化を調査し、この問題を軽減するための継続的適応戦略の開発を促進し、モデルの堅牢性と汎用性を評価する。 私たちのデータセットとベンチマークツールキットはwww.vis.xyz/shiftで公開されています。

Adapting to a continuously evolving environment is a safety-critical challenge inevitably faced by all autonomous driving systems. Existing image and video driving datasets, however, fall short of capturing the mutable nature of the real world. In this paper, we introduce the largest multi-task synthetic dataset for autonomous driving, SHIFT. It presents discrete and continuous shifts in cloudiness, rain and fog intensity, time of day, and vehicle and pedestrian density. Featuring a comprehensive sensor suite and annotations for several mainstream perception tasks, SHIFT allows investigating the degradation of a perception system performance at increasing levels of domain shift, fostering the development of continuous adaptation strategies to mitigate this problem and assess model robustness and generality. Our dataset and benchmark toolkit are publicly available at www.vis.xyz/shift.
翻訳日:2022-06-17 14:59:21 公開日:2022-06-16
# ソースフリー領域適応のための識別性と伝達性のバランス

Balancing Discriminability and Transferability for Source-Free Domain Adaptation ( http://arxiv.org/abs/2206.08009v1 )

ライセンス: Link先を確認
Jogendra Nath Kundu, Akshay Kulkarni, Suvaansh Bhambri, Deepesh Mehta, Shreyas Kulkarni, Varun Jampani, R. Venkatesh Babu(参考訳) 従来のドメイン適応(DA)技術は、ラベル付きソースデータから収集されたタスク識別可能性知識を同時に保存しながら、ドメイン不変表現を学習することでドメイン転送可能性を改善することを目的としている。 しかし,ラベル付きソースとラベル付けされていないターゲットへの同時アクセスの必要性は,ソースフリーなDA設定に適さない。 効果的なオリジナルからジェネリックドメインへのマッピングを実現する簡単な解決策は、転送性を改善するが、タスクの判別性を低下させる。 理論的,実証的両面からハードルを解析した結果,原文と翻訳されたジェネリックサンプルの混在が,プライバシ指向のソースフリー設定を尊重しつつ,識別性と伝達性のトレードオフを促進することを示す新たな知見が得られた。 既存のソースフリーDAアプローチの上に提案された洞察をシンプルかつ効果的に実現することで、より高速な収束で最先端のパフォーマンスが得られる。 シングルソース以外にも、分類とセマンティックセグメンテーションのベンチマークでマルチソースの先行技術よりも優れています。

Conventional domain adaptation (DA) techniques aim to improve domain transferability by learning domain-invariant representations; while concurrently preserving the task-discriminability knowledge gathered from the labeled source data. However, the requirement of simultaneous access to labeled source and unlabeled target renders them unsuitable for the challenging source-free DA setting. The trivial solution of realizing an effective original to generic domain mapping improves transferability but degrades task discriminability. Upon analyzing the hurdles from both theoretical and empirical standpoints, we derive novel insights to show that a mixup between original and corresponding translated generic samples enhances the discriminability-transferability trade-off while duly respecting the privacy-oriented source-free setting. A simple but effective realization of the proposed insights on top of the existing source-free DA approaches yields state-of-the-art performance with faster convergence. Beyond single-source, we also outperform multi-source prior-arts across both classification and semantic segmentation benchmarks.
翻訳日:2022-06-17 14:56:18 公開日:2022-06-16
# rank the triplets:通常のh&e画像を用いた頭頸部癌におけるhpv感染検出のためのランキングベース多インスタンス学習フレームワーク

Rank the triplets: A ranking-based multiple instance learning framework for detecting HPV infection in head and neck cancers using routine H&E images ( http://arxiv.org/abs/2206.08275v1 )

ライセンス: Link先を確認
Ruoyu Wang, Syed Ali Khurram, Amina Asif, Lawrence Young, Nasir Rajpoot(参考訳) 頭頸部扁平上皮癌(HNSCC)は、アルコール、タバコ、ヒトパピローマウイルス(HPV)感染などの複数の発癌物質を含む。 HPV感染はHNSCC患者の予後,治療,生存に影響を与えるため,これらの腫瘍のHPV像を決定することが重要である。 本稿では,HPV状態予測のための新しい三重項レベル損失関数と複数インスタンス学習パイプラインを提案する。 これにより、2つのHNSCCコホート上でのH&E染色WSIのみを用いたHPV検出における最先端性能を実現する。 さらに, ゲノム, 免疫学, 細胞の観点からHPV+/HNSCCの特異なパターンを特徴付ける包括的腫瘍環境プロファイリングを行った。 提案したスコアとT細胞の異なるサブタイプ(例えばT細胞Follicular Helper, CD8+T細胞)との正の相関とマクロファージおよび結合性細胞(例えば線維芽細胞)との負の相関が臨床所見と一致した。 HPV感染状況に関しても特異な遺伝子発現プロファイルが同定され,既存の知見と一致した。

The aetiology of head and neck squamous cell carcinoma (HNSCC) involves multiple carcinogens such as alcohol, tobacco and infection with human papillomavirus (HPV). As the HPV infection influences the prognosis, treatment and survival of patients with HNSCC, it is important to determine the HPV status of these tumours. In this paper, we propose a novel triplet-ranking loss function and a multiple instance learning pipeline for HPV status prediction. This achieves a new state-of-the-art performance in HPV detection using only the routine H&E stained WSIs on two HNSCC cohorts. Furthermore, a comprehensive tumour microenvironment profiling was performed, which characterised the unique patterns between HPV+/- HNSCC from genomic, immunology and cellular perspectives. Positive correlations of the proposed score with different subtypes of T cells (e.g. T cells follicular helper, CD8+ T cells), and negative correlations with macrophages and connective cells (e.g. fibroblast) were identified, which is in line with clinical findings. Unique gene expression profiles were also identified with respect to HPV infection status, and is in line with existing findings.
翻訳日:2022-06-17 14:56:02 公開日:2022-06-16
# iboot: 自己教師付きビデオ表現学習

iBoot: Image-bootstrapped Self-Supervised Video Representation Learning ( http://arxiv.org/abs/2206.08339v1 )

ライセンス: Link先を確認
Fatemeh Saleh, Fuwen Tan, Adrian Bulat, Georgios Tzimiropoulos, and Brais Martinez(参考訳) 自己監督による視覚表現の学習は、ネットワークが監督による積極的な指導なしに、刺激的な邪魔者から関連するパターンを抽出する必要があるため、非常に難しい作業である。 これは大量のデータ拡張、大規模なデータセット、そして計算量の制限によって実現される。 ビデオデータセットは通常、イメージデータセットほど大きくはなく、計算は桁違いに大きく、オプティマイザが取得しなければならないスプリアスパターンの量は、数倍に倍増します。 したがって、ビデオデータから自己教師付き表現を直接学習すると、準最適性能が得られる。 そこで本稿では,ビデオ表現学習フレームワークにおいて,自己や言語を事前学習した強力な画像ベースモデルを,ビデオラベル付きデータに頼らずに,強い空間的・時間的情報を学習可能にすることを提案する。 この目的のために、典型的ビデオベースのssl設計と目的を変更し、一般的なドメインでトレーニングされた画像ベースのモデルのセマンティックコンテンツである \textit{subsume} をビデオエンコーダに推奨する。 提案アルゴリズムはより効率的に学習できることが示され(例えば、エポックが小さく、バッチが小さい)、単一のモダリティSSLメソッド間の標準下流タスクにおける新しい最先端のパフォーマンスが得られる。

Learning visual representations through self-supervision is an extremely challenging task as the network needs to sieve relevant patterns from spurious distractors without the active guidance provided by supervision. This is achieved through heavy data augmentation, large-scale datasets and prohibitive amounts of compute. Video self-supervised learning (SSL) suffers from added challenges: video datasets are typically not as large as image datasets, compute is an order of magnitude larger, and the amount of spurious patterns the optimizer has to sieve through is multiplied several fold. Thus, directly learning self-supervised representations from video data might result in sub-optimal performance. To address this, we propose to utilize a strong image-based model, pre-trained with self- or language supervision, in a video representation learning framework, enabling the model to learn strong spatial and temporal information without relying on the video labeled data. To this end, we modify the typical video-based SSL design and objective to encourage the video encoder to \textit{subsume} the semantic content of an image-based model trained on a general domain. The proposed algorithm is shown to learn much more efficiently (i.e. in less epochs and with a smaller batch) and results in a new state-of-the-art performance on standard downstream tasks among single-modality SSL methods.
翻訳日:2022-06-17 14:55:41 公開日:2022-06-16
# エンドツーエンド4ビット量子化によるリカレントニューラルネットワークトランスデューサの高速化と言語モデル融合

Accelerating Inference and Language Model Fusion of Recurrent Neural Network Transducers via End-to-End 4-bit Quantization ( http://arxiv.org/abs/2206.07882v1 )

ライセンス: Link先を確認
Andrea Fasoli, Chia-Yu Chen, Mauricio Serrano, Swagath Venkataramani, George Saon, Xiaodong Cui, Brian Kingsbury, Kailash Gopalakrishnan(参考訳) 繰り返しニューラルネットワークトランスデューサ(rnn-t)の推論を大いに促進する積極的な量子化戦略について報告する。 重みとアクティベーションの両方に4ビット整数表現を使用し、量子化アウェアトレーニング(QAT)を適用して、フルモデル(音響エンコーダと言語モデル)をトレーニングし、ほぼ同値の精度を達成する。 ネットワークの局所特性に合わせてカスタマイズされた量子化方式は,QATの計算オーバーヘッドを抑えつつ,優れた性能を実現するために不可欠であることを示す。 密度比言語モデル融合は、RNN-Tワークロードにおいて顕著な精度向上を示したが、推論の計算コストを大幅に向上させた。 提案手法は,大規模ビーム幅を仮説探索に利用し,ストリーミング対応ランタイムを実現し,完全精度モデルと比較して7.6$\times$のフルモデル圧縮率を示す。 ハードウェアシミュレーションにより、LM融合を含むエンドツーエンド量子化RNN-Tに対して、FP16からINT4への3.4$\times$加速度を推定し、実時間係数(RTF)が0.06となる。 NIST Hub5 2000、Hub5 2001、RT-03テストセットでは、LM融合に関連する利益のほとんどを保持し、平均的なWERを1.5%以上改善する。

We report on aggressive quantization strategies that greatly accelerate inference of Recurrent Neural Network Transducers (RNN-T). We use a 4 bit integer representation for both weights and activations and apply Quantization Aware Training (QAT) to retrain the full model (acoustic encoder and language model) and achieve near-iso-accuracy. We show that customized quantization schemes that are tailored to the local properties of the network are essential to achieve good performance while limiting the computational overhead of QAT. Density ratio Language Model fusion has shown remarkable accuracy gains on RNN-T workloads but it severely increases the computational cost of inference. We show that our quantization strategies enable using large beam widths for hypothesis search while achieving streaming-compatible runtimes and a full model compression ratio of 7.6$\times$ compared to the full precision model. Via hardware simulations, we estimate a 3.4$\times$ acceleration from FP16 to INT4 for the end-to-end quantized RNN-T inclusive of LM fusion, resulting in a Real Time Factor (RTF) of 0.06. On the NIST Hub5 2000, Hub5 2001, and RT-03 test sets, we retain most of the gains associated with LM fusion, improving the average WER by $>$1.5%.
翻訳日:2022-06-17 14:54:00 公開日:2022-06-16
# 対話履歴の言語的・韻律的文脈を用いた対話音声合成のための音響モデル

Acoustic Modeling for End-to-End Empathetic Dialogue Speech Synthesis Using Linguistic and Prosodic Contexts of Dialogue History ( http://arxiv.org/abs/2206.08039v1 )

ライセンス: Link先を確認
Yuto Nishimura, Yuki Saito, Shinnosuke Takamichi, Kentaro Tachibana, and Hiroshi Saruwatari(参考訳) 本稿では,対話履歴の言語的文脈と韻律的文脈の両方を考慮した,エンドツーエンドの共感的対話音声合成(DSS)モデルを提案する。 共感は対話においてインターロケータの中に入ろうとする人間の積極的な試みであり、共感DSSは音声対話システムでこの行為を実行するための技術である。 本モデルは,適切な対話コンテキストを予測するための言語的特徴と韻律的特徴の履歴によって条件付けられている。 このように、従来の言語機能に基づく対話履歴モデリングの拡張と見なすことができる。 共感dssモデルを効果的に訓練するために 1)大規模音声コーパスを用いた自己教師型学習モデル 2)対話コンテキスト埋め込みによって予測される現在発話の韻律埋め込みを用いたスタイル指導訓練 3)テキストと音声のモダリティを組み合わせるための横断的注意, 4) 文の埋め込みにより, 発話のモデリングではなく, きめ細かい韻律モデリングを実現する。 評価結果は 1)会話履歴の韻律的文脈を単純に考慮しても,共感dssの発話品質は向上しない。 2) スタイル誘導学習と文内埋め込みモデルの導入は, 従来の方法よりも高い音声品質を実現する。

We propose an end-to-end empathetic dialogue speech synthesis (DSS) model that considers both the linguistic and prosodic contexts of dialogue history. Empathy is the active attempt by humans to get inside the interlocutor in dialogue, and empathetic DSS is a technology to implement this act in spoken dialogue systems. Our model is conditioned by the history of linguistic and prosody features for predicting appropriate dialogue context. As such, it can be regarded as an extension of the conventional linguistic-feature-based dialogue history modeling. To train the empathetic DSS model effectively, we investigate 1) a self-supervised learning model pretrained with large speech corpora, 2) a style-guided training using a prosody embedding of the current utterance to be predicted by the dialogue context embedding, 3) a cross-modal attention to combine text and speech modalities, and 4) a sentence-wise embedding to achieve fine-grained prosody modeling rather than utterance-wise modeling. The evaluation results demonstrate that 1) simply considering prosodic contexts of the dialogue history does not improve the quality of speech in empathetic DSS and 2) introducing style-guided training and sentence-wise embedding modeling achieves higher speech quality than that by the conventional method.
翻訳日:2022-06-17 14:53:31 公開日:2022-06-16
# 世界中の(ハイパー)グラフ:データドラマ

All the World's a (Hyper)Graph: A Data Drama ( http://arxiv.org/abs/2206.08225v1 )

ライセンス: Link先を確認
Corinna Coupette, Jilles Vreeken, Bastian Rieck(参考訳) シェークスピアの戯曲から派生した多種多様な関係データ表現のデータセットであるhyperbardを紹介する。 私たちの表現は、単一シーンにおける文字共起をキャプチャする単純なグラフから、複雑な通信設定を符号化したハイパーグラフ、エッジ固有のノード重み付きハイパーエッジとしての文字コントリビューションまでさまざまです。 複数の直感的な表現を実験で容易に利用できるようにすることで、グラフ学習、グラフマイニング、ネットワーク分析における厳密な表現堅牢性チェックを容易にし、特定の表現の利点と欠点を強調する。 Hyperbardでリリースされたデータを利用して、人気のあるグラフマイニング問題に対する多くのソリューションが表現の選択に大きく依存していることを示し、現在のグラフキュレーションの実践を疑問視する。 データソースへのオマージュとして、科学もまた芸術であると主張するため、私たちはすべてのポイントを遊びの形で提示します。

We introduce Hyperbard, a dataset of diverse relational data representations derived from Shakespeare's plays. Our representations range from simple graphs capturing character co-occurrence in single scenes to hypergraphs encoding complex communication settings and character contributions as hyperedges with edge-specific node weights. By making multiple intuitive representations readily available for experimentation, we facilitate rigorous representation robustness checks in graph learning, graph mining, and network analysis, highlighting the advantages and drawbacks of specific representations. Leveraging the data released in Hyperbard, we demonstrate that many solutions to popular graph mining problems are highly dependent on the representation choice, thus calling current graph curation practices into question. As an homage to our data source, and asserting that science can also be art, we present all our points in the form of a play.
翻訳日:2022-06-17 14:53:14 公開日:2022-06-16
# 効果的なヒューマンAIチームの構築: 複数の専門家の能力を補完する機械学習モデルの構築

Forming Effective Human-AI Teams: Building Machine Learning Models that Complement the Capabilities of Multiple Experts ( http://arxiv.org/abs/2206.07948v1 )

ライセンス: Link先を確認
Patrick Hemmer and Sebastian Schellhammer and Michael V\"ossing and Johannes Jakubik and Gerhard Satzger(参考訳) 機械学習(ML)モデルは、人間の専門家と協力することが多いアプリケーションドメインで、ますます使われている。 この文脈では、MLモデルの予測が困難である場合に、特定のインスタンスを単一の人間専門家に延期することが有利である。 これまでの研究は、ある異なる人間の専門家によるシナリオに焦点を当ててきたが、現実の多くの状況では、様々な能力を持つ人間専門家が利用できるかもしれない。 本研究では,複数の専門家の能力を補完するために分類モデルを訓練する手法を提案する。 分類器をアロケーションシステムと共同でトレーニングすることで、分類器は人間の専門家にとって困難なインスタンスを正確に予測することを学び、割当てシステムは各インスタンスを最も適したチームメンバー(分類器または人間の専門家のどちらか)に渡すことを学習する。 提案手法を,複数の放射線学者による「合成」専門家と実世界の医療データセットを用いた複数の実験で評価した。 我々のアプローチは以前の作業よりも優れており、最高の人間専門家や分類器よりも正確です。 さらに、さまざまなサイズと異なるレベルの専門的多様性を持つチームに柔軟に対応できる。

Machine learning (ML) models are increasingly being used in application domains that often involve working together with human experts. In this context, it can be advantageous to defer certain instances to a single human expert when they are difficult to predict for the ML model. While previous work has focused on scenarios with one distinct human expert, in many real-world situations several human experts with varying capabilities may be available. In this work, we propose an approach that trains a classification model to complement the capabilities of multiple human experts. By jointly training the classifier together with an allocation system, the classifier learns to accurately predict those instances that are difficult for the human experts, while the allocation system learns to pass each instance to the most suitable team member -- either the classifier or one of the human experts. We evaluate our proposed approach in multiple experiments on public datasets with "synthetic" experts and a real-world medical dataset annotated by multiple radiologists. Our approach outperforms prior work and is more accurate than the best human expert or a classifier. Furthermore, it is flexibly adaptable to teams of varying sizes and different levels of expert diversity.
翻訳日:2022-06-17 14:52:18 公開日:2022-06-16
# 時間間隔強調グラフニューラルネットワークによる共有アカウント型クロスドメイン・シーケンシャルレコメンデーション

Time Interval-enhanced Graph Neural Network for Shared-account Cross-domain Sequential Recommendation ( http://arxiv.org/abs/2206.08050v1 )

ライセンス: Link先を確認
Lei Guo, Jinyu Zhang, Li Tang, Tong Chen, Lei Zhu and Hongzhi Yin(参考訳) 共有アカウント クロスドメイン シークエンシャルレコメンデーション(SCSR)タスクは、複数のドメインにおける混合ユーザ動作を活用することで、次の項目を推奨することを目的としている。 多くのユーザーが異なるプラットフォームにサインアップし、ドメイン固有のサービスにアクセスするために他のプラットフォームとアカウントを共有する傾向にある。 既存のSCSRの作業は主に、リカレントニューラルネットワーク(RNN)ベースのモデルによるシーケンシャルパターンのマイニングに依存しています。 1) RNNに基づく手法は, 単一ユーザの振る舞いにおける逐次的依存関係の発見を圧倒的に狙う。 SCSR内の複数のエンティティ間の関係を捉えるのに十分な表現力はない。 2) 既存の手法はすべて潜在空間における知識伝達を介して2つのドメインをブリッジし, 明示的なクロスドメイングラフ構造を無視する。 3)項目間の時間間隔情報については,既存の研究では検討されていない。 本稿では,この課題に対処するため,新たなグラフベースソリューションTiDA-GCNを提案する。 具体的には、まず各ドメインのユーザーとアイテムをグラフとしてリンクします。 次に,ドメイン対応グラフ畳み込みネットワークを考案し,ユーザ固有のノード表現を学習する。 ユーザの項目に対するドメイン固有の嗜好を十分に説明するために、メッセージパッシングプロセスを選択的にガイドする2つの効果的な注意機構がさらに開発されている。 さらに、項目・アカウントレベルの表現学習をさらに強化するため、メッセージパッシングに時間間隔を組み込んで、項目のインタラクティブな特徴を学習するためのアカウント対応セルフアテンションモジュールを設計する。 様々な側面から提案手法の優位性を示す実験を行った。

Shared-account Cross-domain Sequential Recommendation (SCSR) task aims to recommend the next item via leveraging the mixed user behaviors in multiple domains. It is gaining immense research attention as more and more users tend to sign up on different platforms and share accounts with others to access domain-specific services. Existing works on SCSR mainly rely on mining sequential patterns via Recurrent Neural Network (RNN)-based models, which suffer from the following limitations: 1) RNN-based methods overwhelmingly target discovering sequential dependencies in single-user behaviors. They are not expressive enough to capture the relationships among multiple entities in SCSR. 2) All existing methods bridge two domains via knowledge transfer in the latent space, and ignore the explicit cross-domain graph structure. 3) None existing studies consider the time interval information among items, which is essential in the sequential recommendation for characterizing different items and learning discriminative representations for them. In this work, we propose a new graph-based solution, namely TiDA-GCN, to address the above challenges. Specifically, we first link users and items in each domain as a graph. Then, we devise a domain-aware graph convolution network to learn userspecific node representations. To fully account for users' domainspecific preferences on items, two effective attention mechanisms are further developed to selectively guide the message passing process. Moreover, to further enhance item- and account-level representation learning, we incorporate the time interval into the message passing, and design an account-aware self-attention module for learning items' interactive characteristics. Experiments demonstrate the superiority of our proposed method from various aspects.
翻訳日:2022-06-17 14:50:43 公開日:2022-06-16
# 強化学習による共有アカウントのクロスドメインシーケンスレコメンデーション

Reinforcement Learning-enhanced Shared-account Cross-domain Sequential Recommendation ( http://arxiv.org/abs/2206.08088v1 )

ライセンス: Link先を確認
Lei Guo, Jinyu Zhang, Tong Chen, Xinhua Wang and Hongzhi Yin(参考訳) 共有アカウント クロスドメイン シークエンシャルレコメンデーション(SCSR)は、シーケンシャルレコメンデーションにおける共有アカウントとクロスドメインの特徴を同時に考慮する、新興かつ困難なタスクである。 SCSRの既存の研究は主にリカレントニューラルネットワーク(RNN)とグラフニューラルネットワーク(GNN)に基づいているが、複数のユーザが1つのアカウントを共有しているにもかかわらず、主に1つのユーザが占めているという事実を無視している。 この観察は、最近の行動に注意して、より正確なユーザ固有のアカウント表現を学ぶ動機となる。 さらに、既存の作業は、無関係な相互作用に対する重み付けを許容しますが、それでもドメイン情報を減らし、ドメイン間の推奨を妨げます。 上記の課題に対処するため、基本クロスドメインレコメンデータと強化学習ベースドメインフィルタからなる強化学習ベースのソリューション、すなわちRL-ISNを提案する。 具体的には、アカウント表現を共有アカウントシナリオでモデル化するために、基本的なレコメンデータは、ユーザが潜伏しているユーザとして混在する振る舞いをクラスタ化し、その上で注意モデルを利用してユーザ識別を行う。 非関係なドメイン情報の影響を低減するため、ドメインフィルタを階層的強化学習タスクとして定式化し、転送シーケンス全体を修正するか否かをハイレベルなタスクで判断し、もしそうであれば、低レベルなタスクを加えて、その中の各インタラクションを削除するかどうかを判定する。 提案手法の性能を評価するため,2つの実世界のデータセットについて広範な実験を行い,RL-ISN法と最先端のレコメンデーション法を比較検討した。

Shared-account Cross-domain Sequential Recommendation (SCSR) is an emerging yet challenging task that simultaneously considers the shared-account and cross-domain characteristics in the sequential recommendation. Existing works on SCSR are mainly based on Recurrent Neural Network (RNN) and Graph Neural Network (GNN) but they ignore the fact that although multiple users share a single account, it is mainly occupied by one user at a time. This observation motivates us to learn a more accurate user-specific account representation by attentively focusing on its recent behaviors. Furthermore, though existing works endow lower weights to irrelevant interactions, they may still dilute the domain information and impede the cross-domain recommendation. To address the above issues, we propose a reinforcement learning-based solution, namely RL-ISN, which consists of a basic cross-domain recommender and a reinforcement learning-based domain filter. Specifically, to model the account representation in the shared-account scenario, the basic recommender first clusters users' mixed behaviors as latent users, and then leverages an attention model over them to conduct user identification. To reduce the impact of irrelevant domain information, we formulate the domain filter as a hierarchical reinforcement learning task, where a high-level task is utilized to decide whether to revise the whole transferred sequence or not, and if it does, a low-level task is further performed to determine whether to remove each interaction within it or not. To evaluate the performance of our solution, we conduct extensive experiments on two real-world datasets, and the experimental results demonstrate the superiority of our RL-ISN method compared with the state-of-the-art recommendation methods.
翻訳日:2022-06-17 14:50:16 公開日:2022-06-16
# プライベートオンライン凸最適化について:$\ell_p$-Geometryと高次元空間帯域における最適アルゴリズム

On Private Online Convex Optimization: Optimal Algorithms in $\ell_p$-Geometry and High Dimensional Contextual Bandits ( http://arxiv.org/abs/2206.08111v1 )

ライセンス: Link先を確認
Yuxuan Han, Zhicong Liang, Zhipeng Liang, Yang Wang, Yuan Yao, Jiheng Zhang(参考訳) Differentially private (DP) stochastic convex Optimization (SCO)は、信頼できる機械学習アルゴリズム設計においてユビキタスである。 本稿では,分布からサンプリングしたストリーミングデータを用いてDP-SCO問題を逐次解析する。 また、プライベート情報に関連するパラメータを更新し、新しいデータ(しばしばオンラインアルゴリズム)に基づいてリリースする連続リリースモデルについても検討する。 様々な$\ell_p$標準ジオメトリの最適余剰リスクを達成するために多くのアルゴリズムが開発されているが、既存のアルゴリズムはストリーミングや連続的なリリース設定に適応できない。 プライバシ保護を伴うオンライン凸最適化のような課題に対処するために,各データに対するパラメータの更新と公開のための分散低減のための再帰勾配を持つオンラインフランクウルフアルゴリズムのプライベート変種を提案する。 アダプティブ・ディファレンシャル・プライバシ分析と組み合わせることで、オンラインアルゴリズムは、1<p\leq 2$と2<p\leq\infty$のとき非プライベートローワーのリスクを満たす最先端の過大リスクを線形時間で達成する。 このアルゴリズムは、ほぼ次元独立な余剰リスクを達成するために$p=1$の場合にも拡張できる。 再帰的勾配の以前の分散低減結果は、独立かつ同分布のサンプル設定でのみ理論的に保証されるが、非定常設定でその保証を確立する。 本手法の利点を実証するため,対数的後悔を伴う高次元一般化線形帯域に対するDPアルゴリズムを設計した。 DP-SCOアルゴリズムとDP-Banditアルゴリズムの比較実験は,提案アルゴリズムの有効性と有効性を示す。

Differentially private (DP) stochastic convex optimization (SCO) is ubiquitous in trustworthy machine learning algorithm design. This paper studies the DP-SCO problem with streaming data sampled from a distribution and arrives sequentially. We also consider the continual release model where parameters related to private information are updated and released upon each new data, often known as the online algorithms. Despite that numerous algorithms have been developed to achieve the optimal excess risks in different $\ell_p$ norm geometries, yet none of the existing ones can be adapted to the streaming and continual release setting. To address such a challenge as the online convex optimization with privacy protection, we propose a private variant of online Frank-Wolfe algorithm with recursive gradients for variance reduction to update and reveal the parameters upon each data. Combined with the adaptive differential privacy analysis, our online algorithm achieves in linear time the optimal excess risk when $1<p\leq 2$ and the state-of-the-art excess risk meeting the non-private lower ones when $2<p\leq\infty$. Our algorithm can also be extended to the case $p=1$ to achieve nearly dimension-independent excess risk. While previous variance reduction results on recursive gradient have theoretical guarantee only in the independent and identically distributed sample setting, we establish such a guarantee in a non-stationary setting. To demonstrate the virtues of our method, we design the first DP algorithm for high-dimensional generalized linear bandits with logarithmic regret. Comparative experiments with a variety of DP-SCO and DP-Bandit algorithms exhibit the efficacy and utility of the proposed algorithms.
翻訳日:2022-06-17 14:46:26 公開日:2022-06-16
# 合成FDG-PET画像の同時生成によるMRIによる認知症検出

U-PET: MRI-based Dementia Detection with Joint Generation of Synthetic FDG-PET Images ( http://arxiv.org/abs/2206.08078v1 )

ライセンス: Link先を確認
Marcel Kollovieh, Matthias Keicher, Stephan Wunderlich, Hendrik Burwinkel, Thomas Wendler and Nassir Navab(参考訳) アルツハイマー病 (AD) は認知症の最も一般的な原因である。 早期発見は、疾患の抑制と進行に関連するリスクの軽減に不可欠である。 MRIとFDG-PETの組み合わせは診断に最適なツールであるが、FDG-PETは必ずしも利用できない。 特にFDG-PETが全ての患者に手頃でない地域において、MRIのみによるアルツハイマー病の確実な検出が有用であった。 そこで本研究では,t1強調mr画像を入力として合成fdg-pet画像を生成し,認知機能正常(cn),認知機能障害(mci),adに分類するu-netに基づくマルチタスク手法を提案する。 両タスクヘッドで使用される注意ゲートは、脳の最も関連する部分を視覚化し、検査官を誘導し、解釈可能性を追加する。 その結果, 合成FDG-PET画像の生成が成功し, 単一タスクベースラインでの疾患分類が向上した。

Alzheimer's disease (AD) is the most common cause of dementia. An early detection is crucial for slowing down the disease and mitigating risks related to the progression. While the combination of MRI and FDG-PET is the best image-based tool for diagnosis, FDG-PET is not always available. The reliable detection of Alzheimer's disease with only MRI could be beneficial, especially in regions where FDG-PET might not be affordable for all patients. To this end, we propose a multi-task method based on U-Net that takes T1-weighted MR images as an input to generate synthetic FDG-PET images and classifies the dementia progression of the patient into cognitive normal (CN), cognitive impairment (MCI), and AD. The attention gates used in both task heads can visualize the most relevant parts of the brain, guiding the examiner and adding interpretability. Results show the successful generation of synthetic FDG-PET images and a performance increase in disease classification over the naive single-task baseline.
翻訳日:2022-06-17 14:45:49 公開日:2022-06-16
# セマンティックセグメンテーションのためのシンプルで効率的なアーキテクチャ

Simple and Efficient Architectures for Semantic Segmentation ( http://arxiv.org/abs/2206.08236v1 )

ライセンス: Link先を確認
Dushyant Mehta, Andrii Skliar, Haitam Ben Yahia, Shubhankar Borse, Fatih Porikli, Amirhossein Habibian, Tijmen Blankevoort(参考訳) HRNetのようなセマンティックセグメンテーションのアーキテクチャは印象的な正確さを示しているが、それらの優れた設計選択から生じる複雑さは、さまざまなモデルアクセラレーションツールを妨げ、さらに現在のハードウェアで非効率な操作を利用する。 本稿では、ResNetのようなバックボーンと小型のマルチスケールヘッドを備えた単純なエンコーダデコーダアーキテクチャが、HRNet、FANet、DDRNetsのような複雑なセマンティックセマンティックセマンティクスアーキテクチャよりも優れていることを示す。 画像分類のために設計された深いバックボーンをセマンティックセグメンテーションのタスクに適用することは、これらのバックボーンの効果的な受容領域がはるかに小さいため、サブパー結果をもたらす。 HRNet、DDRNet、FANetのような様々な設計上の選択は、大きな効果的な受容領域を持つネットワークである。 単純なエンコーダ-デコーダアーキテクチャは、拡張畳み込みのような非効率な操作を使わずに、より大きな効果的な受容フィールドを持つバックボーンで構成される場合、好適に比較できるかどうかを問うのは自然である。 セマンティックセグメンテーションのために,ResNetのマイナーかつ安価な修正により,受容領域が拡大し,非常にシンプルで競争力のあるベースラインが作成できることが示される。 cityscapesデータセットの複雑なモデルのパフォーマンスに匹敵する、あるいは上回るモバイルターゲットと同様に、デスクトップ用のこのようなシンプルなアーキテクチャのファミリを提示する。 私たちの研究は、効率的なセマンティクスセグメンテーションモデルを開発するための、シンプルで効果的なベースラインを提供することを願っています。

Though the state-of-the architectures for semantic segmentation, such as HRNet, demonstrate impressive accuracy, the complexity arising from their salient design choices hinders a range of model acceleration tools, and further they make use of operations that are inefficient on current hardware. This paper demonstrates that a simple encoder-decoder architecture with a ResNet-like backbone and a small multi-scale head, performs on-par or better than complex semantic segmentation architectures such as HRNet, FANet and DDRNets. Naively applying deep backbones designed for Image Classification to the task of Semantic Segmentation leads to sub-par results, owing to a much smaller effective receptive field of these backbones. Implicit among the various design choices put forth in works like HRNet, DDRNet, and FANet are networks with a large effective receptive field. It is natural to ask if a simple encoder-decoder architecture would compare favorably if comprised of backbones that have a larger effective receptive field, though without the use of inefficient operations like dilated convolutions. We show that with minor and inexpensive modifications to ResNets, enlarging the receptive field, very simple and competitive baselines can be created for Semantic Segmentation. We present a family of such simple architectures for desktop as well as mobile targets, which match or exceed the performance of complex models on the Cityscapes dataset. We hope that our work provides simple yet effective baselines for practitioners to develop efficient semantic segmentation models.
翻訳日:2022-06-17 14:45:30 公開日:2022-06-16
# 視力に基づくタスクにおける敵のパッチ攻撃と防御

Adversarial Patch Attacks and Defences in Vision-Based Tasks: A Survey ( http://arxiv.org/abs/2206.08304v1 )

ライセンス: Link先を確認
Abhijith Sharma, Yijun Bian, Phil Munz, Apurva Narayan(参考訳) 近年、AIモデルのセキュリティと堅牢性に対する信頼の欠如により、ディープラーニングモデル、特に安全クリティカルなシステムに対する敵対的攻撃がますます注目を集めている。 しかし、より原始的な敵の攻撃は物理的に実現不可能かもしれないし、訓練データのようなアクセスが難しいリソースを必要とするかもしれない。 本調査は,本研究の進展を迅速に把握することを目的とした,既存の対向パッチ攻撃技術をカバーするための総合的な概要を提供する。 また,この分野とその実世界での応用をコミュニティがより深く理解することを目的とした,敵パッチの検出と防御のための既存の技術についても論じる。

Adversarial attacks in deep learning models, especially for safety-critical systems, are gaining more and more attention in recent years, due to the lack of trust in the security and robustness of AI models. Yet the more primitive adversarial attacks might be physically infeasible or require some resources that are hard to access like the training data, which motivated the emergence of patch attacks. In this survey, we provide a comprehensive overview to cover existing techniques of adversarial patch attacks, aiming to help interested researchers quickly catch up with the progress in this field. We also discuss existing techniques for developing detection and defences against adversarial patches, aiming to help the community better understand this field and its applications in the real world.
翻訳日:2022-06-17 14:45:02 公開日:2022-06-16
# 暗黒知識を持つサロゲートモデルの逆移動性向上

Boosting the Adversarial Transferability of Surrogate Model with Dark Knowledge ( http://arxiv.org/abs/2206.08316v1 )

ライセンス: Link先を確認
Dingcheng Yang, Zihao Xiao, Wenjian Yu(参考訳) 画像分類のためのディープニューラルネットワーク(DNN)は、敵の例に弱いことが知られている。 また、逆の例には転送可能性があり、つまり、dnnモデルの逆の例では、非自明な確率で別のブラックボックスモデルを騙すことができる。 これにより、トレーニング済みまたは既知のモデル(サロゲートモデルと呼ばれる)によって生成された敵の例がブラックボックス攻撃に使用される転送ベースの敵攻撃が生まれた。 より優れた転送可能性を達成するために、与えられた代理モデルから逆例を生成する方法がいくつかある。 しかし、転送性が向上した敵対的な例を生成するための特別なサロゲートモデルの訓練は、比較的未検討である。 本稿では,暗黒知識の豊富なサロゲートモデルを用いて,サロゲートモデルが生成する逆例の逆移動可能性を高めるためのトレーニング手法を提案する。 このトレーニングされたサロゲートモデルはdark surrogate model (dsm)と呼ばれ、提案されたdsmのトレーニング方法は2つの重要な要素から成り立っている: 暗知識を抽出しソフトラベルを提供する教師モデルと、トレーニングデータの暗黒知識を強化する混合強化スキルである。 提案手法は,サロゲートモデルとオプティマイザの異なるアーキテクチャにおけるサロゲートモデルの逆転性を大幅に向上し,逆転例を生成することができることを示した。 また,提案手法は顔認証などの暗黒知識を含む移動攻撃の他のシナリオにも適用可能であることを示す。

Deep neural networks (DNNs) for image classification are known to be vulnerable to adversarial examples. And, the adversarial examples have transferability, which means an adversarial example for a DNN model can fool another black-box model with a non-trivial probability. This gave birth of the transfer-based adversarial attack where the adversarial examples generated by a pretrained or known model (called surrogate model) are used to conduct black-box attack. There are some work on how to generate the adversarial examples from a given surrogate model to achieve better transferability. However, training a special surrogate model to generate adversarial examples with better transferability is relatively under-explored. In this paper, we propose a method of training a surrogate model with abundant dark knowledge to boost the adversarial transferability of the adversarial examples generated by the surrogate model. This trained surrogate model is named dark surrogate model (DSM), and the proposed method to train DSM consists of two key components: a teacher model extracting dark knowledge and providing soft labels, and the mixing augmentation skill which enhances the dark knowledge of training data. Extensive experiments have been conducted to show that the proposed method can substantially improve the adversarial transferability of surrogate model across different architectures of surrogate model and optimizers for generating adversarial examples. We also show that the proposed method can be applied to other scenarios of transfer-based attack that contain dark knowledge, like face verification.
翻訳日:2022-06-17 14:44:51 公開日:2022-06-16
# (参考訳) 構造化自動微分によるスケーラブルな一階ベイズ最適化

Scalable First-Order Bayesian Optimization via Structured Automatic Differentiation ( http://arxiv.org/abs/2206.08366v1 )

ライセンス: CC BY 4.0
Sebastian Ament and Carla Gomes(参考訳) ベイズ最適化(BO)は評価に費用がかかる関数のグローバルな最適化を大いに約束しているが、多くの成功にもかかわらず、標準的なアプローチは高次元において苦労する可能性がある。 boの性能を改善するために、以前の研究は目的を代理するガウス過程に勾配情報を組み込むことを提案し、d$次元の観察のためにnd \times nd$ というサイズのカーネル行列を生み出した。 na\"ively multiplying with (resp. inverting) これらの行列は$\mathcal{o}(n^2d^2)$ (resp.) を必要とする。 $\mathcal{O}(n^3d^3$) 演算は、中等次元やサンプルサイズでは不可能になる。 ここでは、幅広いカーネルが構造化行列を生じさせ、正確な$\mathcal{O}(n^2d)$行列ベクトル乗法と$\mathcal{O}(n^2d^2)$ヘッセン観測を可能にする。 標準カーネルクラス以外にも、このタイプの構造を、構造認識自動微分アルゴリズムを構成する議論されたカーネルクラスの変換と組み合わせに活用するためのプログラム的アプローチを導出する。 提案手法は,ほぼすべての標準カーネルに適用され,ニューラルネットワーク,ラジアル基底関数ネットワーク,スペクトル混合カーネルなどの複雑なカーネルに自動的に拡張される。

Bayesian Optimization (BO) has shown great promise for the global optimization of functions that are expensive to evaluate, but despite many successes, standard approaches can struggle in high dimensions. To improve the performance of BO, prior work suggested incorporating gradient information into a Gaussian process surrogate of the objective, giving rise to kernel matrices of size $nd \times nd$ for $n$ observations in $d$ dimensions. Na\"ively multiplying with (resp. inverting) these matrices requires $\mathcal{O}(n^2d^2)$ (resp. $\mathcal{O}(n^3d^3$)) operations, which becomes infeasible for moderate dimensions and sample sizes. Here, we observe that a wide range of kernels gives rise to structured matrices, enabling an exact $\mathcal{O}(n^2d)$ matrix-vector multiply for gradient observations and $\mathcal{O}(n^2d^2)$ for Hessian observations. Beyond canonical kernel classes, we derive a programmatic approach to leveraging this type of structure for transformations and combinations of the discussed kernel classes, which constitutes a structure-aware automatic differentiation algorithm. Our methods apply to virtually all canonical kernels and automatically extend to complex kernels, like the neural network, radial basis function network, and spectral mixture kernels without any additional derivations, enabling flexible, problem-dependent modeling while scaling first-order BO to high $d$.
翻訳日:2022-06-17 14:41:57 公開日:2022-06-16
# MoDi: 逆データからの無条件運動合成

MoDi: Unconditional Motion Synthesis from Diverse Data ( http://arxiv.org/abs/2206.08010v1 )

ライセンス: Link先を確認
Sigal Raab, Inbal Leibovitch, Peizhuo Li, Kfir Aberman, Olga Sorkine-Hornung, Daniel Cohen-Or(参考訳) ニューラルネットワークの出現は、動き合成の分野に革命をもたらした。 しかし、特定の分布から運動を無条件に合成することを学ぶことは、特に動きが非常に多様である場合、難しい課題である。 多様な動きを合成する無条件生成モデルであるMoDiを提案する。 私たちのモデルは、多様で構造化されていない、ラベルのないモーションデータセットから、完全に教師なしの環境でトレーニングされています。 モデルの設計はstyleganの多作なアーキテクチャに従い、その重要な技術要素の2つをモーションドメインに適応させる。ジェネレータ階層の各レベルに注入されるスタイルコードの集合と、不連続な潜在空間を学習し形成するマッピング関数です。 データセットに構造がないにもかかわらず、潜在空間は意味的にクラスタ化され、意味的な編集や動きの補間を容易にする。 また,非可視な動きを潜在空間に逆転させる手法を提案し,明示的な動き表現の操作によっては実現できない潜時的な動き編集操作を実証する。 質的かつ定量的な実験により,我々は,高度に多様な動きデータセットの分布に追従できる最先端の合成品質を達成することができた。 コードとトレーニングされたモデルはhttps://sigal-raab.github.io/modiでリリースされる。

The emergence of neural networks has revolutionized the field of motion synthesis. Yet, learning to unconditionally synthesize motions from a given distribution remains a challenging task, especially when the motions are highly diverse. We present MoDi, an unconditional generative model that synthesizes diverse motions. Our model is trained in a completely unsupervised setting from a diverse, unstructured and unlabeled motion dataset and yields a well-behaved, highly semantic latent space. The design of our model follows the prolific architecture of StyleGAN and adapts two of its key technical components into the motion domain: a set of style-codes injected into each level of the generator hierarchy and a mapping function that learns and forms a disentangled latent space. We show that despite the lack of any structure in the dataset, the latent space can be semantically clustered, and facilitates semantic editing and motion interpolation. In addition, we propose a technique to invert unseen motions into the latent space, and demonstrate latent-based motion editing operations that otherwise cannot be achieved by naive manipulation of explicit motion representations. Our qualitative and quantitative experiments show that our framework achieves state-of-the-art synthesis quality that can follow the distribution of highly diverse motion datasets. Code and trained models will be released at https://sigal-raab.github.io/MoDi.
翻訳日:2022-06-17 14:10:21 公開日:2022-06-16
# 構造地形のロコモーションのためのニューラルシーン表現

Neural Scene Representation for Locomotion on Structured Terrain ( http://arxiv.org/abs/2206.08077v1 )

ライセンス: Link先を確認
David Hoeller, Nikita Rudin, Christopher Choy, Animashree Anandkumar, Marco Hutter(参考訳) 本研究では,都市環境を横断する移動ロボットを用いて,局所地形を再構築する学習手法を提案する。 このアルゴリズムは、搭載されたカメラとロボットの軌道からの深度測定のストリームを用いて、ロボットの近傍の地形を推定する。 これらのカメラからの生の計測は騒がしく、多くの場合、ロボットが立ち上がる地形を示さない部分的かつ目立たない観察しか提供しない。 そこで本研究では,カメラ配置の盲点から発生するノイズ測定や大量の欠落データにもかかわらず,シーンを忠実に再構築する3次元再構成モデルを提案する。 モデルは点雲上の4次元完全畳み込みネットワークからなり、文脈からシーンを完遂するための幾何学的事前学習と、時空間的一貫性を活用し、過去の証拠を使用するための自己回帰フィードバックからなる。 ネットワークは合成データでのみ訓練することができ、広範囲な拡張のために現実世界で堅牢であり、四足歩行ロボットanymalの検証で示されているように、困難な設定を横断する。 我々は,ロボットの低消費電力コンピュータ上で,効率的なスパーステンソル実装を用いてパイプラインを実行し,提案手法が従来の地図表現より優れていることを示す。

We propose a learning-based method to reconstruct the local terrain for locomotion with a mobile robot traversing urban environments. Using a stream of depth measurements from the onboard cameras and the robot's trajectory, the algorithm estimates the topography in the robot's vicinity. The raw measurements from these cameras are noisy and only provide partial and occluded observations that in many cases do not show the terrain the robot stands on. Therefore, we propose a 3D reconstruction model that faithfully reconstructs the scene, despite the noisy measurements and large amounts of missing data coming from the blind spots of the camera arrangement. The model consists of a 4D fully convolutional network on point clouds that learns the geometric priors to complete the scene from the context and an auto-regressive feedback to leverage spatio-temporal consistency and use evidence from the past. The network can be solely trained with synthetic data, and due to extensive augmentation, it is robust in the real world, as shown in the validation on a quadrupedal robot, ANYmal, traversing challenging settings. We run the pipeline on the robot's onboard low-power computer using an efficient sparse tensor implementation and show that the proposed method outperforms classical map representations.
翻訳日:2022-06-17 14:09:58 公開日:2022-06-16
# 破滅的なオーバーフィッティングはバグだが機能でもある

Catastrophic overfitting is a bug but also a feature ( http://arxiv.org/abs/2206.08242v1 )

ライセンス: Link先を確認
Guillermo Ortiz-Jim\'enez, Pau de Jorge, Amartya Sanyal, Adel Bibi, Puneet K. Dokania, Pascal Frossard, Gregory Rog\'ez, Philip H.S. Torr(参考訳) 強靭なニューラルネットワーク構築において、明確な計算上の優位性にもかかわらず、単一ステップの手法を用いた敵対的トレーニング(AT)は、破滅的なオーバーフィッティング(CO)に悩まされるため不安定である。 coの防止に成功している作品もあるが、この驚くべき失敗モードにつながる様々なメカニズムは、いまだによく分かっていない。 しかし,本研究では,データ構造とATのダイナミクスの相互作用がCOの基本的な役割を担っていることがわかった。 具体的には、自然画像の典型的なデータセットに対するアクティブな介入を通じて、単一ステップAT法でデータの構造とCOの開始との間に因果関係を確立する。 この新たな視点は、COにつながるメカニズムに関する重要な洞察を与え、ロバストモデル構築の一般的なダイナミクスをよりよく理解するための道を開く。 この論文の実験を再現するコードは、https://github.com/gortizji/co_features にある。

Despite clear computational advantages in building robust neural networks, adversarial training (AT) using single-step methods is unstable as it suffers from catastrophic overfitting (CO): Networks gain non-trivial robustness during the first stages of adversarial training, but suddenly reach a breaking point where they quickly lose all robustness in just a few iterations. Although some works have succeeded at preventing CO, the different mechanisms that lead to this remarkable failure mode are still poorly understood. In this work, however, we find that the interplay between the structure of the data and the dynamics of AT plays a fundamental role in CO. Specifically, through active interventions on typical datasets of natural images, we establish a causal link between the structure of the data and the onset of CO in single-step AT methods. This new perspective provides important insights into the mechanisms that lead to CO and paves the way towards a better understanding of the general dynamics of robust model construction. The code to reproduce the experiments of this paper can be found at https://github.com/gortizji/co_features .
翻訳日:2022-06-17 14:09:14 公開日:2022-06-16
# MixGen: 新しいマルチモーダルデータ拡張

MixGen: A New Multi-Modal Data Augmentation ( http://arxiv.org/abs/2206.08358v1 )

ライセンス: Link先を確認
Xiaoshuai Hao, Yi Zhu, Srikar Appalaraju, Aston Zhang, Wanqian Zhang, Bo Li, Mu Li(参考訳) データ拡張は、ディープラーニングにおけるデータ効率を向上させるために必要である。 視覚言語事前学習の場合、データは以前の作品で画像またはテキストに対してのみ追加される。 本稿では,データ効率を向上させるために,視覚言語表現学習のためのジョイントデータ拡張であるMixGenを提案する。 画像の補間とテキストの連結によって保存された意味関係を持つ新しい画像テキストペアを生成する。 シンプルで、既存のパイプラインにプラグイン&プレイできます。 我々は,CLIP, ViLT, ALBEF, TCLの4つのアーキテクチャ上で,5つの下流視覚言語タスクに対してMixGenを評価し,その汎用性と有効性を示した。 例えば、ALBEFの事前トレーニングにMixGenを追加すると、ダウンストリームタスクのパフォーマンスが絶対的に向上する:イメージテキスト検索(COCO細調整+6.2%、Flicker30Kゼロショット+5.3%)、ビジュアルグラウンド(RefCOCO++0.9%)、ビジュアル推論(NLVR$^{2}$+0.9%)、ビジュアル質問応答(VQA2.0+0.3%)、ビジュアルエンターメント(SNLI-VE+0.4%)。

Data augmentation is a necessity to enhance data efficiency in deep learning. For vision-language pre-training, data is only augmented either for images or for text in previous works. In this paper, we present MixGen: a joint data augmentation for vision-language representation learning to further improve data efficiency. It generates new image-text pairs with semantic relationships preserved by interpolating images and concatenating text. It's simple, and can be plug-and-played into existing pipelines. We evaluate MixGen on four architectures, including CLIP, ViLT, ALBEF and TCL, across five downstream vision-language tasks to show its versatility and effectiveness. For example, adding MixGen in ALBEF pre-training leads to absolute performance improvements on downstream tasks: image-text retrieval (+6.2% on COCO fine-tuned and +5.3% on Flicker30K zero-shot), visual grounding (+0.9% on RefCOCO+), visual reasoning (+0.9% on NLVR$^{2}$), visual question answering (+0.3% on VQA2.0), and visual entailment (+0.4% on SNLI-VE).
翻訳日:2022-06-17 14:08:57 公開日:2022-06-16
# リレーショナル・プロトタイプ・エンティティによる知識グラフにおけるグローバルセマンティックな類似性の爆発

Exploiting Global Semantic Similarities in Knowledge Graphs by Relational Prototype Entities ( http://arxiv.org/abs/2206.08021v1 )

ライセンス: Link先を確認
Xueliang Wang, Jiajun Chen, Feng Wu, Jie Wang(参考訳) 知識グラフ(KG)埋め込みは、連続ベクトル空間におけるKGの実体と関係の潜在表現を学習することを目的としている。 実証的な観察では、同じ関係によって接続された頭(尾)実体は、しばしば類似した意味的属性(特に、KGにおいて、どれだけ離れていても、同じカテゴリに属している。 しかし、既存の手法の多くは、ローカル情報に基づいてKG埋め込みを導出しており、エンティティ間のこのようなグローバルなセマンティックな類似性を効果的に捉えられなかった。 この課題に対処するために,我々は,同じ関係で接続された頭部と尾部の実体のプロトタイプを表現するために, \textit{\textbf{relational prototype entities}} と呼ばれる仮想ノードの集合を導入する新しいアプローチを提案する。 エンティティの埋め込みを関連するプロトタイプの埋め込みに近づけることで、このアプローチは、同じ関係で接続されたkg内で遠くにあるエンティティのグローバルな意味的類似性を効果的に促進することができる。 エンティティアライメントとkg完了タスクの実験は、我々のアプローチが最近の最先端を著しく上回っていることを示している。

Knowledge graph (KG) embedding aims at learning the latent representations for entities and relations of a KG in continuous vector spaces. An empirical observation is that the head (tail) entities connected by the same relation often share similar semantic attributes -- specifically, they often belong to the same category -- no matter how far away they are from each other in the KG; that is, they share global semantic similarities. However, many existing methods derive KG embeddings based on the local information, which fail to effectively capture such global semantic similarities among entities. To address this challenge, we propose a novel approach, which introduces a set of virtual nodes called \textit{\textbf{relational prototype entities}} to represent the prototypes of the head and tail entities connected by the same relations. By enforcing the entities' embeddings close to their associated prototypes' embeddings, our approach can effectively encourage the global semantic similarities of entities -- that can be far away in the KG -- connected by the same relation. Experiments on the entity alignment and KG completion tasks demonstrate that our approach significantly outperforms recent state-of-the-arts.
翻訳日:2022-06-17 14:08:21 公開日:2022-06-16
# 自動評価のためのディープラーニングアーキテクチャ

Deep Learning Architecture for Automatic Essay Scoring ( http://arxiv.org/abs/2206.08232v1 )

ライセンス: Link先を確認
Tsegaye Misikir Tashu, Chandresh Kumar Maurya, Tomas Horvath(参考訳) エッセイの自動評価(AES)や自動エッセイスコア(Automatic essay score)は,Coursera, Udemy, Khan Academyなどのオンライン学習・評価プラットフォームの普及によって深刻な問題となっている。 最近、研究者は自動評価のための多くの技術を提案した。 しかし、これらの技法の多くは手作りの特徴を用いており、特徴表現の観点からは限られている。 ディープラーニングは、膨大なデータを活用し、エッセイ評価に有用な機能を識別できる機械学習の新しいパラダイムとして登場した。 そこで本研究では,リカレントネットワーク(rnn)と畳み込みニューラルネットワーク(cnn)に基づく新しいアーキテクチャを提案する。 提案するアーキテクチャでは、マルチチャネル畳み込み層は、単語埋め込みベクトルから単語n-gramの文脈的特徴と本質的意味概念を学習し、最大プーリング演算を用いて特徴ベクトルをエッセイレベルで形成する。 Bi-gate Recurrent Unit (BGRU)と呼ばれるRNNの変種は、前と後のコンテキスト表現の両方にアクセスするために使用される。 この実験は、AESのタスクのためにKaggleで利用可能な8つのデータセットで実施された。 実験結果から,本システムは他の深層学習に基づくAESシステムや最先端のAESシステムよりも格付け精度が高いことがわかった。

Automatic evaluation of essay (AES) and also called automatic essay scoring has become a severe problem due to the rise of online learning and evaluation platforms such as Coursera, Udemy, Khan academy, and so on. Researchers have recently proposed many techniques for automatic evaluation. However, many of these techniques use hand-crafted features and thus are limited from the feature representation point of view. Deep learning has emerged as a new paradigm in machine learning which can exploit the vast data and identify the features useful for essay evaluation. To this end, we propose a novel architecture based on recurrent networks (RNN) and convolution neural network (CNN). In the proposed architecture, the multichannel convolutional layer learns and captures the contextual features of the word n-gram from the word embedding vectors and the essential semantic concepts to form the feature vector at essay level using max-pooling operation. A variant of RNN called Bi-gated recurrent unit (BGRU) is used to access both previous and subsequent contextual representations. The experiment was carried out on eight data sets available on Kaggle for the task of AES. The experimental results show that our proposed system achieves significantly higher grading accuracy than other deep learning-based AES systems and also other state-of-the-art AES systems.
翻訳日:2022-06-17 14:07:58 公開日:2022-06-16
# ジョンは5つのリンゴを食べました! john ate some apples': 代数的単語問題に対する自己教師付きパラフレーズ品質検出

'John ate 5 apples' != 'John ate some apples': Self-Supervised Paraphrase Quality Detection for Algebraic Word Problems ( http://arxiv.org/abs/2206.08263v1 )

ライセンス: Link先を確認
Rishabh Gupta, Venktesh V, Mukesh Mohania, Vikram Goyal(参考訳) 本稿では,代数的単語問題 (AWP) のための言い回しを新しい課題として紹介し,それを行う自己指導手法を提案する。 現在のオンライン教育環境では、これらの問題を言い換えると、学者が複数の構文的に多様な質問をアセスメントのために生成するのに役立ちます。 また、学習者がそれを記憶したり、不公平な手段を使って解決するのではなく、問題を理解したことを確実にするために変化を誘発する。 現在の最先端のパラフレーズ生成モデルは、しばしば単語問題を効果的に言い表すことができず、問題に解けない重要な情報(数や単位など)を失う。 優れたパラフレーズの訓練を可能にするために, AWP の文脈において, パラフレーズスコアリング手法が必要である。 そこで本研究では,潜在表現を学習し,代数的質問の質の高い言い換えを,貧弱な問題から広いマージンで分離できる,新しいデータ拡張を用いた自己教師付き言い換え品質検出手法であるparaqdを提案する。 実験により,提案手法は既存の最先端の自己監督手法を最大32%向上させるとともに,印象的なゼロショット性能を示した。

This paper introduces the novel task of scoring paraphrases for Algebraic Word Problems (AWP) and presents a self-supervised method for doing so. In the current online pedagogical setting, paraphrasing these problems is helpful for academicians to generate multiple syntactically diverse questions for assessments. It also helps induce variation to ensure that the student has understood the problem instead of just memorizing it or using unfair means to solve it. The current state-of-the-art paraphrase generation models often cannot effectively paraphrase word problems, losing a critical piece of information (such as numbers or units) which renders the question unsolvable. There is a need for paraphrase scoring methods in the context of AWP to enable the training of good paraphrasers. Thus, we propose ParaQD, a self-supervised paraphrase quality detection method using novel data augmentations that can learn latent representations to separate a high-quality paraphrase of an algebraic question from a poor one by a wide margin. Through extensive experimentation, we demonstrate that our method outperforms existing state-of-the-art self-supervised methods by up to 32% while also demonstrating impressive zero-shot performance.
翻訳日:2022-06-17 14:06:40 公開日:2022-06-16
# k-radar:4次元レーダー物体検出データセットと各種気象条件における自律運転ベンチマーク

K-Radar: 4D Radar Object Detection Dataset and Benchmark for Autonomous Driving in Various Weather Conditions ( http://arxiv.org/abs/2206.08171v1 )

ライセンス: Link先を確認
Dong-Hee Paek, Seung-Hyun Kong, Kevin Tirta Wijaya(参考訳) 可視光帯域(384$\sim$769 thz)とlidar(赤外線帯域(361$\sim$331 thz)を使用するrgbカメラとは異なり、レーダーは比較的長い波長の電波帯域(77$\sim$81 ghz)を使用するため、悪天候下では堅牢な測定を行う。 残念ながら、既存のRadarデータセットには、既存のカメラやLidarデータセットと比較して、比較的少数のサンプルしか含まれていない。 これはレーダーベースの知覚のための高度なデータ駆動ディープラーニング技術の開発を妨げる可能性がある。 さらに、既存のRadarデータセットのほとんどは、ドップラー、範囲、方位次元に沿った電力測定を含む3D Radar tensor (3DRT)データしか提供していない。 標高情報がないため、物体の3D境界ボックスを3DRTから推定することは困難である。 本研究では,4dレーダーテンソル(4drt)データの35kフレームとドップラー,距離,方位,標高の3次元のパワー計測と,道路上の物体の3dバウンディングボックスラベルを注意深く注釈した,新しい大規模物体検出データセットであるkaist-radar(k-radar)を紹介する。 Kラーダーは様々な道路構造(都市、郊外の道路、路地、高速道路)で悪天候(霧、雨、雪)のような困難な運転条件を含んでいる。 4drtに加えて,高精細度lidar,サラウンドステレオカメラ,rtk-gpsによる補助計測を行う。 また,4drtに基づくベースラインニューラルネットワーク(baseline nns)も提供し,高さ情報が3次元物体検出に重要であることを示す。 そして、ベースラインNNと同様の構造を持つLidarベースのニューラルネットワークを比較することで、4D Radarが悪天候に対するより堅牢なセンサーであることを実証した。 すべてのコードはhttps://github.com/kaist-avelab/k-radarで入手できる。

Unlike RGB cameras that use visible light bands (384$\sim$769 THz) and Lidar that use infrared bands (361$\sim$331 THz), Radars use relatively longer wavelength radio bands (77$\sim$81 GHz), resulting in robust measurements in adverse weathers. Unfortunately, existing Radar datasets only contain a relatively small number of samples compared to the existing camera and Lidar datasets. This may hinder the development of sophisticated data-driven deep learning techniques for Radar-based perception. Moreover, most of the existing Radar datasets only provide 3D Radar tensor (3DRT) data that contain power measurements along the Doppler, range, and azimuth dimensions. As there is no elevation information, it is challenging to estimate the 3D bounding box of an object from 3DRT. In this work, we introduce KAIST-Radar (K-Radar), a novel large-scale object detection dataset and benchmark that contains 35K frames of 4D Radar tensor (4DRT) data with power measurements along the Doppler, range, azimuth, and elevation dimensions, together with carefully annotated 3D bounding box labels of objects on the roads. K-Radar includes challenging driving conditions such as adverse weathers (fog, rain, and snow) on various road structures (urban, suburban roads, alleyways, and highways). In addition to the 4DRT, we provide auxiliary measurements from carefully calibrated high-resolution Lidars, surround stereo cameras, and RTK-GPS. We also provide 4DRT-based object detection baseline neural networks (baseline NNs) and show that the height information is crucial for 3D object detection. And by comparing the baseline NN with a similarly-structured Lidar-based neural network, we demonstrate that 4D Radar is a more robust sensor for adverse weather conditions. All codes are available at https://github.com/kaist-avelab/k-radar.
翻訳日:2022-06-17 14:06:19 公開日:2022-06-16
# miscnnフレームワークを用いた乳癌の核分節化と解析

Nucleus Segmentation and Analysis in Breast Cancer with the MIScnn Framework ( http://arxiv.org/abs/2206.08182v1 )

ライセンス: Link先を確認
Adrian Pfleiderer, Dominik M\"uller, Frank Kramer(参考訳) nuclsデータセットは、乳癌における220.000以上の細胞核の注釈を含んでいる。 これらのデータを用いてmiscnnフレームワークを用いたマルチレートモデルを作成し、細胞核の解析を自動化する方法を示す。 モデル作成には、パイプラインに埋め込まれた広範なU-Netアプローチを使用します。 このパイプラインは、高性能畳み込みニューラルネットワークに加えて、いくつかのプリプロセッサ技術と拡張データ探索を提供する。 最終モデルは、さまざまなメトリクスを使用して評価フェーズでテストされ、その後に可視化される。 最後に、結果はnucls研究の結果と比較され、解釈される。 展望として、細胞核の文脈におけるモデルの将来の発展に重要な指標が提示される。

The NuCLS dataset contains over 220.000 annotations of cell nuclei in breast cancers. We show how to use these data to create a multi-rater model with the MIScnn Framework to automate the analysis of cell nuclei. For the model creation, we use the widespread U-Net approach embedded in a pipeline. This pipeline provides besides the high performance convolution neural network, several preprocessor techniques and a extended data exploration. The final model is tested in the evaluation phase using a wide variety of metrics with a subsequent visualization. Finally, the results are compared and interpreted with the results of the NuCLS study. As an outlook, indications are given which are important for the future development of models in the context of cell nuclei.
翻訳日:2022-06-17 14:05:41 公開日:2022-06-16
# 深部ニューラルネットワークのための漸近ソフトクラスタプルーニング

Asymptotic Soft Cluster Pruning for Deep Neural Networks ( http://arxiv.org/abs/2206.08186v1 )

ライセンス: Link先を確認
Tao Niu, Yinglei Teng, Panpan Zou(参考訳) フィルタプルーニング法では,選択したフィルタを除去して構造的スパース性を導入することにより,特に複雑度を低減できる。 従来は、より小さなノルムのフィルタが最終的な結果に寄与しないという観点から、経験的にネットワークを熟考していた。 しかし、そのような基準はフィルタの分布に敏感であることが証明されており、キャパシティギャップが切断された後に固定されるため、精度の回復は困難である。 本稿では,Asymptotic Soft Cluster Pruning (ASCP) と呼ばれる新しいフィルタプルーニング手法を提案し,フィルタの類似性に基づいてネットワークの冗長性を同定する。 過パラメータネットワークの各フィルタは、まずクラスタリングによって区別され、その後、手動で冗長性を導入するように再構成される。 特徴抽出能力を向上するためのクラスタリングのガイドラインがいくつか提案されている。 再建後、誤って選択された効果を除去するためにフィルタの更新が許される。 また, プルーニング速度の様々な崩壊戦略を採用して, プルーニング工程の安定化と最終性能の向上を図る。 各クラスタ内でより同一のフィルタを徐々に生成することにより、ASCPは精度の低下のないチャネル加算操作によってそれらを除去することができる。 CIFAR-10とImageNetデータセットの大規模な実験により,本手法は最先端のアルゴリズムと比較して,競争力のある結果が得られることが示された。

Filter pruning method introduces structural sparsity by removing selected filters and is thus particularly effective for reducing complexity. Previous works empirically prune networks from the point of view that filter with smaller norm contributes less to the final results. However, such criteria has been proven sensitive to the distribution of filters, and the accuracy may hard to recover since the capacity gap is fixed once pruned. In this paper, we propose a novel filter pruning method called Asymptotic Soft Cluster Pruning (ASCP), to identify the redundancy of network based on the similarity of filters. Each filter from over-parameterized network is first distinguished by clustering, and then reconstructed to manually introduce redundancy into it. Several guidelines of clustering are proposed to better preserve feature extraction ability. After reconstruction, filters are allowed to be updated to eliminate the effect caused by mistakenly selected. Besides, various decaying strategies of the pruning rate are adopted to stabilize the pruning process and improve the final performance as well. By gradually generating more identical filters within each cluster, ASCP can remove them through channel addition operation with almost no accuracy drop. Extensive experiments on CIFAR-10 and ImageNet datasets show that our method can achieve competitive results compared with many state-of-the-art algorithms.
翻訳日:2022-06-17 14:05:31 公開日:2022-06-16
# transdrift:transformerを用いた単語埋め込みドリフトのモデリング

TransDrift: Modeling Word-Embedding Drift using Transformer ( http://arxiv.org/abs/2206.08081v1 )

ライセンス: Link先を確認
Nishtha Madaan, Prateek Chaudhury, Nishant Kumar, Srikanta Bedathur(参考訳) 現代のNLPアプリケーションでは、単語の埋め込みは多くのタスク間で簡単に共有できる重要なバックボーンである。 しかし、テキストの分布が変化し、単語のセマンティクスが時間とともに進化するにつれて、単語表現がデータドリフトに従わない場合、埋め込みを用いた下流のアプリケーションは苦しむことがある。 したがって、単語埋め込みを基盤となるデータ分散と一貫性を持たせることが重要な問題である。 本研究では,この問題に対処し,単語埋め込みのためのトランスフォーマーに基づく予測モデルであるTransDriftを提案する。 トランスフォーマの柔軟性を活かし,埋込ドリフトのダイナミクスを正確に学習し,今後の埋込予測を行う。 実験では,既存の手法と比較し,本モデルがベースラインよりもはるかに正確な単語埋め込み予測を行うことを示す。 重要な点として,予測した組込みを下流分類タスクのバックボーンとして適用することにより,組込みが従来の手法よりも優れた性能をもたらすことを示す。

In modern NLP applications, word embeddings are a crucial backbone that can be readily shared across a number of tasks. However as the text distributions change and word semantics evolve over time, the downstream applications using the embeddings can suffer if the word representations do not conform to the data drift. Thus, maintaining word embeddings to be consistent with the underlying data distribution is a key problem. In this work, we tackle this problem and propose TransDrift, a transformer-based prediction model for word embeddings. Leveraging the flexibility of transformer, our model accurately learns the dynamics of the embedding drift and predicts the future embedding. In experiments, we compare with existing methods and show that our model makes significantly more accurate predictions of the word embedding than the baselines. Crucially, by applying the predicted embeddings as a backbone for downstream classification tasks, we show that our embeddings lead to superior performance compared to the previous methods.
翻訳日:2022-06-17 14:05:10 公開日:2022-06-16
# 因果性バンディットの純粋探索

Pure Exploration of Causal Bandits ( http://arxiv.org/abs/2206.07883v1 )

ライセンス: Link先を確認
Nuoya Xiong, Wei Chen(参考訳) 因果バンディット問題は多腕バンディットと因果推論を統合する。 The pure exploration of causal bandits is the following online learning task: given a causal graph with unknown causal inference distributions, in each round we can choose to either intervene one variable or do no intervention, and observe the random outcomes of all random variables, with the goal that using as few rounds as possible, we can output an intervention that gives the best (or almost best) expected outcome on the reward variable $Y$ with probability at least $1-\delta$, where $\delta$ is a given confidence level. 並列グラフ,少数のバックドアを持つ一般グラフ,バイナリ一般化線形モデルを含む3種類の因果モデルに対して,第1のギャップ依存完全適応純粋探索アルゴリズムを提供する。 提案アルゴリズムは,報酬ギャップに適応しない先行因果バンディットアルゴリズムと,因果バンディットの特別な特徴を利用できない先行適応純粋探索アルゴリズムの両方を改善した。

Causal bandit problem integrates causal inference with multi-armed bandits. The pure exploration of causal bandits is the following online learning task: given a causal graph with unknown causal inference distributions, in each round we can choose to either intervene one variable or do no intervention, and observe the random outcomes of all random variables, with the goal that using as few rounds as possible, we can output an intervention that gives the best (or almost best) expected outcome on the reward variable $Y$ with probability at least $1-\delta$, where $\delta$ is a given confidence level. We provide first gap-dependent fully adaptive pure exploration algorithms on three types of causal models including parallel graphs, general graphs with small number of backdoor parents, and binary generalized linear models. Our algorithms improve both prior causal bandit algorithms, which are not adaptive to reward gaps, and prior adaptive pure exploration algorithms, which do not utilize the special features of causal bandits.
翻訳日:2022-06-17 14:02:17 公開日:2022-06-16
# 時系列アライメントのための閉形式微分同相変換

Closed-Form Diffeomorphic Transformations for Time Series Alignment ( http://arxiv.org/abs/2206.08107v1 )

ライセンス: Link先を確認
I\~nigo Martinez, Elisabeth Viles, Igor G. Olaizola(参考訳) 時系列アライメント法は、時間的トポロジー、すなわち微分同相写像を保存する高度に表現可能で微分可能で可逆なワーピング関数を要求する。 微分型ワープ関数は、通常の微分方程式(ODE)によって支配される速度場の積分から生成される。 微分同相変換を含む勾配に基づく最適化フレームワークは、モデルパラメータ、すなわち感度解析に関して微分方程式の解への微分を計算する必要がある。 残念なことに、ディープラーニングフレームワークは一般的に自動微分互換の感度分析手法を欠いている。 現在の解は随伴感度法、アドホック数値解法、またはレスネットのオイラー離散化に当てはまる。 本研究では, ode 溶液の閉形式表現と, cpa の連続的速度関数の下での勾配について述べる。 結果の高度に最適化された実装をcpuとgpuに実装する。 さらに,複数のデータセットについて広範囲な実験を行い,時系列結合アライメントのための非知覚データに対するモデルの一般化能力を検証する。 その結果,効率と精度の両面で有意な改善が認められた。

Time series alignment methods call for highly expressive, differentiable and invertible warping functions which preserve temporal topology, i.e diffeomorphisms. Diffeomorphic warping functions can be generated from the integration of velocity fields governed by an ordinary differential equation (ODE). Gradient-based optimization frameworks containing diffeomorphic transformations require to calculate derivatives to the differential equation's solution with respect to the model parameters, i.e. sensitivity analysis. Unfortunately, deep learning frameworks typically lack automatic-differentiation-compatible sensitivity analysis methods; and implicit functions, such as the solution of ODE, require particular care. Current solutions appeal to adjoint sensitivity methods, ad-hoc numerical solvers or ResNet's Eulerian discretization. In this work, we present a closed-form expression for the ODE solution and its gradient under continuous piecewise-affine (CPA) velocity functions. We present a highly optimized implementation of the results on CPU and GPU. Furthermore, we conduct extensive experiments on several datasets to validate the generalization ability of our model to unseen data for time-series joint alignment. Results show significant improvements both in terms of efficiency and accuracy.
翻訳日:2022-06-17 14:02:02 公開日:2022-06-16
# 自己適合性を持つスイッチ可能な表現学習フレームワーク

Switchable Representation Learning Framework with Self-compatibility ( http://arxiv.org/abs/2206.08289v1 )

ライセンス: Link先を確認
Shengsen Wu, Yan Bai, Yihang Lou, Xiongkun Linghu, Jianzhong He, Tao Bai and Ling-Yu Duan(参考訳) 現実世界のビジュアル検索システムは、異なるコンピューティングとストレージリソースを持つ複数のプラットフォームに展開する。 最小制約プラットフォームに適合する統一モデルの導入は、精度の制限につながる。 リソース制約に応じて異なる能力を持つモデルをデプロイすることが期待されており、これらのモデルによって抽出された特徴を計量空間に整列させる必要がある。 特徴アライメントを実現する方法は「互換性のある学習」と呼ばれる。 既存の研究は主に、複数のモデル間の互換性の学習に制限のある、1対1の互換性パラダイムに焦点を当てている。 自己相似性(sfsc)を用いた表現学習フレームワークを提案する。 SFSCは1つのトレーニングプロセスを通じて、異なる能力を持つ一連の互換性のあるサブモデルを生成する。 サブモデルの最適化は勾配の衝突に直面し、大きさと方向の観点から緩和する。 我々は不確実性推定によってサブモデルの優先順位を動的に調整し、サブモデルを適切に最適化する。 さらに、方向が矛盾する勾配は相互干渉を避けるために投影される。 SFSCは評価データセット上で最先端のパフォーマンスを達成する。

Real-world visual search systems involve deployments on multiple platforms with different computing and storage resources. Deploying a unified model that suits the minimal-constrain platforms leads to limited accuracy. It is expected to deploy models with different capacities adapting to the resource constraints, which requires features extracted by these models to be aligned in the metric space. The method to achieve feature alignments is called "compatible learning". Existing research mainly focuses on the one-to-one compatible paradigm, which is limited in learning compatibility among multiple models. We propose a Switchable representation learning Framework with Self-Compatibility (SFSC). SFSC generates a series of compatible sub-models with different capacities through one training process. The optimization of sub-models faces gradients conflict, and we mitigate it from the perspective of the magnitude and direction. We adjust the priorities of sub-models dynamically through uncertainty estimation to co-optimize sub-models properly. Besides, the gradients with conflicting directions are projected to avoid mutual interference. SFSC achieves state-of-art performance on the evaluated dataset.
翻訳日:2022-06-17 14:01:46 公開日:2022-06-16
# 異常ERクレームの同定への機械学習の適用

Applications of Machine Learning to the Identification of Anomalous ER Claims ( http://arxiv.org/abs/2206.08093v1 )

ライセンス: Link先を確認
Jesse B. Crawford and Nicholas Petela(参考訳) 不正やコードアップによる不適切な医療保険支払いは、米国で毎年数十億ドルもの医療費を負担し、機械学習研究者が医療保険請求に対する異常検出モデルを構築する動機となっている。 本稿では,ERクレームに関する2つの戦略について述べる。 ひとつは、重大度コード分布に基づくアップコーディングモデルで、階層的な診断コードクラスタによって階層化される。 平均符号化異常スコアの統計的に有意な差は, 既往のERと急性ケア病院との間に見られ, 既往のERの方が異常である。 2つ目のモデルは、レビューキュー内でERクレームを最適にソートすることで不適切な支払いを最小限にするランダムフォレストである。 レビューされたクレームの割合に応じて、ランダムフォレストは請求額を優先したベースラインアプローチよりも12%から40%も節約した。

Improper health insurance payments resulting from fraud and upcoding result in tens of billions of dollars in excess health care costs annually in the United States, motivating machine learning researchers to build anomaly detection models for health insurance claims. This article describes two such strategies specifically for ER claims. The first is an upcoding model based on severity code distributions, stratified by hierarchical diagnosis code clusters. A statistically significant difference in mean upcoding anomaly scores is observed between free-standing ERs and acute care hospitals, with free-standing ERs being more anomalous. The second model is a random forest that minimizes improper payments by optimally sorting ER claims within review queues. Depending on the percentage of claims reviewed, the random forest saved 12% to 40% above a baseline approach that prioritized claims by billed amount.
翻訳日:2022-06-17 13:59:58 公開日:2022-06-16
# node2vecの挙動について

On the Surprising Behaviour of node2vec ( http://arxiv.org/abs/2206.08252v1 )

ライセンス: Link先を確認
Celia Hacker, Bastian Rieck(参考訳) グラフ埋め込み技術は、現代のグラフ学習研究の出発点である。 分類などの下流タスクに埋め込みを使用する場合、その安定性や堅牢性に関する情報、すなわちノイズの発生源、確率効果、特定のパラメータ選択への感受性がますます重要になる。 最も顕著なグラフ埋め込みスキームの1つとして、 node2vec に着目し、その埋め込み品質を複数の観点から分析する。 本研究は, 組込み品質がパラメータ選択に関して不安定であることを示し, 実際にこれを改善するための戦略を提案する。

Graph embedding techniques are a staple of modern graph learning research. When using embeddings for downstream tasks such as classification, information about their stability and robustness, i.e., their susceptibility to sources of noise, stochastic effects, or specific parameter choices, becomes increasingly important. As one of the most prominent graph embedding schemes, we focus on node2vec and analyse its embedding quality from multiple perspectives. Our findings indicate that embedding quality is unstable with respect to parameter choices, and we propose strategies to remedy this in practice.
翻訳日:2022-06-17 13:59:43 公開日:2022-06-16
# 高次Denoising Score Matchingによるスコアベース拡散モードの最大習熟

Maximum Likelihood Training for Score-Based Diffusion ODEs by High-Order Denoising Score Matching ( http://arxiv.org/abs/2206.08265v1 )

ライセンス: Link先を確認
Cheng Lu, Kaiwen Zheng, Fan Bao, Jianfei Chen, Chongxuan Li, Jun Zhu(参考訳) スコアベース生成モデルは、生成品質と可能性の点で優れた性能を有する。 パラメータ化スコアネットワークと1次データスコア関数をマッチングしてデータ分布をモデル化する。 スコアネットワークは、正確な精度評価のためにODE(スコアベース拡散ODE)を定義するために使用できる。 しかし、ODEの可能性とスコアマッチングの目的との関係は明らかでない。 本研究は,最大確率とスコアマッチング目標とのギャップを示すことにより,一階のスコアの一致がodeの可能性を最大化するのに十分でないことを示す。 このギャップを埋めるために、第1、第2、第3のスコアマッチング誤差を制御することで、ODEの負の確率を制限できることを示し、さらに、スコアベース拡散ODEの最大極大トレーニングを可能にする、新しい高次のスコアマッチング法を提案する。 提案アルゴリズムは,高次マッチングエラーがトレーニングエラーと低次エラーによって境界づけられていることを保証する。 我々は,高次スコアマッチングにより,高次品質を維持しつつ,スコアベース拡散ODEが合成データとCIFAR-10の両方により良い可能性をもたらすことを実証的に観察した。

Score-based generative models have excellent performance in terms of generation quality and likelihood. They model the data distribution by matching a parameterized score network with first-order data score functions. The score network can be used to define an ODE ("score-based diffusion ODE") for exact likelihood evaluation. However, the relationship between the likelihood of the ODE and the score matching objective is unclear. In this work, we prove that matching the first-order score is not sufficient to maximize the likelihood of the ODE, by showing a gap between the maximum likelihood and score matching objectives. To fill up this gap, we show that the negative likelihood of the ODE can be bounded by controlling the first, second, and third-order score matching errors; and we further present a novel high-order denoising score matching method to enable maximum likelihood training of score-based diffusion ODEs. Our algorithm guarantees that the higher-order matching error is bounded by the training error and the lower-order errors. We empirically observe that by high-order score matching, score-based diffusion ODEs achieve better likelihood on both synthetic data and CIFAR-10, while retaining the high generation quality.
翻訳日:2022-06-17 13:59:33 公開日:2022-06-16
# Pythae: Pythonで生成オートエンコーダを統合する - ベンチマークユースケース

Pythae: Unifying Generative Autoencoders in Python -- A Benchmarking Use Case ( http://arxiv.org/abs/2206.08309v1 )

ライセンス: Link先を確認
Cl\'ement Chadebec and Louis J. Vincent and St\'ephanie Allassonni\`ere(参考訳) 近年,複雑な分布をモデル化する能力から,深い生成モデルへの関心が高まっている。 これらのモデルのうち、変分オートエンコーダは計算効率が良く、複数の分野で印象的な結果をもたらすことが証明され、人気を集めている。 このブレークスルーの後、オリジナルの出版を改善するために広範な研究が行われ、様々なタスクに対応する様々なVAEモデルが生み出された。 本稿では,汎用的なpythonライブラリであるpythaeについて述べる。pythaeは統一的な実装と,生成型オートエンコーダモデルの単純で再現性があり,信頼性の高い使用を可能にする専用フレームワークを提供する。 次に,本ライブラリを用いてケーススタディベンチマークを行い,画像再構成,生成,分類,クラスタリング,補間といった下流タスクにおける主な改善点を代表する19個の生成型オートエンコーダモデルを比較し,比較する。 オープンソースライブラリはhttps://github.com/clementchadebec/benchmark_vaeにある。

In recent years, deep generative models have attracted increasing interest due to their capacity to model complex distributions. Among those models, variational autoencoders have gained popularity as they have proven both to be computationally efficient and yield impressive results in multiple fields. Following this breakthrough, extensive research has been done in order to improve the original publication, resulting in a variety of different VAE models in response to different tasks. In this paper we present Pythae, a versatile open-source Python library providing both a unified implementation and a dedicated framework allowing straightforward, reproducible and reliable use of generative autoencoder models. We then propose to use this library to perform a case study benchmark where we present and compare 19 generative autoencoder models representative of some of the main improvements on downstream tasks such as image reconstruction, generation, classification, clustering and interpolation. The open-source library can be found at https://github.com/clementchadebec/benchmark_VAE.
翻訳日:2022-06-17 13:59:12 公開日:2022-06-16
# (参考訳) BYOL-Explore: ブートストラップ予測による探索

BYOL-Explore: Exploration by Bootstrapped Prediction ( http://arxiv.org/abs/2206.08332v1 )

ライセンス: CC BY 4.0
Zhaohan Daniel Guo, Shantanu Thakoor, Miruna P\^islar, Bernardo Avila Pires, Florent Altch\'e, Corentin Tallec, Alaa Saade, Daniele Calandriello, Jean-Bastien Grill, Yunhao Tang, Michal Valko, R\'emi Munos, Mohammad Gheshlaghi Azar, Bilal Piot(参考訳) BYOL-Exploreは、視覚的に複雑な環境での好奇心駆動探索のための概念的に単純だが一般的なアプローチである。 byol-exploreは、潜在空間における単一の予測損失を、追加の目的なしに最適化することで、世界表現、世界ダイナミクス、探査政策を全て学習する。 BYOL-Exploreは、視覚的にリッチな3次元環境を持つ、部分的に観察可能な連続動作ハード探索ベンチマークであるDM-HARD-8で有効であることを示す。 本ベンチマークでは,BYOL-Explore s intrinsic reward を用いて外因性報酬を増大させることにより,タスクの大部分を純粋に解決する。 BYOL-Exploreの一般化のさらなる証拠として、他の競争エージェントよりもはるかにシンプルな設計をしながら、アタリで最も難しい10個の探索ゲームにおいて超人的な性能を達成することを示す。

We present BYOL-Explore, a conceptually simple yet general approach for curiosity-driven exploration in visually-complex environments. BYOL-Explore learns a world representation, the world dynamics, and an exploration policy all-together by optimizing a single prediction loss in the latent space with no additional auxiliary objective. We show that BYOL-Explore is effective in DM-HARD-8, a challenging partially-observable continuous-action hard-exploration benchmark with visually-rich 3-D environments. On this benchmark, we solve the majority of the tasks purely through augmenting the extrinsic reward with BYOL-Explore s intrinsic reward, whereas prior work could only get off the ground with human demonstrations. As further evidence of the generality of BYOL-Explore, we show that it achieves superhuman performance on the ten hardest exploration games in Atari while having a much simpler design than other competitive agents.
翻訳日:2022-06-17 13:56:25 公開日:2022-06-16
# omnimae: 画像やビデオに仮装されたシングルモデル

OmniMAE: Single Model Masked Pretraining on Images and Videos ( http://arxiv.org/abs/2206.08356v1 )

ライセンス: Link先を確認
Rohit Girdhar, Alaaeldin El-Nouby, Mannat Singh, Kalyan Vasudev Alwala, Armand Joulin, Ishan Misra(参考訳) トランスフォーマーベースのアーキテクチャは、画像やビデオなど、さまざまな視覚領域で競合している。 先行研究はこれらのモダリティを分離して研究したが、共通のアーキテクチャを持つことは、複数の視覚モダリティに対して単一の統一モデルを訓練できることを示唆している。 統一モデリングの以前の試みでは、一般的にビジョンタスク用に調整されたアーキテクチャを使うか、単一のモダリティモデルよりも悪いパフォーマンスを得る。 本研究では,マスク付き自動エンコーディングにより,ラベル付きデータを必要としない画像やビデオの単純な視覚トランスフォーマーを訓練できることを実証する。 この単一モデルは、画像とビデオのベンチマークの両方でシングルモダリティ表現に匹敵する、あるいは優れたビジュアル表現を学習し、よりシンプルなアーキテクチャを使用する。 特に、我々の1つの事前訓練されたモデルは、ImageNetで86.5%、挑戦的なSomes-v2ビデオベンチマークで75.3%を達成するために微調整することができる。 さらに、このモデルは画像の90%とビデオパッチの95%を落とし、極めて高速なトレーニングを可能にして学習することができる。

Transformer-based architectures have become competitive across a variety of visual domains, most notably images and videos. While prior work has studied these modalities in isolation, having a common architecture suggests that one can train a single unified model for multiple visual modalities. Prior attempts at unified modeling typically use architectures tailored for vision tasks, or obtain worse performance compared to single modality models. In this work, we show that masked autoencoding can be used to train a simple Vision Transformer on images and videos, without requiring any labeled data. This single model learns visual representations that are comparable to or better than single-modality representations on both image and video benchmarks, while using a much simpler architecture. In particular, our single pretrained model can be finetuned to achieve 86.5% on ImageNet and 75.3% on the challenging Something Something-v2 video benchmark. Furthermore, this model can be learned by dropping 90% of the image and 95% of the video patches, enabling extremely fast training.
翻訳日:2022-06-17 13:29:58 公開日:2022-06-16
# 聴衆を知る:dixitのゲームで接頭辞言語モデルを専門にする

Know your audience: specializing grounded language models with the game of Dixit ( http://arxiv.org/abs/2206.08349v1 )

ライセンス: Link先を確認
Aaditya K. Singh, David Ding, Andrew Saxe, Felix Hill, Andrew K. Lampinen(参考訳) 効果的なコミュニケーションには、各コミュニケーションパートナーと共有される慣用的な共通基盤に適応する必要がある。 我々は、この問題の特に困難なインスタンス化、すなわち人気のゲームDixitについて研究する。 我々は、ディクシットのラウンドをマルチエージェント画像参照ゲームとして定式化し、ターゲット画像を記述するために(訓練された)話者モデルに報酬を与える。 この設定に適応するために、話者は異なるリスナーと共有する共通点の違いを生かさなければならない。 クリップビジョンエンコーダと大規模言語モデル間の注意に基づくアダプタの微調整は,この対照的なマルチエージェント設定は,直接の監督なしに,報酬のみからコンテキスト依存の自然言語を特殊化する。 制御された一連の実験において、話者は様々な聴取者の同調的強みと弱みに応じて適応できることを示す。 さらに,話者の特殊化を実世界データにゼロショット転送することを示す。 我々の実験は、複雑なマルチパートナー環境での適応通信へのステップを提供し、Dxitのようなゲームがもたらす興味深い研究課題を強調します。 私たちの仕事が、トレーニング済みのモデルに適応するための創造的な新しいアプローチに刺激されることを願っています。

Effective communication requires adapting to the idiosyncratic common ground shared with each communicative partner. We study a particularly challenging instantiation of this problem: the popular game Dixit. We formulate a round of Dixit as a multi-agent image reference game where a (trained) speaker model is rewarded for describing a target image such that one (pretrained) listener model can correctly identify it from a pool of distractors, but another listener cannot. To adapt to this setting, the speaker must exploit differences in the common ground it shares with the different listeners. We show that finetuning an attention-based adapter between a CLIP vision encoder and a large language model in this contrastive, multi-agent setting gives rise to context-dependent natural language specialization from rewards only, without direct supervision. In a series of controlled experiments, we show that the speaker can adapt according to the idiosyncratic strengths and weaknesses of various pairs of different listeners. Furthermore, we show zero-shot transfer of the speaker's specialization to unseen real-world data. Our experiments offer a step towards adaptive communication in complex multi-partner settings and highlight the interesting research challenges posed by games like Dixit. We hope that our work will inspire creative new approaches to adapting pretrained models.
翻訳日:2022-06-17 13:29:06 公開日:2022-06-16
# インタラクション・グラウンド学習とアクション・イングレッシブフィードバック

Interaction-Grounded Learning with Action-inclusive Feedback ( http://arxiv.org/abs/2206.08364v1 )

ライセンス: Link先を確認
Tengyang Xie, Akanksha Saran, Dylan J. Foster, Lekan Molu, Ida Momennejad, Nan Jiang, Paul Mineiro, John Langford(参考訳) 対話型学習(Interaction-Grounded Learning, IGL)の課題について考察し, 学習者の目的は, 明確な報酬を伴わず, 環境と最適に対話することである。 エージェントは、コンテキストベクトルを観察し、アクションを取り、フィードバックベクトルを受信し、この情報を用いて、潜在報酬関数に関するポリシーを効果的に最適化する。 以前に分析されたアプローチは、フィードバックベクトルがアクションを含むと失敗し、ブレイン・コンピュータ・インタフェース(BCI)やヒューマン・コンピュータ・インタフェース(HCI)といった多くの潜在的なシナリオにおけるIGLの成功を著しく制限する。 フィードバックベクトルが任意の方法で符号化されたアクションを含む場合でも、IGLが動作するアルゴリズムと分析を作成することで、この問題に対処する。 提案手法の有効性を実証するために,教師付きデータセットに基づく理論的保証と大規模実験を行う。

Consider the problem setting of Interaction-Grounded Learning (IGL), in which a learner's goal is to optimally interact with the environment with no explicit reward to ground its policies. The agent observes a context vector, takes an action, and receives a feedback vector, using this information to effectively optimize a policy with respect to a latent reward function. Prior analyzed approaches fail when the feedback vector contains the action, which significantly limits IGL's success in many potential scenarios such as Brain-computer interface (BCI) or Human-computer interface (HCI) applications. We address this by creating an algorithm and analysis which allows IGL to work even when the feedback vector contains the action, encoded in any fashion. We provide theoretical guarantees and large-scale experiments based on supervised datasets to demonstrate the effectiveness of the new approach.
翻訳日:2022-06-17 13:28:21 公開日:2022-06-16
# 凍結双方向言語モデルによるゼロショットビデオ質問応答

Zero-Shot Video Question Answering via Frozen Bidirectional Language Models ( http://arxiv.org/abs/2206.08155v1 )

ライセンス: Link先を確認
Antoine Yang, Antoine Miech, Josef Sivic, Ivan Laptev, Cordelia Schmid(参考訳) ビデオ質問応答(Video QA)は、多様なマルチモーダルデータを必要とする複雑なタスクである。 しかし、ビデオに対する質問や回答のマニュアルアノテーションは面倒であり、スケーラビリティを禁止している。 この問題に対処するために,近年の手法では,手動による視覚的質問応答のアノテーションを伴わないゼロショット設定が検討されている。 特に、有望なアプローチは、Webスケールのテキストのみのデータに基づいて事前訓練された凍結自己回帰言語モデルをマルチモーダル入力に適応させる。 対照的に、我々は凍結した双方向言語モデル(BiLM)を構築し、そのようなアプローチがゼロショットビデオQAに対してより強力で安価な代替手段を提供することを示す。 特に (i)軽トレーニングモジュールを用いた凍結BiLMと視覚入力を組み合わせる。 (二)ウェブスクラッピングマルチモーダルデータを用いてそのようなモジュールを訓練し、最後に 3) マスク付き言語モデルを用いてゼロショットビデオQA推論を行い, マスク付きテキストが与えられた質問に対する回答となる。 提案手法であるFrozenBiLMは,LSMDC-FiB,iVQA,MSRVTT-QA,MSVD-QA,ActivityNet-QA,TGIF-FrameQA,How2QA,TVQAなど,さまざまなデータセットにおいて,ゼロショットビデオQAの最先端技術よりも優れている。 また、数ショットで完全に教師された設定で、競争性能を示す。 私たちのコードとモデルはhttps://antoyang.github.io/frozenbilm.htmlで公開されます。

Video question answering (VideoQA) is a complex task that requires diverse multi-modal data for training. Manual annotation of question and answers for videos, however, is tedious and prohibits scalability. To tackle this problem, recent methods consider zero-shot settings with no manual annotation of visual question-answer. In particular, a promising approach adapts frozen autoregressive language models pretrained on Web-scale text-only data to multi-modal inputs. In contrast, we here build on frozen bidirectional language models (BiLM) and show that such an approach provides a stronger and cheaper alternative for zero-shot VideoQA. In particular, (i) we combine visual inputs with the frozen BiLM using light trainable modules, (ii) we train such modules using Web-scraped multi-modal data, and finally (iii) we perform zero-shot VideoQA inference through masked language modeling, where the masked text is the answer to a given question. Our proposed approach, FrozenBiLM, outperforms the state of the art in zero-shot VideoQA by a significant margin on a variety of datasets, including LSMDC-FiB, iVQA, MSRVTT-QA, MSVD-QA, ActivityNet-QA, TGIF-FrameQA, How2QA and TVQA. It also demonstrates competitive performance in the few-shot and fully-supervised setting. Our code and models will be made publicly available at https://antoyang.github.io/frozenbilm.html.
翻訳日:2022-06-17 13:28:04 公開日:2022-06-16
# 自己教師型視覚変換器のパッチレベル表現学習

Patch-level Representation Learning for Self-supervised Vision Transformers ( http://arxiv.org/abs/2206.07990v1 )

ライセンス: Link先を確認
Sukmin Yun, Hankook Lee, Jaehyung Kim, Jinwoo Shin(参考訳) 最近の自己教師あり学習(ssl)法はラベルなし画像から視覚的表現を学習する印象的な結果を示している。 本稿では、SSLの現在最先端のビジュアルプリテキストタスクは、アーキテクチャに依存しないというメリットを享受できないため、基盤となるニューラルネットワークのアーキテクチャ上の利点を活用することにより、パフォーマンスをさらに向上することを目的とする。 特に視覚トランスフォーマー(vits: vision transformers)に重点を置いており、近年はアーキテクチャ上の選択肢として注目を集めており、様々な視覚タスクにおいて畳み込みネットワークよりも優れています。 ViTのユニークな特徴は、画像から切り離されたパッチのシーケンスを取り、内部でパッチレベルの表現を処理することである。 それによって、パッチレベルの表現をより良く学習するために、シンプルで効果的なビジュアルプリテキストタスク、selfpatchを設計しました。 具体的には、各パッチとその隣人に対する不変性、すなわち、各パッチは類似した隣接パッチを正のサンプルとして扱う。 結果として、SelfPatchを使ったViTsのトレーニングは、より意味論的に意味のあるパッチ間の関係を学習し、特に高密度な予測型のタスクの下流で有益なものとなる。 その単純さにもかかわらず、オブジェクト検出やセマンティックセグメンテーションを含む様々な視覚的タスクに対して、既存のSSLメソッドの性能を大幅に改善できることを実証する。 具体的には、COCOオブジェクト検出において+1.3 AP、COCOインスタンスセグメンテーションでは+1.2 AP、ADE20Kセグメンテーションでは+2.9 mIoUを達成することで、最近の自己監督型ViTであるDINOを大幅に改善している。

Recent self-supervised learning (SSL) methods have shown impressive results in learning visual representations from unlabeled images. This paper aims to improve their performance further by utilizing the architectural advantages of the underlying neural network, as the current state-of-the-art visual pretext tasks for SSL do not enjoy the benefit, i.e., they are architecture-agnostic. In particular, we focus on Vision Transformers (ViTs), which have gained much attention recently as a better architectural choice, often outperforming convolutional networks for various visual tasks. The unique characteristic of ViT is that it takes a sequence of disjoint patches from an image and processes patch-level representations internally. Inspired by this, we design a simple yet effective visual pretext task, coined SelfPatch, for learning better patch-level representations. To be specific, we enforce invariance against each patch and its neighbors, i.e., each patch treats similar neighboring patches as positive samples. Consequently, training ViTs with SelfPatch learns more semantically meaningful relations among patches (without using human-annotated labels), which can be beneficial, in particular, to downstream tasks of a dense prediction type. Despite its simplicity, we demonstrate that it can significantly improve the performance of existing SSL methods for various visual tasks, including object detection and semantic segmentation. Specifically, SelfPatch significantly improves the recent self-supervised ViT, DINO, by achieving +1.3 AP on COCO object detection, +1.2 AP on COCO instance segmentation, and +2.9 mIoU on ADE20K semantic segmentation.
翻訳日:2022-06-17 13:27:38 公開日:2022-06-16
# (参考訳) S$^2$-FPN:リアルタイムセマンティックセグメンテーションのためのスケールウェアストリップ注意誘導特徴ピラミッドネットワーク

S$^2$-FPN: Scale-ware Strip Attention Guided Feature Pyramid Network for Real-time Semantic Segmentation ( http://arxiv.org/abs/2206.07298v2 )

ライセンス: CC BY 4.0
Mohammed A. M. Elhassan, Chenhui Yang, Chenxi Huang, Tewodros Legesse Munea, Xin Hong(参考訳) 現代の高性能セマンティックセグメンテーション手法は、重いバックボーンと拡張畳み込みを用いて関連する特徴を抽出する。 セグメンテーションタスクにはコンテキスト情報と意味情報の両方で機能を抽出することが重要であるが、リアルタイムアプリケーションにはメモリフットプリントと高い計算コストをもたらす。 本稿では,リアルタイム道路シーンセマンティックセグメンテーションにおける精度/速度のトレードオフを実現するための新しいモデルを提案する。 具体的には,S$^2$-FPN(Scale-aware Strip Attention Guided Feature Pyramid Network)という軽量モデルを提案する。 我々のネットワークは,アテンションピラミッド融合(APF)モジュール,スケール対応ストリップ注意モジュール(SSAM)モジュール,グローバルフィーチャーアップサンプル(GFU)モジュールの3つの主要モジュールで構成されている。 APFは、差別的なマルチスケールの特徴を学習し、異なるレベル間のセマンティックギャップを埋めるための注意機構を採用している。 APFは、グローバルコンテキストを垂直なストリップ操作でエンコードするためにスケールアウェアアテンションを使用し、長距離依存をモデル化し、ピクセルと同様のセマンティックラベルを関連付けるのに役立つ。 さらに、APFはチャンネル機能を強調するためにチャンネルワイドリウェイトブロック(CRB)を使用している。 最後に、S$^2$-FPNのデコーダは、APFとエンコーダの機能を融合するために使用されるGFUを採用する。 2つの難解なセマンティックセグメンテーションベンチマークで広範な実験が行われ、異なるモデル設定で精度と速度のトレードオフが達成できることが実証された。 提案されたモデルは、76.2\%mIoU/87.3FPS、77.4\%mIoU/67FPS、77.8\%mIoU/30.5FPS、69.6\%mIoU,71.0\%mIoU、74.2\%mIoUである。 この作業のコードは \url{https://github.com/mohamedac29/S2-FPN

Modern high-performance semantic segmentation methods employ a heavy backbone and dilated convolution to extract the relevant feature. Although extracting features with both contextual and semantic information is critical for the segmentation tasks, it brings a memory footprint and high computation cost for real-time applications. This paper presents a new model to achieve a trade-off between accuracy/speed for real-time road scene semantic segmentation. Specifically, we proposed a lightweight model named Scale-aware Strip Attention Guided Feature Pyramid Network (S$^2$-FPN). Our network consists of three main modules: Attention Pyramid Fusion (APF) module, Scale-aware Strip Attention Module (SSAM), and Global Feature Upsample (GFU) module. APF adopts an attention mechanisms to learn discriminative multi-scale features and help close the semantic gap between different levels. APF uses the scale-aware attention to encode global context with vertical stripping operation and models the long-range dependencies, which helps relate pixels with similar semantic label. In addition, APF employs channel-wise reweighting block (CRB) to emphasize the channel features. Finally, the decoder of S$^2$-FPN then adopts GFU, which is used to fuse features from APF and the encoder. Extensive experiments have been conducted on two challenging semantic segmentation benchmarks, which demonstrate that our approach achieves better accuracy/speed trade-off with different model settings. The proposed models have achieved a results of 76.2\%mIoU/87.3FPS, 77.4\%mIoU/67FPS, and 77.8\%mIoU/30.5FPS on Cityscapes dataset, and 69.6\%mIoU,71.0\% mIoU, and 74.2\% mIoU on Camvid dataset. The code for this work will be made available at \url{https://github.com/mohamedac29/S2-FPN
翻訳日:2022-06-17 12:55:08 公開日:2022-06-16
# (参考訳) 感情はホットエンコーディングではない - 会話における感情認識のためのgrayscaleラベルによる学習

The Emotion is Not One-hot Encoding: Learning with Grayscale Label for Emotion Recognition in Conversation ( http://arxiv.org/abs/2206.07359v2 )

ライセンス: CC BY 4.0
Joosung Lee(参考訳) 会話における感情認識(ERC)において、現在の発話の感情は、多くの自然言語処理タスクで利用できる以前の文脈を考慮して予測される。 複数の感情が与えられた文に共存することはあるが、ほとんどの以前のアプローチは、与えられたラベルのみを予測する分類タスクの視点を取る。 しかし、文の感情を自信や複数のラベルでラベル付けるのは高価で難しい。 本稿では,感情の相関性を考慮したグレースケールラベルを自動構築し,学習に使用する。 すなわち、与えられたラベルをワンホット符号化として使用する代わりに、異なる感情のスコアを測定してグレースケールラベルを構築する。 グレースケールラベルの作成方法をいくつか紹介し,各手法が感情認識性能を向上させることを確認した。 我々の手法は単純で効果的で、従来のシステムに普遍的に適用できる。 実験はベースラインの性能を著しく改善した。

In emotion recognition in conversation (ERC), the emotion of the current utterance is predicted by considering the previous context, which can be utilized in many natural language processing tasks. Although multiple emotions can coexist in a given sentence, most previous approaches take the perspective of a classification task to predict only a given label. However, it is expensive and difficult to label the emotion of a sentence with confidence or multi-label. In this paper, we automatically construct a grayscale label considering the correlation between emotions and use it for learning. That is, instead of using a given label as a one-hot encoding, we construct a grayscale label by measuring scores for different emotions. We introduce several methods for constructing grayscale labels and confirm that each method improves the emotion recognition performance. Our method is simple, effective, and universally applicable to previous systems. The experiments show a significant improvement in the performance of baselines.
翻訳日:2022-06-17 12:22:46 公開日:2022-06-16
# (参考訳) 相違を保ちながら共通点を探る:アンダーサンプドMRI再建のための複数解剖学的協調フレームワーク

Seeking Common Ground While Reserving Differences: Multiple Anatomy Collaborative Framework for Undersampled MRI Reconstruction ( http://arxiv.org/abs/2206.07364v2 )

ライセンス: CC BY 4.0
Jiangpeng Yan, Chenghui Yu, Hanbo Chen, Zhe Xu, Junzhou Huang, Xiu Li, Jianhua Yao(参考訳) 近年、ディープニューラルネットワークはMRI(Magnetic Resonance Image)の再構成に大きく進歩しており、ほとんどの研究は1つの解剖学的1ネットワークの手法に従っている。 複数の独立したモデルを訓練する非効率性は別として、このような慣習は相互に利益をもたらす様々な解剖学で共有された非認識的知識を無視している。 共有知識を探索するためには、様々な解剖学から得られるすべてのデータを組み合わせて、全周ネットワークをトレーニングする。 残念なことに、共有された de-aliasing 知識が存在するにもかかわらず、異なる解剖学にまたがる排他的知識は、特定の再構成対象を悪化させ、全体的な性能劣化をもたらす。 そこで,本研究では,異なる解剖学にまたがる共通基盤を探索し,差異を保存することを目的とした,解剖学と解剖学固有のパラメータ化学習者の両方を用いた,新しい深部mri再構成フレームワークを提案する。 解剖学的特化学習者の4つの異なる実装について,2つのMRI再構成ネットワークを用いて検討を行った。 脳、膝、心臓のMRIデータセットに関する総合的な実験は、3人の学習者が複数の解剖学的共同学習を通して再建性能を向上させることができることを示した。

Recently, deep neural networks have greatly advanced undersampled Magnetic Resonance Image (MRI) reconstruction, wherein most studies follow the one-anatomy-one-network fashion, i.e., each expert network is trained and evaluated for a specific anatomy. Apart from inefficiency in training multiple independent models, such convention ignores the shared de-aliasing knowledge across various anatomies which can benefit each other. To explore the shared knowledge, one naive way is to combine all the data from various anatomies to train an all-round network. Unfortunately, despite the existence of the shared de-aliasing knowledge, we reveal that the exclusive knowledge across different anatomies can deteriorate specific reconstruction targets, yielding overall performance degradation. Observing this, in this study, we present a novel deep MRI reconstruction framework with both anatomy-shared and anatomy-specific parameterized learners, aiming to "seek common ground while reserving differences" across different anatomies.Particularly, the primary anatomy-shared learners are exposed to different anatomies to model flourishing shared knowledge, while the efficient anatomy-specific learners are trained with their target anatomy for exclusive knowledge. Four different implementations of anatomy-specific learners are presented and explored on the top of our framework in two MRI reconstruction networks. Comprehensive experiments on brain, knee and cardiac MRI datasets demonstrate that three of these learners are able to enhance reconstruction performance via multiple anatomy collaborative learning.
翻訳日:2022-06-17 12:13:30 公開日:2022-06-16
# 確率ロバストなメタベイズ最適化について

On Provably Robust Meta-Bayesian Optimization ( http://arxiv.org/abs/2206.06872v2 )

ライセンス: Link先を確認
Zhongxiang Dai, Yizhou Chen, Haibin Yu, Bryan Kian Hsiang Low, Patrick Jaillet(参考訳) ベイズ最適化(BO)はブラックボックス関数の逐次最適化に人気がある。 BOが対象関数の最適化に使用される場合、私たちはしばしば、潜在的に関連する関数の以前の評価にアクセスできる。 メタラーニング(meta-BO)を通じて現在のBOタスクを加速し、BOの収束を妨害する潜在的に有害な異種タスクに対して堅牢性を確保するために、これらの経験を活用できるかどうかという疑問を提起する。 本稿では,ロバストなメタガウス的プロセスアップパー信頼性境界(RM-GP-UCB)とRM-GP-トンプソンサンプリング(RM-GP-TS)という,スケーラブルかつ実証可能な2つのメタBOアルゴリズムを提案する。 また, RM-GP-UCB が RM-GP-TS よりも理論的ロバスト性が高いことを示す。 また,オンライン学習による後悔の最小化により,個々のタスクに割り当てられた重みを最適化する理論的な保証を活用し,異なるタスクの影響を低減し,堅牢性をさらに向上させる。 実証的な評価は (a)RM-GP-UCBは様々な用途で効果的かつ一貫して動作し、 (b)RM-GP-TSは、理論上も実際においてもRM-GP-UCBよりも頑丈ではないが、相似性が少なく、計算効率が良いいくつかのシナリオにおいて競合的に動作する。

Bayesian optimization (BO) has become popular for sequential optimization of black-box functions. When BO is used to optimize a target function, we often have access to previous evaluations of potentially related functions. This begs the question as to whether we can leverage these previous experiences to accelerate the current BO task through meta-learning (meta-BO), while ensuring robustness against potentially harmful dissimilar tasks that could sabotage the convergence of BO. This paper introduces two scalable and provably robust meta-BO algorithms: robust meta-Gaussian process-upper confidence bound (RM-GP-UCB) and RM-GP-Thompson sampling (RM-GP-TS). We prove that both algorithms are asymptotically no-regret even when some or all previous tasks are dissimilar to the current task, and show that RM-GP-UCB enjoys a better theoretical robustness than RM-GP-TS. We also exploit the theoretical guarantees to optimize the weights assigned to individual previous tasks through regret minimization via online learning, which diminishes the impact of dissimilar tasks and hence further enhances the robustness. Empirical evaluations show that (a) RM-GP-UCB performs effectively and consistently across various applications, and (b) RM-GP-TS, despite being less robust than RM-GP-UCB both in theory and in practice, performs competitively in some scenarios with less dissimilar tasks and is more computationally efficient.
翻訳日:2022-06-17 11:50:44 公開日:2022-06-16
# 変圧器を用いた高効率デコーダフリー物体検出

Efficient Decoder-free Object Detection with Transformers ( http://arxiv.org/abs/2206.06829v3 )

ライセンス: Link先を確認
Peixian Chen, Mengdan Zhang, Yunhang Shen, Kekai Sheng, Yuting Gao, Xing Sun, Ke Li, Chunhua Shen(参考訳) 視覚トランスフォーマー(vits)は、オブジェクト検出アプローチの展望を変えつつある。 検出におけるViTの自然な利用は、CNNベースのバックボーンをトランスフォーマーベースのバックボーンに置き換えることである。 より微妙な用途はDETRファミリであり、オブジェクト検出において多くの手設計のコンポーネントを必要としないが、収束するのに余分な時間を要するデコーダを導入する。 その結果、大規模なアプリケーションではトランスフォーマーベースのオブジェクト検出が利用できない。 これらの課題を克服するために, 初めて高い効率を達成する新しいデコーダフリー完全トランスフォーマー(dfft)オブジェクト検出器を提案する。 2つのエントリポイントを中心にして、エンコーダのみのシングルレベルアンカーに基づく密集予測問題に対する異論検出を単純化する。 1) トレーニング非効率デコーダを取り除き, 2つの強いエンコーダを活用して,シングルレベル特徴マップ予測の精度を維持すること。 2) 限られた計算資源で検出タスクの低レベルの意味的特徴を探索する。 特に,低レベル特徴をリッチなセマンティクスで効率的にキャプチャする軽量な検出指向のトランスフォーマーバックボーンの設計を行った。 MS COCOベンチマークの大規模な実験により、DFFT_SMALLはDeTRを2.5%向上させ、28%の計算コスト削減と10ドル以上のトレーニングエポックを減らした。 最先端のアンカーベースの検出器RetinaNetと比較して、DFFT_SMALLは計算コストを70%削減しながら5.5%以上のAPゲインを得る。

Vision transformers (ViTs) are changing the landscape of object detection approaches. A natural usage of ViTs in detection is to replace the CNN-based backbone with a transformer-based backbone, which is straightforward and effective, with the price of bringing considerable computation burden for inference. More subtle usage is the DETR family, which eliminates the need for many hand-designed components in object detection but introduces a decoder demanding an extra-long time to converge. As a result, transformer-based object detection can not prevail in large-scale applications. To overcome these issues, we propose a novel decoder-free fully transformer-based (DFFT) object detector, achieving high efficiency in both training and inference stages, for the first time. We simplify objection detection into an encoder-only single-level anchor-based dense prediction problem by centering around two entry points: 1) Eliminate the training-inefficient decoder and leverage two strong encoders to preserve the accuracy of single-level feature map prediction; 2) Explore low-level semantic features for the detection task with limited computational resources. In particular, we design a novel lightweight detection-oriented transformer backbone that efficiently captures low-level features with rich semantics based on a well-conceived ablation study. Extensive experiments on the MS COCO benchmark demonstrate that DFFT_SMALL outperforms DETR by 2.5% AP with 28% computation cost reduction and more than $10$x fewer training epochs. Compared with the cutting-edge anchor-based detector RetinaNet, DFFT_SMALL obtains over 5.5% AP gain while cutting down 70% computation cost.
翻訳日:2022-06-17 11:50:16 公開日:2022-06-16