このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221123となっている論文です。

PDF登録状況(公開日: 20221123)

TitleAuthorsAbstract論文公表日・翻訳日
# 電気クエンチェにおける絡み合いからのギブスエントロピー

Gibbs entropy from entanglement in electric quenches ( http://arxiv.org/abs/2106.00838v2 )

ライセンス: Link先を確認
Adrien Florio, Dmitri E. Kharzeev(参考訳) 荷電フェルミオンを持つ量子電磁力学において、背景電場(英: background electric field)は、フェルミオンのキラル不平衡状態を生成するキラル異常の原因である。 このキラルな状態は、右移動フェルミオンと左移動反フェルミオンの絡み合った対(あるいは電場の向きによっては逆)の生成によって実現される。 ここで、これらの対に関連する統計ギブスエントロピーは、右移動粒子と左移動粒子との間の絡み合いエントロピーに等しいことを示す。 次に、生成粒子の多重度分布の累積の観点から、絡み合いエントロピーの漸近展開を導出し、この漸近展開を再計算する方法を説明する。 最後に、特定の時間依存パルス背景電界における絡み合いエントロピーの時間依存性、いわゆる「ソーターパルス」について検討し、この特定の場合における我々の再開法がどのように機能するかを説明する。 また, 短パルス(高エネルギー衝突によって発生するパルスなど)は生成粒子のほぼ熱分布を生じることがわかった。

In quantum electrodynamics with charged fermions, a background electric field is the source of the chiral anomaly which creates a chirally imbalanced state of fermions. This chiral state is realized through the production of entangled pairs of right-moving fermions and left-moving antifermions (or vice versa, depending on the orientation of the electric field). Here we show that the statistical Gibbs entropy associated with these pairs is equal to the entropy of entanglement between the right-moving particles and left-moving antiparticles. We then derive an asymptotic expansion for the entanglement entropy in terms of the cumulants of the multiplicity distribution of produced particles and explain how to re-sum this asymptotic expansion. Finally, we study the time dependence of the entanglement entropy in a specific time-dependent pulsed background electric field, the so-called "Sauter pulse", and illustrate how our resummation method works in this specific case. We also find that short pulses (such as the ones created by high energy collisions) result in an approximately thermal distribution for the produced particles.
翻訳日:2023-03-28 03:22:24 公開日:2022-11-23
# 背景独立性と量子因果構造

Background Independence and Quantum Causal Structure ( http://arxiv.org/abs/2106.01038v3 )

ライセンス: Link先を確認
Lachlan Parker, Fabio Costa(参考訳) 量子力学が相対性理論と異なる重要な方法の1つは、時空に固定された背景参照フレームを必要とすることである。 実際、これは2つの理論を団結させる主要な概念的障害の1つである。 さらに、2つの理論の組み合わせは、古典的でない「不定」因果構造をもたらすことが期待されている。 本稿では,不定因果構造を許容する量子力学の一形態であるプロセス行列形式論の背景独立な定式化について述べる。 我々は、時空の離散的な「チャンク」にまたがる測定結果の任意の確率分布を仮定し、物理実験室とみなし、この分布は実験室の任意の置換の下で不変である必要がある。 見つけました (a)背景独立性のある非自明で不定な因果構造をまだ得ること。 b) 異なる研究室でのローカル操作の考え方を失うが、基準フレームをシステムの物理的状態にエンコードすることで、それを回復することができること。 c) 置換不変性が驚くべき対称性の制約を課すことは、形式的には超選択規則に似ているが、そのような解釈はできない。

One of the key ways in which quantum mechanics differs from relativity is that it requires a fixed background reference frame for spacetime. In fact, this appears to be one of the main conceptual obstacles to uniting the two theories. Additionally, a combination of the two theories is expected to yield non-classical, or "indefinite", causal structures. In this paper, we present a background-independent formulation of the process matrix formalism - a form of quantum mechanics that allows for indefinite causal structure - while retaining operationally well-defined measurement statistics. We do this by postulating an arbitrary probability distribution of measurement outcomes across discrete "chunks" of spacetime, which we think of as physical laboratories, and then requiring that this distribution be invariant under any permutation of laboratories. We find (a) that one still obtains nontrivial, indefinite causal structures with background independence, (b) that we lose the idea of local operations in distinct laboratories, but can recover it by encoding a reference frame into the physical states of our system, and (c) that permutation invariance imposes surprising symmetry constraints that, although formally similar to a superselection rule, cannot be interpreted as such.
翻訳日:2023-03-28 01:32:13 公開日:2022-11-23
# バンドギャップ環境における極小量子熱機械:非マルコフ的特徴と反ゼノアドバンテージ

Minimal quantum thermal machine in a bandgap environment: non-Markovian features and anti-Zeno advantage ( http://arxiv.org/abs/2109.12224v2 )

ライセンス: Link先を確認
Meng Xu and J. T. Stockburger and G. Kurizki and J. Ankerhold(参考訳) 量子熱機械の最小モデルを分析し、スペクトルがバンドギャップを有する環境(保存器)に駆動型2レベル加工媒体(wm)を埋め込みます。 スペクトルがバンドギャップによって分離される熱いまたは冷たい貯水池と重なること。 分析的考察によって支持される近似的かつ正確な処理は、深部量子領域におけるこの熱機械の完全な特徴を与える。 緩やかで穏健な変調のために、貯水池のスペクトル応答は平衡に近く、熱電流と出力にサイドバンド(フロッケ)共鳴を示す。 対照的に、高速な変調のために、強い結合と非マルコフ的特徴は、WMと貯水池と2つの貯水池の間に相関関係をもたらす。 厳密な量子起源のパワーアップ(「量子優位」)は、スペクトル貯水池反応の強化によるゼノ効果につながる連続的および分断的な高速変調の両方に見出される。 このような特徴は標準マルコフ治療では捉えられない。

A minimal model of a quantum thermal machine is analyzed, where a driven two level working medium (WM) is embedded in an environment (reservoir) whose spectrum possesses bandgaps. overlap with hot or cold reservoirs whose spectra are separated by a bandgap. Approximate and exact treatments supported by analytical considerations yield a complete characterization of this thermal machine in the deep quantum domain. For slow to moderate modulation, the spectral response of the reservoirs is close to equilibrium, exhibiting sideband (Floquet) resonances in the heat currents and power output. In contrast, for faster modulation, strong-coupling and non-Markovian features give rise to correlations between the WM and the reservoirs and between the two reservoirs. Power boost of strictly quantum origin ('quantum advantage') is then found for both continuous and segmental fast modulation that leads to the anti-Zeno effect of enhanced spectral reservoir response. Such features cannot be captured by standard Markovian treatments.
翻訳日:2023-03-13 20:48:17 公開日:2022-11-23
# 判別可能性蒸留と希釈指数について

On distinguishability distillation and dilution exponents ( http://arxiv.org/abs/2202.12433v2 )

ライセンス: Link先を確認
Mark M. Wilde(参考訳) 本稿では, 識別性蒸留と希釈の課題に対して, 誤差指数と強い逆指数を定義する。 これらは、前述した非対称識別可能性の資源理論で定義されたワンショット蒸留可能識別性およびワンショット識別性コストに対応するものである。 半定値プログラミングで評価し、その特性を多数確立し、Renyi相対エントロピーを用いてそれらを束縛し、相互に関連付けることができることを示す。

In this note, I define error exponents and strong converse exponents for the tasks of distinguishability distillation and dilution. These are counterparts to the one-shot distillable distinguishability and the one-shot distinguishability cost, as previously defined in the resource theory of asymmetric distinguishability. I show that they can be evaluated by semi-definite programming, establish a number of their properties, bound them using Renyi relative entropies, and relate them to each other.
翻訳日:2023-02-23 23:43:00 公開日:2022-11-23
# 量子テレスコープ・クロックゲーム

Quantum Telescopy Clock Games ( http://arxiv.org/abs/2203.06252v2 )

ライセンス: Link先を確認
Robert Czupryniak, Eric Chitambar, John Steinmetz, Andrew N. Jordan(参考訳) 本稿では,量子情報理論の枠組みで定式化されたクロックゲームについて考察する。 恒星の光子が望遠鏡に到達したときの学習の問題は、我々が時計ゲームと呼ぶ抽象ゲームに翻訳される。 位相情報を妨害することなく、どの恒星の時空間モードが光子によって占有されているかを検証する量子非劣化測定を行う。 我々は、クロックゲームに勝つために必要な絡み合いコストに対して、時間ビンの数と等しく必要な絡み合いビットの量で厳密な下限を証明した。 エンタングルメントコストのこの下限は、局所的な測定によって入射光子の時間-ビン情報を非破壊的に抽出することを目的としたテレスコピックプロトコルに適用され、この結果はハビボールリンのプロトコルなどを示している。 [\text{phys ] です。 Rev. Lett. } 123, 70504 (2019)] は、絡み合いの消費の点で最適である。 また, 位相抽出の全タスクについても検討し, 非線形光学演算を必要とせず, 局所的な測定と共有絡み合いによって恒星相の量子フィッシャー情報が得られることを示した。 最適位相測定はアンシラ量子ビットの数の増加とともに漸近的に達成されるが、非線形演算が許される場合は単一量子ビット対が必要である。

We consider the clock game-a task formulated in the framework of quantum information theory-that can be used to improve the existing schemes of quantum-enhanced telescopy. The problem of learning when a stellar photon reaches a telescope is translated into an abstract game, which we call the clock game. A winning strategy is provided that involves performing a quantum non-demolition measurement that verifies which stellar spatio-temporal modes are occupied by a photon without disturbing the phase information. We prove tight lower bounds on the entanglement cost needed to win the clock game, with the amount of necessary entangled bits equaling the number of time-bins being distinguished. This lower bound on the entanglement cost applies to any telescopy protocol that aims to non-destructively extract the time-bin information of an incident photon through local measurements, and our result implies that the protocol of Khabiboulline et al. [\text{Phys. Rev. Lett.} 123, 70504 (2019)] is optimal in terms of entanglement consumption. The full task of the phase extraction is also considered, and we show that the quantum Fisher information of the stellar phase can be achieved by local measurements and shared entanglement without the necessity of nonlinear optical operations. The optimal phase measurement is achieved asymptotically with increasing number of ancilla qubits, whereas a single qubit pair is required if nonlinear operations are allowed.
翻訳日:2023-02-22 09:13:55 公開日:2022-11-23
# 駆動散逸型北エフ鎖における量子クエンチ後のパリティ時間対称一般化ギブの緩和

Relaxation to a Parity-Time Symmetric Generalized Gibbs Ensemble after a Quantum Quench in a Driven-Dissipative Kitaev Chain ( http://arxiv.org/abs/2203.14589v2 )

ライセンス: Link先を確認
Elias Starchl and Lukas M. Sieberer(参考訳) 孤立可積分量子多体系が量子クエンチの後に緩和する一般化ギブスアンサンブルの構成は、最大エントロピーの原理に基づいている。 対照的に、開量子系の緩和ダイナミクスと定常状態を支配する普遍的およびモデルに依存しない法則は存在せず、マルコフの駆動と散逸の対象となる。 しかし、量子クエンチ後の駆動散逸系の緩和は、系のダイナミクスを生成するリウビリアンがパリティタイム対称性を持つ場合、実際には最大エントロピーアンサンブルによって決定することができる。 駆動散逸性キタエフ連鎖の具体例に着目し、分離可積分系と同様に、パリティ時対称一般化ギブスアンサンブルへのアプローチが局所可観測体の緩和やサブシステムエントロピーのダイナミクスに現れることを示す。 対照的に、キタエフ連鎖の非自明な非エルミート位相によって引き起こされるフェルミオンパリティの方向ポンピングは、駆動散逸系における緩和ダイナミクスに特有の現象である。 散逸の強さを増大させると、パリティタイム対称性は有限臨界値で破られ、したがって最大エントロピー原理の適用可能性を制限する鋭い動的遷移となる。 これらの結果は、北エフ連鎖の特定の例に対して得られ、非相互作用性フェルミオンモデルの幅広いクラスに適用できることを示し、非相互作用性ボゾンモデルと相互作用性スピン鎖への一般化について議論する。

The construction of the generalized Gibbs ensemble, to which isolated integrable quantum many-body systems relax after a quantum quench, is based upon the principle of maximum entropy. In contrast, there are no universal and model-independent laws that govern the relaxation dynamics and stationary states of open quantum systems, which are subjected to Markovian drive and dissipation. Yet, as we show, relaxation of driven-dissipative systems after a quantum quench can, in fact, be determined by a maximum entropy ensemble, if the Liouvillian that generates the dynamics of the system has parity-time symmetry. Focusing on the specific example of a driven-dissipative Kitaev chain, we show that, similarly to isolated integrable systems, the approach to a parity-time symmetric generalized Gibbs ensemble becomes manifest in the relaxation of local observables and the dynamics of subsystem entropies. In contrast, the directional pumping of fermion parity, which is induced by nontrivial non-Hermitian topology of the Kitaev chain, represents a phenomenon that is unique to relaxation dynamics in driven-dissipative systems. Upon increasing the strength of dissipation, parity-time symmetry is broken at a finite critical value, which thus constitutes a sharp dynamical transition that delimits the applicability of the principle of maximum entropy. We show that these results, which we obtain for the specific example of the Kitaev chain, apply to broad classes of noninteracting fermionic models, and we discuss their generalization to a noninteracting bosonic model and an interacting spin chain.
翻訳日:2023-02-20 12:08:21 公開日:2022-11-23
# 噂検出のための視覚感覚融合によるマルチモーダルデュアル感情

Multimodal Dual Emotion with Fusion of Visual Sentiment for Rumor Detection ( http://arxiv.org/abs/2204.11515v4 )

ライセンス: Link先を確認
Ge Wang, Li Tan, Ziliang Shang, He Liu(参考訳) 近年、噂は社会に壊滅的な影響を与えたため、うわさ検出は大きな課題となっている。 しかし,噂コンテンツにおける画像の強烈な感情を,噂検出の研究は無視している。 本稿では,画像感情がうわさ検出効率を向上させることを検証する。 視覚的感情とテキスト的感情からなるうわさ検出におけるマルチモーダルな二重感情特徴を提案する。 私たちの知る限りでは、これは噂の検出に視覚的な感情を利用する最初の研究です。 実際のデータセットでの実験では、提案された特徴が最先端の感情的特徴より優れており、噂検出器でその性能を改善しながら拡張可能であることが確認されている。

In recent years, rumors have had a devastating impact on society, making rumor detection a significant challenge. However, the studies on rumor detection ignore the intense emotions of images in the rumor content. This paper verifies that the image emotion improves the rumor detection efficiency. A Multimodal Dual Emotion feature in rumor detection, which consists of visual and textual emotions, is proposed. To the best of our knowledge, this is the first study which uses visual emotion in rumor detection. The experiments on real datasets verify that the proposed features outperform the state-of-the-art sentiment features, and can be extended in rumor detectors while improving their performance.
翻訳日:2023-02-19 16:27:17 公開日:2022-11-23
# webベースのデータベースコースeラーニングアプリケーション

Web-based Database Courses E-Learning Application ( http://arxiv.org/abs/2212.00104v1 )

ライセンス: Link先を確認
Aaron Paul M. Dela Rosa, Luigi Miguel M. Villanueva, John Mardy R. San Miguel, and John Emmanuel B. Quinto(参考訳) 本研究は,Bulacan State University(BulSU)のCICT(University of Information and Communications Technology)のIT学生が取得したデータベースコースのためのWebeラーニングアプリケーションの開発に焦点を当てた。 このプロジェクトで使われた研究手法は横断的な開発アプローチであった。 アジャイルソフトウェア開発の方法論は、システムを開発するために、段階的に、開発フェーズまで、段階的に続いた。 必要な出力を迅速に生成すると同時に、ユーザがサイクル全体を終えることなくフェーズを遡ることができるようにするために使用された。 この研究の目的は、MySQLとSQL Serverの両方のアプローチで構造化クエリ言語(SQL)を教えるWebアプリケーションを作ることであった。 このアプリケーションは、学習の自己評価を可能にするクイズと試験を含んでいる。 さらに、ERD(Entity Relation Diagram)シミュレーションは、ドラッグ&ドロップ方式でRD生成を提供するために含まれた。 本研究はISO/IEC 25010ソフトウェア品質評価基準を用いて評価した。 研究全体の平均は4.24、4.41、および4.33であり、いずれも「非常に良い」という記述的な意味を持ち、学生、教員、専門家が認識するために必要な機能を示した。 要約すると、データベースコース用のeラーニングwebアプリケーションは完全に開発された。 さらに、entity-relationshipダイアグラムはシステム内でうまく統合され、ユーザがアクセスできる。 最後に、回答者は、ISO/IEC 25010を使用して開発されたWebアプリケーションを評価し、「非常に良い」と総称する。 この研究の将来的な発展のために、管理者パネルが開発され、ユーザーを管理し、他の管理タスクを行うことができる。 最後に、評価とクイズに関する高次思考スキルの問題を含める。

This study was focused on the development of a web e-learning application for the database courses taken by Information Technology (IT) students at the College of Information and Communications Technology (CICT) of Bulacan State University (BulSU). The research methodology used in this project was the cross-sectional developmental approach. The Agile Software Development methodology was followed phase by phase, up to the development phase, to develop the system. It was used to produce the desired output rapidly while allowing users to go back through phases without finishing the whole cycle. The goal of this study was to create a web application that teaches Structured Query Language (SQL) in both the MySQL and SQL Server approaches. The application contains quizzes and examinations to allow self-assessment of learning. Additionally, an Entity Relationship Diagram (ERD) simulation was included to provide ERD creations in a drag-and-drop fashion. This study was evaluated using ISO/IEC 25010 software quality evaluation criteria. The study's overall mean was 4.24, 4.41, and 4.33, all with the descriptive meaning of "Very Good," which showed that the system performed its necessary functions as perceived by students, faculty members, and experts, respectively. In summary, the e-learning web application for database courses was fully developed. Moreover, the entity-relationship diagram was integrated well within the system and is accessible to the users. Lastly, respondents evaluated the developed web application using the ISO/IEC 25010 with an overall descriptive interpretation of "Very Good." For future developments of the study, an administrator panel may be developed to manage users and do other administrative tasks. Lastly, higher-order thinking skills questions on assessments and quizzes may be included.
翻訳日:2023-02-19 12:44:46 公開日:2022-11-23
# 全国労働関係委員会が作成した事例の Web ベース管理情報システム

Web-based Management Information System of Cases Filed with the National Labor Relations Commission ( http://arxiv.org/abs/2211.14452v1 )

ライセンス: Link先を確認
Aaron Paul M. Dela Rosa(参考訳) 本研究は、労働関係委員会地域仲裁部門第1号の日々の業務と問題に対処するために開発された。 IV(NLRC RAB IV)は、観測とインタビューを行った。 これらの課題に対処し, web-based management information system (mis) の事例の特徴として分析を行った。 このプロジェクトで用いられる研究手法は記述的開発アプローチである。 アジャイルソフトウェア開発方法論は、システムを開発するために従った。 必要な出力を素早く生成し、ユーザがサイクル全体を終えることなくフェーズを遡ることができるようにするために使用された。 このシステムでは, 訴状, シングルエントリーアプローチ(SEnA), 労働事例, 報告生成の管理について検討した。 インタビューを通じて記録の扱いは矛盾し、不正確であった。 この研究は、2012年データプライバシ法(Data Privacy Act of 2012)の保証にも重点を置いており、XOR暗号アルゴリズムを用いてデータベースの情報を保護する。 本研究は標準web評価基準を用いて評価した。 この基準を用いて、研究全体の平均は4.27と4.43であり、Very Goodの記述的な意味は、それぞれ専門家とエンドユーザーによって認識されたことを示している。 出願件の管理は,委員会にとって重要なプロセスである。 そうは言っても、Webベースの管理情報システムの開発は、申請された労働事件の処理と管理を、内部で容易に行うことができる。 また, 症例状況追跡システムを用いて, 被訴者の状況を容易に把握することができる。 システムをさらに改善するために、委員会が必要とする印刷可能なドキュメントを追加することができる。 最後に、Webベースのシステムの有効性に関するさらなる研究を行い、システムをさらに強化する。

This study was developed to describe the daily operations and encountered problems of the National Labor Relations Commission Regional Arbitration Branch No. IV (NLRC RAB IV) through conducted observations and interviews. These problems were addressed and analyzed to be the features of the developed web-based management information system (MIS) for cases. The research methodology utilized in this project was the descriptive developmental approach. The Agile Software Development methodology was followed to develop the system. It was used to quickly produce the desired output while allowing the user to go back through phases without finishing the whole cycle. The system covered managing filed complaints, Single-Entry Approach (SEnA), labor cases, and report generation. The findings, through the interview, of handling records were inconsistent and inaccurate. This study also focused on ensuring the Data Privacy Act of 2012, protecting the database's information using the XOR Cipher Algorithm. This study was evaluated using standard web evaluation criteria. Using the criteria, the study's overall mean was 4.27 and 4.43, with the descriptive meaning of Very Good, which showed that the system was accepted as perceived by experts and end-users, respectively. Management of filed cases is a vital process for the Commission. With that said, developing a web-based management information system could ease the internal operations of handling and managing filed labor cases. Moreover, respondents and complainants can easily determine their filed cases' status using the case status tracking system. For further improvements to the system, additional printable documents may be added that could be found needed by the Commission. Lastly, further research about the effectiveness of the web-based system may be conducted for further enhancements of the system.
翻訳日:2023-02-19 12:39:34 公開日:2022-11-23
# フィリピンの州立大学におけるオンラインプログラミング講座の効果

Effectiveness of an Online Course in Programming in a State University in the Philippines ( http://arxiv.org/abs/2211.14430v1 )

ライセンス: Link先を確認
Aaron Paul M. Dela Rosa(参考訳) オンラインコースは、新型コロナウイルスのパンデミック時代、教育の教育的アプローチとしてブームとなった。 大学はパンデミックの原因として、従来の顔から顔のクラス、オンラインの遠隔学習へと移行した。 本研究の目的は,オンラインコースがプログラミングコースの学習においてどの程度効果的かを明らかにすることである。 本研究は,クローズド質問とオープン質問からなる検証アンケートを通した混合調査を行った。 pythonプログラミングは、この研究を行うために選択されたコースであり、学生の反応を決定するための評価を受けた。 学生は、フィリピンの州立大学であるBulacan State Universityから、Bachelor of Science in Information Technologyというプログラムを受講している。 彼らの回答によると、オンラインpythonプログラミングは非常に効果的であり、全体の平均は4.49である。 この結果から,学生はオンラインコースを効果的に活用し,適切なコース設計と内容を提供し,作業の完了に十分な時間を費やし,インストラクターや同級生とのコミュニケーションと交流を提供した。 さらに学生は、インストラクターがコース配信でよくやったことを尋ねると、圧倒的にポジティブな反応を示し、コースのさらなる強化と提供のために洞察力と建設的なコメントを提供した。 この研究によると、ほとんどの学生はPythonプログラミングコースを非同期で提供することの有効性に強く同意し、信じていた。 学生の視点と評価から肯定的な結果を得て、ブルカン州立大学の品質教育を継続するコースを拡大することができる。

Online courses, as a pedagogical approach to teaching, boomed during this Coronavirus Disease 2019 pandemic era. Universities shifted from traditional face to face classes to online distance learning due to the cause of the pandemic. This study aimed to determine how effective an online course is in learning a programming course. The study utilized mixed method research applied through a validated survey questionnaire consisting of closed and open ended questions. Python programming was the course selected to undergo the study and underwent an evaluation to determine the students' responses. Student respondents are from Bulacan State University, a state university in the Philippines, under the Bachelor of Science in Information Technology program. Based on their responses, the students found that the online Python programming was Very Effective, with an overall mean of 4.49. This result shows that students found the online course effective, provided the proper course design and content, allowed them to spend enough time finishing tasks, and provided communication and interaction with their instructor and fellow students. Additionally, students gave overwhelmingly positive responses when asked what their instructors had done well on the course delivery and provided insightful and constructive comments for further enhancement and delivery of the course. This study found that most students strongly agreed and believed in the effectiveness of delivering the Python Programming course asynchronously. With such positive results from the student's perspective and evaluation, the course can be enhanced to continue providing quality education at Bulacan State University.
翻訳日:2023-02-19 12:39:11 公開日:2022-11-23
# 人口の精密医療-公衆衛生ゲノム学の期待とハイプ

Precision Medicine for the Population-The Hope and Hype of Public Health Genomics ( http://arxiv.org/abs/2211.13183v1 )

ライセンス: Link先を確認
JunBo Wu and Nathaniel Comfort(参考訳) 公衆衛生は、流行するモニカーの「精度」によって引き起こされる生物医学の最新の科学である。 pph(precision public health)の提唱者は、公衆衛生へのデータ駆動で計算的なアプローチを提唱し、ゲノムの「ビッグデータ」を活用し、公衆衛生の意思決定を知らせる。 しかし、精密医療と同様に、PPHはゲノムデータの価値を誇示し、健康上の結果を決定する。 大規模な歴史文献では、過度に強調された世襲は少数民族や不利な共同体に不釣り合いに害を与える傾向があることが示されている。 進歩期(1890-1920年)において、PPHとビッグデータと遺伝学を比較比較比較することにより、遺伝子型駆動による公衆衛生の潜在的なリスクを強調した。 このようなリスクは、分子から社会まで、さまざまなレベルの分析においてデータ統合の優先順位付けによって回避される可能性があると結論付けている。

Public health is the most recent of the biomedical sciences to be seduced by the trendy moniker "precision." Advocates for "precision public health" (PPH) call for a data-driven, computational approach to public health, leveraging swaths of genomic "big data" to inform public health decision-making. Yet, like precision medicine, PPH oversells the value of genomic data to determine health outcomes, but on a population-level. A large historical literature has shown that over-emphasizing heredity tends to disproportionately harm underserved minorities and disadvantaged communities. By comparing and contrasting PPH with an earlier attempt at using big data and genetics, in the Progressive era (1890-1920), we highlight some potential risks of a genotype-driven preventive public health. We conclude by suggesting that such risks may be avoided by prioritizing data integration across many levels of analysis, from the molecular to the social.
翻訳日:2023-02-19 12:37:00 公開日:2022-11-23
# 自己主権的アイデンティティのための新たなプライバシ保護とスケーラブルな無効化方法 -- 完全な無効化方法はまだ存在していない

A new Privacy Preserving and Scalable Revocation Method for Self Sovereign Identity -- The Perfect Revocation Method does not exist yet ( http://arxiv.org/abs/2211.13041v1 )

ライセンス: Link先を確認
Andreas Freitag(参考訳) デジタルアイデンティティは、私たちのデジタル生活において重要な役割を果たす。 現在、使用済みのデジタルidは中央アーキテクチャに基づいている。 中央デジタルidプロバイダは、私たちのデータをコントロールし、把握します。 Self Sovereign Identities(SSI)は、分散データストレージとデータ交換アーキテクチャに基づいており、ユーザは自身のデータとアイデンティティを単独で制御する。 発行された証明書のほとんどは、取り消しの可能性がある。 中央デジタルアイデンティティーにとって、取り消しは簡単だ。 分散アーキテクチャでは、再利用はより難しい。 リストや圧縮リスト,暗号化アキュムレータなど,さまざまな方法で実行することが可能だ。 取り消し方法はプライバシ保護でなければならない。 本稿では,利用可能な無効化方法の概要,要件定義のための調査,要件に対する異なる無効化グループの評価,メソッドの欠点の強調,linked valid verifiable credentialsと呼ばれる新しい無効化方法の導入などについて述べる。

Digital Identities are playing an essential role in our digital lives. Today, used Digital Identities are based on central architectures. Central Digital Identity providers control and know our data and, thereby, our Identity. Self Sovereign Identities (SSI) are based on a decentralized data storage and data exchange architecture, where the user is in sole control of his data and identity. Most of the issued credentials need the possibility of revocation. For a Central Digital Identity, revocation is easy. In decentral architectures, revocation is more challenging. Revocation can be done with different methods e.g. lists, compressed lists and cryptographic accumulators. A revocation method must be privacy preserving and must scale. This paper gives an overview about the available revocation methods, include a survey to define requirements, assess different revocation groups against the requirements, highlights shortcomings of the methods and introduce a new revocation method called Linked Validity Verifiable Credentials.
翻訳日:2023-02-19 12:36:24 公開日:2022-11-23
# バイオメトリック・モダリティの出現とその利用:GDPRの終端と結果として生じるプライバシーリスクのループホール

Emerging Biometric Modalities and their Use: Loopholes in the Terminology of the GDPR and Resulting Privacy Risks ( http://arxiv.org/abs/2211.12899v1 )

ライセンス: Link先を確認
Tamas Bisztray, Nils Gruschka, Thirimachos Bourlai, Lothar Fritsch(参考訳) 技術進歩により、生体認証アプリケーションは、これまで以上に一様になる。 本稿では、現在のEUデータ保護規制において、バイオメトリックデータを用いた分類アプリケーションはバイオメトリック認識よりも保護率が低いことを主張する。 我々は、規制言語における前提条件を分析し、感情のようなソフトな特性に基づいて個人を分類する処理における、ユニークなプライバシーリスクの根源となる可能性について検討する。 これは個人の自由と人権に大きな影響を与える可能性があるため、データ保護の影響評価を受ける必要がある。

Technological advancements allow biometric applications to be more omnipresent than in any other time before. This paper argues that in the current EU data protection regulation, classification applications using biometric data receive less protection compared to biometric recognition. We analyse preconditions in the regulatory language and explore how this has the potential to be the source of unique privacy risks for processing operations classifying individuals based on soft traits like emotions. This can have high impact on personal freedoms and human rights and therefore, should be subject to data protection impact assessment.
翻訳日:2023-02-19 12:36:03 公開日:2022-11-23
# 非慣性量子時計フレームは非エルミート力学につながる

Non-inertial quantum clock frames lead to non-Hermitian dynamics ( http://arxiv.org/abs/2204.04177v2 )

ライセンス: Link先を確認
Ismael L. Paiva, Amit Te'eni, Bar Y. Peled, Eliahu Cohen, Yakir Aharonov(参考訳) 時間に対する操作的アプローチは相対論的理論の基礎であり、適切な時間の概念によって証明される。 しかし、標準的な量子力学では、時間は外部パラメータである。 近年、関係フレームワーク内の量子力学に固有時間の概念を拡張するために多くの試みがなされている。 ここでは、同様のアイデアと相対論的質量エネルギー等価性を組み合わせて、加速する質量量子粒子を内部時計系で研究する。 粒子の内部時計の観点からのその後の進化は非エルミタンであることが示される。 この結果はクロックの特定の実装に依存しない。 その結果、二つの重力相互作用粒子の有効ハミルトニアンは、どちらの粒子の時計の観点からも非エルミート的であることが証明される。

The operational approach to time is a cornerstone of relativistic theories, as evidenced by the notion of proper time. In standard quantum mechanics, however, time is an external parameter. Recently, many attempts have been made to extend the notion of proper time to quantum mechanics within a relational framework. Here, we use similar ideas combined with the relativistic mass-energy equivalence to study an accelerating massive quantum particle with an internal clock system. We show that the ensuing evolution from the perspective of the particle's internal clock is non-Hermitian. This result does not rely on specific implementations of the clock. As a particular consequence, we prove that the effective Hamiltonian of two gravitationally interacting particles is non-Hermitian from the perspective of the clock of either particle.
翻訳日:2023-02-17 21:18:27 公開日:2022-11-23
# モバイルエッジ量子コンピューティングのためのユニバーサル端末

Universal terminal for mobile edge-quantum computing ( http://arxiv.org/abs/2204.08522v3 )

ライセンス: Link先を確認
Mohammadsadegh Khazali(参考訳) パーソナルエッジデバイスに量子コンピューティング能力をもたらすために、最適なアプローチは、計算タスクを低温コンポーネントとフォールトトレラントスキームを備えたエッジサーバを介してスケーラブルな量子コンピュータにオフロードする、単純な非エラー修正パーソナルデバイスを用意することである。 したがって、ネットワーク要素は異なるエンコーディングプロトコルをデプロイする。 本稿では,異なる符号化プロトコルと互換性のある量子端末を提案する。 原子格子プロセッサをキャビティ内部に収容することにより、rydberg-fermiキャビティqed技術により絡み込み機構を提供する。 ゲートは、物理量子ビットをホストするプラケット原子からリドベルク電子のフェルミ散乱によって動く。 したがって、異なる論理量子ビットの配列は、量子干渉によって区別された早期または後期の光子放出を特徴とする、異なる固有状態の中央原子に由来する。 2つの光子にエンタングルメントスワッピングゲートを適用すると、それらのエンコードプロトコルに関係なく、遠方分離された量子ビットがエンタングル化される。 このゲートは、プロセッサをクラスタ化し、異なるエンコーディングフォーマットと互換性のある量子メモリと量子クラウドと接続するための普遍的なフォトニックインターフェースを提供する。

To bring the quantum computing capacities to the personal edge devices, the optimum approach is to have simple non-error corrected personal devices that offload the computational tasks to scalable quantum computers via edge servers with cryogenic components and fault-tolerant schemes. Hence the network elements deploy different encoding protocols. This article proposes quantum terminals that are compatible with different encoding protocols; paving the way for realizing mobile edge-quantum computing. By accommodating the atomic lattice processor inside a cavity, the entangling mechanism is provided by the Rydberg-Fermi cavity-QED technology. The gate operates by the Fermi scattering of a Rydberg electron from the plaquette atoms hosting the physical qubits. Therefore, different arrangements of logical-qubits derive the central atom over distinguished eigenstates, featuring photon emission at the early or late times distinguished by quantum interference. Applying an entanglement-swapping gate on two emitted photons would make the far-separated qubits entangled regardless of their encoding protocols. This gate provides a universal photonic interface for clustering the processors and connecting them with the quantum memories and quantum cloud that is compatible with different encoding formats.
翻訳日:2023-02-16 11:33:14 公開日:2022-11-23
# 適応的に完全遷移重なり合う窒素空隙アンサンブルを用いた感度強磁性計測

Sensitivity-enhanced magnetometry using nitrogen-vacancy ensembles via adaptively complete transitions overlapping ( http://arxiv.org/abs/2207.01221v2 )

ライセンス: Link先を確認
Bao Chen, Bing Chen, Xinyi Zhu, Zhifei Yu, Peng Qian and Nanyang Xu(参考訳) ダイヤモンド中の窒素空孔(NV)中心は、近年注目されている高感度磁気センサである。 本稿では,既存のnv方位を等しく投影するバイアス磁場と重なり合う適応完全遷移により,感度エンハンスドアンサンブル磁気測定を行う。 このような条件下では、異なるNV配向に対応するスピン遷移は完全に重なり、明らかに改良されたフォトルミネッセンスコントラストをもたらす。 さらに,このバイアス磁場をコンピュータ制御型ヘルムホルツコイルを用いて自動かつ適応的に生成するキャリブレーションプロセスに粒子群最適化を導入する。 この手法を適用すれば、約1.5倍の強化を実現し、連続波磁気測定の分離遷移に対して$\rm 1.33\ nt/\sqrt{\rm hz}$に比べて完全に重なり合う遷移に対して$\rm855\ pt/\sqrt{hz}$の磁場感度が得られる。 本手法は、方向固定磁気センシングに適用し、アンサンブルnv磁気測定の最大感度を得ることができる。

Nitrogen-vacancy (NV) centers in diamond are suitable sensors of high-sensitivity magnetometry which have attracted much interest in recent years. Here, we demonstrate sensitivity-enhanced ensembles magnetometry via adaptively complete transitions overlapping with a bias magnetic field equally projecting onto all existing NV orientations. Under such conditions, the spin transitions corresponding to different NV orientations are completely overlapped which will bring about an obviously improved photoluminescence contrast. And we further introduce particle swarm optimization into the calibration process to generate this bias magnetic field automatically and adaptively using computer-controlled Helmholtz coils. By applying this technique, we realize an approximate 1.5 times enhancement and reach the magnetic field sensitivity of $\rm855\ pT/\sqrt{Hz}$ for a completely overlapped transitions compared to $\rm 1.33\ nT/\sqrt{\rm Hz}$ for a separate transition on continuous-wave magnetometry. Our approach can be conveniently applied to direction-fixed magnetic sensing and obtain the potentially maximum sensitivity of ensemble-NV magnetometry.
翻訳日:2023-02-06 19:18:12 公開日:2022-11-23
# 機械回転による絡み合いの発生

Generation of entanglement from mechanical rotation ( http://arxiv.org/abs/2207.14371v3 )

ライセンス: Link先を確認
Marko Toro\v{s}, Marion Cromb, Mauro Paternostro, Daniele Faccio(参考訳) ホーキング放射から宇宙の初期進化まで、多くの現象や基本的な予測は、量子力学と重力の相互作用、あるいはより一般的には曲線時空における量子力学に依存している。 しかし、我々の理解は、反復可能でアクセス可能な方法で曲がった時空で量子力学を実際に探せる実験の欠如によって妨げられている。 本稿では、異なる直径を持つ2つの回転するサニャック干渉計にまたがる経路重畳状態で調製され、2つの異なる時空の重畳を表す光子の実験的スキームを提案する。 低回転周波数でも真の絡み合いの発生を予測し、地球の回転によってもこれらの効果がどのように観測されるかを示す。 これらの予測は、絡み合いの発生における下層の時空の役割を研究するためのアクセス可能なプラットフォームを提供する。

Many phenomena and fundamental predictions, ranging from Hawking radiation to the early evolution of the Universe rely on the interplay between quantum mechanics and gravity or more generally, quantum mechanics in curved spacetimes. However, our understanding is hindered by the lack of experiments that actually allow us to probe quantum mechanics in curved spacetime in a repeatable and accessible way. Here we propose an experimental scheme for a photon that is prepared in a path superposition state across two rotating Sagnac interferometers that have different diameters and thus represent a superposition of two different spacetimes. We predict the generation of genuine entanglement even at low rotation frequencies and show how these effects could be observed even due to the Earth's rotation. These predictions provide an accessible platform in which to study the role of the underlying spacetime in the generation of entanglement.
翻訳日:2023-02-03 04:42:30 公開日:2022-11-23
# 極性分子を用いた波長可変遍歴スピンダイナミクス

Tunable itinerant spin dynamics with polar molecules ( http://arxiv.org/abs/2208.02216v2 )

ライセンス: Link先を確認
Jun-Ru Li, Kyle Matsuda, Calder Miller, Annette N. Carroll, William G. Tobias, Jacob S. Higgins, Jun Ye(参考訳) 強い相互作用を持つスピンは、磁性から量子情報処理まで、多くの興味深い現象や応用をもたらす。 相互作用スピンは、スピンアトラクションによって引き起こされるスピンの対から生じる超流動のような運動ディスプレイエキゾチックなスピン輸送現象と結合する。 これらの複雑な現象を理解するために、高い制御性を持つ相互作用するスピン系が望まれる。 量子スピンダイナミクスは様々な能力を持つ異なるプラットフォームで研究されている。 ここでは,2次元平面に閉じ込められたカリウム-ルビジウム分子の気体を用いた双極子相互作用により,スピン-1/2系を分子の回転準位にエンコードした可変イテナントスピンダイナミクスを実証する。 双極子相互作用は、回転遷移周波数のシフトと、結合されたスピンと運動から生じる衝突に制限されたラムゼーコントラスト崩壊を引き起こす。 イジングとスピン交換の相互作用は、電界の強さと配向、および内部分子状態を変化させて正確に調整される。 この完全なチューニング性はスピンハミルトニアンの静的制御と動的制御の両方を可能にし、コヒーレントスピンダイナミクスの反転を可能にする。 我々の研究は、強くチューニング可能な双極子相互作用を利用する多体スピンダイナミクスとスピン運動物理学の探索を可能にする相互作用するスピンプラットフォームを確立する。

Strongly interacting spins underlie many intriguing phenomena and applications ranging from magnetism to quantum information processing. Interacting spins combined with motion display exotic spin transport phenomena, such as superfluidity arising from pairing of spins induced by spin attraction. To understand these complex phenomena, an interacting spin system with high controllability is desired. Quantum spin dynamics have been studied on different platforms with varying capabilities. Here we demonstrate tunable itinerant spin dynamics enabled by dipolar interactions using a gas of potassium-rubidium molecules confined to two-dimensional planes, where a spin-1/2 system is encoded into the molecular rotational levels. The dipolar interaction gives rise to a shift of the rotational transition frequency and a collision-limited Ramsey contrast decay that emerges from the coupled spin and motion. Both the Ising and spin exchange interactions are precisely tuned by varying the strength and orientation of an electric field, as well as the internal molecular state. This full tunability enables both static and dynamical control of the spin Hamiltonian, allowing reversal of the coherent spin dynamics. Our work establishes an interacting spin platform that allows for exploration of many-body spin dynamics and spin-motion physics utilizing the strong, tunable dipolar interaction.
翻訳日:2023-02-02 09:56:26 公開日:2022-11-23
# 量子マルチパラメータ推定のためのギャップ持続定理

The gap persistence theorem for quantum multiparameter estimation ( http://arxiv.org/abs/2208.07386v2 )

ライセンス: Link先を確認
Lorc\'an O. Conlon, Jun Suzuki, Ping Koy Lam and Syed M. Assad(参考訳) 量子計測における重要な側面の一つは、複数のパラメータの同時推定によってのみ明らかである。 対称対数微分 Cram\'er-Rao bound (SLDCRB) は、各パラメータの可換性を推定するための最適な測定値である。 最適測定が通勤しない場合、SLDCRBは必ずしも到達できない。 この点において、ホレボ・クラム・ラオ境界(HCRB)は基本的役割を担い、量子状態の無限に多くのコピーを同時に測定できるとき、最終的な到達可能な精度を提供する。 実用上、長岡クラム・ラオ境界(NCRB)はより関係があり、個別に量子状態を測定することに制限される。 これら3つの境界の間の相互作用は、プローブ状態の有限コピーの集団的測定を通じて、究極のメトロロジー的精度がいかに迅速にアプローチできるかを決定する。 まず2つのパラメータ推定を考慮し、HCRBがプローブ状態の1つのコピーで飽和できない場合、プローブ状態の有限個のコピーに対して飽和できないことを証明した。 そこで本研究では, HCRB を物理的に動機づけたいくつかの問題に対して飽和させることは不可能であることを示す。 パラメータ数を推定するためには,SLDCRBの到達可能性に必要かつ十分な条件を分離可能な測定で提供する。 さらに、SLDCRBがプローブ状態の1つのコピーで到達できない場合、プローブ状態の有限個のコピーの集合的な測定では到達できないことを示す。 これらの結果は、プローブ状態の有限個のコピーに対して、SLDCRBが到達可能であるために必要かつ十分な条件を提供する。 これは[p.horodecki et al, phys. rev. x quantum 3, 0101 (2022)]によって強調された5つの問題の1つの重要な一般化である。

One key aspect of quantum metrology, measurement incompatibility, is evident only through the simultaneous estimation of multiple parameters. The symmetric logarithmic derivative Cram\'er-Rao bound (SLDCRB), gives the attainable precision, if the optimal measurements for estimating each individual parameter commute. When the optimal measurements do not commute, the SLDCRB is not necessarily attainable. In this regard, the Holevo Cram\'er-Rao bound (HCRB) plays a fundamental role, providing the ultimate attainable precisions when one allows simultaneous measurements on infinitely many copies of a quantum state. For practical purposes, the Nagaoka Cram\'er-Rao bound (NCRB) is more relevant, applying when restricted to measuring quantum states individually. The interplay between these three bounds dictates how rapidly the ultimate metrological precisions can be approached through collective measurements on finite copies of the probe state. We first consider two parameter estimation and prove that if the HCRB cannot be saturated with a single copy of the probe state, then it cannot be saturated for any finite number of copies of the probe state. With this, we show that it is impossible to saturate the HCRB for several physically motivated problems. For estimating any number of parameters, we provide necessary and sufficient conditions for the attainability of the SLDCRB with separable measurements. We further prove that if the SLDCRB cannot be reached with a single copy of the probe state, it cannot be reached with collective measurements on any finite number of copies of the probe state. These results together provide necessary and sufficient conditions for the attainability of the SLDCRB for any finite number of copies of the probe state. This solves a significant generalisation of one of the five problems recently highlighted by [P.Horodecki et al, Phys. Rev. X Quantum 3, 010101 (2022)].
翻訳日:2023-01-31 01:30:19 公開日:2022-11-23
# ゲージ不変半離散ウィグナー理論

Gauge-Invariant Semi-Discrete Wigner Theory ( http://arxiv.org/abs/2208.09208v3 )

ライセンス: Link先を確認
Mihail Nedjalkov, Mauro Ballicchia, Robert Kosik, Josef Weinbub(参考訳) ゲージ不変のウィグナー量子力学理論は、密度行列のフォン・ノイマン方程式にワイル・ストラトノヴィッチ変換を適用することによって得られる。 この変換は、ベクトルポテンシャルと磁場がゼロであるとき、静電限界におけるワイル変換に還元される。 どちらの場合も質量中心変換と、運動量変数を導入した相対座標上のフーリエ積分を含む。 後者は、積分の極限が無限であるか、あるいはコヒーレンス長が無限であるときに連続である。 しかし、量子論は電磁場成分のフーリエ変換を含み、無限遠の挙動に条件を課す。 逆に量子系は、例えば現代のナノエレクトロニクスの場合のように、有界であり、しばしば非常に小さい。 これは有限コヒーレンス長を意味し、非収束フーリエ積分を正則化する必要がなくなる。 したがって、運動量空間は離散化し、運動量量子化と半離散ゲージ不変ウィグナー方程式をもたらす。 この理論の特異性を知るためには、特定の電磁状態の方程式を解析する必要がある。 我々は、線形電磁ケースの進化方程式を導出し、運動量微分を伴う長いコヒーレンス長の挙動によって決定される極限を著しく単純化することを示す。 離散運動量像では、これらの微分は有限差分量で示され、さらなる近似とともに、関連する量子過程に関する物理的洞察を提供する計算可能なモデルを開発することができる。 特に、第2種のフレドホルム積分方程式が得られ、量子進化の修正率を測定するカーネル成分の「パワー」を評価することができる。

A gauge-invariant Wigner quantum mechanical theory is obtained by applying the Weyl-Stratonovich transform to the von Neumann equation for the density matrix. The transform reduces to the Weyl transform in the electrostatic limit, when the vector potential and thus the magnetic field are zero. Both cases involve a center-of-mass transform followed by a Fourier integral on the relative coordinate introducing the momentum variable. The latter is continuous if the limits of the integral are infinite or, equivalently, the coherence length is infinite. However, the quantum theory involves Fourier transforms of the electromagnetic field components, which imposes conditions on their behavior at infinity. Conversely, quantum systems are bounded and often very small, as is, for instance, the case in modern nanoelectronics. This implies a finite coherence length, which avoids the need to regularize non-converging Fourier integrals. Accordingly, the momentum space becomes discrete, giving rise to momentum quantization and to a semi-discrete gauge-invariant Wigner equation. To gain insights into the peculiarities of this theory one needs to analyze the equation for specific electromagnetic conditions. We derive the evolution equation for the linear electromagnetic case and show that it significantly simplifies for a limit dictated by the long coherence length behavior, which involves momentum derivatives. In the discrete momentum picture these derivatives are presented by finite difference quantities which, together with further approximations, allow to develop a computationally feasible model that offers physical insights into the involved quantum processes. In particular, a Fredholm integral equation of the second kind is obtained, where the "power" of the kernel components, measuring their rate of modification of the quantum evolution, can be evaluated.
翻訳日:2023-01-30 12:17:53 公開日:2022-11-23
# スペクトル分解ベイズ量子プロセストモグラフィーを用いた共存量子チャネルキャラクタリゼーション

Coexistent quantum channel characterization using spectrally resolved Bayesian quantum process tomography ( http://arxiv.org/abs/2208.14514v2 )

ライセンス: Link先を確認
Joseph C. Chapman, Joseph M. Lukens, Muneer Alshowkan, Nageswara Rao, Brian T. Kirby, and Nicholas A. Peters(参考訳) 送信された量子情報の最小分解を伴う同じ光ファイバ上の量子信号と古典信号の共存は、既存の通信基盤内で大規模量子ネットワークを操作する上で重要である。 ここでは,1光子偏光エンコード量子ビットと,最大15~kmの光ファイバーチャネルを介して強度の異なる古典光を同時に分配することによって生じる量子チャネルを体系的に特徴付ける。 新たに開発したベイズ法を用いて, スペクトル分解量子プロセストモグラフィーを用いて, 古典的背景の有無に関わらず, 実験光子計数データから全量子チャネルを推定した。 さらに, 正確なチャネル記述はポンプ偏極の弱い関数であることがわかったが, 同一に存在するファイバー系量子チャネルはラマン散乱によって雑音が支配される場合, 理想的な非偏極チャネルと高いプロセス忠実性を示す。 これらの結果は、現実のチャネルに対する量子リピータ設計と量子誤り訂正符号の今後の発展の基礎を提供し、量子ネットワークの分析とシミュレーションに使用されるモデルに通知する。

The coexistence of quantum and classical signals over the same optical fiber with minimal degradation of the transmitted quantum information is critical for operating large-scale quantum networks within the existing communications infrastructure. Here, we systematically characterize the quantum channel that results from simultaneously distributing approximate single-photon polarization-encoded qubits and classical light of varying intensities through fiber-optic channels of up to 15~km. Using spectrally resolved quantum process tomography with a newly developed Bayesian reconstruction method, we estimate the full quantum channel from experimental photon counting data, both with and without classical background. Furthermore, although we find the exact channel description to be a weak function of the pump polarization, we nevertheless show that the coexistent fiber-based quantum channel has high process fidelity with an ideal depolarizing channel when the noise is dominated by Raman scattering. These results provide a basis for the future development of quantum repeater designs and quantum error correcting codes for real-world channels and inform models used in the analysis and simulation of quantum networks.
翻訳日:2023-01-28 11:33:30 公開日:2022-11-23
# 高ダイナミックレンジジョセフソンパラメトリック増幅器を用いた量子プロセッサの読み出し

Readout of a quantum processor with high dynamic range Josephson parametric amplifiers ( http://arxiv.org/abs/2209.07757v2 )

ライセンス: Link先を確認
T.C. White, Alex Opremcak, George Sterling, Alexander Korotkov, Daniel Sank, Rajeev Acharya, Markus Ansmann, Frank Arute, Kunal Arya, Joseph C. Bardin, Andreas Bengtsson, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Zijun Chen, Ben Chiaro, Josh Cogan, Roberto Collins, Alexander L. Crook, Ben Curtin, Sean Demura, Andrew Dunsworth, Catherine Erickson, Reza Fatemi, Leslie Flores-Burgos, Ebrahim Forati, Brooks Foxen, William Giang, Marissa Giustina, Alejandro Grajales Dau, Michael C. Hamilton, Sean D. Harrington, Jeremy Hilton, Markus Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, Justin Iveland, Evan Jeffrey, M\'arika Kieferov\'a, Seon Kim, Paul V. Klimov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Lily Laws, Kenny Lee, Brian J. Lester, Alexander Lill, Wayne Liu, Aditya Locharla, Erik Lucero, Trevor McCourt, Matt McEwen, Xiao Mi, Kevin C. Miao, Shirin Montazeri, Alexis Morvan, Matthew Neeley, Charles Neill, Ani Nersisyan, Jiun How Ng, Anthony Nguyen, Murray Nguyen, Rebecca Potter, Chris Quintana, Pedram Roushan, Kannan Sankaragomathi, Kevin J. Satzinger, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Jindra Skruzny, W. Clarke Smith, Marco Szalay, Alfredo Torres, Bryan Woo, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Grayson Young, Ningfeng Zhu, Nicholas Zobrist, Yu Chen, Anthony Megrant, Julian Kelly, Ofer Naaman(参考訳) 本稿では,能動非線形要素をrf-squidアレイを用いて実装した高ダイナミックレンジジョセフソンパラメトリック増幅器(jpa)について述べる。 このデバイスは、Klopfenstein-taperインピーダンス変換器で50$\Omega$環境と一致し、帯域幅は250-300MHz、入力飽和電力は最大で-95dBmの20dBゲインとなる。 54キュービットのSycamoreプロセッサを使用してこれらのデバイスをベンチマークし、読み出し電力の校正、増幅器付加ノイズの推定、標準インピーダンスのパラメトリック増幅器と1つのdc-SQUIDを比較した。 我々は,高出力rf-SQUIDアレイの設計がシステムノイズ,読み出し忠実度,量子ビットの劣化に悪影響を及ぼさないことを発見し,量子限界の1.6倍の増幅器付加雑音に対する上限を推定した。 最後に、この設計による増幅器は、従来のJPAとマルチトーン多重読み出しで発生するゲイン圧縮による読み出し精度の劣化を示さない。

We demonstrate a high dynamic range Josephson parametric amplifier (JPA) in which the active nonlinear element is implemented using an array of rf-SQUIDs. The device is matched to the 50 $\Omega$ environment with a Klopfenstein-taper impedance transformer and achieves a bandwidth of 250-300 MHz, with input saturation powers up to -95 dBm at 20 dB gain. A 54-qubit Sycamore processor was used to benchmark these devices, providing a calibration for readout power, an estimate of amplifier added noise, and a platform for comparison against standard impedance matched parametric amplifiers with a single dc-SQUID. We find that the high power rf-SQUID array design has no adverse effect on system noise, readout fidelity, or qubit dephasing, and we estimate an upper bound on amplifier added noise at 1.6 times the quantum limit. Lastly, amplifiers with this design show no degradation in readout fidelity due to gain compression, which can occur in multi-tone multiplexed readout with traditional JPAs.
翻訳日:2023-01-26 09:44:33 公開日:2022-11-23
# 絡み込みチャネルはいつ絡み合いを破るのか?

When does an entanglement breaking channel break entanglement? ( http://arxiv.org/abs/2209.08689v2 )

ライセンス: Link先を確認
Fattah Sakuldee, {\L}ukasz Rudnicki(参考訳) 絡み合うチャネルは、絡み合った状態を分離可能な状態に変換する量子チャネルである。 それらの運用構造に関する詳細な議論は文献で見られるが、この種の地図の動的特性の研究はまだ限られている。 リンドブラッド型力学では、与えられたチャネルの絡み合いはいつ発生するのか? 本稿では, 絡み付き証人による絡み合いの定量化を利用する有限次元の場合について論じる。 一般の設定では、入力状態、力学マップ、および証人演算子の観点から、エンタングル破断時間の下限を導出するために量子速度限界の方法を用いる。 そして、入力状態と絡み合い証人の特定の選択により、破断時間のバウンダリを単にダイナミクスの特性を反映するようにする。

Entanglement breaking channels are quantum channels transforming entangled states to separable states. Despite a detailed discussion of their operational structure, to be found in the literature, studies on dynamical characteristics of this type of maps is yet limited. We consider one of the basic questions: for Lindblad-type dynamics, when does a given channel break entanglement? We discuss the finite-dimensional case where the quantification of entanglement via entanglement witnesses is utilized. For the general setup, we use the method of quantum speed limit to derive lower bounds on entanglement breaking times in terms of an input state, the dynamical map and the witness operator. Then, with a particular choice of the input state and the entanglement witness, the bounds for the breaking time are turned to solely reflect the characteristics of the dynamics.
翻訳日:2023-01-26 02:27:53 公開日:2022-11-23
# ハイブリッド光磁気メカニクスシステムにおけるインタラクティブエンタングルメント

Interactive Entanglement in Hybrid Opto-magno-mechanics System ( http://arxiv.org/abs/2209.10120v2 )

ライセンス: Link先を確認
Jun Wang, Jing-Yu Pan, Ya-Bo Zhao, Jun Xiong and Hai-Bo Wang(参考訳) 本稿では,複数の量子キャリア(例えばマグノン,メカニカル共振器,キャビティフォトン)間の絡み合いを光学領域とマイクロ波領域の両方で生成する新しいキャビティオプティオプティオプティ・マグノ・メカニカルハイブリッドシステムを提案する。 2つのイットリウム鉄ガーネット(YIG)球が2つの別々のマイクロ波キャビティに埋め込まれ、共振器が結合する。 マイクロ波共振器は分離しているため、2つのyig球体の強磁性共鳴周波数とキャビティ周波数は独立に調整できる。 実験により到達可能なパラメータで絡み合いを実現できることを示す。 絡み合いは、光学キャビティによって達成される機械的冷却により、環境熱雑音に対して堅牢である。 異なるキャリア間の最大絡み合いは、システムのパラメータを最適化することで達成される。 分離されたキャビティの個々のチューナビリティは、異なるサブシステムの絡み合い特性を独立に制御し、1つのシステムで異なる絡み合い特性を持つ量子チャネルを確立することができる。 この研究は量子力学や量子情報処理に有望な応用をもたらす可能性がある。

We present a novel cavity opto-magno-mechanical hybrid system to generate entanglements among multiple quantum carriers, such as magnons, mechanical resonators, and cavity photons in both the optical and microwave domains. Two Yttrium iron garnet (YIG) spheres are embedded in two separate microwave cavities which are joined by a communal mechanical resonator. Because the microwave cavities are separate, the ferromagnetic resonate frequencies of two YIG spheres can be tuned independently, as well as the cavity frequencies. We show that entanglement can be achieved with experimentally reachable parameters. The entanglement is robust against environmental thermal noise, owing to the mechanical cooling process achieved by the optical cavity. The maximum entanglement among different carriers is achieved by optimizing the parameters of the system. The individual tunability of the separated cavities allows us to independently control the entanglement properties of different subsystems and establish quantum channels with different entanglement properties in one system. This work could provide promising applications in quantum metrology and quantum information tasks.
翻訳日:2023-01-25 20:53:35 公開日:2022-11-23
# 量子応用における単一光子検出のためのナノ秒タイミング分解能を有する高速データ駆動光カメラTpx3Cam

Intensified Tpx3Cam, a fast data-driven optical camera with nanosecond timing resolution for single photon detection in quantum applications ( http://arxiv.org/abs/2210.13713v3 )

ライセンス: Link先を確認
Andrei Nomerotski, Matthew Chekhlov, Denis Dolzhenko, Rene Glazenborg, Brianna Farella, Michael Keach, Ryan Mahon, Dmitry Orlov, Peter Svihra(参考訳) 本稿では,高速データ駆動型光学カメラtpx3camについて述べる。 インテンシファイアの追加後、カメラは、主にインテンシファイアフォトキャソードによって決定される量子効率に敏感な単一光子である。 カメラの単一光子性能は, ゲイン, タイミング分解能, アフターパルスの結果によって特徴づけられた。 この強化カメラは、量子アプリケーションを含む様々なアプリケーションで測定に成功している。 このような応用の例として、複数の光子の同時検出を必要とする応用として、分光計における自然パラメトリックダウンコンバージョン源からの光子対の登録について述べる。 我々は光子の波長とタイミングを0.15〜nmと3~nsの精度で測定し、2つの光子がエネルギーに反相関していることを示した。

We describe a fast data-driven optical camera, Tpx3Cam, with nanosecond scale timing resolution and 80 Mpixel/sec throughput. After the addition of intensifier, the camera is single photon sensitive with quantum efficiency determined primarily by the intensifier photocathode. The single photon performance of the camera was characterized with results on the gain, timing resolution and afterpulsing reported here. The intensified camera was successfully used for measurements in a variety of applications including quantum applications. As an example of such application, which requires simultaneous detection of multiple photons, we describe registration of photon pairs from the spontaneous parametric down-conversion source in a spectrometer. We measured the photon wavelength and timing with respective precisions of 0.15~nm and 3~ns, and also demonstrated that the two photons are anti-correlated in energy.
翻訳日:2023-01-21 16:13:05 公開日:2022-11-23
# U(1)$対称性の監視量子回路における電荷ゆらぎと電荷分解絡み

Charge fluctuation and charge-resolved entanglement in monitored quantum circuit with $U(1)$ symmetry ( http://arxiv.org/abs/2210.16009v2 )

ライセンス: Link先を確認
Hisanori Oshima and Yohei Fuji(参考訳) 我々は、(1+1)次元量子回路をハールランドムのユニタリゲートと、合計$U(1)$電荷を保存し、従って$U(1)$対称性を持つ射影測定により研究する。 ボリュームローと領域ロー絡み込み相との間の測定誘起絡み転移に加えて、サブユニットサイズや残留定数で増大する二成分電荷変動を特徴とする2相間の相転移を見いだす。 At this charge-fluctuation transition, steady-state quantities obtained by evolving an initial state with a definitive total charge exhibit critical scaling behaviors akin to Tomonaga-Luttinger-liquid theory for equilibrium critical quantum systems with $U(1)$ symmetry, such as logarithmic scaling of bipartite charge fluctuation, power-law decay of charge correlation functions, and logarithmic scaling of charge-resolved entanglement whose coefficient becomes a universal quadratic function in a flux parameter. しかし、これらの重要な特徴は、レプリカ場理論と古典的な統計力学モデルへの写像に基づく最近の予測とは対照的に、遷移より下位に留まらない。

We study a (1+1)-dimensional quantum circuit consisting of Haar-random unitary gates and projective measurements that conserve a total $U(1)$ charge and thus have $U(1)$ symmetry. In addition to a measurement-induced entanglement transition between a volume-law and an area-law entangled phase, we find a phase transition between two phases characterized by bipartite charge fluctuation growing with the subsystem size or staying constant. At this charge-fluctuation transition, steady-state quantities obtained by evolving an initial state with a definitive total charge exhibit critical scaling behaviors akin to Tomonaga-Luttinger-liquid theory for equilibrium critical quantum systems with $U(1)$ symmetry, such as logarithmic scaling of bipartite charge fluctuation, power-law decay of charge correlation functions, and logarithmic scaling of charge-resolved entanglement whose coefficient becomes a universal quadratic function in a flux parameter. These critical features, however, do not persist below the transition in contrast to a recent prediction based on replica field theory and mapping to a classical statistical mechanical model.
翻訳日:2023-01-21 05:36:55 公開日:2022-11-23
# 変分量子計算化学のシミュレーションのための微分行列積状態

Differentiable matrix product states for simulating variational quantum computational chemistry ( http://arxiv.org/abs/2211.07983v2 )

ライセンス: Link先を確認
Zhiqian Xu, Yi Fan, Honghui Shang, Chu Guo(参考訳) 量子コンピューティングは量子化学問題の究極の解であると考えられている。 大規模でフォールトトレラントな量子コンピュータが出現する以前、変分量子固有ソルバ(vqe)は、有望なヒューリスティック量子アルゴリズムであり、近距離ノイズ量子コンピュータにおける実世界の量子化学問題を解決する。 本稿では,量子状態の行列積状態表現に基づくvqe用高度並列化可能な古典的シミュレータを提案する。 シミュレーションでは、量子回路の進化を古典的自己微分フレームワークにシームレスに統合することで、勾配を古典的ディープニューラルネットワークと同様の効率良く計算し、変動パラメータの数に依存しないスケーリングを行うことができる。 応用として,HF,HCl,LiH,H$_2$O,最大30ドルキュービットのCO$_2$などの一般的な分子をシミュレータを用いて研究する。 量子ビット数とパラメータ数に対するシミュレータのスケーリングは、近距離量子アルゴリズムの理想的なテスト基盤となり、ノイズの多い量子コンピュータで大規模なVQE実験を行うための完璧なベンチマークベースラインとなる。

Quantum Computing is believed to be the ultimate solution for quantum chemistry problems. Before the advent of large-scale, fully fault-tolerant quantum computers, the variational quantum eigensolver~(VQE) is a promising heuristic quantum algorithm to solve real world quantum chemistry problems on near-term noisy quantum computers. Here we propose a highly parallelizable classical simulator for VQE based on the matrix product state representation of quantum state, which significantly extend the simulation range of the existing simulators. Our simulator seamlessly integrates the quantum circuit evolution into the classical auto-differentiation framework, thus the gradients could be computed efficiently similar to the classical deep neural network, with a scaling that is independent of the number of variational parameters. As applications, we use our simulator to study commonly used molecules such as HF, HCl, LiH, H$_2$O as well as CO$_2$ with up to $30$ qubits. The favorable scaling of our simulator against the number of qubits and the number of parameters could make it an ideal testing ground for near-term quantum algorithms and a perfect benchmarking baseline for oncoming large scale VQE experiments on noisy quantum computers.
翻訳日:2023-01-19 12:49:38 公開日:2022-11-23
# 相互作用下の例外点のFate:トポロジカルな分類の削減

Fate of exceptional points under interactions: Reduction of topological classifications ( http://arxiv.org/abs/2211.08895v2 )

ライセンス: Link先を確認
Tsuneya Yoshida and Yasuhiro Hatsugai(参考訳) 最近の非エルミート位相に関する広範囲な研究にもかかわらず、相互作用効果を理解することは重要な問題である。 本稿では,非エルミート系に特有の非自明な点ギャップ位相によって保護される例外点に対する相互作用効果について述べる。 2次元パラメータ空間における解析は、例外点と対称性で保護された例外環が相互作用に対して脆弱であることを示す。 この例外点と対称性で保護された例外環の不安定性は、非エルミート的位相分類の減少から生じ、非相互作用的かつ相互作用的なケースに対して第二量子化ハミルトン多様体の位相不変量を導入することによって解明される。 これらの位相不変量は、ガッピング系の還元現象の解析にも利用できる。 以上の結果は、一般の場合における例外点の類似の減少現象を強く示唆し、非エルミート位相の新たな研究方向を開く。

Despite recent extensive studies of the non-Hermitian topology, understanding interaction effects is left as a crucial question. In this paper, we address interaction effects on exceptional points which are protected by the non-trivial point-gap topology unique to non-Hermitian systems. Our analysis in a two-dimensional parameter space elucidates the existence of exceptional points and symmetry-protected exceptional rings fragile against interactions; they are topologically protected only in non-interacting cases. This fragility of exceptional points and symmetry-protected exceptional rings arises from the reduction of non-Hermitian topological classifications, which is elucidated by introducing topological invariants of the second-quantized Hamiltonian for both non-interacting and interacting cases. These topological invariants are also available to analyze the reduction phenomena of gapped systems. The above results strongly suggest similar reduction phenomena of exceptional points in generic cases and open up a new direction of research in the non-Hermitian topology.
翻訳日:2023-01-19 09:35:30 公開日:2022-11-23
# ハイゼンベルクの3つの観測対象の測定不確かさ関係の検証

Testing Heisenberg's measurement uncertainty relation of three observables ( http://arxiv.org/abs/2211.09389v2 )

ライセンス: Link先を確認
Ya-Li Mao, Hu Chen, Chang Niu, Zheng-Da Li, Sixia Yu, and Jingyun Fan(参考訳) 2つの量子観測器のハイゼンベルク測定の不確実性関係(mur)は、量子基礎と量子情報科学の現代の研究に不可欠である。 ここでは、3つの量子オブザーバブルに対するMURの実験実験を報告する。 Bush, Lahti, and Werner [Phys. Rev. A 89, 012129 (2014)] の提案に続き、不整合測度により下界の近似誤差として、偏りのない量子ビット可観測体の三重項に対して厳密な MUR を確立する。 次に,不整合度と対応する最適測定値の正確な値を求めるために,凸プログラミングプロトコルを開発した。 さらに、最適関節測定の新たな実装を提案し、単一光子量子ビットを用いてMURを実験的に検証する。 最後に,いくつかの対称三重項に対する不整合係数の正確な値を解析的に算出する。 我々は、この研究がハイゼンベルクの不確実性関係に関連する幅広い関心を刺激し、量子力学の理解を深め、量子情報科学における革新的な応用を刺激することを期待している。

Heisenberg's measurement uncertainty relations (MUR) of two quantum observables are essential for contemporary researches in quantum foundations and quantum information science. Going beyond, here we report the first experimental test of MURs for three quantum observables. Following the proposal of Bush, Lahti, and Werner [Phys. Rev. A 89, 012129 (2014)], we first establish rigorously MURs for triplets of unbiased qubit observables as combined approximation errors lower-bounded by an incompatibility measure. We then develop a convex programming protocol to numerically find the exact value of the incompatibility measure and the corresponding optimal measurements. Furthermore, we propose a novel implementation of optimal joint measurements and experimentally test our MURs using a single-photon qubit. Lastly, we discuss to analytically calculate the exact value of incompatibility measure for some symmetric triplets. We anticipate that this work may stimulate broad interests associated with the Heisenberg's uncertainty relation of multiple observables, enriching our understanding of quantum mechanics and inspiring innovative applications in quantum information science.
翻訳日:2023-01-19 06:59:20 公開日:2022-11-23
# 部分位相後選による双フィールド量子鍵分布

Twin-field quantum key distribution with partial phase postselection ( http://arxiv.org/abs/2211.12688v1 )

ライセンス: Link先を確認
Yao Zhou, Zhen-Qiang Yin, Rui-Qiang Wang, Shuang Wang, Wei Chen, Guang-Can Guo and Zheng-Fu Han(参考訳) 量子鍵分配(QKD)により、2つのリモートパーティが情報理論上安全なキーを共有することができる。 近年、線形鍵レート制約を克服し、達成可能な距離を大幅に増加させるために、ツインフィールド(TF) QKD と呼ばれる画期的なブレークスルーが開発されている。 位相ランダム化とその後のポストセレクションは、セキュリティ証明において重要な役割を果たす。 その後、相次後選考tf-qkdが提案され、相次選考の廃止によりキーレートが高くなるため、一般的な変種となった。 しかし、従来のものと比べ、実現可能な距離は減少する。 本稿では,部分選抜後のtf-qkdプロトコルを提案する。 すなわち、そのコードモードは依然としてグローバルフェーズのランダム化やポストセレクションから解放されており、高いキーレートの利点が残ることを保証する。 一方、デコイモードでは位相選択を導入して性能を向上させる。 演算子支配条件を適用すれば、コヒーレント攻撃下での有限鍵ケースにおける提案プロトコルの普遍的安全性が証明され、数値シミュレーションにより鍵速度と到達距離の点でその潜在的な利点が確認できる。

Quantum key distribution (QKD) allows two remote parties to share information-theoretically secure keys. In recent years, a revolutionary breakthrough called twin-field (TF) QKD has been developed to overcome the linear key-rate constraint and greatly increases the achievable distance. Phase-randomization and subsequent postselection play important roles in its security proof. Later, no-phase-postselection TF-QKD was proposed and became a popular variant, since the removal of phase postselection leads to a higher key rate. However, the achievable distance is decreased compared to the original one. Here, we propose a TF-QKD protocol with partial phase postselection. Namely, its code mode is still free from global phase randomization and postselection to make sure the advantage of the high key rate remains. On other hand, phase postselection is introduced in the decoy mode to improve the performance. Applying an operator dominance condition, we prove universal security of the proposed protocol in the finite-key case under coherent attacks, and numerical simulations confirm its potential advantages in terms of key rate and achievable distance.
翻訳日:2023-01-19 01:45:25 公開日:2022-11-23
# DECIGO用光スプリング量子ロックの開発における第1段階実験:正方形を完遂した模擬量子ノイズに対する感度最適化

First-step experiment in developing optical-spring quantum locking for DECIGO: sensitivity optimization for simulated quantum noise by completing the square ( http://arxiv.org/abs/2211.12683v1 )

ライセンス: Link先を確認
Tomohiro Ishikawa, Yuki Kawasaki, Kenji Tsuji, Rika Yamada, Izumi Watanabe, Bin Wu, Shoki Iwaguchi, Ryuma Shimizu, Kurumi Umemura, Koji Nagano, Yutaro Enomoto, Kentaro Komori, Yuta Michimura, Akira Furusawa, Seiji Kawamura(参考訳) DECIGO(DeCi-hertz Interferometer Gravitational Wave Observatory)は、宇宙空間におけるレーザー干渉計である。 DECIGOは、主に0.1Hzの低周波で原始重力波(PGW)を検出するために、1000kmのアームキャビティを持つ。 電磁スペクトルにおける観測は、PGWエネルギー密度の上限(\Omega_{\rm gw} \sim 10^{-15} \to 10^{-16}$)の上限を下げた。 結果として、DECGOのターゲット感度は、主に量子ノイズによって制限されるが、さらなる改善が必要である。 DECIGOの大きな回折損失に制約された検出可能性の最大化のために、光バネを用いた量子ロック法が理論上提案され、PGWの信号対雑音比が向上した。 本稿では,光スプリング量子ロックの1つの重要な要素として,複数の検出器出力の2乗を完結させることによる感度最適化を実験的に検証する。 この実験は、量子ノイズをシミュレートする古典的なノイズを伴う簡易なテーブル上光学セットアップ上で行われる。 2つの異なるレーザーパワーの感度を正方形補完法で取得することに成功した。

DECi-hertz Interferometer Gravitational Wave Observatory (DECIGO) is a future mission for a space-borne laser interferometer. DECIGO has 1,000-km-long arm cavities mainly to detect the primordial gravitational waves (PGW) at lower frequencies around 0.1 Hz. Observations in the electromagnetic spectrum have lowered the bounds on the upper limit of PGW energy density ($\Omega_{\rm gw} \sim 10^{-15} \to 10^{-16}$). As a result, DECIGO's target sensitivity, which is mainly limited by quantum noise, needs further improvement. To maximize the feasibility of detection while constrained by DECIGO's large diffraction loss, a quantum locking technique with an optical spring was theoretically proposed to improve the signal-to-noise ratio of the PGW. In this paper, we experimentally verify one key element of the optical-spring quantum locking: sensitivity optimization by completing the square of multiple detector outputs. This experiment is operated on a simplified tabletop optical setup with classical noise simulating quantum noise. We succeed in getting the best of the sensitivities with two different laser powers by the square completion method.
翻訳日:2023-01-19 01:45:06 公開日:2022-11-23
# 量子相関を持つフォトオットーエンジン

Photo-Otto engine with quantum correlations ( http://arxiv.org/abs/2211.12672v1 )

ライセンス: Link先を確認
Yang Xiao, Dehua Liu, Jizhou He, Yongli Ma, Zhaoqi Wu, and Jianhui Wang(参考訳) 光キャビティ内の単一モードの放射場に作用し、熱・冷水貯留層によって駆動される光オットーエンジンを理論的に提案・検討し、熱水貯留層を光学キャビティを通過する2レベル原子対の1つに送って実現し、冷水は非相互作用ボソンモードの集まりで構成する。 原子対の量子不一致の観点からは、性能パラメータ(パワーと効率)と安定性測度(パワーのばらつきの共効率)の解析式を導出する。 量子不協和により量子エンジンの性能と効率が向上し,動作モードも変化する可能性があることを示す。 また, 一般化された熱力学的不確かさ関係を満たすパワーの変動係数を減少させることにより, 量子ディスコードにより機械の安定性が向上することを示す。 最後に, 光学キャビティと熱ボソニック浴, 冷水貯水池の役割を担う2つの相関原子の対のビームを交互に結合した別の光-オットーエンジンモデルにこれらの結果が移動可能であることを見出した。

We theoretically prose and investigate a photo-Otto engine that is working with a single-mode radiation field inside an optical cavity and alternatively driven by a hot and a cold reservoir, where the hot reservoir is realized by sending one of a pair of correlated two-level atoms to pass through the optical cavity, and the cold one is made of a collection of noninteracting boson modes. In terms of the quantum discord of the pair of atoms, we derive the analytical expressions for the performance parameters (power and efficiency) and stability measure (coefficient of variation for power). We show that quantum discord boosts the performance and efficiency of the quantum engine, and even may change the operation mode. We also demonstrate that quantum discord improves the stability of machine by decreasing the coefficient of variation for power which satisfies the generalized thermodynamic uncertainty relation. Finally, we find that these results can be transferred to another photo-Otto engine model, where the optical cavity is alternatively coupled to a hot thermal bosonic bath and to a beam of pairs of the two correlated atoms that play the role of a cold reservoir.
翻訳日:2023-01-19 01:44:48 公開日:2022-11-23
# 極低磁場squid磁力計による低温反強磁性・弱保磁力磁性体測定

An ultra-low field SQUID magnetometer for measuring antiferromagnetic and weakly remanent magnetic materials at low temperatures ( http://arxiv.org/abs/2211.12894v1 )

ライセンス: Link先を確認
Michael Paulsen, Julian Lindner, Bastian Klemke, J\"orn Beyer, Michael Fechner, Dennis Meier, Klaus Kiefer(参考訳) 反強磁性体および一般には弱い磁性体以外の磁場を測定するための新しい装置を提案する。 この装置は高感度のスーパー導電性量子干渉デバイス(SQUID)磁気センサを備え、磁場分解能は近似である。 10 fT, 試料空間を1.5~65Kの温度範囲で非誘電体試料移動駆動と光位置符号化を行った。 磁化率効果を最小化するために、試料近傍のプラスチック材料で設定部品を脱ゲージして実現する。 磁気シールドされた部屋のセットアップを実行すると、150 nt以下で十分に定義された極低磁場の背景磁場が得られる。 この装置は、高磁場感受性装置、光学的手法、中性子散乱技術で測定できない本質的に弱い磁性物質の研究を可能にし、スピン-スピラルマルチフェロニクス、スカイミオン材料、スピン氷の研究に新たな機会を与える。

A novel setup for the measurement of magnetic fields external to certain antiferromagnets and generally weakly remanent magnetic materials is presented. The setup features a highly sensitive Super Conducting Quantum Interference Device (SQUID) magnetometer with a magnetic field resolution of approx. 10 fT, non-electric thermalization of the sample space for a temperature range of 1.5 - 65 K with a non-electric sample movement drive and optical position encoding. To minimize magnetic susceptibility effects, the setup components are degaussed and realized with plastic materials in sample proximity. Running the setup in magnetically shielded rooms allows for a well-defined ultra low magnetic background field well below 150 nT in situ. The setup enables studies of inherently weak magnetic materials which cannot be measured with high field susceptibility setups, optical methods or neutron scattering techniques, giving new opportunities for the research on e.g. spin-spiral multiferroics, skyrmion materials and spin ices.
翻訳日:2023-01-19 01:42:09 公開日:2022-11-23
# 向き付け可能な写像上の量子ウォークにおける完全状態伝達

Perfect state transfer in quantum walks on orientable maps ( http://arxiv.org/abs/2211.12841v1 )

ライセンス: Link先を確認
Krystal Guo and Vincent Schmeits(参考訳) 離散時間量子ウォークはグラフ上のマルコフ連鎖の量子アナログである。 zhan [j. algebraic combin. 53(4):1187-1213, 2020] 向き付け可能な曲面に埋め込まれたグラフの面と頂点の入射関係を用いて、遷移行列が2つの反射によって与えられる離散時間量子ウォークのモデルを提案する。 2つの反射からなる一般的な離散時間量子ウォークの進化は、投影の下でチェビシェフの再発を満たすことを示す。 頂点面ウォークでは、完全状態移動と周期性に関する定理を証明し、これらが生じる無限の例の族を与える。 代数的および位相的グラフ理論のツールを集めて、このウォークの進化を分析する。

A discrete-time quantum walk is the quantum analogue of a Markov chain on a graph. Zhan [J. Algebraic Combin. 53(4):1187-1213, 2020] proposes a model of discrete-time quantum walk whose transition matrix is given by two reflections, using the face and vertex incidence relations of a graph embedded in an orientable surface. We show that the evolution of a general discrete-time quantum walk that consists of two reflections satisfies a Chebyshev recurrence, under a projection. For the vertex-face walk, we prove theorems about perfect state transfer and periodicity and give infinite families of examples where these occur. We bring together tools from algebraic and topological graph theory to analyze the evolution of this walk.
翻訳日:2023-01-19 01:41:52 公開日:2022-11-23
# 絡み合いの相対エントロピーの新たな加法的性質とその一般化

New additivity properties of the relative entropy of entanglement and its generalizations ( http://arxiv.org/abs/2211.12804v1 )

ライセンス: Link先を確認
Roberto Rubboli and Marco Tomamichel(参考訳) エンタングルメントの相対エントロピーは、2つの状態の少なくとも1つが特定のクラスに属するときに付加的であることが証明される。 これらのクラスは、二成分純、最大相関、ghz、ベル対角、等方性、一般化ディッケ状態を含む。 以前は、両州が同じクラスに属する場合にのみ付加性が確立されていた。 さらに、これらの結果は、$\alpha$-$z$ R\'enyi 相対エントロピーに基づくエンタングルメント単調に拡張する。 特に、この単調の族は、絡み合いの一般化された堅牢性や絡み合いの幾何学的測度も含む。 さらに、量子相対エントロピーに基づく任意の単調は一般状態に対して加法的ではないことを証明する。 最後に、両部純物、ベル対角、等方性、一般化Werner、一般化Dicke、最大相関Bell対角状態に対する $\alpha$-$z$ R\'enyi 相対エントロピーに基づいてモノトーンの値を計算する。 この結果は,従来の最適化問題をより単純な線形化に還元する,$\alpha$-$z$ R\'enyi相対エントロピーに基づいて,モノトーンの最適化に必要かつ十分な条件を新たに証明することに依存する。 主に絡み合い理論に焦点をあてるが、一般的な資源理論の枠組みで技術的結果のいくつかを定式化し、他の資源理論の研究に利用できると期待する。

We prove that the relative entropy of entanglement is additive when at least one of the two states belongs to some specific class. We show that these classes include bipartite pure, maximally correlated, GHZ, Bell diagonal, isotropic, and generalized Dicke states. Previously, additivity was established only if both states belong to the same class. Moreover, we extend these results to entanglement monotones based on the $\alpha$-$z$ R\'enyi relative entropy. Notably, this family of monotones includes also the generalized robustness of entanglement and the geometric measure of entanglement. In addition, we prove that any monotone based on a quantum relative entropy is not additive for general states. Finally, we compute the value of the monotones based on the $\alpha$-$z$ R\'enyi relative entropy for bipartite pure, Bell diagonal, isotropic, generalized Werner, generalized Dicke, and maximally correlated Bell diagonal states. Our results rely on proving new necessary and sufficient conditions for the optimizer of the monotones based on the $\alpha$-$z$ R\'enyi relative entropy which allow us to reduce the original optimization problem to a simpler linear one. Even though we focus mostly on entanglement theory, we formulate some of our technical results in a general resource theory framework and we expect that they could be used to investigate other resource theories.
翻訳日:2023-01-19 01:41:37 公開日:2022-11-23
# 量子化学のための変量量子固有解法のベンチマーク

Benchmarking Variational Quantum Eigensolvers for Quantum Chemistry ( http://arxiv.org/abs/2211.12775v1 )

ライセンス: Link先を確認
Jiaqi Hu, Junning Li, Yanling Lin, Hanlin Long, Xu-Sheng Xu, Zhaofeng Su, Wengang Zhang, Yikang Zhu, Man-Hong Yung(参考訳) 量子化学は、近い将来最も有望な量子コンピュータの応用の一つである。 ノイズの多い中間スケール量子デバイスでは、変分量子固有ソルバ(vqe)に基づく量子古典ハイブリッドフレームワークが選択方法となっている。 文献では、VQEには多くの異なる変種があるが、どの分子が与えられた分子に対して最適であるかは分かっていない。 この目的のために、エネルギーの正確性、収束までの実行時間、パラメータ数に基づいて、10種類以上のvqe ansatze(システムでは30キュービットまで)を徹底的にベンチマークする。 その結果, 適応型アンサッツは小型システム(14量子ビット以下)でより正確なエネルギーを得ることができるが, 計算資源ははるかに高いことがわかった。 大きな分子の場合、UCCSD0はより良い性能を持つ。 しかしながら、試験された全てのアンサットは、伸長した結合長で化学精度に到達できない。 私たちの結果はMindSpore Quantumを使って得られました。コードとベンチマークツールキットはGiteeで公開されています。

Quantum chemistry is one of the most promising applications of quantum computers in the near future. For noisy intermediate-scale quantum devices, the quantum-classical hybrid framework based on the variational quantum eigensolver (VQE) has become the method of choice. In the literature, there are many different variants of VQE, but it is not known which one is optimal for a given molecule. For this purpose, we perform a thorough benchmarking on more than ten different kinds of VQE ansatzes (in systems up to 30 qubits), based on their performance on the energy accuracy, runtime until convergence, and number of parameters. Our results show that the ADAPT ansatz can be used to obtain more accurate energy for small systems (below 14 qubits), but it costs much more computational resources. For larger molecules, UCCSD0 has better performance. However, all the tested ansatzes can hardly reach chemical accuracy at stretched bond lengths. Our results were obtained using MindSpore Quantum, where the codes and the benchmarking toolkit are publicly available at Gitee.
翻訳日:2023-01-19 01:40:32 公開日:2022-11-23
# 位相的$\pi$モードとその先

Topological $\pi$ modes and beyond ( http://arxiv.org/abs/2211.12710v1 )

ライセンス: Link先を確認
Weiwei Zhu, Jiangbin Gong, Raditya Weda Bomantara(参考訳) この短い視点の記事では、トポロジカルな$\pi$モードの発見の概要と、量子コンピューティングにおける物理的意義、および物質のエキゾチックなフェーズ、すなわちフロッケ時間結晶の理解について述べられている。 最近の$\pi/k$モードの一般化としての提案はさらに解明されている。

This short Perspective article presents an overview of the discovery of topological $\pi$ modes as well as their physical significance in quantum computing and the understanding of an exotic phase of matter, i.e., the Floquet time crystal. The recent proposals of $2\pi/k$ modes as the generalizations of $\pi$ modes are further elucidated.
翻訳日:2023-01-19 01:39:49 公開日:2022-11-23
# ダブルトロイック符号

Double-toric code ( http://arxiv.org/abs/2211.12695v1 )

ライセンス: Link先を確認
Komal Kumari, Garima Rajpoot, Sudhir Ranjan Jain(参考訳) 両面曲面符号は, 翼状タイルを用いて平面テッセルレーションを用いて構成する。 nデータキュービットでは、少なくともn/3論理キュービットや量子メモリをエンコードすることができます。 タイルの適切な配置により、コードはより大きな距離を達成し、重大なエラー訂正能力をもたらす。 本研究では,外部雑音の存在下で得られる論理量子ビットのロバスト性を示す。 ここで提示されるコードの最適性は、効率的なスケーラブルアーキテクチャ設計の道を開くものだと考えています。

We construct a double-toric surface code by exploiting the planar tessellation using a rhombus-shaped tile. With n data qubits, we are able to encode at least n/3 logical qubits or quantum memories. By a suitable arrangement of the tiles, the code achieves larger distances, leading to significant error-correcting capability. We demonstrate the robustness of the logical qubits thus obtained in the presence of external noise. We believe that the optimality of the code presented here will pave the way for design of efficient scalable architectures.
翻訳日:2023-01-19 01:39:37 公開日:2022-11-23
# アト秒4波混合分光における非共鳴コヒーレント振幅移動

Non-resonant Coherent Amplitude Transfer in Attosecond Four-Wave Mixing Spectroscopy ( http://arxiv.org/abs/2211.12694v1 )

ライセンス: Link先を確認
James D. Gaynor, Ashley P. Fidler, Yuki Kobayashi, Yen-Cheng Lin, Clare L. Keenan, Daniel M. Neumark, Stephen R. Leone(参考訳) XUVパルスと2つの非線形近赤外パルスを用いたアト秒4波長混合分光法を用いて、原子アルゴン中の3s電子の極端紫外線励起によるライドバーグ波束のダイナミクスを29eV前後の自己イオン化3s-1npリドバーグ状態に測定した。 個々のrydberg状態からの放出信号は振動構造を示し、rydberg状態の期待寿命を超えて持続する。 これらの結果は、個々の検出された状態の4つの波混合放出信号に対する長寿命のライドバーグ状態の実質的な寄与を反映している。 ウェーブパケット分解解析により、光励起された3s-1(n+1)p状態から観測された3s-1np Rydberg状態へのコヒーレント振幅転移が主に起こることが明らかになった。 実験は電子構造と遷移モーメント計算を用いて時間依存シュリンガー方程式シミュレーションにより再現される。 この理論は、コヒーレント振幅移動は4波混合過程において3s-1(n+1)および3s-1(n-1)dダーク状態を介して近赤外光によって3s-1np状態に非共鳴的に駆動されることを強調している。

Attosecond four-wave mixing spectroscopy using an XUV pulse and two noncollinear near-infrared pulses is employed to measure Rydberg wavepacket dynamics resulting from extreme ultraviolet excitation of a 3s electron in atomic argon into a series of autoionizing 3s-1np Rydberg states around 29 eV. The emitted signals from individual Rydberg states exhibit oscillatory structure and persist well beyond the expected lifetimes of the emitting Rydberg states. These results reflect substantial contributions of longer-lived Rydberg states to the four wave mixing emission signals of each individually detected state. A wavepacket decomposition analysis reveals that coherent amplitude transfer occurs predominantly from photoexcited 3s-1(n+1)p states to the observed 3s-1np Rydberg states. The experimental observations are reproduced by time-dependent Schr\"odinger equation simulations using electronic structure and transition moment calculations. The theory highlights that coherent amplitude transfer is driven non-resonantly to the 3s-1np states by the near-infrared light through 3s-1(n+1)s and 3s-1(n-1)d dark states during the four-wave mixing process.
翻訳日:2023-01-19 01:39:25 公開日:2022-11-23
# 非マルコフ確率性による高密度符号化の優越性

Superiority in dense coding through non-Markovian stochasticity ( http://arxiv.org/abs/2211.13057v1 )

ライセンス: Link先を確認
Abhishek Muhuri, Rivu Gupta, Srijon Ghosh, Aditi Sen De(参考訳) 我々は,マルチ送信機と1つまたは2つの受信機を非マルコフ雑音の影響下で有する分散密度符号化(DC)プロトコルについて検討し,送信機から受信機へ送信される符号化量子ビットに作用する。 非マルコフ性がdcに与える影響をデファスメントチャネルとデポーラライズチャネルの両方について比較する。 脱分極チャネルの場合,非マルコフ強度の高い状態においては,ノイズの非分極化に対して観測されないノイズチャネルの負の影響を根絶できることを示す。 さらに, パウリ行列をランダムなユニタリに置き換えることで, 雑音モデルにランダム性を組み込んで, 待ち行列の平均密度符号化能力に対する確率的雑音モデルの構成的影響を示す。 興味深いことに,dcプロトコルにおける非マルコフ非分極チャネルの悪影響は,チャネルにランダム性を加えると排除できる。

We investigate the distributed dense coding (DC) protocol, involving multiple senders and a single or two receivers under the influence of non-Markovian noise, acting on the encoded qubits transmitted from senders to the receiver(s). We compare the effects of non-Markovianity on DC both for the dephasing and depolarising channels. In the case of dephasing channels, we illustrate that for some classes of states, high non-Markovian strength can eradicate the negative influence of noisy channels which is not observed for depolarizing noise. Furthermore, we incorporate randomness into the noise models by replacing the Pauli matrices with random unitaries and demonstrate the constructive impact of stochastic noise models on the quenched averaged dense coding capacity. Interestingly, we report that the detrimental effect of non-Markovian depolarising channels in the DC protocol can be eliminated when randomness is added to the channel.
翻訳日:2023-01-19 01:32:43 公開日:2022-11-23
# 近似複素振幅符号化アルゴリズムと金融業務における分類問題への応用

Approximate complex amplitude encoding algorithm and its application to classification problem in financial operations ( http://arxiv.org/abs/2211.13039v1 )

ライセンス: Link先を確認
Naoki Mitsuda, Kohei Nakaji, Yohichi Suzuki, Tomoki Tanaka, Rudy Raymond, Hiroyuki Tezuka, Tamiya Onodera, Naoki Yamamoto(参考訳) 量子コンピューティングは、特に機械学習において、量子干渉のような特別な特徴を利用して、データ処理効率を加速する可能性がある。 この応用の大きな課題は、一般に古典的なデータベクトルを量子状態にロードするタスクは指数的な数の量子ゲートを必要とすることである。 近似振幅符号化(aae)法は、与えられた実値データベクトルを量子状態の振幅に大まかにロードするために変分法を用いており、近距離デバイスを中心にこの問題に対する一般的なアプローチとして最近提案されている。 しかし、AEは複雑な値を持つデータベクトルをロードすることはできない。 本研究では, AAEを拡張して, 複素数値データベクトルを扱えるようにする。 鍵となる考え方は、古典的なシャドウ手法を用いてその忠実度を効率的に推定するパラメータ化量子回路を最適化するコスト関数として、忠実度距離を用いることである。 このアルゴリズムを,コンパクト・アダマール分類器と呼ばれる複素値・カーネルバイナリ分類器に応用し,アイリスデータセットの分類とクレジットカード不正検出を可能にする数値実験を行った。

Quantum computing has a potential to accelerate the data processing efficiency, especially in machine learning, by exploiting special features such as the quantum interference. The major challenge in this application is that, in general, the task of loading a classical data vector into a quantum state requires an exponential number of quantum gates. The approximate amplitude encoding (AAE) method, which uses a variational means to approximately load a given real-valued data vector into the amplitude of quantum state, was recently proposed as a general approach to this problem mainly for near-term devices. However, AAE cannot load a complex-valued data vector, which narrows its application range. In this work, we extend AAE so that it can handle a complex-valued data vector. The key idea is to employ the fidelity distance as the cost function for optimizing a parameterized quantum circuit, where the classical shadow technique is used to efficiently estimate the fidelity. We apply this algorithm to realize the complex-valued-kernel binary classifier called the compact Hadamard classifier, and then give a numerical experiment showing that it enables classification of Iris dataset and credit card fraud detection.
翻訳日:2023-01-19 01:32:28 公開日:2022-11-23
# 量子コンピューティングを用いたマルチフレーバーシュウィンガーモデルの位相構造探索

Exploring the phase structure of the multi-flavor Schwinger model with quantum computing ( http://arxiv.org/abs/2211.13020v1 )

ライセンス: Link先を確認
Lena Funcke, Tobias Hartung, Karl Jansen, Stefan K\"uhn, Marc-Oliver Pleinert, Stephan Schuster, Joachim von Zanthier(参考訳) 本稿では, 化学ポテンシャルの存在下でのマルチフレーバーシュウィンガーモデルの相構造を探索するのに適した変分量子固有解法を提案する。 私たちが設計したパラメトリックアンサッツ回路は、特定のパラメータ状態に存在するモデルの対称性を組み込むことができ、変動パラメータの数を大幅に減らすことができる。 さらに、ansatz回路は、測定ベースと回路ベースの量子ハードウェアの両方に実装することができる。 我々は,我々のアンザッツ回路がモデルの位相構造を捉えることができ,基底状態を忠実に近似できることを示す。 提案手法は,現在の中間規模量子ハードウェアに適しており,既存の量子デバイスで容易に実装可能であることを示す。

We propose a variational quantum eigensolver suitable for exploring the phase structure of the multi-flavor Schwinger model in the presence of a chemical potential. The parametric ansatz circuit we design is capable of incorporating the symmetries of the model, present in certain parameter regimes, which allows for reducing the number of variational parameters substantially. Moreover, the ansatz circuit can be implementated on both measurement-based and circuit-based quantum hardware. We numerically demonstrate that our ansatz circuit is able to capture the phase structure of the model and allows for faithfully approximating the ground state. Our results show that our approach is suitable for current intermediate-scale quantum hardware and can be readily implemented on existing quantum devices.
翻訳日:2023-01-19 01:31:44 公開日:2022-11-23
# 量子光学状態の2つのレプリカを用いた2次コヒーレンススケールの干渉計測

Interferometric measurement of the quadrature coherence scale using two replicas of a quantum optical state ( http://arxiv.org/abs/2211.12992v1 )

ライセンス: Link先を確認
C\'elia Griffet, Matthieu Arnhem, Stephan De Bi\`evre, Nicolas J. Cerf(参考訳) 量子状態 $\hat \rho$ が非古典的(すなわちコヒーレントな状態の混合と相容れない)かどうかを評価することは、量子光学においてユビキタスな問題であるが、多くの非古典的目撃者が $\hat \rho$ において非線形であるため、非自明な実験的問題である。 特に、二次コヒーレンススケールを評価することによって、状態の非古典性を目撃または測定したい場合、これは完全な状態トモグラフィーを必要とする。 ここでは,光子数測定を補足した2つの複製(独立かつ同一のコピー)を含む単純な線形干渉計を用いて,この量に直接アクセスするための実験的にフレンドリーな手順を提案する。 この発見は、ホン・ウー・マンデル効果の拡張として解釈され、量子光学における状態トモグラフィーを回避するためにマルチコピー干渉法が広く適用可能であることを示している。

Assessing whether a quantum state $\hat \rho$ is nonclassical (i.e., incompatible with a mixture of coherent states) is a ubiquitous question in quantum optics, yet a nontrivial experimental task because many nonclassicality witnesses are nonlinear in $\hat \rho$. In particular, if we want to witness or measure the nonclassicality of a state by evaluating its quadrature coherence scale, this a priori requires full state tomography. Here, we provide an experimentally friendly procedure for directly accessing this quantity with a simple linear interferometer involving two replicas (independent and identical copies) of the state $\hat \rho$ supplemented with photon number measurements. This finding, that we interpret as an extension of the Hong-Ou-Mandel effect, illustrates the wide applicability of the multicopy interferometric technique in order to circumvent state tomography in quantum optics.
翻訳日:2023-01-19 01:31:33 公開日:2022-11-23
# ランダムOracleモデルにおける量子古典的トレードオフ

Quantum-Classical Tradeoffs in the Random Oracle Model ( http://arxiv.org/abs/2211.12954v1 )

ライセンス: Link先を確認
Yassine Hamoudi, Qipeng Liu, Makrand Sinha(参考訳) ランダムなオラクルへのブラックボックスアクセスを持つハイブリッドアルゴリズムに対する量子クエリと古典クエリのトレードオフについて検討する。 量子アルゴリズムと古典アルゴリズムの両方のクエリローバウンドを証明するための確立された技法はいくつかあるが、ハイブリッドアルゴリズムにはそのような広く適用可能な技法はなく、多くの基本的な問題に対する最適なトレードオフはまだ未知の$\unicode{x2013}$ 探索問題の最適トレードオフはロスマニスによって最近発表されたが、ランダムなオラクルモデルでは示されていない。 もう一つの根本的な問題である衝突発見では、最適トレードオフは分かっていなかった。 本研究では,このアルゴリズムが獲得した知識を表す量子古典的アルゴリズムの問合せ記録のためのフレームワークを開発する。 このフレームワークの主な特徴は、標準ベースで$\unicode{x2013}$古典的なクエリと、Fourierベースで$\unicode{x2013}$の量子クエリを一貫性のある方法で記録できるようにすることである。 我々はこのフレームワークをハイブリッド圧縮オラクルと呼び、古典的なクエリ記録方法とZhandryの圧縮オラクルフレームワークを自然に補間して量子クエリを記録する。 探索の最適量子古典的トレードオフのより簡単な証明を与え,衝突発見の最適トレードオフを示すことにより,その適用性を示す。

We study tradeoffs between quantum and classical queries for hybrid algorithms that have black-box access to a random oracle. Although there are several established techniques for proving query lower bounds for both quantum and classical algorithms, there is no such widely applicable technique for hybrid algorithms and the optimal tradeoffs for many fundamental problems are still unknown $\unicode{x2013}$ an optimal tradeoff for the search problem was only shown recently by Rosmanis, although not in the random oracle model. For another fundamental problem, collision finding, the optimal tradeoff was not known. In this work, we develop a framework for recording a query transcript for quantum-classical algorithms that represents the knowledge gained by the algorithm. The main feature of this framework is to allow us to record queries in two incompatible bases $\unicode{x2013}$ classical queries in the standard basis and quantum queries in the Fourier basis $\unicode{x2013}$ in a consistent way. We call the framework the hybrid compressed oracle as it naturally interpolates between the classical way of recording queries and the compressed oracle framework of Zhandry for recording quantum queries. We demonstrate its applicability by giving a simpler proof of the optimal quantum-classical tradeoff for search and by showing an optimal tradeoff for collision finding.
翻訳日:2023-01-19 01:31:15 公開日:2022-11-23
# ネットワーク上の2つの直接接続ノード間のセキュア通信のための量子ウォークベースのプロトコル

Quantum walk-based protocol for secure communication between any two directly connected nodes on a network ( http://arxiv.org/abs/2211.12938v1 )

ライセンス: Link先を確認
Prateek Chawla, Adithi Ajith, and C. M. Chandrashekar(参考訳) 暗号資源としての量子絡み合いの利用は、セキュアな通信への従来のアプローチに取って代わった。 量子デバイス間のネットワーク内通信のセキュリティと忠実性は、量子ネットワークのバックボーンである。 この研究は、ネットワーク内のそのペア間で量子通信を可能にするリソースとして使用される量子ネットワークの任意の2つの直結ノード間の絡み合いを生成するアルゴリズムを示す。 このアルゴリズムは、有向離散時間量子ウォークに基づいており、ネットワーク内のプライベートなノード間量子通信チャネルへの道を舗装する。 また,様々なモデルから生成されたランダムネットワーク上でのシミュレーション結果を示す。 実装後、ウォーカーがソースとターゲット以外の全てのノードに存在する確率は無視可能であり、これはランダムグラフ生成モデルとは無関係であることを示す。 これは任意のランダムネットワークトポロジ上でセキュアな通信を実現するための有効な方法である。

The utilization of quantum entanglement as a cryptographic resource has superseded conventional approaches to secure communication. Security and fidelity of intranetwork communication between quantum devices is the backbone of a quantum network. This work presents an algorithm that generates entanglement between any two directly connected nodes of a quantum network to be used as a resource to enable quantum communication across that pair in the network. The algorithm is based on a directed discrete-time quantum walk and paves the way for private inter-node quantum communication channels in the network. We also present the simulation results of this algorithm on random networks generated from various models. We show that after implementation, the probability of the walker being at all nodes other than the source and target is negligible, and this holds independent of the random graph generation model. This constitutes a viable method for the practical realisation of secure communication over any random network topology.
翻訳日:2023-01-19 01:30:51 公開日:2022-11-23
# 反射型スペードアレイによる赤外域のサブ分間量子ゴーストイメージング

Sub-minute Quantum Ghost Imaging in the infrared enabled by a "looking back" SPAD array ( http://arxiv.org/abs/2211.12913v1 )

ライセンス: Link先を確認
Valerio Flavio Gili, Dupish Dupish, Andres Vega, Massimo Gandola, Enrico Manuzzato, Matteo Perenzoni, Leonardo Gasparini, Thomas Pertsch, and Frank Setzpfandt(参考訳) 量子ゴーストイメージング(Quantum Ghost Imaging、QGI)は、自然パラメトリックダウンコンバージョン(SPDC)から生じる光子対相関を利用する興味深いイメージングプロトコルである。 QGIは、単一パス検出がターゲット画像の再構成を許さない2経路関節計測から画像を取得する。 この技術は、ラスタースキャンや、強化されたカメラの低速な電子回路によって、買収のスピードをはるかに制限している。 本稿では,空間分解経路にspadアレイ検出器を活用し,ゴースト画像の取得を1分以内で行える高速qgi実装について報告する。 さらに、非縮退SPDCを用いることで、短波長赤外線カメラ(SWIR)を必要とせずに、赤外線のサンプルを調査できる一方で、より高度なシリコンベースの技術を活用可能な可視領域でも空間検出が可能である。 本研究の成果は,QGI方式の実用化に向けての最先端の進展である。

Quantum Ghost Imaging (QGI) is an intriguing imaging protocol that exploits photon-pair correlations stemming from spontaneous parametric down-conversion (SPDC). QGI retrieves images from two-path joint measurements, where single-path detection does not allow to reconstruct the target image. This technique, has been so far limited in terms of acquisition speed either by raster scanning, or by the slow electronics of intensified cameras. Here we report on a fast QGI implementation exploiting a SPAD array detector for the spatially resolving path, enabling the acquisition of a ghost image in under one minute. Moreover, the employment of non-degenerate SPDC allows to investigate samples at infrared wavelengths without the need for short-wave infrared (SWIR) cameras, while the spatial detection can be still performed in the visible region, where the more advanced silicon-based technology can be exploited. Our findings advance the state-of-the-art of QGI schemes towards practical applications.
翻訳日:2023-01-19 01:30:38 公開日:2022-11-23
# 量子近似最適化アルゴリズムによる鉄鎖の可能なスピン構成の探索

Searching for Possible Spin Configurations of Ferrum Chain via Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2211.12903v1 )

ライセンス: Link先を確認
Saba Arife Bozpolat(参考訳) 交換相互作用によって相互作用する鉄原子からなる鎖の期待スピン構成を計算することは、基本的に構成最適化の問題である。 量子近似最適化アルゴリズムは、量子デバイス上でそのようなシステムを構成するのに適した候補である。 本研究では3つの異なる長さの鉄鎖について検討し、量子近似最適化アルゴリズムを用いて最も確率の高いスピン構成を計算した。 我々は量子フィードフォワードニューラルネットワークを用いて量子近似最適化アルゴリズムの最適化を行った。 我々は最も長い鉄鎖のスピン配置を得ることに成功した。

Calculating the expected spin configuration of the chain consisting of Ferrum atoms interacting with each other through exchange interaction is fundamentally a configuration optimization problem. Quantum Approximate Optimization Algorithm is a suitable candidate to configure such systems on a quantum device. In this work we have considered Ferrum chains of three different lengths and calculated their most-probable spin configurations using Quantum Approximate Optimization Algorithm. We employed a Quantum Feed Forward Neural Network as the optimizer of Quantum Approximate Optimization Algorithm. We have successfully obtained the expected spin configuration for the longest Ferrum Chain.
翻訳日:2023-01-19 01:30:21 公開日:2022-11-23
# ランダム回路サンプリングを用いた量子アドバンテージのレース

Race for Quantum Advantage using Random Circuit Sampling ( http://arxiv.org/abs/2211.13267v1 )

ライセンス: Link先を確認
Sangchul Oh, Sabre Kais(参考訳) ランダムなユニタリ演算子からビット文字列をサンプリングするタスクであるランダム回路サンプリングは、53キュービットのsycamore量子プロセッサと56キュービットと61キュービットのzuchongzhi量子プロセッサで量子アドバンテージを示すために行われた。 近年、テンソルネットワークシミュレーションを用いた古典的コンピュータは、ランダム回路サンプリングのために現在のノイズ量子プロセッサをキャッチできると主張している。 線形クロスエントロピーベンチマークの忠実度はこれらの主張の全てを証明するために使われるが、出力の詳細な統計的性質を捉えることはできない。 そこで,Panらによるテンソルネットワークシミュレーションを用いて,従来のコンピュータからサンプリングしたビット列を比較した。 [Phys. Rev. Lett. 129, 090502 (2022)], and by Kalachev et al. [arxiv:2112.15083 (2021)]およびsycamoreおよびzuchongzhi量子プロセッサから。 すべてのカラチェフらのサンプルがNIST乱数テストに合格していることが示されている。 ビット弦の熱マップから、Pan et al. と Kalachev et al. のサンプルは、Sycamore や Zuzhongzhi のサンプルとは全く異なることが分かる。 マルテンコ・パストゥル分布とワッセルテイン距離による解析により、カラチェフらのサンプルはパンらよりも統計的にシカモアのサンプルに近づき、3つのデータセットは線形交叉エントロピーの忠実度に類似した値を持つことが示された。 我々の発見は、ランダム回路サンプリングの量子優位性の主張を証明または破るためにさらなる研究が必要であることを示唆している。

Random circuit sampling, the task to sample bit strings from a random unitary operator, has been performed to demonstrate quantum advantage on the Sycamore quantum processor with 53 qubits and on the Zuchongzhi quantum processor with 56 and 61 qubits. Recently, it has been claimed that classical computers using tensor network simulation could catch on current noisy quantum processors for random circuit sampling. While the linear cross entropy benchmark fidelity is used to certify all these claims, it may not capture in detail statistical properties of outputs. Here, we compare the bit strings sampled from classical computers using tensor network simulation by Pan et al. [Phys. Rev. Lett. 129, 090502 (2022)] and by Kalachev et al. [arXiv:2112.15083 (2021)] and from the Sycamore and Zuchongzhi quantum processors. It is shown that all Kalachev et al.'s samples pass the NIST random number tests. The heat maps of bit strings show that Pan et al.'s and Kalachev et al.'s samples are quite different from the Sycamore or Zuzhongzhi samples. The analysis with the Marchenko-Pastur distribution and the Wasssertein distances demonstrates that Kalachev et al.'s samples are statistically close to the Sycamore samples than Pan et al.'s while the three datasets have similar values of the linear cross entropy fidelity. Our finding implies that further study is needed to certify or beat the claims of quantum advantage for random circuit sampling.
翻訳日:2023-01-19 01:24:41 公開日:2022-11-23
# 量子ラビモデルにおける非有界強束の同定と回転波近似の分解

Identifying unbound strong bunching and the breakdown of the Rotating Wave Approximation in the quantum Rabi model ( http://arxiv.org/abs/2211.13249v1 )

ライセンス: Link先を確認
\'Alvaro Nodar, Ruben Esteban, Unai Muniain, Michael J. Steel, Javier Aizpurua, and Miko{\l}aj K. Schmidt(参考訳) 光空洞に結合した非コヒーレント駆動の2レベル系の問題を、最近導出されたゲージ不変な定式化を用いて、異なるカップリングレジーム、特に弱いものと超強結合レジームの間の遷移を探求する。 我々は、放射光の2次強度相関である$g^{(2)}(\tau)$を用いてこの遷移を探索し、ラビハミルトニアンによって支配される系から放出される強い非有界な束を求める。 驚くべきことに、この効果は超強結合状態だけでなく、一般的に弱い結合として認識される結合状態においても観察され、jaynes-cummings hamiltonianは反対の強い反束放出を予測する。 これは、強度相関はjaynes-cummingsとrabi hamiltonianの間の発散の特に敏感なプローブであり、回転波近似の崩壊の指標であることを示唆している。

We use a recently derived gauge-invariant formulation of the problem of an incoherently-driven two-level system coupled to an optical cavity, to explore the transition between different coupling regimes -- in particular, between the weak, and the ultra-strong coupling regimes. We explore this transition using the second-order intensity correlation $g^{(2)}(\tau)$ of the emitted light, and find strong, unbounded bunching of the emission from systems governed by the Rabi Hamiltonian. Surprisingly, this effect is observed not only in the ultra-strong coupling regime, but also in the regime of coupling typically recognized as weak coupling, where the Jaynes-Cummings Hamiltonian predicts the opposite, strongly antibunched emission. This suggests that the intensity correlations are a particularly sensitive probe of the divergence between the Jaynes-Cummings and Rabi Hamiltonians, and can serve as an indicator of the breakdown of the rotating wave approximation.
翻訳日:2023-01-19 01:24:11 公開日:2022-11-23
# 幾何空間曲線を用いた複数音源にロバストな動的補正ゲートの設計

Designing dynamically corrected gates robust to multiple noise sources using geometric space curves ( http://arxiv.org/abs/2211.13248v1 )

ライセンス: Link先を確認
Hunter T. Nelson, Evangelos Piliouras, Kyle Connelly, Edwin Barnes(参考訳) ノイズによるゲートエラーは、幅広い量子情報技術を実現するための主要な障害の1つである。 この課題を克服するには、注意深く設計された制御スキームを用いた動的エラー抑制が不可欠である。 このようなスキームは、誤り訂正しきい値に達するために、複数のノイズソースに対して同時にキュービットをアライスすることができる必要がある。 本稿では,フィールド内の雑音と横方向の雑音を同時に抑制する制御場を設計するための一般的な枠組みを提案する。 強固な量子進化を多次元ユークリッド空間内の閉幾何曲線にマッピングした最近開発された空間曲線量子制御形式を用いることで、両方のタイプのノイズが先行する順序にキャンセルされることを保証する必要十分条件を導出する。 本稿では,これらの条件の解法をいくつか提示し,エラー耐性制御フィールドの例を示す。 また,ホロノミック進化と制御場誤差の抑制との関係についても考察した。

Noise-induced gate errors remain one of the main obstacles to realizing a broad range of quantum information technologies. Dynamical error suppression using carefully designed control schemes is critical for overcoming this challenge. Such schemes must be able to correct against multiple noise sources simultaneously afflicting a qubit in order to reach error correction thresholds. Here, we present a general framework for designing control fields that simultaneous suppress both noise in the fields themselves as well as transverse dephasing noise. Using the recently developed Space Curve Quantum Control formalism, in which robust quantum evolution is mapped to closed geometric curves in a multidimensional Euclidean space, we derive necessary and sufficient conditions that guarantee the cancellation of both types of noise to leading order. We present several techniques for solving these conditions and provide explicit examples of error-resistant control fields. Our work also sheds light on the relation between holonomic evolution and the suppression of control field errors.
翻訳日:2023-01-19 01:23:51 公開日:2022-11-23
# 量子エミッタからのquditフォトニックグラフ状態の決定論的生成

Deterministic generation of qudit photonic graph states from quantum emitters ( http://arxiv.org/abs/2211.13242v1 )

ライセンス: Link先を確認
Zahra Raissi, Edwin Barnes, Sophia E. Economou(参考訳) 量子エミッタからquditフォトニックグラフを生成する決定論的プロトコルを提案し,解析する。 量子誤り訂正符号の絶対最大絡み合った状態と論理状態を生成するプロトコルを構築することで、我々のアプローチを実証する。 これらのプロトコルのいくつかは遅延したフィードバックを利用するが、他のプロトコルは利用しない。 これらの結果は、量子エミッタから決定論的に生成できる多光子絡み合い状態の範囲を大きく広げる。

We propose and analyze deterministic protocols to generate qudit photonic graph states from quantum emitters. We exemplify our approach by constructing protocols to generate absolutely maximally entangled states and logical states of quantum error correcting codes. Some of these protocols make use of time-delayed feedback, while others do not. These results significantly broaden the range of multi-photon entangled states that can be produced deterministically from quantum emitters.
翻訳日:2023-01-19 01:23:37 公開日:2022-11-23
# 自発的対称性の破れを伴う2次元量子秩序における位相欠陥とテクスチャの理論

Theory of topological defects and textures in two-dimensional quantum orders with spontaneous symmetry breaking ( http://arxiv.org/abs/2211.13207v1 )

ライセンス: Link先を確認
Yan-Qi Wang, Chunxiao Liu and Yuan-Ming Lu(参考訳) 2次元(2次元)の量子多体系において、スペクトル内のギャップのない励起は自発的に破断された連続対称性のゴールドストーンモードのみである。 局所的順序パラメータの古典的長距離次数と基底状態における長距離エンタングルメントの量子次数との相互作用を理解するために,そのような系の位相的点欠陥と秩序パラメータのテクスチャについて検討する。 点欠陥とテクスチャの普遍的性質は、非揺動次数パラメータを持つ対称性破れ基底状態における残差対称性の豊富な位相秩序によって決定され、その特性をインフレーション制限正確な列に基づいて分類する。 理論フレームワークで明らかになったいくつかの現象を強調します。 まず、本質的な位相順序が存在しない場合、点欠陥とテクスチャの対称性と、分解された量子臨界性との関係を示す。 第二に、対称性を破る基底状態が固有の位相順序を持つとき、点欠陥がブレイドするときに異なるエノンを透過できることが示される。 また、複数の渦がアーベル・アノンに融合できるという意味では射影的融合規則に従うこともでき、これは「分数化を定義」する現象である。 最後に、アーベル位相順にテクスチャ(スキーム)によって運ばれる分数統計量と分数量子数を計算する公式を提供する。

We consider two-dimensional (2d) quantum many-body systems with long-range orders, where the only gapless excitations in the spectrum are Goldstone modes of spontaneously broken continuous symmetries. To understand the interplay between classical long-range order of local order parameters and quantum order of long-range entanglement in the ground states, we study the topological point defects and textures of order parameters in such systems. We show that the universal properties of point defects and textures are determined by the remnant symmetry enriched topological order in the symmetry-breaking ground states with a non-fluctuating order parameter, and provide a classification for their properties based on the inflation-restriction exact sequence. We highlight a few phenomena revealed by our theory framework. First, in the absence of intrinsic topological orders, we show a connection between the symmetry properties of point defects and textures to deconfined quantum criticality. Second, when the symmetry-breaking ground state have intrinsic topological orders, we show that the point defects can permute different anyons when braided around. They can also obey projective fusion rules in the sense that multiple vortices can fuse into an Abelian anyon, a phenomena for which we coin "defect fractionalization". Finally, we provide a formula to compute the fractional statistics and fractional quantum numbers carried by textures (skyrmions) in Abelian topological orders.
翻訳日:2023-01-19 01:23:29 公開日:2022-11-23
# 位相空間におけるアハラノフ・ボーム効果

Aharonov-Bohm effect in phase space ( http://arxiv.org/abs/2211.13199v1 )

ライセンス: Link先を確認
Jose A. R. Cembranos, David Garc\'ia-L\'opez and Zoe G. del Toro(参考訳) アハルノフ・ボーム効果(英: aharonov-bohm effect)は、上記の粒子に到達できない領域内に位置する電磁界を囲む荷電粒子の波動関数における測定可能な位相シフトによって特徴づけられる真の量子効果である。 しかし、位相空間の記述の大部分は準確率分布に基づいているため、この定義は不可能である。 この研究において、量子力学の2つの異なる形式論の中で初めてアハラノフ・ボーム効果を特徴づける。 その1つは、標準可換関係とワイル変換に依存する位相空間形式論である。 この枠組みでは、準確率ウィグナー関数を用いて量子系の一貫した記述を得ることが目的である。 もう1つはセガル・バルグマン形式論であり、我々は生成と消滅作用素の可換関係によって量子力学を数学的に記述し、接続する。 どちらの形式も導入した後、アハルノフ-ボーム効果は非零電位で決定されるものと非零磁気ベクトルポテンシャルで決定されるものという2つの特定の場合について研究する。 最後に、この2つのケースを包含するアハロノフ・ボーム効果のより一般的な記述と、構成空間における通常の量子力学の形式論におけるこの効果のよく知られた記述と等価であることを示す。

The Aharonov-Bohm effect is a genuine quantum effect typically characterized by a measurable phase shift in the wave function for a charged particle that encircles an electromagnetic field located in a region inaccessible to the mentioned particle. However, this definition is not possible in the majority of the phase-space descriptions since they are based on quasiprobability distributions. In this work, we characterize for the first time the Aharonov-Bohm effect within two different formalisms of quantum mechanics. One of them is the phase-space formalism relying in the canonical commutation relations and Weyl transform. In this framework, the aim is to obtain a consistent description of the quantum system by means of the quasiprobability Wigner function. The other one is the Segal-Bargmann formalism, which we mathematically describe and connect with quantum mechanics by means of the commutation relations of the creation and annihilation operators. After an introduction of both formalisms, we study the Aharonov-Bohm effect within them for two specific cases: One determined by a non-zero electric potential, and another determined by a non-zero magnetic vector potential. Finally, we obtain a more general description of the Aharonov-Bohm effect that encompasses the two previous cases and that we prove to be equivalent to the well-known description of this effect in the usual quantum mechanics formalism in configuration space.
翻訳日:2023-01-19 01:23:05 公開日:2022-11-23
# 単一量子ビット量子ニューラルネットワークによる不正検出

Fraud detection with a single-qubit quantum neural network ( http://arxiv.org/abs/2211.13191v1 )

ライセンス: Link先を確認
Elena Pe\~na Tapia, Giannicola Scarpa, Alejandro Pozas-Kerstjens(参考訳) 本稿では,実世界の明示的な例を通して,量子機械学習の分野について紹介する。 データ再アップロード技術を用いて,単一キュービットで学習する事例に注目した。 量子コンピューティングと機械学習における関連する背景と、QMLにおける技術手法の現状について概説した後、我々は考慮すべきデータ再ロードモデルについて詳しく説明し、qiskit量子コンピューティングSDKを使用して、おもちゃと実世界のデータセットで提案された異なる定式化を実装した。 興味深いことに、シングルキュービットの分類器は、同じ訓練条件下での古典的な分類器と同等の性能を達成できる。 これは量子機械学習の利点の証明として理解できないが、有望な研究の方向性を示し、我々が概説した一連の疑問を提起している。

This paper presents, via an explicit real-world example, a hands-on introduction to the field of quantum machine learning. We focus on the case of learning with a single qubit, using data re-uploading techniques. After a discussion of the relevant background in quantum computing and machine learning, and an overview of state of the art methods in QML, we provide a thorough explanation of the data re-uploading models that we consider, and implement the different proposed formulations in toy and real-world datasets using the qiskit quantum computing SDK. Interestingly, the results show that single-qubit classifiers can achieve a performance that is on-par with classical counterparts under the same set of training conditions. While this cannot be understood as a proof of the advantage of quantum machine learning, it points to a promising research direction, and raises a series of questions that we outline.
翻訳日:2023-01-19 01:22:41 公開日:2022-11-23
# 2準位原子とスクイーズ光との反ジェインズ・カミングス相互作用:ジェインズ・カミングス相互作用との比較

Anti-Jaynes-Cummings interaction of a two-level atom with squeezed light: A comparison with the Jaynes-Cummings interaction ( http://arxiv.org/abs/2211.13149v1 )

ライセンス: Link先を確認
Christopher Mayero and Joseph Akeyo Omolo(参考訳) 我々は、初期基底状態における2レベル原子の抗Jaynes-Cummings (AJC) 相互作用について、初期圧縮コヒーレント状態におけるフィールドモードと相互作用する反Jaynes-Cummings (AJC) 相互作用を検討した。 フォン・ノイマンのエントロピーによって測定された連接度(dem)とマンデルqパラメータによって定量化された場の性質を、ajc相互作用中の原子集団反転と対応するjc相互作用との関係で解析した。 r>1.4の例では、光子統計はAJC、JC相互作用の間、サブポアソニアンから超ポアソニアンへと進化した。 さらに、rの高い値の場合、原子集団反転の時間発展の形式は、初期コヒーレント状態と比較して、崩壊領域におけるリンギングの再生が強化されたことを示している。 さらに、r のより高い値において、dem の時間発展はより速い振動を示し、同時に高い値が記録され、同時に混合度が増加する。

We considered the anti-Jaynes-Cummings (AJC) interaction of a two-level atom in an initial ground state interacting with a field mode in an initial squeezed coherent state at arbitrary values of squeeze parameter r and provided the Jaynes-Cummings (JC) interaction as a comparison. We analysed the degree of entanglement (DEM) measured by the von Neumann entropy and the nature of the field quantified by the Mandel Q parameter in relation to the atomic population inversion during the AJC interaction and separately the corresponding JC interaction. We noted in our examples that at r>1.4, photon statistics evolved to super-Poissonian from sub-Poissonian during the respective AJC, JC interactions. Further, for high values of r, the form of the time evolution of atomic population inversion depicted enhanced ringing revivals at the collapse region in comparison to the case of an initial coherent state. What is more, at higher values of r the time evolution of DEM showed more rapid oscillations and recorded higher values, concurrently, an increase in the degree of mixedness.
翻訳日:2023-01-19 01:22:27 公開日:2022-11-23
# 量子コンピュータを使って現実世界の問題を解決する - 今日達成できるものは何か?

Using a quantum computer to solve a real-world problem -- what can be achieved today? ( http://arxiv.org/abs/2211.13080v1 )

ライセンス: Link先を確認
R.Cumming, T.Thomas(参考訳) 量子コンピューティングは、実際に対処できる科学的、ビジネス的な問題の展望に革命をもたらす可能性を持つ重要な開発技術である。 広範囲にわたる興奮は、フォールトトレラントな量子コンピュータが以前に難解な問題を解く可能性に由来する。 そのようなマシンは、少なくとも2030年までは利用できない。 したがって、我々は現在、よりヒューリスティックな量子アプローチが量子ハードウェアの初期バージョンに適用されているいわゆるNISQの時代にいる。 本稿では,現在のnisq時代の量子コンピューティングの多くの技術的側面を,qaoaとvqeという2つの主要なハイブリッド古典量子アルゴリズムと量子アニーリングを探求する上で,より分かりやすく説明することを目的とする。 これらの手法を,施設配置問題の形で組合せ最適化の例に適用する。 調査手法には、QAOAにおける様々な種類のミキサー(X、XY、新しい3XYミキサー)の適用、重要なメタパラメータに対する多くの設定の影響などが含まれており、研究論文では注目されていないことが多い。 同様に、量子アニーリングの文脈で代替パラメータの設定を探索する。 我々の研究は、量子ゲートハードウェアが、商業的に価値のあるレベルでそのような問題に対処するために、現在利用可能な規模と忠実性において、はるかに高い能力を持つ必要があるという広いコンセンサスを裏付けている。 量子アニールは量子的優位性に近づきつつあるが、古典的な解が準最適である最適化問題に対処するためには、スケールと接続性の大幅な向上を達成する必要がある。

Quantum computing is an important developing technology with the potential to revolutionise the landscape of scientific and business problems that can be practically addressed. The widespread excitement derives from the potential for a fault tolerant quantum computer to solve previously intractable problems. Such a machine is not expected to be available until 2030 at least. Thus we are currently in the so-called NISQ era where more heuristic quantum approaches are being applied to early versions of quantum hardware. In this paper we seek to provide a more accessible explanation of many of the more technical aspects of quantum computing in the current NISQ era exploring the 2 main hybrid classical-quantum algorithms, QAOA and VQE, as well as quantum annealing. We apply these methods, to an example of combinatorial optimisation in the form of a facilities location problem. Methods explored include the applications of different types of mixer (X, XY and a novel 3XY mixer) within QAOA as well as the effects of many settings for important meta parameters, which are often not focused on in research papers. Similarly, we explore alternative parameter settings in the context of quantum annealing. Our research confirms the broad consensus that quantum gate hardware will need to be much more capable than is available currently in terms of scale and fidelity to be able to address such problems at a commercially valuable level. Quantum annealing is closer to offering quantum advantage but will also need to achieve a significant step up in scale and connectivity to address optimisation problems where classical solutions are sub-optimal.
翻訳日:2023-01-19 01:22:04 公開日:2022-11-23
# 電磁空洞とのカップリングによる一次元電子局在の変化

Modification of one-dimensional electron localization induced by coupling to an electromagnetic cavity ( http://arxiv.org/abs/2211.13075v1 )

ライセンス: Link先を確認
Dmitry Svintsov, Georgy Alymov, Luis Martin-Moreno(参考訳) 理論上は、ゼロ点電磁ゆらぎが一次元局在状態における固体の電気伝導度に強く影響を与えることが示されている。 単一モードキャビティにおける強結合鎖のモデル例では,(1)仮想光子放射による電子/ホール輸送,共鳴レベルに沿っての移動,(2)光子再吸収,(2)電磁揺らぎによる電位緩和の揺らぎは,電子によって有効帯域狭めとみられ,(3)ポーラロン型質量増強である。 導電性増強につながる最初の過程は、キャビティ光子エネルギーに匹敵する温度でのみ可能である。 最後の2つのプロセスは伝導を抑制し、任意の温度で可能である。 1次元導電率の指数関数的スケールと長さのため、予測した効果は現実的な光マッター結合強度で観測できる。

We theoretically show that zero-point electromagnetic fluctuations can strongly impact solids' electrical conductivity in the one-dimensional localization regime. On a model example of a tight-binding chain in a single-mode cavity, we reveal the physical processes responsible for the modification of the localization length: (1) electron/hole transport mediated by virtual photon emission, traversing along resonant levels, and photon re-absorption (2) shaking of potential relief via electromagnetic fluctuations seem by the electron as effective band narrowing and (3) polaron-type mass enhancement. The first process, leading to conduction enhancement, is possible only at temperatures comparable with cavity photon energy. The last two processes suppress the conduction and are possible at arbitrary temperatures. Due to the exponential scaling of 1d conductivity with length, the predicted effects are observable at realistic light-matter coupling strength.
翻訳日:2023-01-19 01:21:35 公開日:2022-11-23
# パワースペクトルに基づく1次エピソード精神病の脳波分類

Power Spectral Density-Based Resting-State EEG Classification of First-Episode Psychosis ( http://arxiv.org/abs/2301.01588v1 )

ライセンス: Link先を確認
Sadi Md. Redwan, Md Palash Uddin, Anwaar Ulhaq, and Muhammad Imran Sharif(参考訳) 歴史的に、刺激依存性の時間周波数パターンの分析は、ほとんどの脳波研究の基盤となっている。 知覚・認知課題中の精神病性障害に関連する高周波波の異常振動は何度も研究されている。 しかし、安静状態の低周波帯における顕著な相違点はまだ確立されていない。 アルファ波とデルタ波のスペクトル分析は、脳の異常活動パターンの同定における刺激非依存性脳波の有効性を示す。 複数の周波数帯域を組み込んだ一般化モデルは、脳波バイオマーカーとFEP(First-Episode Psychosis)を関連付ける上でより効率的であり、正確な診断につながる。 本研究では, ランダムフォレスト, サポートベクターマシン, ガウス過程分類器 (gpc) を含む複数の機械学習手法を検討し, fep患者と正常なコントロールを区別するための安静状態パワースペクトル密度 (psd) の実用性を示す。 本稿では,PSD解析における前処理手法の総合的な考察と,異なるモデルの詳細な比較について述べる。 GPCモデルは95.78%の特異性で他のモデルよりも優れており、精神疾患の安静時脳波信号を分析・分類するための効果的な特徴抽出技術としてPSDが使用できることを示している。

Historically, the analysis of stimulus-dependent time-frequency patterns has been the cornerstone of most electroencephalography (EEG) studies. The abnormal oscillations in high-frequency waves associated with psychotic disorders during sensory and cognitive tasks have been studied many times. However, any significant dissimilarity in the resting-state low-frequency bands is yet to be established. Spectral analysis of the alpha and delta band waves shows the effectiveness of stimulus-independent EEG in identifying the abnormal activity patterns of pathological brains. A generalized model incorporating multiple frequency bands should be more efficient in associating potential EEG biomarkers with First-Episode Psychosis (FEP), leading to an accurate diagnosis. We explore multiple machine-learning methods, including random-forest, support vector machine, and Gaussian Process Classifier (GPC), to demonstrate the practicality of resting-state Power Spectral Density (PSD) to distinguish patients of FEP from healthy controls. A comprehensive discussion of our preprocessing methods for PSD analysis and a detailed comparison of different models are included in this paper. The GPC model outperforms the other models with a specificity of 95.78% to show that PSD can be used as an effective feature extraction technique for analyzing and classifying resting-state EEG signals of psychiatric disorders.
翻訳日:2023-01-19 01:15:10 公開日:2022-11-23
# regtraffic:時空間トラヒックモデリング,シミュレーション,可視化のための回帰型トラヒックシミュレータ

RegTraffic: A Regression Based Traffic Simulator for Spatiotemporal Traffic Modeling, Simulation and Visualization ( http://arxiv.org/abs/2301.01245v1 )

ライセンス: Link先を確認
Sifatul Mostafi, Taghreed Alghamdi, Khalid Elgazzar(参考訳) 交通シミュレーションは,道路交通網の計画,開発,管理に極めて有用な複雑な交通構造を示すための優れたツールである。 現在の交通シミュレータは、インタラクティブで適応的な交通モデリングに関して限定的な機能を提供する。 本稿では、動的回帰に基づく時空間トラフィック解析を統合して、相互関連道路セグメントの混雑を予測する対話型交通シミュレータRegTrafficを提案する。 シミュレータは隣接する道路リンクや動的交通の流れの時間的特徴に応じて道路セグメントの交通渋滞をモデル化する。 シミュレータは、興味のある道路セグメントを選択し、ユーザ定義のトラフィックパラメータを受信し、ユーザ入力とこれらの道路リンクの基盤となる相関に基づいて、関連道路リンクの流れのトラフィックを可視化するユーザフレンドリーなWebインターフェースを提供する。 性能評価の結果、RegTrafficは1.3Km/hの平均二乗誤差と1.71Km/hのルート平均二乗誤差で交通渋滞を効果的に予測できることがわかった。 RegTrafficは結果を効果的にシミュレートし、インタラクティブな地理地図上で視覚化する。

Traffic simulation is a great tool to demonstrate complex traffic structures which can be extremely useful for the planning, development, and management of road traffic networks. Current traffic simulators offer limited features when it comes to interactive and adaptive traffic modeling. This paper presents RegTraffic, a novel interactive traffic simulator that integrates dynamic regression-based spatiotemporal traffic analysis to predict congestion of intercorrelated road segments. The simulator models traffic congestion of road segments depending on neighboring road links and temporal features of the dynamic traffic flow. The simulator provides a user-friendly web interface to select road segments of interest, receive user-defined traffic parameters, and visualize the traffic for the flow of correlated road links based on the user inputs and the underlying correlation of these road links. Performance evaluation shows that RegTraffic can effectively predict traffic congestion with a Mean Squared Error of 1.3 Km/h and a Root Mean Squared Error of 1.71 Km/h. RegTraffic can effectively simulate the results and provide visualization on interactive geographical maps.
翻訳日:2023-01-19 01:14:51 公開日:2022-11-23
# 3つの可観測変数を持つ単純な因果構造における非古典性

Witnessing Non-Classicality in a Simple Causal Structure with Three Observable Variables ( http://arxiv.org/abs/2211.13349v1 )

ライセンス: Link先を確認
Pedro Lauand, Davide Poderini, Ranieri Nery, George Moreno, Lucas Pollyceno, Rafael Rabelo and Rafael Chaves(参考訳) 現代の因果推論のレンズから見て、ベルの定理は、特定の古典因果モデルが量子相関を説明できないという証明に他ならない。 したがって、ベルのパラダイム的シナリオを超えて、異なる因果構造を考えるのは自然である。 3つの可観測変数の特定の場合、非自明な因果ネットワークが3つ存在することが知られている。 そのうちの2つは、インストゥルメンタルと三角形のシナリオである量子非古典性をもたらすことが知られている。 ここでは,エンタングルメントスワッピング実験の背後にある因果構造に類似した,エバンスシナリオ(evans scenario)という3番目と残りの1つを分析した。 我々はこの不可解なシナリオについて多くの結果を証明し、より一般的な因果構造にも適用できる新しい効率的な計算ツールを導入する。 量子的非古典的相関がそれから生じるかどうかという主開問題は解決しないが、この方向に重要な一歩を踏み出し、古典的なエヴァンス因果構造の記述によって課される制約に反する。

Seen from the modern lens of causal inference, Bell's theorem is nothing else than the proof that a specific classical causal model cannot explain quantum correlations. It is thus natural to move beyond Bell's paradigmatic scenario and consider different causal structures. For the specific case of three observable variables, it is known that there are three non-trivial causal networks. Two of those, are known to give rise to quantum non-classicality: the instrumental and the triangle scenarios. Here we analyze the third and remaining one, which we name the Evans scenario, akin to the causal structure underlying the entanglement-swapping experiment. We prove a number of results about this elusive scenario and introduce new and efficient computational tools for its analysis that also can be adapted to deal with more general causal structures. We do not solve its main open problem -- whether quantum non-classical correlations can arise from it -- but give a significant step in this direction by proving that post-quantum correlations, analogous to the paradigmatic Popescu-Rohrlich box, do violate the constraints imposed by a classical description of Evans causal structure.
翻訳日:2023-01-19 01:14:19 公開日:2022-11-23
# 電気パルスの量子干渉によるエントロピー抑制

Entropy Suppression through Quantum Interference in Electric Pulses ( http://arxiv.org/abs/2211.13347v1 )

ライセンス: Link先を確認
Gerald V. Dunne, Adrien Florio, Dmitri E. Kharzeev(参考訳) 強い電場におけるシュウィンガー過程は、絡み合った粒子や反粒子を生成する。 粒子と反粒子の間の絡み合いのエントロピーは、生成した系の統計的ギブスエントロピーに等しいことが判明した。 本研究では,電気パルス列における量子干渉の効果を考察し,量子干渉が生成した量子状態の絡み合いエントロピーを抑制することを示した。 これは量子化古典通信に関係している可能性がある。 我々の結果は、幅広い2レベル量子システムに拡張することができる。

The Schwinger process in strong electric fields creates particles and antiparticles that are entangled. The entropy of entanglement between particles and antiparticles has been found to be equal to the statistical Gibbs entropy of the produced system. Here we study the effect of quantum interference in sequences of electric pulses, and show that quantum interference suppresses the entanglement entropy of the created quantum state. This is potentially relevant to quantum-enhanced classical communications. Our results can be extended to a wide variety of two-level quantum systems.
翻訳日:2023-01-19 01:13:52 公開日:2022-11-23
# 絡み合うツインビームの空間相関における情報符号化

Information encoding in the spatial correlations of entangled twin beams ( http://arxiv.org/abs/2211.13330v1 )

ライセンス: Link先を確認
Gaurav Nirala, Siva T. Pradyumna, Ashok Kumar, and Alberto M. Marino(参考訳) 光の量子状態の時間的および空間的自由度を利用して情報を符号化し伝達する能力は、堅牢で効率的な量子ネットワークの実装に不可欠である。 特に、空間的自由度の大きな次元性は、大きな拡張をもたらすことを約束するが、情報のエンコードに必要な空間的自由度に対する制御のレベルとして、そのような約束はほとんど満たされていない。 ここでは,高度に多空間モードに絡み合った明るいツインビームの空間的相関の分布に,情報をエンコードできることを示す。 位相整合によって予測される4波混合に必要なポンプの角スペクトルに対する空間相関の依存性を利用する。 符号化された情報は、ツインビームのモーメント分布と遠方の位置分布とをマッピングし、高量子効率電子乗算電荷結合装置で取得した画像の空間的相互相関を測定することで抽出することができる。 さらに,個々のビーム計測ではエンコード情報はアクセスできず,時間的量子相関は変更されないことを示した。 我々は、空間相関の分布を設計できる能力は、情報をエンコードする新たな自由度となり、それゆえ、高容量量子情報チャネルやネットワークへの経路を提供することを期待している。 さらに、光の量子状態の空間的性質に対する高い制御により、現実の量子化空間分解センシングとイメージングの応用が可能になる。

The ability to use the temporal and spatial degrees of freedom of quantum states of light to encode and transmit information is crucial for the implementation of a robust and efficient quantum network. In particular, the large dimensionality of the spatial degree of freedom promises to provide significant enhancements; however, such promise has largely been unfulfilled as the necessary level of control over the spatial degree of freedom to encode information remains elusive. Here, we show that information can be encoded in the distribution of the spatial correlations of highly multi-spatial mode entangled bright twin beams. We take advantage of the dependence of the spatial correlations on the angular spectrum of the pump required for four-wave mixing, as dictated by phase matching. The encoded information can be extracted by mapping the momenta distribution of the twin beams to a position distribution in the far field and measuring the spatial cross-correlation of images acquired with a high quantum efficiency electron multiplying charge coupled device. We further show that the encoded information cannot be accessed through individual beam measurements and that the temporal quantum correlations are not modified. We anticipate that the ability to engineer the distribution of the spatial correlations will serve as a novel degree of freedom to encode information and hence provide a pathway for high capacity quantum information channels and networks. In addition, a high degree of control over the spatial properties of quantum states of light will enable real-world quantum-enhanced spatially resolved sensing and imaging applications.
翻訳日:2023-01-19 01:13:45 公開日:2022-11-23
# Bell の非ローカル性への反論

Rebuttal to Bell non-locality ( http://arxiv.org/abs/2211.13325v1 )

ライセンス: Link先を確認
Eduarda Fonseca da Nova Cruz, David M\"ockli(参考訳) ベルの定理は、量子力学の非局所的定式化と局所実数論の解釈は耐えられないという主張の宣伝として常用される。 ベルの定理によって許容される解釈の4つのカテゴリを同定する。 多くの局所的・決定論的記述は無視されている。 これら3つのカテゴリについて、量子情報の局所的な流れが可能である解釈の例を示す。 我々は,現在の実験的提案と改良された科学哲学が,解釈を対比し,両者を区別できるかどうかを評価する。

Bell's theorem is habitually used as an advertisement for non-local formulations of quantum mechanics and the statement that local realist interpretations are untenable. We identify four categories of interpretations that are permissible by Bell's theorem. Many local and deterministic descriptions remain seemingly ignored. For three of those categories, we present an example of an interpretation where a local flow of quantum information is possible. We assess whether current experimental proposals and an improved philosophy of science can contrast interpretations and distinguish between them.
翻訳日:2023-01-19 01:13:21 公開日:2022-11-23
# ランダム開量子系における遅い緩和から速い緩和への動的遷移

Dynamical transitions from slow to fast relaxation in random open quantum systems ( http://arxiv.org/abs/2211.13298v1 )

ライセンス: Link先を確認
Dror Orgad, Vadim Oganesyan, Sarang Gopalakrishnan(参考訳) マルコフ雑音を受けるランダム量子系の力学に及ぼす空間的局所性の影響について検討する。 この目的のために、ハミルトニアンとその雑音とのカップリングがランダム行列であり、その成分が距離のパワー法則として崩壊し、それぞれ異なる指数である$\alpha_h, \alpha_l$ を持つモデルについて研究する。 定常状態は常に機能しないが、接近する速度は$\alpha_h$ と $\alpha_l$ によって3つの相を示す: ダイナミクスを生成するリンドブラッドスーパーオペレータのスペクトルのギャップによってアプローチが漸近的に指数関数的になる段階と、そのギャップがシステムサイズで減少する方法によって区別される2つのギャップのない位相である。 摂動理論では、$(\alpha_H, \alpha_L)$平面の位相境界は弱く強い散逸に対して異なり、ノイズ強度の関数としての相転移が示唆される。 熱力学的限界における相転移を防止する非摂動効果を同定する。

We explore the effects of spatial locality on the dynamics of random quantum systems subject to a Markovian noise. To this end, we study a model in which the system Hamiltonian and its couplings to the noise are random matrices whose entries decay as power laws of distance, with distinct exponents $\alpha_H, \alpha_L$. The steady state is always featureless, but the rate at which it is approached exhibits three phases depending on $\alpha_H$ and $\alpha_L$: a phase where the approach is asymptotically exponential as a result of a gap in the spectrum of the Lindblad superoperator that generates the dynamics, and two gapless phases with subexponential relaxation, distinguished by the manner in which the gap decreases with system size. Within perturbation theory, the phase boundaries in the $(\alpha_H, \alpha_L)$ plane differ for weak and strong dissipation, suggesting phase transitions as a function of noise strength. We identify nonperturbative effects that prevent such phase transitions in the thermodynamic limit.
翻訳日:2023-01-19 01:13:14 公開日:2022-11-23
# 二次時間依存量子調和振動子

Quadratic Time-dependent Quantum Harmonic Oscillator ( http://arxiv.org/abs/2211.13281v1 )

ライセンス: Link先を確認
F. E. Onah and E. Garc\'ia Herrera and J. A. Ruelas-Galv\'an and G. Ju\'arez Rangel and E. Real Norzagaray and B. M. Rodr\'iguez-Lara(参考訳) 我々は、パラメータセット(質量、周波数、駆動強度、パラメトリックポンプ)が時間依存であるハミルトン級パラメトリック量子調和振動子を被覆するリー代数的アプローチを提案する。 ユニタリ変換に基づくアプローチは、一般的な二次時間依存量子調和モデルの解を与える。 一例として、回転波近似を使わずに周期的に駆動される量子調和振動子の解析解を示す。 完全性のために、我々はカルディラ-カナイ量子調和振動子の解析解を提供し、適切な参照フレームにおいて、単に時間非依存のパラメトリック量子調和振動子である。

We present a Lie algebraic approach to a Hamiltonian class covering driven, parametric quantum harmonic oscillators where the parameter set -- mass, frequency, driving strength, and parametric pumping -- is time-dependent. Our unitary-transformation-based approach provides a solution to the general quadratic time-dependent quantum harmonic model. As an example, we show an analytic solution to the periodically driven quantum harmonic oscillator without the rotating wave approximation; it works for any given detuning and coupling strength regime. For the sake of completeness, we provide an analytic solution to the historical Caldirola--Kanai quantum harmonic oscillator that, in a suitable reference frame, is just a time-independent parametric quantum harmonic oscillator.
翻訳日:2023-01-19 01:12:43 公開日:2022-11-23
# 非断熱ホロノミック量子計算に基づく効率的で堅牢なカイラル分解

Efficient and robust chiral resolution based on non-adiabatic holonomic quantum computation ( http://arxiv.org/abs/2210.11740v3 )

ライセンス: Link先を確認
Fa Zhao, Teng Liu, Ji Bian, Peng-Fei Lu, Yang Liu, Feng Zhu, Xue-Ke Song, Dong Wang, Liu Ye, and Le Luo(参考訳) キラリティーが異なる分子は異なる性質をもたらす可能性があるが、現在では検出が困難な作業となっている。 本研究では、キラル分子のカップリングの異なる兆候とともに、2つのカップリングを同時に使用する2つのスキームを提案し、異なるキラル分子に対して異なる振る舞いをする非アベリア幾何学的量子ゲートを構築する。 手術後、キラル分子は2つのレベルで100%の人口のコントラストと反応する。 したがって、検出する2つのレベルのいずれかを選択するのは柔軟です。 あるいは、ベストコントラストアシストメソッドを使って、エラーに対する解像度能力を向上させることもできる。 2つのスキームの性能をシミュレートし, adiabaticity (sta) への近道に基づくスキームと比較し, それらのスキームが効率的, 高速, 堅牢であることを示し, 非断熱ホロノミック量子計算 (nhqc) に基づくスキームは sta スキームよりも優れた性能を示し, 非断熱ホロノミック量子計算+ (nhqc+) に基づくスキームは常に sta スキームよりも優れていることを示した。

Molecules with different chiralities may lead to distinct properties while the detection is a laborious task nowadays. In this work, with different signs of the couplings of chiral molecules, we propose two schemes that just employ two couplings at the same time to build a non-adiabatic non-Abelian geometric quantum gate that behaves differently on different chiral molecules. After the operation, chiral molecules react with a 100% contrast of population in both two levels. Hence, we are flexible to choose any one of the two levels to detect. Alternatively, we can improve the resolution ability, against errors, with the best contrast assist method. We simulate the performance of the two schemes and make a comparison with the scheme based on shortcuts to adiabaticity (STA), and the results show all those schemes are efficient, fast and robust, the scheme based on non-adiabatic holonomic quantum computation (NHQC) has a better performance than the STA scheme sometime, and the scheme based on non-adiabatic holonomic quantum computation+ (NHQC+) is superior to the STA scheme all the time.
翻訳日:2023-01-18 19:56:15 公開日:2022-11-23
# 2光子と3光子ライドバーグの感度比較

Sensitivity Comparison of Two-photon vs Three-photon Rydberg Electrometry ( http://arxiv.org/abs/2211.11848v2 )

ライセンス: Link先を確認
Nikunjkumar Prajapati, Narayan Bhusal, Andrew P. Rotunno, Samuel Berweger, Matthew T. Simons, Alexandra B. Artusio-Glimpse, Ying Ju Wang, Eric Bottomley, Haoquan Fan, and Christopher L. Holloway(参考訳) ライドバーグ原子中の3光子eitの周波数検出感度を調べ,従来の2光子系と比較した。 具体的には、4レベルおよび5レベルの原子系をモデル化し、プローブの透過がレーザーの異なるパワーとRF磁場の強度とどのように変化するかを比較する。 本モデルでは,ショットノイズの限定検出に基づく現在の最良の実験実装の動作に最も最も関係のある感度指標を定式化する。 3光子系は従来の2光子EITに比べて線幅が狭いことが判明した。 しかし、これらの狭い線の特徴は最高の感度の領域と一致しない。 これに加えて、2光子rydbergセンサの期待される感度を計算し、現在の測定値5 uv/m/hzよりも最高感度が1桁以上優れていることを発見した。 しかし、実験における追加ノイズ源と光検出器の量子効率を考慮すれば、値の一致は良好である。

We investigate the sensitivity of three-photon EIT in Rydberg atoms to radio frequency detection and compare it against conventional two-photon systems. Specifically, we model the 4-level and 5-level atomic system and compare how the transmission of the probe changes with different powers of the lasers used and strengths of the RF field. In this model, we also define a sensitivity metric to best relate to the operation of the current best experimental implementation based on shot noise limited detection. We find that the three-photon system boasts much narrower line widths compared to the conventional two-photon EIT. However, these narrow line features do not align with the regions of the best sensitivity. In addition to this, we calculate the expected sensitivity for the two-photon Rydberg sensor and find that the best achievable sensitivity is over an order of magnitude better than the current measured values of 5 uV/m/Hz. However, by accounting for the additional noise sources in the experiment and the quantum efficiency of the photo-detectors, the values are in good agreement.
翻訳日:2023-01-17 23:06:31 公開日:2022-11-23
# エッジ更新型グラフニューラルネットワークによる協調ビームフォーミングの学習

Learning Cooperative Beamforming with Edge-Update Empowered Graph Neural Networks ( http://arxiv.org/abs/2212.08020v1 )

ライセンス: Link先を確認
Yunqi Wang, Yang Li, Qingjiang Shi, Yik-Chung Wu(参考訳) 協調ビームフォーミング設計は、様々な無線データトラフィックの劇的に増大する需要を満たすため、現代の無線ネットワークにおいて効果的なアプローチであると認識されている。 従来の手法では最適化問題として定式化され、インスタンスバイインテンスで反復的に解く。 近年,問題インスタンスから対応するソリューションへのマッピング関数の近似により,リアルタイムな実装によって学習ベースの手法が出現している。 様々なニューラルネットワークアーキテクチャのうち、グラフニューラルネットワーク(gnns)は、無線ネットワークのグラフトポロジーを効果的に活用し、未認識の問題サイズの一般化能力を高めることができる。 しかし、現在のGNNはノード更新機構のみを備えており、無線ネットワークのグラフエッジ上にビームフォーマが配置されている協調ビームフォーミング設計のような複雑な問題をモデル化することを制限している。 このギャップを埋めるために,グラフエッジ上での協調ビームフォーミングを学習するエッジ更新機構をgnnに組み込むことにより,エッジグラフニューラルネットワーク(edge-gnn)を提案する。 シミュレーションの結果,edge-gnnは最先端の手法に比べて計算時間を大幅に短縮した高い和率を達成でき,異なる数の基地局やユーザ機器によく一般化できることがわかった。

Cooperative beamforming design has been recognized as an effective approach in modern wireless networks to meet the dramatically increasing demand of various wireless data traffics. It is formulated as an optimization problem in conventional approaches and solved iteratively in an instance-by-instance manner. Recently, learning-based methods have emerged with real-time implementation by approximating the mapping function from the problem instances to the corresponding solutions. Among various neural network architectures, graph neural networks (GNNs) can effectively utilize the graph topology in wireless networks to achieve better generalization ability on unseen problem sizes. However, the current GNNs are only equipped with the node-update mechanism, which restricts it from modeling more complicated problems such as the cooperative beamforming design, where the beamformers are on the graph edges of wireless networks. To fill this gap, we propose an edge-graph-neural-network (Edge-GNN) by incorporating an edge-update mechanism into the GNN, which learns the cooperative beamforming on the graph edges. Simulation results show that the proposed Edge-GNN achieves higher sum rate with much shorter computation time than state-of-the-art approaches, and generalizes well to different numbers of base stations and user equipments.
翻訳日:2022-12-18 18:57:40 公開日:2022-11-23
# 65nm 8b-Activation 8b-Weight SRAM-based Charge-Domain Computing-in-Memory Macro using a Fully-Parallel Analog Adder Network and a Single-ADC Interface

A 65nm 8b-Activation 8b-Weight SRAM-Based Charge-Domain Computing-in-Memory Macro Using A Fully-Parallel Analog Adder Network and A Single-ADC Interface ( http://arxiv.org/abs/2212.04320v1 )

ライセンス: Link先を確認
Guodong Yin, Mufeng Zhou, Yiming Chen, Wenjun Tang, Zekun Yang, Mingyen Lee, Xirui Du, Jinshan Yue, Jiaxin Liu, Huazhong Yang, Yongpan Liu, Xueqing Li(参考訳) von Neumannアーキテクチャでデータ集約的なタスクを実行することは、メモリ壁のボトルネックのため、高性能と電力効率の両方を達成するのが難しい。 computing-in-memory (cim) は、周辺インタフェースとデータパスのサポートにより、メモリ内のmac(multiply-accumulate)の並列操作を可能にすることで、有望な緩和アプローチである。 SRAMベースのチャージドメインCiM(CD-CiM)は電力効率と計算精度を向上する可能性を示している。 しかし、既存のSRAMベースのCD-CiMは、高性能なマルチビット量子化アプリケーションのスループット要件を満たすためのスケーリング課題に直面している。 本稿では,SRAMを用いた高スループットReLU最適化CD-CiMマクロを提案する。 1つのCiMサイクルで2つの符号付き8bベクトルのMACとReLUを1つのA/D変換で完了させることができる。 アナログ計算とA/D変換インタフェースの非線形補正に加えて、51.2GOPSスループットと10.3TOPS/Wエネルギー効率を実現し、CIFAR-10データセットの88.6%の精度を示した。

Performing data-intensive tasks in the von Neumann architecture is challenging to achieve both high performance and power efficiency due to the memory wall bottleneck. Computing-in-memory (CiM) is a promising mitigation approach by enabling parallel in-situ multiply-accumulate (MAC) operations within the memory with support from the peripheral interface and datapath. SRAM-based charge-domain CiM (CD-CiM) has shown its potential of enhanced power efficiency and computing accuracy. However, existing SRAM-based CD-CiM faces scaling challenges to meet the throughput requirement of high-performance multi-bit-quantization applications. This paper presents an SRAM-based high-throughput ReLU-optimized CD-CiM macro. It is capable of completing MAC and ReLU of two signed 8b vectors in one CiM cycle with only one A/D conversion. Along with non-linearity compensation for the analog computing and A/D conversion interfaces, this work achieves 51.2GOPS throughput and 10.3TOPS/W energy efficiency, while showing 88.6% accuracy in the CIFAR-10 dataset.
翻訳日:2022-12-11 13:01:30 公開日:2022-11-23
# 注意欠陥性高活動障害における静止状態機能結合性のネットワーク理論による検討

A Network Theory Investigation into the Altered Resting State Functional Connectivity in Attention-Deficit Hyperactivity Disorder ( http://arxiv.org/abs/2212.02402v1 )

ライセンス: Link先を確認
Sadi Md. Redwan, Md Palash Uddin, Muhammad Imran Sharif, and Anwaar Ulhaq(参考訳) 過去20年間、機能的磁気共鳴イメージング(fMRI)はヒト脳の臨床研究において最も効果的な技術の一つとして現れてきた。 fmriは、研究者が様々な神経心理学機能を実行している間、健康な脳と病的脳を研究できる。 タスク関連の活性化以外にも、人間の脳はタスク陰性(レスティング)状態において本質的な活動を持ち、ニューロン間のコミュニケーションを支援するために驚くほど多くのエネルギーを消費する。 近年の神経画像研究でも、グラフやネットワークの観点から脳活動のモデリングと分析が増加している。 グラフモデルは脳のシステム理論的な説明を促進するため、ネットワーク科学の進歩や複雑なシステム理論の普及と関係がますます高まっている。 本研究の目的は、注意欠陥高活動障害(ADHD)を有する成人の安静時脳機能異常について検討することである。 第一の目的は、刺激やタスクがなければ、機能的関連脳領域間の血液酸素レベル依存(BOLD)信号において重要な時間的一致と解釈できる静止状態機能接続(FC)を調べることである。 正常なコントロールと比較すると,adhd患者は上大脳と上頭頂葉で平均的な接続性は低いが,外側小頭皮質と下側頭回で接続性が高い。 また,ADHD患者では,デフォルトモードと背側注意領域のネットワーク構成が異常であると仮定した。

In the last two decades, functional magnetic resonance imaging (fMRI) has emerged as one of the most effective technologies in clinical research of the human brain. fMRI allows researchers to study healthy and pathological brains while they perform various neuropsychological functions. Beyond task-related activations, the human brain has some intrinsic activity at a task-negative (resting) state that surprisingly consumes a lot of energy to support communication among neurons. Recent neuroimaging research has also seen an increase in modeling and analyzing brain activity in terms of a graph or network. Since graph models facilitate a systems-theoretic explanation of the brain, they have become increasingly relevant with advances in network science and the popularization of complex systems theory. The purpose of this study is to look into the abnormalities in resting brain functions in adults with Attention Deficit Hyperactivity Disorder (ADHD). The primary goal is to investigate resting-state functional connectivity (FC), which can be construed as a significant temporal coincidence in blood-oxygen-level dependent (BOLD) signals between functionally related brain regions in the absence of any stimulus or task. When compared to healthy controls, ADHD patients have lower average connectivity in the Supramarginal Gyrus and Superior Parietal Lobule, but higher connectivity in the Lateral Occipital Cortex and Inferior Temporal Gyrus. We also hypothesize that the network organization of default mode and dorsal attention regions is abnormal in ADHD patients.
翻訳日:2022-12-11 13:01:07 公開日:2022-11-23
# ベイジアンガウス混合モデルを用いた教師なしユーザインサイダー脅威検出

Unsupervised User-Based Insider Threat Detection Using Bayesian Gaussian Mixture Models ( http://arxiv.org/abs/2211.14437v1 )

ライセンス: Link先を確認
Simon Bertrand, Nadia Tawbi, Jos\'ee Desharnais(参考訳) インサイダーの脅威は、特権的なアクセスとドメイン知識を組み合わせることで、メンバーにダメージを与える可能性があるため、組織にとってますます懸念される。 それにもかかわらず、これらの脅威の検出は困難であり、正確には認定された職員が簡単に悪意のある行動を行う能力と、少数の悪意のある足跡が隠されている組織によって生み出される監査データの大きさと多様性のためである。 本稿では,ベイズ・ガウス混合モデルを用いた監査データに基づく教師なしインサイダー脅威検出システムを提案する。 提案手法は,特定の行動のモデル化を最適化するユーザベースモデルと,word2vecに基づく自動特徴抽出システムを活用して,実生活シナリオでの利用を容易にする。 このソリューションは、データバランシングや通常のインスタンスのみをトレーニングする必要がなく、実装に必要なドメイン知識が少ないことで、自分自身を区別します。 それでも,提案手法は最先端手法と競合し,88 %の良好なリコール,精度と真負率93%,偽陽性率6.9%を示した。 実験では、ベンチマークデータセットCERTバージョン4.2を使用しました。

Insider threats are a growing concern for organizations due to the amount of damage that their members can inflict by combining their privileged access and domain knowledge. Nonetheless, the detection of such threats is challenging, precisely because of the ability of the authorized personnel to easily conduct malicious actions and because of the immense size and diversity of audit data produced by organizations in which the few malicious footprints are hidden. In this paper, we propose an unsupervised insider threat detection system based on audit data using Bayesian Gaussian Mixture Models. The proposed approach leverages a user-based model to optimize specific behaviors modelization and an automatic feature extraction system based on Word2Vec for ease of use in a real-life scenario. The solution distinguishes itself by not requiring data balancing nor to be trained only on normal instances, and by its little domain knowledge required to implement. Still, results indicate that the proposed method competes with state-of-the-art approaches, presenting a good recall of 88\%, accuracy and true negative rate of 93%, and a false positive rate of 6.9%. For our experiments, we used the benchmark dataset CERT version 4.2.
翻訳日:2022-12-04 14:17:39 公開日:2022-11-23
# 機械学習のためのプライベートマルチウィンナー投票

Private Multi-Winner Voting for Machine Learning ( http://arxiv.org/abs/2211.15410v1 )

ライセンス: Link先を確認
Adam Dziedzic, Christopher A Choquette-Choo, Natalie Dullerud, Vinith Menon Suriyakumar, Ali Shahin Shamsabadi, Muhammad Ahmad Kaleem, Somesh Jha, Nicolas Papernot, Xiao Wang(参考訳) プライベートマルチウィンナー投票は、制限付き差分プライバシー(DP)保証を満たす$k$-hotバイナリベクトルを明らかにするタスクである。 このタスクは、医療など多くの領域で普及しているにもかかわらず、機械学習の文献では未熟である。 本稿では,2進数,$\tau$,Powerset投票の3つの新しいDPマルチウィンナ機構を提案する。 バイナリ投票は、構成を通じてラベルごとに独立に行われる。 $\tau$ 投票バウンダリは、データ非依存の厳密な保証のために$\ell_2$の基準で最適に投票する。 パワーセット投票は、可能な結果をパワーセットとして見ることによって、バイナリベクター全体を操作する。 我々の理論的および実証的な分析は、ラベル間に強い相関関係がない限り、バイナリ投票が多くのタスクの競合メカニズムになり得ることを示している。 当社では,標準シングルラベル技術であるPATEを拡張して,プライバシ保護のためのマルチラベル学習を中央で実現している。 私たちの技術は、大規模で現実世界の医療データと標準のマルチラベルベンチマークにおいて、最先端のアプローチよりも優れています。 さらに,マルチラベル・シークレット・プライベート・コラボレーティブ(capc)学習を可能にし,マルチサイト環境においてモデル性能が大幅に向上することを示す。

Private multi-winner voting is the task of revealing $k$-hot binary vectors satisfying a bounded differential privacy (DP) guarantee. This task has been understudied in machine learning literature despite its prevalence in many domains such as healthcare. We propose three new DP multi-winner mechanisms: Binary, $\tau$, and Powerset voting. Binary voting operates independently per label through composition. $\tau$ voting bounds votes optimally in their $\ell_2$ norm for tight data-independent guarantees. Powerset voting operates over the entire binary vector by viewing the possible outcomes as a power set. Our theoretical and empirical analysis shows that Binary voting can be a competitive mechanism on many tasks unless there are strong correlations between labels, in which case Powerset voting outperforms it. We use our mechanisms to enable privacy-preserving multi-label learning in the central setting by extending the canonical single-label technique: PATE. We find that our techniques outperform current state-of-the-art approaches on large, real-world healthcare data and standard multi-label benchmarks. We further enable multi-label confidential and private collaborative (CaPC) learning and show that model performance can be significantly improved in the multi-site setting.
翻訳日:2022-12-04 14:17:20 公開日:2022-11-23
# 分子力場における事前学習と特性予測

Supervised Pretraining for Molecular Force Fields and Properties Prediction ( http://arxiv.org/abs/2211.14429v1 )

ライセンス: Link先を確認
Xiang Gao, Weihao Gao, Wenzhi Xiao, Zhirui Wang, Chong Wang, Liang Xiang(参考訳) 機械学習のアプローチは、分子力場や特性予測などの分子モデリングタスクで広く使われている。 従来の教師付き学習手法は、特定のタスクに対するラベル付きデータの不足に悩まされており、他のタスクに対する大規模データセットの使用を動機付けている。 我々は、原子電荷と3dジオメトリを入力とし、分子エネルギーをラベルとして8500万分子のデータセット上でニューラルネットワークを事前学習することを提案する。 実験により、スクラッチからのトレーニングと比較して、事前学習されたモデルの微調整は、7つの分子特性予測タスクと2つの力場タスクのパフォーマンスを大幅に改善できることが示されている。 また, 事前学習モデルから得られた表現は, 分子構造に関する十分な情報を含んでおり, 原子タイプ, 原子間距離, 分子足場の種類, 分子断片の存在など, 分子情報の線形探索が多くの分子情報を予測可能であることを示す。 分子モデルにおける教師付き事前学習は有望な研究方向であることを示す。

Machine learning approaches have become popular for molecular modeling tasks, including molecular force fields and properties prediction. Traditional supervised learning methods suffer from scarcity of labeled data for particular tasks, motivating the use of large-scale dataset for other relevant tasks. We propose to pretrain neural networks on a dataset of 86 millions of molecules with atom charges and 3D geometries as inputs and molecular energies as labels. Experiments show that, compared to training from scratch, fine-tuning the pretrained model can significantly improve the performance for seven molecular property prediction tasks and two force field tasks. We also demonstrate that the learned representations from the pretrained model contain adequate information about molecular structures, by showing that linear probing of the representations can predict many molecular information including atom types, interatomic distances, class of molecular scaffolds, and existence of molecular fragments. Our results show that supervised pretraining is a promising research direction in molecular modeling
翻訳日:2022-12-04 14:15:56 公開日:2022-11-23
# 大規模有機分子探索のための機械学習

Machine Learning for Screening Large Organic Molecules ( http://arxiv.org/abs/2211.15415v1 )

ライセンス: Link先を確認
Christopher Gaul and Santiago Cuesta-Lopez(参考訳) 有機半導体は安価でスケーラブルで持続可能な電子機器、発光ダイオード、太陽光発電の材料として有望である。 有機太陽電池では、広大な化学化合物空間で適切な特性を持つ化合物を見つけることが課題である。 例えば、イオン化エネルギーは太陽光の光学スペクトルに適合し、エネルギー準位は効率的な電荷輸送を可能にする必要がある。 そこで、与えられた分子構造のHOMOおよびLUMOエネルギーを迅速かつ正確に推定する機械学習モデルを開発した。 SchNetモデル(Sch\"utt et al. (2018))の上に構築され、‘Set2Set’リードアウトモジュール(Vinyals et al. (2016))で拡張されている。 Set2Set モジュールは和や平均集約よりも表現力が高く、検討中の複素量に対してより適している。 以前のモデルのほとんどは、かなり小さな分子で訓練され、評価されてきた。 したがって、第2のコントリビューションは、他のソースからさらに大きな分子を追加し、一貫したトレイン/バリデーション/テスト分割を確立することによって、機械学習手法の範囲を広げることである。 第3の貢献としてマルチタスク ansatz を作成し、異なる理論のレベルから来る様々なソースの問題を解決する。 これら3つの貢献によって、モデルの正確性は化学的な正確さに近いものとなる。

Organic semiconductors are promising materials for cheap, scalable and sustainable electronics, light-emitting diodes and photovoltaics. For organic photovoltaic cells, it is a challenge to find compounds with suitable properties in the vast chemical compound space. For example, the ionization energy should fit to the optical spectrum of sun light, and the energy levels must allow efficient charge transport. Here, a machine-learning model is developed for rapidly and accurately estimating the HOMO and LUMO energies of a given molecular structure. It is build upon the SchNet model (Sch\"utt et al. (2018)) and augmented with a `Set2Set' readout module (Vinyals et al. (2016)). The Set2Set module has more expressive power than sum and average aggregation and is more suitable for the complex quantities under consideration. Most previous models have been trained and evaluated on rather small molecules. Therefore, the second contribution is extending the scope of machine-learning methods by adding also larger molecules from other sources and establishing a consistent train/validation/test split. As a third contribution, we make a multitask ansatz to resolve the problem of different sources coming at different levels of theory. All three contributions in conjunction bring the accuracy of the model close to chemical accuracy.
翻訳日:2022-12-04 14:15:22 公開日:2022-11-23
# ソボレフキューバスによる自動微分の置き換えによる物理インフォームニューラルネットの高速化と近似力の強化

Replacing Automatic Differentiation by Sobolev Cubatures fastens Physics Informed Neural Nets and strengthens their Approximation Power ( http://arxiv.org/abs/2211.15443v1 )

ライセンス: Link先を確認
Juan Esteban Suarez Cardona and Michael Hecht(参考訳) 本稿では,ニューラルネット(pinns)の学習に適用可能な,変動損失に対する新しい近似のクラスを提案する。 損失定式化は、偏微分方程式とその弱定式化に対する古典的なソボレフ空間理論を反映している。 損失計算は、自動微分(A.D.)を置き換えるソボレフキュウチャー(Sobolev cubatures)と呼ばれるガウス=ルゲンドルキュウチャーの拡張に依存する。 その結果得られたsoblev-pinns (sc-pinns) は,1桁から2桁の速度アップに加えて,a.d.に依存するpinnによって要求されるよりも少ない精度でトレーニングできることを,sc-pinnsが確立されたpinnsよりも大きな前方および逆pde問題に対してより密接な解近似を達成することを実証した。

We present a novel class of approximations for variational losses, being applicable for the training of physics-informed neural nets (PINNs). The loss formulation reflects classic Sobolev space theory for partial differential equations and their weak formulations. The loss computation rests on an extension of Gauss-Legendre cubatures, we term Sobolev cubatures, replacing automatic differentiation (A.D.). We prove the runtime complexity of training the resulting Soblev-PINNs (SC-PINNs) to be less than required by PINNs relying on A.D. On top of one-to-two order of magnitude speed-up the SC-PINNs are demonstrated to achieve closer solution approximations for prominent forward and inverse PDE problems than established PINNs achieve.
翻訳日:2022-12-04 14:14:59 公開日:2022-11-23
# CaloMan: 学習多様体上の密度推定によるカロリーメータシャワーの高速発生

CaloMan: Fast generation of calorimeter showers with density estimation on learned manifolds ( http://arxiv.org/abs/2211.15380v1 )

ライセンス: Link先を確認
Jesse C. Cresswell, Brendan Leigh Ross, Gabriel Loaiza-Ganem, Humberto Reyes-Gonzalez, Marco Letizia, Anthony L. Caterini(参考訳) 大型ハドロン衝突型加速器の精密測定と新しい物理探索は、検出器内の粒子の伝播と相互作用の効率的なシミュレーションを必要とする。 最も計算コストの高いシミュレーションはカロリメータシャワーである。 深部生成モデル(特に高次元データの領域における)の進歩は、物理学に基づくシミュレーションよりもはるかに早くリアルなカロリーメータシャワーを発生させる可能性を開いた。 しかし、シャワーの高次元表現は、基礎となる物理法則の相対的な単純さと構造をもたらす。 この現象は、低次元多様体上で高次元データが支持されるという機械学習による多様体仮説の別の例である。 そこで我々はまず,その多様体構造を学習し,次にこの多様体にまたがるデータの密度を推定することによって,熱量計のシャワーをモデル化する。 多様体構造を学習するとデータの次元性が減少し、競合する手法と比較して高速なトレーニングと生成が可能となる。

Precision measurements and new physics searches at the Large Hadron Collider require efficient simulations of particle propagation and interactions within the detectors. The most computationally expensive simulations involve calorimeter showers. Advances in deep generative modelling - particularly in the realm of high-dimensional data - have opened the possibility of generating realistic calorimeter showers orders of magnitude more quickly than physics-based simulation. However, the high-dimensional representation of showers belies the relative simplicity and structure of the underlying physical laws. This phenomenon is yet another example of the manifold hypothesis from machine learning, which states that high-dimensional data is supported on low-dimensional manifolds. We thus propose modelling calorimeter showers first by learning their manifold structure, and then estimating the density of data across this manifold. Learning manifold structure reduces the dimensionality of the data, which enables fast training and generation when compared with competing methods.
翻訳日:2022-12-04 14:14:40 公開日:2022-11-23
# 意図に基づく深層学習モデルによる太陽電池パネルと風車ブレードの表面欠陥の同定

Identification of Surface Defects on Solar PV Panels and Wind Turbine Blades using Attention based Deep Learning Model ( http://arxiv.org/abs/2211.15374v1 )

ライセンス: Link先を確認
Divyanshi Dwivedi, K. Victor Sam Moses Babu, Pradeep Kumar Yemula, Pratyush Chakraborty, Mayukha Pal(参考訳) 2022年のGlobal Electricity Reviewによると、再生可能エネルギー源からの発電は、主に大規模なグリーン発電所の設置により、世界中で20%増加した。 これらの大規模発電所における再生可能エネルギー資産のモニタリングは、いくつかの環境要因の影響を受け、発電の減少、故障、資産生活の劣化といった問題を引き起こすため、依然として困難である。 したがって、再生可能エネルギー資産の表面欠陥の検出は、グリーン発電所の安全性と効率を維持するプロセスを促進する。 再生可能エネルギー資産表層モニタリングシステムを実現するために, 革新的な検出手法を提案する。 まず、資産の高解像度画像を定期的に撮影し、損傷を検出するために検査する。 本稿では,大規模発電所における各種再生可能エネルギー資産の表面や構造的損傷を特定するために,撮像画像を分析した統合型深層学習画像検査モデルを提案する。 我々は,最新のコンピュータビジョンにおけるディープラーニングモデルである vision transformer (vit) を用いて,ソーラーパネルや風車ブレードの損傷を検知し,欠陥の種類を分類して予防対策を提案する。 ViTモデルでは,両資産の97%以上の精度を達成し,公開資料から得られる様々なモダリティの入力画像のベンチマーク分類モデルよりも優れていた。

According to Global Electricity Review 2022, electricity generation from renewable energy sources has increased by 20% worldwide primarily due to more installation of large green power plants. Monitoring the renewable energy assets in those large power plants is still challenging as the assets are highly impacted by several environmental factors, resulting in issues like less power generation, malfunctioning, and degradation of asset life. Therefore, detecting the surface defects on the renewable energy assets would facilitate the process to maintain the safety and efficiency of the green power plants. An innovative detection framework is proposed to achieve an economical renewable energy asset surface monitoring system. First capture the asset's high-resolution images on a regular basis and inspect them to detect the damages. For inspection this paper presents a unified deep learning-based image inspection model which analyzes the captured images to identify the surface or structural damages on the various renewable energy assets in large power plants. We use the Vision Transformer (ViT), the latest developed deep-learning model in computer vision, to detect the damages on solar panels and wind turbine blades and classify the type of defect to suggest the preventive measures. With the ViT model, we have achieved above 97% accuracy for both the assets, which outperforms the benchmark classification models for the input images of varied modalities taken from publicly available sources.
翻訳日:2022-12-04 14:07:47 公開日:2022-11-23
# 合成データ生成手法の実用性評価

Utility Assessment of Synthetic Data Generation Methods ( http://arxiv.org/abs/2211.14428v1 )

ライセンス: Link先を確認
Md Sakib Nizam Khan, Niklas Reje, Sonja Buchegger(参考訳) ビッグデータ分析は、プライバシの保存とユーティリティという2つの問題、すなわち、データが関連する個人のプライバシーを守るために、元のデータを変換した後、どれだけ正確なデータ分析が残っているかという問題を引き起こす。 そこで本研究では,全合成データ生成の方法の違いが,その実用性に差があるか(データ上で実施すべき特定の解析方法が不明な場合),その結果が後発データの解析にどのように適合しているか,およびこれら2つの効果が相関しているかを,いくつかのデータセットにまたがって検討した。 いくつかの手法(決定木に基づく)は、ボード上の他の方法よりも優れていること、いくつかの計算パラメータ(特にリリースデータセット数)の選択による大きな影響、幅広いユーティリティメトリクスと分析精度の相関、狭いメトリクスに対する様々な相関などを見いだす。 機械学習モデルのトレーニングに合成データを使用する場合,分類タスクに有望な知見を得たので,メンバシップ推論やモデルインバージョンといったmlモデルに対するプライバシ攻撃の軽減についても検討する価値があると考える。

Big data analysis poses the dual problem of privacy preservation and utility, i.e., how accurate data analyses remain after transforming original data in order to protect the privacy of the individuals that the data is about - and whether they are accurate enough to be meaningful. In this paper, we thus investigate across several datasets whether different methods of generating fully synthetic data vary in their utility a priori (when the specific analyses to be performed on the data are not known yet), how closely their results conform to analyses on original data a posteriori, and whether these two effects are correlated. We find some methods (decision-tree based) to perform better than others across the board, sizeable effects of some choices of imputation parameters (notably the number of released datasets), no correlation between broad utility metrics and analysis accuracy, and varying correlations for narrow metrics. We did get promising findings for classification tasks when using synthetic data for training machine learning models, which we consider worth exploring further also in terms of mitigating privacy attacks against ML models such as membership inference and model inversion.
翻訳日:2022-12-04 14:06:16 公開日:2022-11-23
# MLP法とLSTM法に基づく短期風速の多段階予測

Multistep prediction for short-term wind speed based on the MLP and LSTM method with rankpooling ( http://arxiv.org/abs/2211.14434v1 )

ライセンス: Link先を確認
Hailong Shu(参考訳) 実際の風速データは断続的・変動性に悩まされており, 単一モデルや浅部モデルを適用して高精度に風速を予測することは極めて困難である。 そこで本研究では,予測精度の向上と予測結果の向上を目的として,直感的にはLR-FFT-RP-LSTM,LR-FFT-RP-LSTMと略される,風速の多段階予測のためのハイブリッドディープラーニングモデルを提案する。 この定式化モデルでは,まず, 生気象データの局所的特徴を抽出し, 高速フーリエ変換(fft)を用いて生気象データの局所的・大域的特徴を抽出し, 予め処理したデータを取得し, 得られたデータを2つの手順を用いて原データに統合して2つの入力データセットを生成する。 次に,多層パーセプトロン法(MLP)と長短期記憶(LSTM)という深層学習モデルを用いて風速データセットの予測を行う。 次に, 線形回帰法による予報結果を統合することにより, 目標予測結果を得るとともに, 2010年から2020年にかけての風速データを用いて, 提案モデルの性能評価を行った。 事例研究の結果, 風速モデルの方が予測性能が高いことがわかった。 さらに,提案するハイブリッドモデルは,最先端のシングルモデルや他のハイブリッドモデルと比較して,非常に競争力が高い。

The actual wind speed data suffers from the intermittent and fluctuating property, which implies that it is very difficult to forecast wind speed with high accuracy by applying single or shallow models. Hence, with the purpose of improving the forecasting accuracy and obtain better forecasting results, in this paper, a novel hybrid deep learning model is proposed for multistep forecasting of wind speed, which is intuitively abbreviated as LR-FFT-RP-LSTM and LR-FFT-RP-LSTM. Under these formulated model, the rankpooling method is firstly presented to extract local features of the raw meteorological data, and the Fast Fourier Transformation (FFT) is adopted to extract local and global features of the raw meteorological data to obtain pre-processed data, and the data obtained is then integrated with the original data using the two procedures to produce two input datasets. Then, deep learning model named multi-layer perceptron method (MLP) and long short-term memory (LSTM) are adopted to predict the wind speed dataset. The target prediction results are then obtained by integrating the preliminary prediction findings using the linear regression method.Practical wind speed data from 2010 to 2020 are exploited to evaluate the performance of the proposed model. Case study results indicate that the proposed model for wind speed has a superior forecasting capability. Moreover, the proposed hybrid model is very competitive compared to the state-of-the-art single model and other hybrid models involved in this paper.
翻訳日:2022-12-04 14:05:55 公開日:2022-11-23
# DAMO-YOLO : リアルタイム物体検出設計報告

DAMO-YOLO : A Report on Real-Time Object Detection Design ( http://arxiv.org/abs/2211.15444v1 )

ライセンス: Link先を確認
Xianzhe Xu, Yiqi Jiang, Weihua Chen, Yilun Huang, Yuan Zhang, Xiuyu Sun(参考訳) 本稿では,最新のYOLOシリーズよりも高速かつ高精度なオブジェクト検出手法であるDAMO-YOLOを提案する。 DAMO-YOLOは、Neural Architecture Search (NAS)、効率的なReparameterized Generalized-FPN (RepGFPN)、AlignedOTAラベルを割り当てた軽量ヘッド、蒸留強化など、YOLOから拡張されている。 特に、最大エントロピーの原理を導いたmae-nasを用いて、低レイテンシと高性能の制約下で検出バックボーンを探索し、空間ピラミッドプールとフォーカスモジュールを備えたresnetライク/cspライクな構造を生成する。 首と頭のデザインでは、我々は「大きな首、小さな頭」という規則に従っている。 我々は,加速queen-fusionでgeneralized-fpnをインポートして検出器ネックを構築し,効率的な層凝集ネットワーク(elan)と再パラメータ化によりcspnetをアップグレードする。 次に, 検出器の頭部サイズが検出性能にどのように影響するかを調査し, 1つのタスクプロジェクション層のみを持つ重い首がより良い結果をもたらすことを確かめる。 さらにラベル割り当てにおける不一致問題を解決するためにアライメントタが提案されている。 また, 蒸留方式を導入し, 高い性能向上を図る。 これらの新しい技術に基づいて、さまざまなシナリオ、すなわちDAMO-YOLO-Tiny/Small/Mediumのニーズを満たすために、さまざまなスケールでモデルスイートを構築します。 彼らはそれぞれT4 GPU上で2.78/3.83/5.62msのレイテンシでCOCO上で43.0/46.8/50.0mAPを達成することができる。 コードはhttps://github.com/tinyvision/damo-yoloで入手できる。

In this report, we present a fast and accurate object detection method dubbed DAMO-YOLO, which achieves higher performance than the state-of-the-art YOLO series. DAMO-YOLO is extended from YOLO with some new technologies, including Neural Architecture Search (NAS), efficient Reparameterized Generalized-FPN (RepGFPN), a lightweight head with AlignedOTA label assignment, and distillation enhancement. In particular, we use MAE-NAS, a method guided by the principle of maximum entropy, to search our detection backbone under the constraints of low latency and high performance, producing ResNet-like / CSP-like structures with spatial pyramid pooling and focus modules. In the design of necks and heads, we follow the rule of "large neck, small head". We import Generalized-FPN with accelerated queen-fusion to build the detector neck and upgrade its CSPNet with efficient layer aggregation networks (ELAN) and reparameterization. Then we investigate how detector head size affects detection performance and find that a heavy neck with only one task projection layer would yield better results. In addition, AlignedOTA is proposed to solve the misalignment problem in label assignment. And a distillation schema is introduced to improve performance to a higher level. Based on these new techs, we build a suite of models at various scales to meet the needs of different scenarios, i.e., DAMO-YOLO-Tiny/Small/Medium. They can achieve 43.0/46.8/50.0 mAPs on COCO with the latency of 2.78/3.83/5.62 ms on T4 GPUs respectively. The code is available at https://github.com/tinyvision/damo-yolo.
翻訳日:2022-12-04 13:59:20 公開日:2022-11-23
# ReCo: 地域別テキスト・画像生成

ReCo: Region-Controlled Text-to-Image Generation ( http://arxiv.org/abs/2211.15518v1 )

ライセンス: Link先を確認
Zhengyuan Yang, Jianfeng Wang, Zhe Gan, Linjie Li, Kevin Lin, Chenfei Wu, Nan Duan, Zicheng Liu, Ce Liu, Michael Zeng, Lijuan Wang(参考訳) 近年の大規模テキスト・ツー・イメージ(t2i)モデルは、高忠実度画像の生成において印象的な性能を示しているが、自由形式のテキスト記述で特定の領域内のコンテンツを正確に指定するなど、制御性は限られている。 本稿では,T2I生成における地域制御に有効な手法を提案する。 我々はT2Iモデルの入力を、量子化された空間座標を表す余分な位置トークンで拡張する。 各地域は、左上隅と右下隅を表すために4つの位置トークンで指定され、その後、オープンな自然言語の地域記述が続く。 次に,事前学習したt2iモデルを新しい入力インタフェースで微調整する。 我々のモデルはReCo(Region-Controlled T2I)と呼ばれ、制約付きカテゴリセットのオブジェクトラベルではなく、オープンエンドの地域テキストで記述された任意のオブジェクトの領域制御を可能にする。 実証的には、ReCoは位置的単語(FID: 8.82->7.36, SceneFID: 15.54->6.51, COCO)によって強化されたT2Iモデルよりも画質が向上し、COCOの20.40%の領域分類精度が向上した。 さらに,自由形式の地域記述を用いて,recoが対象数,空間的関係,色・サイズなどの領域属性をよりよく制御できることを実証する。 PaintSkillの人間による評価では、ReCoはT2Iモデルよりも正確な対象数と空間的関係を持つ画像を生成するのに+19.28%、+17.21%正確である。

Recently, large-scale text-to-image (T2I) models have shown impressive performance in generating high-fidelity images, but with limited controllability, e.g., precisely specifying the content in a specific region with a free-form text description. In this paper, we propose an effective technique for such regional control in T2I generation. We augment T2I models' inputs with an extra set of position tokens, which represent the quantized spatial coordinates. Each region is specified by four position tokens to represent the top-left and bottom-right corners, followed by an open-ended natural language regional description. Then, we fine-tune a pre-trained T2I model with such new input interface. Our model, dubbed as ReCo (Region-Controlled T2I), enables the region control for arbitrary objects described by open-ended regional texts rather than by object labels from a constrained category set. Empirically, ReCo achieves better image quality than the T2I model strengthened by positional words (FID: 8.82->7.36, SceneFID: 15.54->6.51 on COCO), together with objects being more accurately placed, amounting to a 20.40% region classification accuracy improvement on COCO. Furthermore, we demonstrate that ReCo can better control the object count, spatial relationship, and region attributes such as color/size, with the free-form regional description. Human evaluation on PaintSkill shows that ReCo is +19.28% and +17.21% more accurate in generating images with correct object count and spatial relationship than the T2I model.
翻訳日:2022-12-04 13:58:50 公開日:2022-11-23
# 深層学習」の過ちについて

On "Deep Learning" Misconduct ( http://arxiv.org/abs/2211.16350v1 )

ライセンス: Link先を確認
Juyang Weng(参考訳) 本論文は、ISAIC 2022と同一会議の議事録の共用論文として、理論的論文である。 通常の生活のための単一のネットワークを発達させ、その主要なトピックである意識学習とは対照的に、現在広く普及しているアプローチである「深層学習」に取り組む必要がある。 ディープラーニング(Deep Learning)は、教師付き、強化、敵対的なモードを含む異なる学習モードを使用する場合もあるが、ほとんど全てのディープラーニングプロジェクトは、データ削除(data deletion)や「トレーニングデータのテスト(test on training data)」と呼ばれる同じ不正行為に悩まされている。 その結果、ディープラーニングはほとんど常にテストされなかった。 なぜだ? いわゆる「テストセット」は、トレーニングステージのポストセレクションステップで使用された。 本稿では,テストセットが著者の所有であり,記憶空間の量とトレーニング時間の両方が有限だが非有界である限り,ゼロエラー条件を含む検証セットとテストセットの任意の必要誤差に達するという定理を確立する。 しかし、PGNN法のようにDeep Learning法は、有効なテストセットでテストされたことが全くないため、明らかに一般化できない。

This is a theoretical paper, as a companion paper of the plenary talk for the same conference ISAIC 2022. In contrast to conscious learning, which develops a single network for a normal life and is the main topic of the plenary talk, it is necessary to address the currently widespread approach, so-called "Deep Learning". Although "Deep Learning" may use different learning modes, including supervised, reinforcement and adversarial modes, almost all "Deep Learning" projects apparently suffer from the same misconduct, called "data deletion" and "test on training data". Consequently, Deep Learning almost always was not tested at all. Why? The so-called "test set" was used in the Post-Selection step of the training stage. This paper establishes a theorem that a simple method called Pure-Guess Nearest Neighbor (PGNN) reaches any required errors on validation set and test set, including zero-error requirements, through the "Deep Learning" misconduct, as long as the test set is in the possession of the author and both the amount of storage space and the time of training are finite but unbounded. However, Deep Learning methods, like the PGNN method, apparently are not generalizable since they have never been tested at all by a valid test set.
翻訳日:2022-12-04 13:57:59 公開日:2022-11-23
# 誰の感情が重要か? 事前知識のない話者検出

Whose Emotion Matters? Speaker Detection without Prior Knowledge ( http://arxiv.org/abs/2211.15377v1 )

ライセンス: Link先を確認
Hugo Carneiro, Cornelius Weber, Stefan Wermter(参考訳) 会話(ERC)における感情認識のタスクは、例えばビデオベースのMELDデータセットで提供されるような、複数のモダリティの可用性の恩恵を受ける。 しかし、MELDビデオの音響情報と視覚情報の両方を利用する研究はごくわずかである。 まず、MELDのラベルとビデオのアライメントはうるさいので、これらのビデオは感情的な音声データの信頼性の低いソースになる。 第2に、会話は複数の人が同じ場面で会話するので、発話を話す人の検出が必要となる。 本稿では,最近の音声自動認識と能動話者検出モデルを用いて,meldで提供された発話の96.92%において,meldの映像を再現し,発話話者の表情をキャプチャできることを実証する。 自己教師付き音声認識モデルによる実験では、再構成されたMELDビデオはデータセットで提供される対応する発話とより密に一致している。 最後に、MELDリアライメントビデオの顔と音声情報に基づいて訓練された会話における感情認識モデルを作成し、視覚のみに基づくERCの最先端モデルよりも優れていることを示す。 これは、アクティブな話者検出が発話する話者から表情を抽出するのに有効であることを示し、現在使われている視覚的特徴よりも、顔はより有意義な視覚的な手がかりを提供することを示している。

The task of emotion recognition in conversations (ERC) benefits from the availability of multiple modalities, as offered, for example, in the video-based MELD dataset. However, only a few research approaches use both acoustic and visual information from the MELD videos. There are two reasons for this: First, label-to-video alignments in MELD are noisy, making those videos an unreliable source of emotional speech data. Second, conversations can involve several people in the same scene, which requires the detection of the person speaking the utterance. In this paper we demonstrate that by using recent automatic speech recognition and active speaker detection models, we are able to realign the videos of MELD, and capture the facial expressions from uttering speakers in 96.92% of the utterances provided in MELD. Experiments with a self-supervised voice recognition model indicate that the realigned MELD videos more closely match the corresponding utterances offered in the dataset. Finally, we devise a model for emotion recognition in conversations trained on the face and audio information of the MELD realigned videos, which outperforms state-of-the-art models for ERC based on vision alone. This indicates that active speaker detection is indeed effective for extracting facial expressions from the uttering speakers, and that faces provide more informative visual cues than the visual features state-of-the-art models have been using so far.
翻訳日:2022-12-04 13:50:49 公開日:2022-11-23
# 学習型医療サイバー物理システムのための安全保証事例の開発に向けて

Towards Developing Safety Assurance Cases for Learning-Enabled Medical Cyber-Physical Systems ( http://arxiv.org/abs/2211.15413v1 )

ライセンス: Link先を確認
Maryam Bagheri, Josephine Lamp, Xugui Zhou, Lu Feng, Homa Alemzadeh(参考訳) 機械学習(ML)技術は、スマートヘルスケアを実現するために、医療サイバー物理システム(MCPS)にますます採用されている。 学習可能なMCPSの安全性と有効性を確保することは困難であり、このようなシステムは多様な患者のプロファイルと生理学のダイナミクスを考慮し、運用上の不確実性を扱う必要がある。 本稿では,学習可能なMCPSにおけるMLコントローラの安全性保証ケースを開発し,MLベースの予測に対する信頼性の確立に着目した。 本稿では,学習可能なMCPSの代表的な応用として,APS(Artificial Pancreas Systems)の安全性保証事例を詳述するとともに,APSの予測のためのディープニューラルネットワークを実装することで,詳細な解析を行う。 MLデータの完全性を確認し,形式的検証を用いてMLに基づく予測の正確性を分析する。 最後に,我々の経験に基づくオープンリサーチの問題について概説する。

Machine Learning (ML) technologies have been increasingly adopted in Medical Cyber-Physical Systems (MCPS) to enable smart healthcare. Assuring the safety and effectiveness of learning-enabled MCPS is challenging, as such systems must account for diverse patient profiles and physiological dynamics and handle operational uncertainties. In this paper, we develop a safety assurance case for ML controllers in learning-enabled MCPS, with an emphasis on establishing confidence in the ML-based predictions. We present the safety assurance case in detail for Artificial Pancreas Systems (APS) as a representative application of learning-enabled MCPS, and provide a detailed analysis by implementing a deep neural network for the prediction in APS. We check the sufficiency of the ML data and analyze the correctness of the ML-based prediction using formal verification. Finally, we outline open research problems based on our experience in this paper.
翻訳日:2022-12-04 13:48:30 公開日:2022-11-23
# 双方向市場におけるインセンティブアウェア推薦システム

Incentive-Aware Recommender Systems in Two-Sided Markets ( http://arxiv.org/abs/2211.15381v1 )

ライセンス: Link先を確認
Xiaowu Dai, Yuan (Alan) Qi, and Michael I. Jordan(参考訳) インターネット経済のオンラインプラットフォームは一般的に、エージェント(例えばユーザー)に武器(製品)を推奨するレコメンデーターシステムを含んでいる。 このようなプラットフォームでは、筋電図エージェントは、他のエージェントに使用される情報を収集する様々な代替手段を探索するよりも、現在の情報を与えられた最高の製品を選択することで、活用するための自然なインセンティブを持つ。 本稿では,エージェントのインセンティブを尊重し,繰り返しのゲームにおける後悔によって表現される漸近的に最適なパフォーマンスを享受する新しいレコメンデーションシステムを提案する。 エージェントの機会コストに起因したインセンティブ制約を備えた両面市場におけるマルチエージェントバンディット問題として,このようなインセンティブ対応リコメンデータシステムをモデル化する。 プリンシパルに機会コストが分かっている場合、真に良い腕と未知の腕にランダムで適応的なアプローチでレコメンデーションをプールするインセンティブに適合したレコメンデーションポリシーが存在することを示す。 一方、プリンシパルにとっての機会コストが不明な場合、全腕にランダムにレコメンデーションをプールし、各腕の累積損失を探索のフィードバックとして利用する政策を提案する。 いずれの政策も、エージェントが過度の暴露から保護する、ポストフェアネス基準を満たすことを示す。

Online platforms in the Internet Economy commonly incorporate recommender systems that recommend arms (e.g., products) to agents (e.g., users). In such platforms, a myopic agent has a natural incentive to exploit, by choosing the best product given the current information rather than to explore various alternatives to collect information that will be used for other agents. We propose a novel recommender system that respects agents' incentives and enjoys asymptotically optimal performances expressed by the regret in repeated games. We model such an incentive-aware recommender system as a multi-agent bandit problem in a two-sided market which is equipped with an incentive constraint induced by agents' opportunity costs. If the opportunity costs are known to the principal, we show that there exists an incentive-compatible recommendation policy, which pools recommendations across a genuinely good arm and an unknown arm via a randomized and adaptive approach. On the other hand, if the opportunity costs are unknown to the principal, we propose a policy that randomly pools recommendations across all arms and uses each arm's cumulative loss as feedback for exploration. We show that both policies also satisfy an ex-post fairness criterion, which protects agents from over-exploitation.
翻訳日:2022-12-04 13:48:12 公開日:2022-11-23
# 潜在木イジングモデルの効率的な学習とテスト

Learning and Testing Latent-Tree Ising Models Efficiently ( http://arxiv.org/abs/2211.13291v1 )

ライセンス: Link先を確認
Davin Choo, Yuval Dagan, Constantinos Daskalakis, Anthimos Vardis Kandiros(参考訳) 我々は,葉ノードでのみ観測可能な潜在木イジングモデル,すなわちイジングモデルを学習およびテストするための時間およびサンプル効率のよいアルゴリズムを提供する。 学習側では,葉ノード分布が全変動距離に近い木構造イジングモデルを学習するための効率的なアルゴリズムが得られ,先行研究の結果が改善された。 テスト側では,2つの潜木イジングモデルが全変動距離の近い葉ノード分布を持つかどうかをテストするために,より少ないサンプルを持つ効率的なアルゴリズムを提供する。 木構造イジングモデルの葉ノード分布間の全変動距離について,葉の辺縁関係から新たな局所化結果を示すことにより,本アルゴリズムの有効性を検証した。

We provide time- and sample-efficient algorithms for learning and testing latent-tree Ising models, i.e. Ising models that may only be observed at their leaf nodes. On the learning side, we obtain efficient algorithms for learning a tree-structured Ising model whose leaf node distribution is close in Total Variation Distance, improving on the results of prior work. On the testing side, we provide an efficient algorithm with fewer samples for testing whether two latent-tree Ising models have leaf-node distributions that are close or far in Total Variation distance. We obtain our algorithms by showing novel localization results for the total variation distance between the leaf-node distributions of tree-structured Ising models, in terms of their marginals on pairs of leaves.
翻訳日:2022-11-28 19:04:16 公開日:2022-11-23
# ProstAttention-Net:MRIにおけるアグレッシブネスによる前立腺癌セグメンテーションの深い注意モデル

ProstAttention-Net: A deep attention model for prostate cancer segmentation by aggressiveness in MRI scans ( http://arxiv.org/abs/2211.13238v1 )

ライセンス: Link先を確認
Audrey Duran (MYRIAD), Gaspard Dussert (MYRIAD), Olivier Rouvi\`ere, Tristan Jaouen, Pierre-Marc Jodoin, Carole Lartizien (MYRIAD)(参考訳) multiparametric magnetic resonance imaging (mp-mri) は前立腺癌 (pca) の検出に優れた結果を示した。 しかし, 臨床では前立腺病変の特徴付けは不可能であり, 生検はGleason score (GS) の基準として残されている。 本研究は,前立腺と癌病変をGS群グレーディングと共同で分割する,新しいエンドツーエンドのマルチクラスネットワークを提案する。 潜伏空間上の情報を符号化した後、ネットワークは2つのブランチに分けられる。 1) 第一分枝は前立腺分枝を行う 2)第2枝は前立腺病変の検出・評価のための注意ゲートとして,この帯状体を用いている。 前立腺切除術前の3種類のスキャナーで取得した219種類のMRI検査で5倍のクロスバリデーションを施した。 臨床的に有意な病変(GS > 6)の検出に対するFROC解析では,前立腺全患者2.9偽陽性で69.0%$\pm$14.5%,周辺領域(PZ)のみを考慮した場合,70.8%$\pm$14.4%の偽陽性で69.0%$\pm$14.5%の感度が得られた。 自動GS群について

Multiparametric magnetic resonance imaging (mp-MRI) has shown excellent results in the detection of prostate cancer (PCa). However, characterizing prostate lesions aggressiveness in mp-MRI sequences is impossible in clinical practice, and biopsy remains the reference to determine the Gleason score (GS). In this work, we propose a novel end-to-end multi-class network that jointly segments the prostate gland and cancer lesions with GS group grading. After encoding the information on a latent space, the network is separated in two branches: 1) the first branch performs prostate segmentation 2) the second branch uses this zonal prior as an attention gate for the detection and grading of prostate lesions. The model was trained and validated with a 5-fold cross-validation on an heterogeneous series of 219 MRI exams acquired on three different scanners prior prostatectomy. In the free-response receiver operating characteristics (FROC) analysis for clinically significant lesions (defined as GS > 6) detection, our model achieves 69.0% $\pm$14.5% sensitivity at 2.9 false positive per patient on the whole prostate and 70.8% $\pm$14.4% sensitivity at 1.5 false positive when considering the peripheral zone (PZ) only. Regarding the automatic GS group
翻訳日:2022-11-28 18:41:00 公開日:2022-11-23
# ドローンモニタリングによる風力タービンのオンライン動的信頼性評価

Online Dynamic Reliability Evaluation of Wind Turbines based on Drone-assisted Monitoring ( http://arxiv.org/abs/2211.13258v1 )

ライセンス: Link先を確認
Sohag Kabir, Koorosh Aslansefat, Prosanta Gope, Felician Campean, Yiannis Papadopoulos(参考訳) オフショアの風力エネルギーは、環境への影響が低いため、魅力的なエネルギー源になりつつある。 オフショア施設を用いた発電プロセスの最大可用性と生産コストの最小化を保証する効果的な運用と維持は、このエネルギー源の競争力を高めるための2つの重要な要因である。 オフショア風力発電所の健康管理に広く利用されており、運用とメンテナンスが改善されている。 風力発電所の信頼性は、メンテナンスプロセスを支援し、農場の可用性を向上させるために、ますます評価されている。 しかし、信頼性分析の多くは統計データに基づいてオフラインで行われる。 本稿では,風力タービンのオンライン信頼性評価のためのドローン支援モニタリング手法を提案する。 風力タービンの羽根系を実例として,提案手法の実証を行った。

The offshore wind energy is increasingly becoming an attractive source of energy due to having lower environmental impact. Effective operation and maintenance that ensures the maximum availability of the energy generation process using offshore facilities and minimal production cost are two key factors to improve the competitiveness of this energy source over other traditional sources of energy. Condition monitoring systems are widely used for health management of offshore wind farms to have improved operation and maintenance. Reliability of the wind farms are increasingly being evaluated to aid in the maintenance process and thereby to improve the availability of the farms. However, much of the reliability analysis is performed offline based on statistical data. In this article, we propose a drone-assisted monitoring based method for online reliability evaluation of wind turbines. A blade system of a wind turbine is used as an illustrative example to demonstrate the proposed approach.
翻訳日:2022-11-28 18:25:08 公開日:2022-11-23
# 音声保存ゼロショット多重アクセント変換

Voice-preserving Zero-shot Multiple Accent Conversion ( http://arxiv.org/abs/2211.13282v1 )

ライセンス: Link先を確認
Mumin Jin, Prashant Serai, Jilong Wu, Andros Tjandra, Vimal Manohar, Qing He(参考訳) 外国語を学ぼうとしたほとんどの人は、母語話者のアクセントを理解したり話すのに苦労していただろう。 ネイティブスピーカーにとって、新しいアクセントを理解したり、話すことは、同様に難しい作業である。 アクセント変換システムは話者のアクセントを変化させるが、音色やピッチといった話者の声のアイデンティティを保ちながら、コミュニケーション、言語学習、娯楽といった様々な応用の可能性を持っている。 既存のアクセント変換モデルは、話者のアイデンティティとアクセントを同時に変える傾向がある。 ここでは,他の音響特性を保ちながら,アクセント依存特徴をアンタングル化するために,対角学習を用いる。 既存のアクセント変換モデルと違うのは、意図しない話者の発話を複数のアクセントに変換しながら、元の音声のアイデンティティを保ちながら、複数のアクセントに変換する能力です。 主観評価では,本モデルがターゲットアクセントに近づき,元の話者に近い音声を生成することを示す。

Most people who have tried to learn a foreign language would have experienced difficulties understanding or speaking with a native speaker's accent. For native speakers, understanding or speaking a new accent is likewise a difficult task. An accent conversion system that changes a speaker's accent but preserves that speaker's voice identity, such as timbre and pitch, has the potential for a range of applications, such as communication, language learning, and entertainment. Existing accent conversion models tend to change the speaker identity and accent at the same time. Here, we use adversarial learning to disentangle accent dependent features while retaining other acoustic characteristics. What sets our work apart from existing accent conversion models is the capability to convert an unseen speaker's utterance to multiple accents while preserving its original voice identity. Subjective evaluations show that our model generates audio that sound closer to the target accent and like the original speaker.
翻訳日:2022-11-28 18:24:55 公開日:2022-11-23
# ニューラルネットワークガウス法による高次元不完全データの多重計算

Multiple Imputation with Neural Network Gaussian Process for High-dimensional Incomplete Data ( http://arxiv.org/abs/2211.13297v1 )

ライセンス: Link先を確認
Zongyu Dai, Zhiqi Bu, Qi Long(参考訳) ミスデータは現実世界のアプリケーションではユビキタスであり、適切に扱わなければ、下流分析における情報の喪失や偏見のある発見につながる可能性がある。 特に、中程度のサンプルサイズを持つ高次元不完全データ(マルチオミクスデータの解析など)は、困難な課題である。 インプテーションは、欠落データを扱う最も一般的な方法であるが、既存のインプテーションメソッドにはいくつかの制限がある。 行列補完法のような単一計算法は、計算の不確かさを適切に考慮せず、したがって不適切な統計的推測をもたらす。 対照的に、Multiple Imputation(MI)メソッドは適切な推論を可能にするが、既存のメソッドは高次元設定ではうまく動作しない。 本研究の目的は,ベイズの観点からのニューラルネットワークガウス過程(NNGP)の最近の進歩を利用して,これらの重要な方法論的ギャップに対処することである。 本研究では,結合分布(後予測分布)からの欠落値に対して複数のインプットを適用可能な2つのnngpベースのmi法,すなわちmi-nngpを提案する。 MI-NNGP法は, MCAR, MAR, MNARの3つの欠落データ機構の下で, 計算誤差, 統計的推測, 欠落率に対する堅牢性, 計算コストの点で, 合成および実データに対する既存の最先端手法を著しく上回っている。

Missing data are ubiquitous in real world applications and, if not adequately handled, may lead to the loss of information and biased findings in downstream analysis. Particularly, high-dimensional incomplete data with a moderate sample size, such as analysis of multi-omics data, present daunting challenges. Imputation is arguably the most popular method for handling missing data, though existing imputation methods have a number of limitations. Single imputation methods such as matrix completion methods do not adequately account for imputation uncertainty and hence would yield improper statistical inference. In contrast, multiple imputation (MI) methods allow for proper inference but existing methods do not perform well in high-dimensional settings. Our work aims to address these significant methodological gaps, leveraging recent advances in neural network Gaussian process (NNGP) from a Bayesian viewpoint. We propose two NNGP-based MI methods, namely MI-NNGP, that can apply multiple imputations for missing values from a joint (posterior predictive) distribution. The MI-NNGP methods are shown to significantly outperform existing state-of-the-art methods on synthetic and real datasets, in terms of imputation error, statistical inference, robustness to missing rates, and computation costs, under three missing data mechanisms, MCAR, MAR, and MNAR.
翻訳日:2022-11-28 18:23:32 公開日:2022-11-23
# サイバー犯罪調査のためのデータ駆動意思決定支援

Principled Data-Driven Decision Support for Cyber-Forensic Investigations ( http://arxiv.org/abs/2211.13345v1 )

ライセンス: Link先を確認
Soodeh Atefi, Sakshyam Panda, Manos Panaousis, Aron Laszka(参考訳) サイバーセキュリティインシデントをきっかけに、脅威アクターが事故の影響を評価するためにセキュリティを侵害し、さらなる攻撃から保護できる対策を開発し、展開する方法について、迅速に発見することが重要である。 この目的のために、ディフェンダーはサイバー法医学的な調査を開始し、攻撃者が事件で使ったテクニックを発見する。 このような調査における根本的な課題は、各技術の調査には時間と労力がかかるため、特定の技術についての調査を優先することである。 迅速な発見を確保するためには、この優先順位付けで法医学的分析を行うのに役立つ決定的支援を提供することが不可欠である。 最近の研究では、事前インシデントのデータセットに基づいたデータ駆動決定サポートが最先端の優先順位付けを提供できることが示されている。 しかし、このデータ駆動型アプローチはdisCLOSEと呼ばれ、利用可能な情報のサブセットのみを利用し、最適決定を近似しないヒューリスティックに基づいている。 このヒューリスティック性を改善するために,サイバーフォレンシック調査のためのデータ駆動意思決定支援のための原則的アプローチを提案する。 我々はマルコフ決定プロセスを用いて意思決定支援問題を定式化し、その状態は法医学的調査の状態を表す。 そこで本研究では,事前インシデントに対するk-nn回帰を用いて状態遷移確率を推定するモンテカルロ木探索法を提案する。 我々は,実世界のサイバーインシデントに基づく敵対的手法と戦術の知識ベースであるmitre att&ckデータセットの複数バージョンについて提案手法を評価し,我々のアプローチが労力当たりのテクニックで開示されるよりも優れていることを示す。

In the wake of a cybersecurity incident, it is crucial to promptly discover how the threat actors breached security in order to assess the impact of the incident and to develop and deploy countermeasures that can protect against further attacks. To this end, defenders can launch a cyber-forensic investigation, which discovers the techniques that the threat actors used in the incident. A fundamental challenge in such an investigation is prioritizing the investigation of particular techniques since the investigation of each technique requires time and effort, but forensic analysts cannot know which ones were actually used before investigating them. To ensure prompt discovery, it is imperative to provide decision support that can help forensic analysts with this prioritization. A recent study demonstrated that data-driven decision support, based on a dataset of prior incidents, can provide state-of-the-art prioritization. However, this data-driven approach, called DISCLOSE, is based on a heuristic that utilizes only a subset of the available information and does not approximate optimal decisions. To improve upon this heuristic, we introduce a principled approach for data-driven decision support for cyber-forensic investigations. We formulate the decision-support problem using a Markov decision process, whose states represent the states of a forensic investigation. To solve the decision problem, we propose a Monte Carlo tree search based method, which relies on a k-NN regression over prior incidents to estimate state-transition probabilities. We evaluate our proposed approach on multiple versions of the MITRE ATT&CK dataset, which is a knowledge base of adversarial techniques and tactics based on real-world cyber incidents, and demonstrate that our approach outperforms DISCLOSE in terms of techniques discovered per effort spent.
翻訳日:2022-11-28 17:58:55 公開日:2022-11-23
# 音声対話システムにおけるコンテキストキューを用いたデバイス指向性

Device Directedness with Contextual Cues for Spoken Dialog Systems ( http://arxiv.org/abs/2211.13280v1 )

ライセンス: Link先を確認
Dhanush Bekal, Sundararajan Srinivasan, Sravan Bodapati, Srikanth Ronanki, Katrin Kirchhoff(参考訳) 本研究では,バージイン検証を,音声のみの情報を用いてユーザの音声対話を真偽バージインに分類する教師付き学習タスクとして定義する。 事前学習モデルの成功に続き,下流分類タスクに自己教師あり表現学習モデルを用いた低レベル音声表現を用いた。 さらに,事前学習中に暗黙的に学習されるドメイン固有言語情報を改善するために,語彙情報を音声表現に直接注入する新しい手法を提案する。 音声ダイアログデータを用いた実験により,音声と自動音声認識(ASR)を併用したベースラインLSTMモデルに対して,バージインを全表現から評価する訓練を行ったモデルは,相対的に38%高速化し,F1スコアが4.5%向上した。 これに加えて、語彙的に注入された表現と文脈的特徴を持つ最良のモデルにより、F1スコアが5.7%向上するが、ベースラインよりもわずか22%向上した。

In this work, we define barge-in verification as a supervised learning task where audio-only information is used to classify user spoken dialogue into true and false barge-ins. Following the success of pre-trained models, we use low-level speech representations from a self-supervised representation learning model for our downstream classification task. Further, we propose a novel technique to infuse lexical information directly into speech representations to improve the domain-specific language information implicitly learned during pre-training. Experiments conducted on spoken dialog data show that our proposed model trained to validate barge-in entirely from speech representations is faster by 38% relative and achieves 4.5% relative F1 score improvement over a baseline LSTM model that uses both audio and Automatic Speech Recognition (ASR) 1-best hypotheses. On top of this, our best proposed model with lexically infused representations along with contextual features provides a further relative improvement of 5.7% in the F1 score but only 22% faster than the baseline.
翻訳日:2022-11-28 17:56:19 公開日:2022-11-23
# 差別化の学習

Learning to Rasterize Differentiable ( http://arxiv.org/abs/2211.13333v1 )

ライセンス: Link先を確認
Chenghao Wu, Zahra Montazeri, Tobias Ritschel(参考訳) 微分可能ラスタ化は、ほぼ至る所で不連続な辺と閉塞によって勾配がゼロとなる原始ラスタ化の共通な定式化を、この制限の対象にならず、類似のオプティマを持つ別のものに変更する。 これらの代替バージョンは、元々のバージョンの'soft'バージョンである。 残念ながら、どのようなソフト化の正確な方法が、最も高い信頼性を望ましい目標にまとめるという点で、最高のパフォーマンスを提供するのかは明らかではない。 これまでの研究は、軟化のいくつかの組み合わせを分析し、比較してきた。 そこで本研究では, ソフト化操作を組合せ的に選択する代わりに, ソフト化操作の連続空間をパラメータ化する。 パラメトリックなs字曲線とmlpを逆レンダリングタスクのセットでメタラーニングすることで、最適なソフトネスで新しい識別不能なレンダリングタスクに一般化する。

Differentiable rasterization changes the common formulation of primitive rasterization -- which has zero gradients almost everywhere, due to discontinuous edges and occlusion -- to an alternative one, which is not subject to this limitation and has similar optima. These alternative versions in general are ''soft'' versions of the original one. Unfortunately, it is not clear, what exact way of softening will provide the best performance in terms of converging the most reliability to a desired goal. Previous work has analyzed and compared several combinations of softening. In this work, we take it a step further and, instead of making a combinatorical choice of softening operations, parametrize the continuous space of all softening operations. We study meta-learning a parametric S-shape curve as well as an MLP over a set of inverse rendering tasks, so that it generalizes to new and unseen differentiable rendering tasks with optimal softness.
翻訳日:2022-11-28 17:56:01 公開日:2022-11-23
# 動作制限データセットへの転送を可能にするマルチ環境事前トレーニング

Multi-Environment Pretraining Enables Transfer to Action Limited Datasets ( http://arxiv.org/abs/2211.13337v1 )

ライセンス: Link先を確認
David Venuto, Sherry Yang, Pieter Abbeel, Doina Precup, Igor Mordatch, Ofir Nachum(参考訳) 大規模なデータセットを使用して大規模モデルをトレーニングすることは、自然言語や視覚応用における広範な一般化の主流のアプローチとして現れている。 しかし強化学習では、シーケンシャルな意思決定の利用可能なデータは、しばしばアクションで注釈付けされない。例えば、ゲームプレイのビデオは、ログされたゲームコントロールとペアリングされたフレームのシーケンスよりもずっと多く利用可能である。 この課題を回避すべく,多種多様な \emph{source} 環境からの完全注釈付きデータセットと興味のある \emph{target} 環境から,大小ながら疎アノテートされたデータセットを組み合わせることを提案する。 提案手法であるAction Limited PreTraining (ALPT) は,逆ダイナミクスモデリング(IDM)の一般化機能を活用し,ターゲット環境での動作データをラベル付けする。 idmプリトレーニング中にラベル付きデータの1つの追加環境データセットを利用すると、注釈なしシーケンスに対するアクションラベルの生成が大幅に改善することを示す。 本手法をゲームプレイ環境のベンチマークで評価し,12ドル相当のアノテートデータセットを用いて,他の手法と比較してゲーム性能と一般化能力を大幅に向上させることができることを示す。 IDMのパワーを誇示して、ターゲット環境とソース環境が共通の行動を共有していない場合でも、これらの利点が残ることを示す。

Using massive datasets to train large-scale models has emerged as a dominant approach for broad generalization in natural language and vision applications. In reinforcement learning, however, a key challenge is that available data of sequential decision making is often not annotated with actions - for example, videos of game-play are much more available than sequences of frames paired with their logged game controls. We propose to circumvent this challenge by combining large but sparsely-annotated datasets from a \emph{target} environment of interest with fully-annotated datasets from various other \emph{source} environments. Our method, Action Limited PreTraining (ALPT), leverages the generalization capabilities of inverse dynamics modelling (IDM) to label missing action data in the target environment. We show that utilizing even one additional environment dataset of labelled data during IDM pretraining gives rise to substantial improvements in generating action labels for unannotated sequences. We evaluate our method on benchmark game-playing environments and show that we can significantly improve game performance and generalization capability compared to other approaches, using annotated datasets equivalent to only $12$ minutes of gameplay. Highlighting the power of IDM, we show that these benefits remain even when target and source environments share no common actions.
翻訳日:2022-11-28 17:40:52 公開日:2022-11-23
# 集団合成のための深層学習モデルのロバスト性解析

Robustness Analysis of Deep Learning Models for Population Synthesis ( http://arxiv.org/abs/2211.13339v1 )

ライセンス: Link先を確認
Daniel Opoku Mensah and Godwin Badu-Marfo and Bilal Farooq(参考訳) 深層生成モデルは、合成データ生成、特に集団合成に有用である。 モデルは暗黙的にデータセットの確率分布を学習し、分布からサンプルを描画する。 いくつかのモデルが提案されているが、性能は1つの断面サンプルでのみテストされている。 単一のデータセット上での集団合成の実装は、複数のデータセット上のモデルのロバスト性を調べるためのさらなる研究が必要である。 実データとの比較によってモデルの信頼度や解釈性が向上する一方で、深層生成モデルの集団合成に対する堅牢性を評価する手法は未検討のままである。 本研究では,複数のデータセットに対するモデルの堅牢性を評価するために,平均誤差予測のための効率的な信頼区間を計算する手法である,深部生成モデルのブートストラップ信頼区間を提案する。 具体的には、同じ研究領域から、複数のサンプルを用いて表データを持つエージェントを生成し、その分布を推定するために、表表ベースの複合旅行生成適応ネットワーク(CTGAN)と変分オートエンコーダ(VAE)を採用する。 これらのモデルは、2008年と2013年と2018年のモントリオールオリジン調査の複数の旅行日記に実装され、複数の調査から得られた様々なサンプルサイズでの予測性能を比較する。 その結果, CTGANの予測誤差は, VAEと比較した場合, サンプルサイズの異なる複数のデータセットに対して頑健性を示す信頼区間が狭いことがわかった。 また, 異なる試料サイズに対するモデルロバスト性の評価は, 試料サイズの減少に伴うモデル性能の最小化を示す。 本研究は,信頼性の高い環境下での個体群を高精度に合成することにより,エージェントベースモデリングを直接支援する。

Deep generative models have become useful for synthetic data generation, particularly population synthesis. The models implicitly learn the probability distribution of a dataset and can draw samples from a distribution. Several models have been proposed, but their performance is only tested on a single cross-sectional sample. The implementation of population synthesis on single datasets is seen as a drawback that needs further studies to explore the robustness of the models on multiple datasets. While comparing with the real data can increase trust and interpretability of the models, techniques to evaluate deep generative models' robustness for population synthesis remain underexplored. In this study, we present bootstrap confidence interval for the deep generative models, an approach that computes efficient confidence intervals for mean errors predictions to evaluate the robustness of the models to multiple datasets. Specifically, we adopt the tabular-based Composite Travel Generative Adversarial Network (CTGAN) and Variational Autoencoder (VAE), to estimate the distribution of the population, by generating agents that have tabular data using several samples over time from the same study area. The models are implemented on multiple travel diaries of Montreal Origin- Destination Survey of 2008, 2013, and 2018 and compare the predictive performance under varying sample sizes from multiple surveys. Results show that the predictive errors of CTGAN have narrower confidence intervals indicating its robustness to multiple datasets of the varying sample sizes when compared to VAE. Again, the evaluation of model robustness against varying sample size shows a minimal decrease in model performance with decrease in sample size. This study directly supports agent-based modelling by enabling finer synthetic generation of populations in a reliable environment.
翻訳日:2022-11-28 17:40:30 公開日:2022-11-23
# 強化学習のための費用対効果関数のアクティブ学習

Actively Learning Costly Reward Functions for Reinforcement Learning ( http://arxiv.org/abs/2211.13260v1 )

ライセンス: Link先を確認
Andr\'e Eberhard, Houssam Metni, Georg Fahland, Alexander Stroh, Pascal Friederich(参考訳) 深層強化学習の最近の進歩を現実のアプリケーションに移すことは、高いデータ要求と低い効率とスケーラビリティによって妨げられている。 リプレイバッファやより安定した学習アルゴリズムなどのコンポーネントを独立に改善し、大規模分散システムを通じて、標準的なベンチマークタスクではトレーニング時間を数日から数時間に短縮することができた。 しかしながら、シミュレーション環境における報酬は明確に定義され、計算が容易であるが、報酬評価は、例えば分子最適化タスクにおいて、状態の評価や報酬の定量化のために計算上要求されるシミュレーションや実験が必要となるような、多くの実環境環境においてボトルネックとなる。 したがって、膨大な計算資源と時間なしでは、トレーニングは禁止的に高価になる可能性がある。 本稿では,ニューラルネットワークでモデル化した報酬に代えて,アクティブな学習コンポーネントを用いたトレーニングにおいて,状態の非定常性と報酬分布に対処することにより,この問題を軽減することを提案する。 提案手法(強化学習に要する報酬を積極的に学習する)を用いて,複雑な実環境においてエージェントをより高速に訓練できることを実証した。 強化学習手法を新しい領域に応用することで,化学,材料科学,工学における実世界の最適化問題に対する興味深く非自明な解決法を見いだせることを示す。

Transfer of recent advances in deep reinforcement learning to real-world applications is hindered by high data demands and thus low efficiency and scalability. Through independent improvements of components such as replay buffers or more stable learning algorithms, and through massively distributed systems, training time could be reduced from several days to several hours for standard benchmark tasks. However, while rewards in simulated environments are well-defined and easy to compute, reward evaluation becomes the bottleneck in many real-world environments, e.g., in molecular optimization tasks, where computationally demanding simulations or even experiments are required to evaluate states and to quantify rewards. Therefore, training might become prohibitively expensive without an extensive amount of computational resources and time. We propose to alleviate this problem by replacing costly ground-truth rewards with rewards modeled by neural networks, counteracting non-stationarity of state and reward distributions during training with an active learning component. We demonstrate that using our proposed ACRL method (Actively learning Costly rewards for Reinforcement Learning), it is possible to train agents in complex real-world environments orders of magnitudes faster. By enabling the application of reinforcement learning methods to new domains, we show that we can find interesting and non-trivial solutions to real-world optimization problems in chemistry, materials science and engineering.
翻訳日:2022-11-28 17:30:13 公開日:2022-11-23
# CoMadOut - CoMADに基づくロバストな外乱検出アルゴリズム

CoMadOut -- A Robust Outlier Detection Algorithm based on CoMAD ( http://arxiv.org/abs/2211.13314v1 )

ライセンス: Link先を確認
Andreas Lohrer, Daniyal Kazempour, Maximilian H\"unem\"order, Peer Kr\"oger(参考訳) 異常検出領域において教師なし学習手法が確立され, 外れ値データセット上でのアートパフォーマンスの達成が期待できる。 異常値は、与えられたデータセット上の機械学習アルゴリズムの予測を歪める可能性を持っているため、重要な役割を果たす。 特にpcaベースの手法では、アウトリアーは結果に対してさらなる破壊的な可能性を秘めている: 主成分の向きや変換を歪ませるだけでなく、アウトリアーを検出するのもより複雑になる。 この問題に対処するために,(1)外れ値に対して頑健であること,(2)検出する2つの特性を満たすロバストな外れ値検出アルゴリズムcomadoutを提案する。 coMAD-PCAを用いた外乱検出法は,その変種である非分布(ID)と外分布(OOD)によって,頑健なノイズマージンを持つ不整域に依存している。 これらの測定により、各主成分に対する分布に基づくアウトレイアスコアリングが可能となり、通常のインスタンスと異常なインスタンス間の決定境界の適切なアライメントが可能となる。 CoMadOutと従来の、深い、その他の同等の堅牢な外れ値検出手法との比較実験により、導入したCoMadOutアプローチの性能は、平均精度(AP)、リコール、受信動作特性(AUROC)曲線下での面積に関する確立された手法と競合することが示された。 まとめると、我々のアプローチは、外れ値検出タスクの堅牢な代替案と見なすことができる。

Unsupervised learning methods are well established in the area of anomaly detection and achieve state of the art performances on outlier data sets. Outliers play a significant role, since they bear the potential to distort the predictions of a machine learning algorithm on a given data set. Especially among PCA-based methods, outliers have an additional destructive potential regarding the result: they may not only distort the orientation and translation of the principal components, they also make it more complicated to detect outliers. To address this problem, we propose the robust outlier detection algorithm CoMadOut, which satisfies two required properties: (1) being robust towards outliers and (2) detecting them. Our outlier detection method using coMAD-PCA defines dependent on its variant an inlier region with a robust noise margin by measures of in-distribution (ID) and out-of-distribution (OOD). These measures allow distribution based outlier scoring for each principal component, and thus, for an appropriate alignment of the decision boundary between normal and abnormal instances. Experiments comparing CoMadOut with traditional, deep and other comparable robust outlier detection methods showed that the performance of the introduced CoMadOut approach is competitive to well established methods related to average precision (AP), recall and area under the receiver operating characteristic (AUROC) curve. In summary our approach can be seen as a robust alternative for outlier detection tasks.
翻訳日:2022-11-28 17:29:50 公開日:2022-11-23
# イントレーニング表現アライメントによるコンパクトな特徴の学習

Learning Compact Features via In-Training Representation Alignment ( http://arxiv.org/abs/2211.13332v1 )

ライセンス: Link先を確認
Xin Li, Xiangrui Li, Deng Pan, Yao Qiang, and Dongxiao Zhu(参考訳) 教師付き学習のためのディープニューラルネットワーク(DNN)は、特徴抽出器(すなわち最後の隠蔽層)と、損失関数(例えばクロスエントロピー)上の確率勾配降下(SGD)と共同で訓練される線形分類器(すなわち出力層)のパイプラインと見なすことができる。 各時代において、トレーニングセットからサンプリングされたミニバッチを用いて損失関数の真の勾配を推定し、モデルパラメータをミニバッチ勾配で更新する。 後者は、前者の偏りのない推定を提供するが、サンプルされたミニバッチのサイズと数から派生した実質的なばらつきがあり、騒がしい更新に繋がる。 真の勾配推定におけるこのような望ましくない分散を安定化するために,2つの異なるミニバッチの特徴分布をsgd訓練過程における損失と明確に一致させるイントレーニング表現アライメント(itra)を提案する。 また,(1)コンパクトな特徴表現の抽出,(2)適応的な重み付け機構によるミニバッチの過剰適応の低減、(3)マルチモダリティへの適応、といった特徴表現学習におけるマッチング損失の望ましい効果の厳密な分析を提供する。 最後に,画像とテキストの分類について大規模な実験を行い,その性能を強いベースラインに示す。

Deep neural networks (DNNs) for supervised learning can be viewed as a pipeline of the feature extractor (i.e., last hidden layer) and a linear classifier (i.e., output layer) that are trained jointly with stochastic gradient descent (SGD) on the loss function (e.g., cross-entropy). In each epoch, the true gradient of the loss function is estimated using a mini-batch sampled from the training set and model parameters are then updated with the mini-batch gradients. Although the latter provides an unbiased estimation of the former, they are subject to substantial variances derived from the size and number of sampled mini-batches, leading to noisy and jumpy updates. To stabilize such undesirable variance in estimating the true gradients, we propose In-Training Representation Alignment (ITRA) that explicitly aligns feature distributions of two different mini-batches with a matching loss in the SGD training process. We also provide a rigorous analysis of the desirable effects of the matching loss on feature representation learning: (1) extracting compact feature representation; (2) reducing over-adaption on mini-batches via an adaptive weighting mechanism; and (3) accommodating to multi-modalities. Finally, we conduct large-scale experiments on both image and text classifications to demonstrate its superior performance to the strong baselines.
翻訳日:2022-11-28 17:29:20 公開日:2022-11-23
# Make-A-Story: ビジュアルメモリ条件の一貫性のあるストーリー生成

Make-A-Story: Visual Memory Conditioned Consistent Story Generation ( http://arxiv.org/abs/2211.13319v1 )

ライセンス: Link先を確認
Tanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta Mahajan, Leonid Sigal(参考訳) テキスト記述に条件付けされた高品質な画像(あるいはビデオ)を生成できる、印象的な生成モデルが近年爆発的に増えている。 しかし、これらのアプローチはすべて、シーンや主要役者の曖昧な記述を含む条件文に依存している。 したがって、自然な参照やコレファレンスが存在するストーリービジュアライゼーションのより複雑なタスクにそのようなモデルを採用するには、アクターと背景のフレーム/シーン間の一貫性をいつ維持するか、そしてストーリーの進行に基づいていなければいけないのかを判断する必要がある。 本稿では,上記の課題に対処し,生成されたフレーム間でアクタと背景コンテキストを暗黙的にキャプチャするビジュアルメモリモジュールを備えた,新しい自己回帰拡散ベースのフレームワークを提案する。 記憶に対する文条件付きソフトアテンションは効果的な参照解決を可能にし、必要に応じてシーンとアクターの一貫性を維持することを学習する。 提案手法の有効性を検証するため,MUGENデータセットを拡張し,多文ストーリーラインに文字,背景,参照を追加する。 MUGENとFlintstonesSVデータセット上でのストーリー生成実験により,本手法は,ストーリーに整合した高い視覚的品質のフレームを生成する上で,先行技術よりも優れるだけでなく,キャラクタと背景との適切な対応をモデル化する。

There has been a recent explosion of impressive generative models that can produce high quality images (or videos) conditioned on text descriptions. However, all such approaches rely on conditional sentences that contain unambiguous descriptions of scenes and main actors in them. Therefore employing such models for more complex task of story visualization, where naturally references and co-references exist, and one requires to reason about when to maintain consistency of actors and backgrounds across frames/scenes, and when not to, based on story progression, remains a challenge. In this work, we address the aforementioned challenges and propose a novel autoregressive diffusion-based framework with a visual memory module that implicitly captures the actor and background context across the generated frames. Sentence-conditioned soft attention over the memories enables effective reference resolution and learns to maintain scene and actor consistency when needed. To validate the effectiveness of our approach, we extend the MUGEN dataset and introduce additional characters, backgrounds and referencing in multi-sentence storylines. Our experiments for story generation on the MUGEN and the FlintstonesSV dataset show that our method not only outperforms prior state-of-the-art in generating frames with high visual quality, which are consistent with the story, but also models appropriate correspondences between the characters and the background.
翻訳日:2022-11-28 16:29:53 公開日:2022-11-23
# ベイズ脳:3次元物体を認識する知覚による計算

Bayesian Brain: Computation with Perception to Recognize 3D Objects ( http://arxiv.org/abs/2211.13315v1 )

ライセンス: Link先を確認
Kumar Sankar Ray(参考訳) ベイズ仮説に基づき、人間の知覚の認知能力を模倣し、ビューベースの3dオブジェクトを認識する。 我々は,認識の知覚的推論として近似ベイズ(empirical bayesian)を考える。 私たちは知覚で計算を処理します。

We mimic the cognitive ability of Human perception, based on Bayesian hypothesis, to recognize view-based 3D objects. We consider approximate Bayesian (Empirical Bayesian) for perceptual inference for recognition. We essentially handle computation with perception.
翻訳日:2022-11-28 16:17:57 公開日:2022-11-23
# CGOF++:条件付き生成操作場を用いた制御可能な3次元顔合成

CGOF++: Controllable 3D Face Synthesis with Conditional Generative Occupancy Fields ( http://arxiv.org/abs/2211.13251v1 )

ライセンス: Link先を確認
Keqiang Sun, Shangzhe Wu, Ning Zhang, Zhaoyang Huang, Quan Wang, Hongsheng Li(参考訳) 画像生成モデルの最近の進歩を活かして、既存の制御可能な顔画像合成手法は、生成した顔画像の形状、表情、テクスチャ、ポーズの制御など、ある程度の制御性を持つ高忠実な画像を生成することができる。 しかし、従来の手法では制御可能な2次元画像生成モデルに焦点をあてており、大きな表情とポーズ変化の下で一貫性のない顔画像を生成する傾向がある。 本稿では,3次元顔先行画像から3次元条件を明示することにより,生成した顔画像の3次元制御を可能にする,NeRFベースの条件付き3次元顔合成フレームワークを提案する。 コアとなるのは条件付き生成操作場(cGOF++)であり、それによって生成された顔の形状を、最新の三面体ベースの生成モデルEG3D [1]上に構築された所定の3Dモルファブルモデル(3DMM)メッシュに効果的に適合させる。 合成画像の微細な3次元顔形状の正確な制御を実現するため,合成フレームワークに3次元ランドマークの損失と体積の歪みの損失を取り入れた。 提案手法の有効性を検証し,高忠実な顔画像を生成し,最先端の2Dベースの制御可能な顔合成法よりも高精度な3D制御性を示す。

Capitalizing on the recent advances in image generation models, existing controllable face image synthesis methods are able to generate high-fidelity images with some levels of controllability, e.g., controlling the shapes, expressions, textures, and poses of the generated face images. However, previous methods focus on controllable 2D image generative models, which are prone to producing inconsistent face images under large expression and pose changes. In this paper, we propose a new NeRF-based conditional 3D face synthesis framework, which enables 3D controllability over the generated face images by imposing explicit 3D conditions from 3D face priors. At its core is a conditional Generative Occupancy Field (cGOF++) that effectively enforces the shape of the generated face to conform to a given 3D Morphable Model (3DMM) mesh, built on top of EG3D [1], a recent tri-plane-based generative model. To achieve accurate control over fine-grained 3D face shapes of the synthesized images, we additionally incorporate a 3D landmark loss as well as a volume warping loss into our synthesis framework. Experiments validate the effectiveness of the proposed method, which is able to generate high-fidelity face images and shows more precise 3D controllability than state-of-the-art 2D-based controllable face synthesis methods.
翻訳日:2022-11-28 16:17:22 公開日:2022-11-23
# ハイパーグラフ再構成

Supervised Hypergraph Reconstruction ( http://arxiv.org/abs/2211.13343v1 )

ライセンス: Link先を確認
Yanbang Wang, Jon Kleinberg(参考訳) 高次相互作用を含む多くの実世界の複雑なシステムは、ハイパーグラフによって最もよく符号化されるが、それらのデータセットは、投射(dyadic edges)の形でのみ公開または研究されることが多い。 この問題を理解するために,我々はまず,この問題の意味と最悪のシナリオを特徴付ける理論的枠組みを確立する。 分析は、アプリケーションドメインに関する既存の知識の助けを借りて、実世界のハイパーグラフを投影されたグラフから再構築するハイパーグラフ再構築を監督する、新しいタスクの定式化を動機付ける。 To reconstruct hypergraph data, we start by analyzing hyperedge distributions in the projection, based on which we create a framework containing two modules: (1) to handle the enormous search space of potential hyperedges, we design a sampling strategy with efficacy guarantees that significantly narrows the space to a smaller set of candidates; (2) to identify hyperedges from the candidates, we further design a hyperedge classifier in two well-working variants that capture structural features in the projection. 広範な実験は私たちの主張、アプローチ、拡張を検証する。 注目すべきは、ハードデータセットに対する精度の桁違いの精度で、我々のアプローチはすべてのベースラインを上回ります。 私たちのコードとデータはbit.ly/SHyReからダウンロードできます。

We study an issue commonly seen with graph data analysis: many real-world complex systems involving high-order interactions are best encoded by hypergraphs; however, their datasets often end up being published or studied only in the form of their projections (with dyadic edges). To understand this issue, we first establish a theoretical framework to characterize this issue's implications and worst-case scenarios. The analysis motivates our formulation of the new task, supervised hypergraph reconstruction: reconstructing a real-world hypergraph from its projected graph, with the help of some existing knowledge of the application domain. To reconstruct hypergraph data, we start by analyzing hyperedge distributions in the projection, based on which we create a framework containing two modules: (1) to handle the enormous search space of potential hyperedges, we design a sampling strategy with efficacy guarantees that significantly narrows the space to a smaller set of candidates; (2) to identify hyperedges from the candidates, we further design a hyperedge classifier in two well-working variants that capture structural features in the projection. Extensive experiments validate our claims, approach, and extensions. Remarkably, our approach outperforms all baselines by an order of magnitude in accuracy on hard datasets. Our code and data can be downloaded from bit.ly/SHyRe.
翻訳日:2022-11-28 16:00:13 公開日:2022-11-23
# 第4回読書音楽システム国際ワークショップ参加報告

Proceedings of the 4th International Workshop on Reading Music Systems ( http://arxiv.org/abs/2211.13285v1 )

ライセンス: Link先を確認
Jorge Calvo-Zaragoza, Alexander Pacha and Elona Shatri (Eds.)(参考訳) The International Workshop on Reading Music Systems (WoRMS)は、光学音楽認識の分野のような音楽を読むシステムを開発する研究者と、図書館員や音楽学者のようなシステムから恩恵を受けることができる他の研究者や実践者を結びつけるワークショップである。 ワークショップには、音楽読取システム、光学的音楽認識、データセットとパフォーマンス評価、音楽スコアの画像処理、作者識別、音楽スコアのオーサリング、編集、保存、プレゼンテーションシステム、マルチモーダルシステム、作曲された音楽を作成するための新しい入力メソッド、Webベースの音楽情報検索サービス、アプリケーションとプロジェクト、そして、書き込まれた音楽に関連するユースケースが含まれる。 これは2022年11月18日に開催された第4回読書音楽システム国際ワークショップの手続きである。

The International Workshop on Reading Music Systems (WoRMS) is a workshop that tries to connect researchers who develop systems for reading music, such as in the field of Optical Music Recognition, with other researchers and practitioners that could benefit from such systems, like librarians or musicologists. The relevant topics of interest for the workshop include, but are not limited to: Music reading systems; Optical music recognition; Datasets and performance evaluation; Image processing on music scores; Writer identification; Authoring, editing, storing and presentation systems for music scores; Multi-modal systems; Novel input-methods for music to produce written music; Web-based Music Information Retrieval services; Applications and projects; Use-cases related to written music. These are the proceedings of the 4th International Workshop on Reading Music Systems, held online on Nov. 18th 2022.
翻訳日:2022-11-28 15:59:30 公開日:2022-11-23
# 対立攻撃検出のための多面体分解のデュアルグラフ

Dual Graphs of Polyhedral Decompositions for the Detection of Adversarial Attacks ( http://arxiv.org/abs/2211.13305v1 )

ライセンス: Link先を確認
Huma Jamil, Yajing Liu, Christina Cole, Nathaniel Blanchard, Emily J. King, Michael Kirby, Christopher Peterson(参考訳) 従来の研究は、整列線形単位(ReLU)活性化関数を持つニューラルネットワークが入力空間の凸多面体分解をもたらすことを示した。 これらの分解は、多面体に対応する頂点とハミンググラフのサブグラフであるファセットを共有する多面体に対応する辺を持つ双対グラフで表現することができる。 本稿では,デジタル画像の文脈における敵攻撃の検出と解析にデュアルグラフを利用する方法について述べる。 reluノードを含むネットワークをイメージが通過すると、ノードの起動またはノンファイリングをビットとしてエンコードすることができる(reluアクティベーションに$$$、relu非アクティベーションに$0$)。 すべてのビットアクティベーションのシーケンスは、画像をビットベクトルで識別し、分解中の多面体と識別し、さらに双対グラフの頂点と識別する。 非敵画像と敵画像の判別子であるreluビットを識別し、これらの識別子の集合がいかにうまく投票して敵画像検出器を構築することができるかを調べる。 具体的には,ResNet-50アーキテクチャを用いて,逆画像に対するReLUビットベクトルの類似性と相違点について検討する。 本稿では,逆デジタル画像,ResNet-50アーキテクチャ,ReLUアクティベーション機能に着目し,本手法を他のネットワークアーキテクチャ,アクティベーション機能,データセットの種類にまで拡張する。

Previous work has shown that a neural network with the rectified linear unit (ReLU) activation function leads to a convex polyhedral decomposition of the input space. These decompositions can be represented by a dual graph with vertices corresponding to polyhedra and edges corresponding to polyhedra sharing a facet, which is a subgraph of a Hamming graph. This paper illustrates how one can utilize the dual graph to detect and analyze adversarial attacks in the context of digital images. When an image passes through a network containing ReLU nodes, the firing or non-firing at a node can be encoded as a bit ($1$ for ReLU activation, $0$ for ReLU non-activation). The sequence of all bit activations identifies the image with a bit vector, which identifies it with a polyhedron in the decomposition and, in turn, identifies it with a vertex in the dual graph. We identify ReLU bits that are discriminators between non-adversarial and adversarial images and examine how well collections of these discriminators can ensemble vote to build an adversarial image detector. Specifically, we examine the similarities and differences of ReLU bit vectors for adversarial images, and their non-adversarial counterparts, using a pre-trained ResNet-50 architecture. While this paper focuses on adversarial digital images, ResNet-50 architecture, and the ReLU activation function, our methods extend to other network architectures, activation functions, and types of datasets.
翻訳日:2022-11-28 15:53:16 公開日:2022-11-23
# 大規模拡散モデルによる画像を用いた皮膚科分類器の改良

Improving dermatology classifiers across populations using images generated by large diffusion models ( http://arxiv.org/abs/2211.13352v1 )

ライセンス: Link先を確認
Luke W. Sagers, James A. Diao, Matthew Groh, Pranav Rajpurkar, Adewole S. Adamson, Arjun K. Manrai(参考訳) 十分な多様な訓練データなしに開発された皮膚学分類アルゴリズムは、個体群全体にわたってあまり一般化しない。 意図的なデータ収集とアノテーションは表現を改善する最良の手段であるが、トレーニングデータを生成するための新しい計算手法はサンプリングバイアスの効果を軽減するのに役立つ。 本稿では,大規模なテキスト・画像拡散モデルであるDALL$\cdot$E2を用いて皮膚疾患の光写実像を作成できることを示す。 フィッツパトリック17kデータセットをベンチマークとして, dall$\cdot$e 2生成合成画像を用いたトレーニングデータの強化が, 皮膚疾患全体の分類, 特に低表示群の分類を改善することを実証した。

Dermatological classification algorithms developed without sufficiently diverse training data may generalize poorly across populations. While intentional data collection and annotation offer the best means for improving representation, new computational approaches for generating training data may also aid in mitigating the effects of sampling bias. In this paper, we show that DALL$\cdot$E 2, a large-scale text-to-image diffusion model, can produce photorealistic images of skin disease across skin types. Using the Fitzpatrick 17k dataset as a benchmark, we demonstrate that augmenting training data with DALL$\cdot$E 2-generated synthetic images improves classification of skin disease overall and especially for underrepresented groups.
翻訳日:2022-11-28 15:52:51 公開日:2022-11-23
# Shapley Curves:スムースな視点

Shapley Curves: A Smoothing Perspective ( http://arxiv.org/abs/2211.13289v1 )

ライセンス: Link先を確認
Ratmir Miftachov (1), Georg Keilbar (2), Wolfgang Karl H\"ardle (3 and 4 and 5 and 6 and 7) ((1) IRTG 1792 'High Dimensional Nonstationary Time Series' Humboldt University of Berlin, (2) Department of Statistics and Operations Research, University of Vienna, (3) BRC Blockchain Research Center, Humboldt University of Berlin, (4) Sim Kee Boon Institute, Singapore Management University, (5) Asia Competitiveness Institute, National University of Singapore, (6) Department of Information Science and Finance, National Yang Ming Chiao Tung University, (7) Department of Mathematics and Physics, Charles University)(参考訳) 協調ゲーム理論から派生したShapley値は、応用機械学習において最も広く使われている変数重要度尺度の1つである。 しかし、シャプリー値の統計的理解はまだ限られている。 本稿では、変数重要性の局所測度としてシェープリー曲線を導入することにより、非パラメトリック(あるいは滑らか化)の視点をとる。 そこで本研究では,2つの推定戦略を提案し,独立性と特徴間の依存性の両立と漸近正規性の導出を行う。 これにより、信頼区間を構築し、推定したシェープリー曲線上で推論を行うことができる。 漸近的な結果は広範な実験で検証される。 実証的なアプリケーションでは、どの属性が車両の価格を押し上げるかを分析する。

Originating from cooperative game theory, Shapley values have become one of the most widely used measures for variable importance in applied Machine Learning. However, the statistical understanding of Shapley values is still limited. In this paper, we take a nonparametric (or smoothing) perspective by introducing Shapley curves as a local measure of variable importance. We propose two estimation strategies and derive the consistency and asymptotic normality both under independence and dependence among the features. This allows us to construct confidence intervals and conduct inference on the estimated Shapley curves. The asymptotic results are validated in extensive experiments. In an empirical application, we analyze which attributes drive the prices of vehicles.
翻訳日:2022-11-28 15:42:04 公開日:2022-11-23
# テスト可能な学習に対するモーメントマッチングアプローチとラデマッハ複雑性の新たなキャラクタリゼーション

A Moment-Matching Approach to Testable Learning and a New Characterization of Rademacher Complexity ( http://arxiv.org/abs/2211.13312v1 )

ライセンス: Link先を確認
Aravind Gollakota, Adam R. Klivans, Pravesh K. Kothari(参考訳) Rubinfeld と Vasilyan (2022) による顕著な最近の論文では、'emph{testable learning} の研究が始められ、そこでのゴールは、(ガウス性のような)分布の仮定を効率的に検証可能な仮定に置き換えることであり、未知の分布が対応するテストを通過するたびに学習者が成功するように要求することである。 このモデルでは、検証可能な仮定の下でハーフスペースを学習するための効率的なアルゴリズムをガウスによって証明的に満足する。 本稿では、モーメントマッチングと確率距離から得られるツールを用いて、テスト可能な学習アルゴリズムを開発するための強力なアプローチを提案する。 我々は,低次 \emph{sandwiching polynomials} を持つ任意の概念クラスに対して効率的なテスト可能な学習者を得る。 我々は、幅広い概念クラスと分布に対して、改良されたほぼ最適サンプル複雑性境界を達成しつつ、我々の手法の系としてRubinfeld と Vasilyan の結果を回復する。 驚くべきことに、テスト可能な学習における情報理論的なサンプル複雑性は、統計的学習理論で最もよく研究されている尺度の一つである概念クラスのラデマシェ複雑性によって強く特徴づけられる。 特に、一様収束はテスト可能な学習に必要で十分である。 これは、一様収束が十分だが必要ではない、(通常)分布特異的な学習から根本的な分離につながる。

A remarkable recent paper by Rubinfeld and Vasilyan (2022) initiated the study of \emph{testable learning}, where the goal is to replace hard-to-verify distributional assumptions (such as Gaussianity) with efficiently testable ones and to require that the learner succeed whenever the unknown distribution passes the corresponding test. In this model, they gave an efficient algorithm for learning halfspaces under testable assumptions that are provably satisfied by Gaussians. In this paper we give a powerful new approach for developing algorithms for testable learning using tools from moment matching and metric distances in probability. We obtain efficient testable learners for any concept class that admits low-degree \emph{sandwiching polynomials}, capturing most important examples for which we have ordinary agnostic learners. We recover the results of Rubinfeld and Vasilyan as a corollary of our techniques while achieving improved, near-optimal sample complexity bounds for a broad range of concept classes and distributions. Surprisingly, we show that the information-theoretic sample complexity of testable learning is tightly characterized by the Rademacher complexity of the concept class, one of the most well-studied measures in statistical learning theory. In particular, uniform convergence is necessary and sufficient for testable learning. This leads to a fundamental separation from (ordinary) distribution-specific agnostic learning, where uniform convergence is sufficient but not necessary.
翻訳日:2022-11-28 15:41:55 公開日:2022-11-23
# グラフアライメント埋め込みによる教師の学習

Distilling Knowledge from Self-Supervised Teacher by Embedding Graph Alignment ( http://arxiv.org/abs/2211.13264v1 )

ライセンス: Link先を確認
Yuchen Ma, Yanbei Chen, Zeynep Akata(参考訳) 近年の進歩は、下流タスクにおける表現学習を改善するための自己指導型事前学習の強みを示している。 既存の作業は、下流のタスクを微調整することで、自己教師付き事前訓練モデルを利用することが多い。 しかし、微調整は、自己管理モデルとは異なるカスタマイズされたモデルアーキテクチャを構築する必要がある場合に一般化しない。 本研究では,自己指導型事前学習モデルから他の学生ネットワークに知識を伝達するための新しい知識蒸留フレームワークを,埋め込みグラフアライメントという新しいアプローチにより定式化した。 具体的には、自己教師型学習におけるインスタンス識別の精神に触発され、特徴埋め込み空間におけるグラフ定式化によるインスタンス-インスタンス関係をモデル化し、教師グラフと学生グラフを整列させて教師ネットワークに自己教師型教師知識を蒸留する。 蒸留方式は, 学生ネットワーク上での表現学習を促進するために, 自己指導型知識の伝達に柔軟に適用できる。 CIFAR100, STL10, TinyImageNetを含む3つのベンチマークデータセットにおいて, 本モデルが複数の代表的知識蒸留法より優れていることを示す。 コードはこちら。 https://github.com/yccm/EGA。

Recent advances have indicated the strengths of self-supervised pre-training for improving representation learning on downstream tasks. Existing works often utilize self-supervised pre-trained models by fine-tuning on downstream tasks. However, fine-tuning does not generalize to the case when one needs to build a customized model architecture different from the self-supervised model. In this work, we formulate a new knowledge distillation framework to transfer the knowledge from self-supervised pre-trained models to any other student network by a novel approach named Embedding Graph Alignment. Specifically, inspired by the spirit of instance discrimination in self-supervised learning, we model the instance-instance relations by a graph formulation in the feature embedding space and distill the self-supervised teacher knowledge to a student network by aligning the teacher graph and the student graph. Our distillation scheme can be flexibly applied to transfer the self-supervised knowledge to enhance representation learning on various student networks. We demonstrate that our model outperforms multiple representative knowledge distillation methods on three benchmark datasets, including CIFAR100, STL10, and TinyImageNet. Code is here: https://github.com/yccm/EGA.
翻訳日:2022-11-28 15:15:40 公開日:2022-11-23
# 変分オートエンコーダと複数インスタンス回帰を用いたリモートセンシング変数に基づくトウモロコシ収量予測

Corn Yield Prediction based on Remotely Sensed Variables Using Variational Autoencoder and Multiple Instance Regression ( http://arxiv.org/abs/2211.13286v1 )

ライセンス: Link先を確認
Zeyu Cao, Yuchi Ma, Zhou Zhang(参考訳) アメリカ合衆国ではトウモロコシが最も生産される作物であり、アメリカ食生活の重要な部分である。 サプライチェーン管理と地域食料安全保障の需要を満たすために、精密でタイムリーなトウモロコシ収量予測が精密農業においてより注目を集めている。 近年,収穫量予測のためのリモートセンシング技術や機械学習手法が広く研究されている。 現在、郡レベルの収量予測モデルは郡レベルの平均変数を予測に用い、詳細な情報は無視している。 さらに、作物面積と衛星センサ間の不整合空間分解能は混合画素となり、予測精度が低下する可能性がある。 大規模な収穫量予測における混合画素問題に対処した作品はごくわずかである。 情報損失と混合画素問題に対処するため,大規模トウモロコシ収量予測のための変分オートエンコーダ(VAE)に基づく多重インスタンス回帰(MIR)モデルを開発した。 ラベルなしのデータを全て使用して、VAEをトレーニングし、よく訓練されたVAEを異常検出に使用します。 前処理法として、異常検出はMIRが従来のMIR法よりも全てのバッグのより良い表現を見つけるのに役立つため、大規模なトウモロコシの収量予測においてより優れた性能を発揮する。 大規模トウモロコシ収量予測において,変分オートエンコーダベースの多重インスタンス回帰(vaemir)がすべてのベースライン法を上回った。 適切なメタパラメータが必要であるが、VAEMIRは大規模トウモロコシ収量予測のための特徴学習と抽出に優れた可能性を示している。

In the U.S., corn is the most produced crop and has been an essential part of the American diet. To meet the demand for supply chain management and regional food security, accurate and timely large-scale corn yield prediction is attracting more attention in precision agriculture. Recently, remote sensing technology and machine learning methods have been widely explored for crop yield prediction. Currently, most county-level yield prediction models use county-level mean variables for prediction, ignoring much detailed information. Moreover, inconsistent spatial resolution between crop area and satellite sensors results in mixed pixels, which may decrease the prediction accuracy. Only a few works have addressed the mixed pixels problem in large-scale crop yield prediction. To address the information loss and mixed pixels problem, we developed a variational autoencoder (VAE) based multiple instance regression (MIR) model for large-scaled corn yield prediction. We use all unlabeled data to train a VAE and the well-trained VAE for anomaly detection. As a preprocess method, anomaly detection can help MIR find a better representation of every bag than traditional MIR methods, thus better performing in large-scale corn yield prediction. Our experiments showed that variational autoencoder based multiple instance regression (VAEMIR) outperformed all baseline methods in large-scale corn yield prediction. Though a suitable meta parameter is required, VAEMIR shows excellent potential in feature learning and extraction for large-scale corn yield prediction.
翻訳日:2022-11-28 15:15:21 公開日:2022-11-23
# クロスビューとクロスモーダルアライメントはコントラスト学習における表現にどのように影響するか?

How do Cross-View and Cross-Modal Alignment Affect Representations in Contrastive Learning? ( http://arxiv.org/abs/2211.13309v1 )

ライセンス: Link先を確認
Thomas M. Hehn, Julian F.P. Kooij, Dariu M. Gavrila(参考訳) 様々な最先端の自己教師型視覚表現学習アプローチは、ビューやモダリティにまたがって特徴表現を整列することで、複数のセンサからのデータを活用する。 本研究では,画像とポイントクラウド上でのクロスビューとクロスモーダルコントラスト学習から得られる視覚特徴に,表現の整合がどう影響するかを検討する。 5つの実世界のデータセットと5つのタスクに基づいて、事前学習の4つのバリエーションに基づいて108のモデルをトレーニングし、評価する。 クロスモーダル表現アライメントは色やテクスチャといった相補的な視覚情報を捨て、代わりに冗長な奥行きの手がかりを強調する。 プレトレーニングから得られる深さキューは下流深度予測性能を向上させる。 また、全体的なクロスモーダルアライメントは、特に深度予測、インスタンスセグメンテーション、オブジェクト検出において、クロスビューアライメントによる事前トレーニングよりも堅牢なエンコーダをもたらす。

Various state-of-the-art self-supervised visual representation learning approaches take advantage of data from multiple sensors by aligning the feature representations across views and/or modalities. In this work, we investigate how aligning representations affects the visual features obtained from cross-view and cross-modal contrastive learning on images and point clouds. On five real-world datasets and on five tasks, we train and evaluate 108 models based on four pretraining variations. We find that cross-modal representation alignment discards complementary visual information, such as color and texture, and instead emphasizes redundant depth cues. The depth cues obtained from pretraining improve downstream depth prediction performance. Also overall, cross-modal alignment leads to more robust encoders than pre-training by cross-view alignment, especially on depth prediction, instance segmentation, and object detection.
翻訳日:2022-11-28 15:14:57 公開日:2022-11-23
# lempel-zivネットワーク

Lempel-Ziv Networks ( http://arxiv.org/abs/2211.13250v1 )

ライセンス: Link先を確認
Rebecca Saul, Mohammad Mahmudul Alam, John Hurwitz, Edward Raff, Tim Oates, James Holt(参考訳) シーケンス処理は長い間、機械学習研究の中心的な領域であった。 リカレントニューラルネットは、多くのタスクのシーケンス処理に成功しているが、非常に長いシーケンスに適用した場合、非効率かつ計算コストがかかることが知られている。 特に lempel-ziv jaccard distance (lzjd) と k-nearest neighbor アルゴリズムを組み合わせるアプローチでは、マルウェアの分類を含む長いシーケンス問題(最大$t=200,000,000$ ステップ)に期待が持たれている。 残念ながら、LZJDの使用は離散領域に限定されている。 LZJDの利点を連続的な領域に拡張するために,アルゴリズムのディープラーニングアナログであるLempel-Ziv Networkの有効性を検討する。 我々は概念実証に成功したが、様々なデータセットやシーケンス処理タスクで標準LSTMの性能を有意義に改善することはできない。 この否定的な結果の提示に加えて,新たな研究領域におけるサブパーベースラインチューニングの問題も強調した。

Sequence processing has long been a central area of machine learning research. Recurrent neural nets have been successful in processing sequences for a number of tasks; however, they are known to be both ineffective and computationally expensive when applied to very long sequences. Compression-based methods have demonstrated more robustness when processing such sequences -- in particular, an approach pairing the Lempel-Ziv Jaccard Distance (LZJD) with the k-Nearest Neighbor algorithm has shown promise on long sequence problems (up to $T=200,000,000$ steps) involving malware classification. Unfortunately, use of LZJD is limited to discrete domains. To extend the benefits of LZJD to a continuous domain, we investigate the effectiveness of a deep-learning analog of the algorithm, the Lempel-Ziv Network. While we achieve successful proof of concept, we are unable to improve meaningfully on the performance of a standard LSTM across a variety of datasets and sequence processing tasks. In addition to presenting this negative result, our work highlights the problem of sub-par baseline tuning in newer research areas.
翻訳日:2022-11-28 15:08:52 公開日:2022-11-23
# 継続的な行動空間の表現学習は効果的な政策学習に役立つ

Representation Learning for Continuous Action Spaces is Beneficial for Efficient Policy Learning ( http://arxiv.org/abs/2211.13257v1 )

ライセンス: Link先を確認
Tingting Zhao, Ying Wang, Wei Sun, Yarui Chen, Gang Niub, Masashi Sugiyama(参考訳) 深部強化学習(DRL)は,従来の強化学習(RL)のボトルネックを突破し,ディープラーニングの知覚能力の助けとなり,実世界の問題に広く応用されてきたが,モデルフリーのRLは,効率的なDRL手法のクラスとして,大規模連続状態や行動空間に直面する場合のエンドツーエンドの学習と並行して,状態表現の学習を行う。 しかし、このような大規模なポリシーモデルのトレーニングには、多くの軌道サンプルとトレーニング時間が必要である。 一方、学習されたポリシーはしばしば大規模なアクション空間、特に連続的なアクション空間への一般化に失敗する。 この問題に対処するため,本稿では,潜在状態と行動空間における効率的なポリシー学習手法を提案する。 より具体的には、状態表現の考え方をアクション表現に拡張し、より優れたポリシー一般化能力を実現する。 一方,学習タスク全体を教師なしの大規模表現モデルによる学習に分割し,小規模の政策モデルをrl方式で学習することで,大規模表現モデルによる一般化や表現性を犠牲にすることなく,政策学習を促進する。 最後に,提案手法の有効性をMountainCar,CarRacing,Cheetah実験で実証した。

Deep reinforcement learning (DRL) breaks through the bottlenecks of traditional reinforcement learning (RL) with the help of the perception capability of deep learning and has been widely applied in real-world problems.While model-free RL, as a class of efficient DRL methods, performs the learning of state representations simultaneously with policy learning in an end-to-end manner when facing large-scale continuous state and action spaces. However, training such a large policy model requires a large number of trajectory samples and training time. On the other hand, the learned policy often fails to generalize to large-scale action spaces, especially for the continuous action spaces. To address this issue, in this paper we propose an efficient policy learning method in latent state and action spaces. More specifically, we extend the idea of state representations to action representations for better policy generalization capability. Meanwhile, we divide the whole learning task into learning with the large-scale representation models in an unsupervised manner and learning with the small-scale policy model in the RL manner.The small policy model facilitates policy learning, while not sacrificing generalization and expressiveness via the large representation model. Finally,the effectiveness of the proposed method is demonstrated by MountainCar,CarRacing and Cheetah experiments.
翻訳日:2022-11-28 15:08:32 公開日:2022-11-23
# 古典計画におけるヒューリスティック関数学習のためのサンプル生成戦略の理解

Understanding Sample Generation Strategies for Learning Heuristic Functions in Classical Planning ( http://arxiv.org/abs/2211.13316v1 )

ライセンス: Link先を確認
R. V. Bettker, P. P. Minini, A. G. Pereira, M. Ritt(参考訳) 本研究では,従来の計画課題に対するニューラルネットワークを用いた優れたヒューリスティック関数の学習問題について,コスト・ツー・ゴール推定の状態に基づく検討を行った。 学習したモデル品質がトレーニングデータ品質に依存することはよく知られている。 我々の主な目標は,学習したヒューリスティック関数に導かれる欲望のよい第一ヒューリスティック探索の性能に対する,サンプル生成戦略の影響をよりよく理解することである。 制御された実験のセットでは、学習されたヒューリスティックの質を決定する2つの主要な要因が示されている:サンプルに含まれる状態空間の領域とコストからゴールへの見積もりの品質である。 また、これら2つの因子は相互依存的である: 状態空間の非表現的な部分が標本集合に含まれる場合、コスト・トゥ・ゴールの完全な推定は不十分である。 さらに、与えられたタスクを解く際に評価できる状態のみを含むサンプルの制限効果と、高評価値のサンプルを追加する効果について検討した。 本研究は,学習ヒューリスティックスの品質向上のための実践的戦略として,より代表的な状態を生成するための3つの戦略と,コスト・ツー・ゴール推定を改善する2つの戦略を提案する。 得られたニューラルネットワークヒューリスティックは,基本的満足なヒューリスティックよりも高いカバレッジを有する。 また、ベースライン学習ヒューリスティックと比較して、最良のニューラルネットワークヒューリスティックは平均カバレッジをほぼ2倍にし、いくつかのドメインでそれを6倍以上に増やすことができます。

We study the problem of learning good heuristic functions for classical planning tasks with neural networks based on samples that are states with their cost-to-goal estimates. It is well known that the learned model quality depends on the training data quality. Our main goal is to understand better the influence of sample generation strategies on the performance of a greedy best-first heuristic search guided by a learned heuristic function. In a set of controlled experiments, we find that two main factors determine the quality of the learned heuristic: the regions of the state space included in the samples and the quality of the cost-to-goal estimates. Also, these two factors are interdependent: having perfect estimates of cost-to-goal is insufficient if an unrepresentative part of the state space is included in the sample set. Additionally, we study the effects of restricting samples to only include states that could be evaluated when solving a given task and the effects of adding samples with high-value estimates. Based on our findings, we propose practical strategies to improve the quality of learned heuristics: three strategies that aim to generate more representative states and two strategies that improve the cost-to-goal estimates. Our resulting neural network heuristic has higher coverage than a basic satisficing heuristic. Also, compared to a baseline learned heuristic, our best neural network heuristic almost doubles the mean coverage and can increase it for some domains by more than six times.
翻訳日:2022-11-28 15:08:11 公開日:2022-11-23
# 振り付け: Imagination における学習と適応

Choreographer: Learning and Adapting Skills in Imagination ( http://arxiv.org/abs/2211.13350v1 )

ライセンス: Link先を確認
Pietro Mazzaglia, Tim Verbelen, Bart Dhoedt, Alexandre Lacoste, Sai Rajeswar(参考訳) 教師なしのスキル学習は、外部の監督なしに行動の豊富なレパートリーを学習することを目的としており、人工エージェントに環境を制御および影響する能力を提供する。 しかし、適切な知識や探索がなければ、スキルは環境の限られた領域のみをコントロールし、適用性を制限することができる。 さらに、データ効率の良い方法でダウンストリームタスクに適応するために、学習スキルの振る舞いをどのように活用するかは不明だ。 本稿では,世界モデルを用いて想像力の習得と適応を行うモデルベースエージェントであるchoreographerを提案する。 提案手法は探索とスキル学習のプロセスを切り離し,モデルの潜在状態空間におけるスキルの発見を可能にする。 適応中、エージェントはメタコントローラを使用して、想像力に並行してそれらを配置することで学習スキルを効果的に評価し、適応する。 Choreographerはオフラインデータからスキルを学ぶことができ、探索ポリシーと同時にデータを集めることができる。 このスキルは、urlベンチマークで示されているように、ダウンストリームタスクに効果的に適応するために使用できます。 DMC SuiteとMeta-Worldの目標達成タスクで示されているように、学習したスキルは環境を徹底的に探求し、疎い報酬をより頻繁に見つけます。 プロジェクトwebサイト: https://skillchoreographer.github.io/

Unsupervised skill learning aims to learn a rich repertoire of behaviors without external supervision, providing artificial agents with the ability to control and influence the environment. However, without appropriate knowledge and exploration, skills may provide control only over a restricted area of the environment, limiting their applicability. Furthermore, it is unclear how to leverage the learned skill behaviors for adapting to downstream tasks in a data-efficient manner. We present Choreographer, a model-based agent that exploits its world model to learn and adapt skills in imagination. Our method decouples the exploration and skill learning processes, being able to discover skills in the latent state space of the model. During adaptation, the agent uses a meta-controller to evaluate and adapt the learned skills efficiently by deploying them in parallel in imagination. Choreographer is able to learn skills both from offline data, and by collecting data simultaneously with an exploration policy. The skills can be used to effectively adapt to downstream tasks, as we show in the URL benchmark, where we outperform previous approaches from both pixels and states inputs. The learned skills also explore the environment thoroughly, finding sparse rewards more frequently, as shown in goal-reaching tasks from the DMC Suite and Meta-World. Project website: https://skillchoreographer.github.io/
翻訳日:2022-11-28 15:07:46 公開日:2022-11-23
# RNTrajRec:時空間変圧器を用いた道路網の軌道復元

RNTrajRec: Road Network Enhanced Trajectory Recovery with Spatial-Temporal Transformer ( http://arxiv.org/abs/2211.13234v1 )

ライセンス: Link先を確認
Yuqi Chen, Hanyuan Zhang, Weiwei Sun, Baihua Zheng(参考訳) GPSトラジェクトリは、走行時間推定、交通予測、軌道類似度測定など、多くのトラジェクトリベースのアプリケーションにとって重要な基礎となっている。 ほとんどのアプリケーションは、優れた性能を達成するために大量のサンプルレート軌跡を必要とする。 しかし, エネルギー問題などの制約により, 実生活の軌道は低いサンプルレートで収集され, 低サンプル軌道のサンプルレートを増加させる手段として, 本論文における軌道回復の課題について検討する。 現在、軌道回復に関するほとんどの既存の研究は、軌道を符号化するエンコーダと軌道中の実際のgpsポイントを復元するデコーダを備えたシーケンスツーシーケンス図に従っている。 しかし、これらの研究は道路網のトポロジを無視し、グリッド情報や生のGPSポイントのみを入力として使用する。 したがって、エンコーダモデルは軌道に沿ったgpsポイントのリッチな空間情報を捉えることができないため、予測精度が低く、空間的一貫性が欠如している。 本稿では,道路網を改良したトランスフォーマーベースフレームワークであるRNTrajRecを提案する。 RNTrajRecはまずGridGNNというグラフモデルを使用して、各道路セグメントの埋め込み機能を学ぶ。 次に、各GPSポイントをGPSポイント周辺の道路ネットワークのサブグラフ構造として表現するサブグラフ生成モジュールを開発する。 その後、GPSFormerと呼ばれる空間時間変換モデルを導入し、豊富な空間的特徴と時間的特徴を学習する。 最終的にエンコーダモデルの出力をマルチタスクデコーダモデルに転送し、行方不明のGPSポイントを復元する。 3つの大規模実生活軌道データセットに基づく広範な実験により,本手法の有効性を確認した。

GPS trajectories are the essential foundations for many trajectory-based applications, such as travel time estimation, traffic prediction and trajectory similarity measurement. Most applications require a large amount of high sample rate trajectories to achieve a good performance. However, many real-life trajectories are collected with low sample rate due to energy concern or other constraints.We study the task of trajectory recovery in this paper as a means for increasing the sample rate of low sample trajectories. Currently, most existing works on trajectory recovery follow a sequence-to-sequence diagram, with an encoder to encode a trajectory and a decoder to recover real GPS points in the trajectory. However, these works ignore the topology of road network and only use grid information or raw GPS points as input. Therefore, the encoder model is not able to capture rich spatial information of the GPS points along the trajectory, making the prediction less accurate and lack spatial consistency. In this paper, we propose a road network enhanced transformer-based framework, namely RNTrajRec, for trajectory recovery. RNTrajRec first uses a graph model, namely GridGNN, to learn the embedding features of each road segment. It next develops a Sub-Graph Generation module to represent each GPS point as a sub-graph structure of the road network around the GPS point. It then introduces a spatial-temporal transformer model, namely GPSFormer, to learn rich spatial and temporal features. It finally forwards the outputs of encoder model into a multi-task decoder model to recover the missing GPS points. Extensive experiments based on three large-scale real-life trajectory datasets confirm the effectiveness of our approach.
翻訳日:2022-11-28 14:57:23 公開日:2022-11-23
# MEGAN: マルチ説明グラフアテンションネットワーク

MEGAN: Multi-Explanation Graph Attention Network ( http://arxiv.org/abs/2211.13236v1 )

ライセンス: Link先を確認
Jonas Teufel, Luca Torresi, Patrick Reiser, Pascal Friederich(参考訳) 説明可能な人工知能(XAI)手法は、人間とAIの相互作用における信頼の向上、モデル解析のツールの提供、複雑な問題に対する人間の理解の拡大を期待されている。 説明指導訓練は, 自己説明型XAIモデルを真実や人為的説明に基づいて訓練することにより, 説明品質の向上を可能にする。 しかし,既存の説明手法では,ノードやエッジの重要度という形でのみ説明が生成されるため,表現性や相互運用性が制限されている。 そこで我々は,新しい多言語グラフアテンションネットワーク(MEGAN)を提案する。 完全に微分可能な注意に基づくモデルは、タスク仕様とは独立に選択可能な複数の説明チャネルを備えています。 まず,合成グラフ回帰データセットを用いてモデルを検証した。 特別の単一説明の場合、本モデルが既存のポストホック法や説明教師付きベースライン法を大幅に上回っていることを示す。 さらに、定量的な説明法と人間の解釈可能性の両方において、2つの説明を用いる際の大きな利点を示す。 最後に、複数の実世界のデータセットでモデルの能力を実証する。 我々は,これらの課題に対する人間の直感と一致した細かな高忠実な説明を生成すると同時に,最新のグラフニューラルネットワークと予測性能を一致させることで,説明と精度が必ずしもトレードオフではないことを示す。

Explainable artificial intelligence (XAI) methods are expected to improve trust during human-AI interactions, provide tools for model analysis and extend human understanding of complex problems. Explanation-supervised training allows to improve explanation quality by training self-explaining XAI models on ground truth or human-generated explanations. However, existing explanation methods have limited expressiveness and interoperability due to the fact that only single explanations in form of node and edge importance are generated. To that end we propose the novel multi-explanation graph attention network (MEGAN). Our fully differentiable, attention-based model features multiple explanation channels, which can be chosen independently of the task specifications. We first validate our model on a synthetic graph regression dataset. We show that for the special single explanation case, our model significantly outperforms existing post-hoc and explanation-supervised baseline methods. Furthermore, we demonstrate significant advantages when using two explanations, both in quantitative explanation measures as well as in human interpretability. Finally, we demonstrate our model's capabilities on multiple real-world datasets. We find that our model produces sparse high-fidelity explanations consistent with human intuition about those tasks and at the same time matches state-of-the-art graph neural networks in predictive performance, indicating that explanations and accuracy are not necessarily a trade-off.
翻訳日:2022-11-28 14:56:55 公開日:2022-11-23
# 活性化の内在次元による正規化と一般化の関連

Relating Regularization and Generalization through the Intrinsic Dimension of Activations ( http://arxiv.org/abs/2211.13239v1 )

ライセンス: Link先を確認
Bradley C.A. Brown, Jordan Juravsky, Anthony L. Caterini, Gabriel Loaiza-Ganem(参考訳) 同様のトレーニングセットのパフォーマンスを持つ2つのモデルを考えると、より単純な内部表現を持つモデルはより良い一般化をもたらすと仮定するのは自然なことである。 本研究では,モデルアクティベーションの固有次元 (id) の分析を通じて,この直観に対する実証的な証拠を提供する。 まず,画像分類モデルのバリデーションセットアクティベーションのラストレイヤid(llid)を均一に減少させる共通正規化手法を示し,それが一般化性能にどのように影響するかを示す。 また,LLIDが低下し,トレーニング精度がほぼ完璧であるにもかかわらず,モデルが先行層のデータから特徴を抽出する能力がいかに過度に低下するかについても検討した。 最後に,グルーキングを示すモデルの学習過程におけるLLIDについて検討する。 学習精度が飽和すると,モデル ‘grok’ と検証精度が突然ランダムから完全へと向上すると,LLID が突然低下し,突然の一般化のダイナミクスに関する知見が得られた。

Given a pair of models with similar training set performance, it is natural to assume that the model that possesses simpler internal representations would exhibit better generalization. In this work, we provide empirical evidence for this intuition through an analysis of the intrinsic dimension (ID) of model activations, which can be thought of as the minimal number of factors of variation in the model's representation of the data. First, we show that common regularization techniques uniformly decrease the last-layer ID (LLID) of validation set activations for image classification models and show how this strongly affects generalization performance. We also investigate how excessive regularization decreases a model's ability to extract features from data in earlier layers, leading to a negative effect on validation accuracy even while LLID continues to decrease and training accuracy remains near-perfect. Finally, we examine the LLID over the course of training of models that exhibit grokking. We observe that well after training accuracy saturates, when models ``grok'' and validation accuracy suddenly improves from random to perfect, there is a co-occurent sudden drop in LLID, thus providing more insight into the dynamics of sudden generalization.
翻訳日:2022-11-28 14:56:32 公開日:2022-11-23
# グループSELFIES:ロバストフラグメントに基づく分子文字列表現

Group SELFIES: A Robust Fragment-Based Molecular String Representation ( http://arxiv.org/abs/2211.13322v1 )

ライセンス: Link先を確認
Austin Cheng, Andy Cai, Santiago Miret, Gustavo Malkomes, Mariano Phielipp, Al\'an Aspuru-Guzik(参考訳) 本稿では,官能基やサブ構造全体の表現にグループトークンを利用する分子文字列表現であるグループSELFIESを紹介する。 SMILESやSELFIESのような分子文字列表現は、化学言語モデル、深層生成モデル、進化的手法における分子生成と最適化の基礎となる。 SMILESとSELFIESは原子表現を利用するが、SELFIESはSELFIESの化学的堅牢性を保証するために、グループトークンを有効にすることで、表現にさらなる柔軟性をもたらす。 さらに、グループSELFIESの群トークンは、意味のある化学モチーフを捉える分子断片の誘導バイアスを利用することができる。 化学モチーフと柔軟性を捉えた利点を実験で実証し,グループセルフィーが共通の分子データセットの分布学習を改善することを示した。 さらに,グループSELFIES文字列のランダムサンプリングにより,通常のSELFIES文字列と比較して生成分子の品質が向上することを示した。 グループセルフィーのオープンソース実装はオンラインで利用可能であり、将来の分子生成と最適化の研究に役立つことを期待しています。

We introduce Group SELFIES, a molecular string representation that leverages group tokens to represent functional groups or entire substructures while maintaining chemical robustness guarantees. Molecular string representations, such as SMILES and SELFIES, serve as the basis for molecular generation and optimization in chemical language models, deep generative models, and evolutionary methods. While SMILES and SELFIES leverage atomic representations, Group SELFIES builds on top of the chemical robustness guarantees of SELFIES by enabling group tokens, thereby creating additional flexibility to the representation. Moreover, the group tokens in Group SELFIES can take advantage of inductive biases of molecular fragments that capture meaningful chemical motifs. The advantages of capturing chemical motifs and flexibility are demonstrated in our experiments, which show that Group SELFIES improves distribution learning of common molecular datasets. Further experiments also show that random sampling of Group SELFIES strings improves the quality of generated molecules compared to regular SELFIES strings. Our open-source implementation of Group SELFIES is available online, which we hope will aid future research in molecular generation and optimization.
翻訳日:2022-11-28 14:49:38 公開日:2022-11-23
# 浅層ヒューリスティックスと戦うために焦点損失を用いる : 自然言語推論における変調クロスエントロピーの実証分析

Using Focal Loss to Fight Shallow Heuristics: An Empirical Analysis of Modulated Cross-Entropy in Natural Language Inference ( http://arxiv.org/abs/2211.13331v1 )

ライセンス: Link先を確認
Frano Raji\v{c}, Ivan Stresec, Axel Marmet, Tim Po\v{s}tuvan(参考訳) 完璧なデータセットというものはありません。 一部のデータセットでは、深層ニューラルネットワークが基礎となるヒューリスティックを発見し、学習プロセスでショートカットを行うことができる。 標準のクロスエントロピーを使う代わりに、焦点損失と呼ばれる変調されたクロスエントロピーが、ヒューリスティックを使わずに一般化性能を向上させるためにモデルを制約できるかどうかを検討する。 自然言語推論実験により, 焦点損失は学習過程に一定の影響を与え, 分布外データの精度は向上するが, 分布内データの性能はわずかに低下することがわかった。 分散性能が向上したにもかかわらず,偏差焦点損失や自己偏差アンサンブルなどの手法の性能と比較し,焦点損失の欠点とその劣等を実証した。

There is no such thing as a perfect dataset. In some datasets, deep neural networks discover underlying heuristics that allow them to take shortcuts in the learning process, resulting in poor generalization capability. Instead of using standard cross-entropy, we explore whether a modulated version of cross-entropy called focal loss can constrain the model so as not to use heuristics and improve generalization performance. Our experiments in natural language inference show that focal loss has a regularizing impact on the learning process, increasing accuracy on out-of-distribution data, but slightly decreasing performance on in-distribution data. Despite the improved out-of-distribution performance, we demonstrate the shortcomings of focal loss and its inferiority in comparison to the performance of methods such as unbiased focal loss and self-debiasing ensembles.
翻訳日:2022-11-28 14:49:19 公開日:2022-11-23
# housediffusion:離散的および連続的デノイジングを用いた拡散モデルによるベクトルフロアプラン生成

HouseDiffusion: Vector Floorplan Generation via a Diffusion Model with Discrete and Continuous Denoising ( http://arxiv.org/abs/2211.13287v1 )

ライセンス: Link先を確認
Mohammad Amin Shabani, Sepidehsadat Hosseini, Yasutaka Furukawa(参考訳) 本稿では,2つの推定対象を持つ室内・室内角の2次元座標を識別する拡散モデルによるベクトルフロアプラン生成手法を提案する。 1)連続進行過程を正確に反転させる連続量としての単段階雑音 2) 離散量としての最終的な2次元座標は, 並列性, 直交性, コーナーシェアリングなどの幾何学的インシデント関係を確立する。 私たちの仕事は、フロアプラン設計における一般的なワークフローである、グラフ条件のフロアプラン生成です。 我々はフロアプランを1次元多角形ループとして表現し、それぞれが部屋やドアに対応する。 この拡散モデルでは,入力グラフパターンに基づいてアテンションマスクを制御し,離散的かつ連続的なデノイジングプロセスを通じてベクトル図形のフロアプランを直接生成するトランスフォーマティブ・アーキテクチャをコアに採用する。 我々はRPLANデータセットに対するアプローチを評価した。 提案手法は,非マンタン構造を生成でき,部屋ごとのコーナー数を制御できる一方で,最先端技術に対するすべての指標をかなりのマージンで大幅に改善する。 補足的なビデオとドキュメントを備えたプロジェクトwebサイトは、https://aminshabani.github.io/housediffusionである。

The paper presents a novel approach for vector-floorplan generation via a diffusion model, which denoises 2D coordinates of room/door corners with two inference objectives: 1) a single-step noise as the continuous quantity to precisely invert the continuous forward process; and 2) the final 2D coordinate as the discrete quantity to establish geometric incident relationships such as parallelism, orthogonality, and corner-sharing. Our task is graph-conditioned floorplan generation, a common workflow in floorplan design. We represent a floorplan as 1D polygonal loops, each of which corresponds to a room or a door. Our diffusion model employs a Transformer architecture at the core, which controls the attention masks based on the input graph-constraint and directly generates vector-graphics floorplans via a discrete and continuous denoising process. We have evaluated our approach on RPLAN dataset. The proposed approach makes significant improvements in all the metrics against the state-of-the-art with significant margins, while being capable of generating non-Manhattan structures and controlling the exact number of corners per room. A project website with supplementary video and document is here https://aminshabani.github.io/housediffusion.
翻訳日:2022-11-28 14:48:45 公開日:2022-11-23
# Mask the correct Tokens:Error Correctionに対する驚くほど単純なアプローチ

Mask the Correct Tokens: An Embarrassingly Simple Approach for Error Correction ( http://arxiv.org/abs/2211.13252v1 )

ライセンス: Link先を確認
Kai Shen, Yichong Leng, Xu Tan, Siliang Tang, Yuan Zhang, Wenjie Liu, Edward Lin(参考訳) テキスト誤り訂正は、人間が入力したり、音声認識モデルによって生成されたテキストシーケンスの誤りを訂正することを目的としている。 以前の誤り訂正方法は、通常、ソース(誤り)文をエンコーダ入力とし、デコーダを介してターゲット(正しい)文を生成する。 誤り文の誤り率は通常低い(例えば10\%)ため、訂正モデルは限定されたエラートークンの修正を学習するだけでなく、ほとんどのトークン(誤りトークン)を自明にコピーすることができ、エラー訂正の効果的なトレーニングに悪影響を及ぼす。 本稿では,適切なトークンを効果的に活用し,その目的を達成するための単純かつ効果的なマスキング戦略を提案する。 具体的には、原文中の正しいトークンの一部をランダムにマスクアウトし、元のエラートークンを訂正するだけでなく、コンテキスト情報に基づいてマスクされたトークンを予測することをモデルに教える。 我々の方法にはいくつかの利点がある。 1) 自明なコピーを緩和する。 2) 正しいトークンからの効果的な訓練信号を利用する。 3) プラグイン・アンド・プレイモジュールであり、異なるモデルやタスクに適用できる。 自動回帰型と非自己回帰型の両方のモデルを用いたマンダリンデータセットの綴り誤り訂正と音声認識誤り訂正実験および文法誤り訂正実験により,本手法の精度は一貫して向上することが示された。

Text error correction aims to correct the errors in text sequences such as those typed by humans or generated by speech recognition models. Previous error correction methods usually take the source (incorrect) sentence as encoder input and generate the target (correct) sentence through the decoder. Since the error rate of the incorrect sentence is usually low (e.g., 10\%), the correction model can only learn to correct on limited error tokens but trivially copy on most tokens (correct tokens), which harms the effective training of error correction. In this paper, we argue that the correct tokens should be better utilized to facilitate effective training and then propose a simple yet effective masking strategy to achieve this goal. Specifically, we randomly mask out a part of the correct tokens in the source sentence and let the model learn to not only correct the original error tokens but also predict the masked tokens based on their context information. Our method enjoys several advantages: 1) it alleviates trivial copy; 2) it leverages effective training signals from correct tokens; 3) it is a plug-and-play module and can be applied to different models and tasks. Experiments on spelling error correction and speech recognition error correction on Mandarin datasets and grammar error correction on English datasets with both autoregressive and non-autoregressive generation models show that our method improves the correction accuracy consistently.
翻訳日:2022-11-28 14:40:40 公開日:2022-11-23
# エンコーダ・デコーダモデルのランクワン編集

Rank-One Editing of Encoder-Decoder Models ( http://arxiv.org/abs/2211.13317v1 )

ライセンス: Link先を確認
Vikas Raunak and Arul Menezes(参考訳) ニューラルマシン翻訳(nmt)のようなタスクのための大きなシーケンスからシーケンスへのモデルは、通常何億ものサンプルで訓練される。 しかし、トレーニングはモデルのライフサイクルの起源に過ぎない。 モデルの現実的な展開には、新たな要求が出現したり、欠点が知られるようになると、さらなる行動適応が必要である。 通常、モデル行動の空間では、振舞い削除要求はモデルの再訓練によって対処されるが、モデル微調整は、両方のプロシージャがデータベースのモデル介入のインスタンスである振舞い追加要求に対処するために行われる。 本研究では,エンコーダ・デコーダ変換器モデルにおける動作削除要求に対する直接介入手法として,ランクワン編集について予備的検討を行う。 NMTのための4つの編集タスクを提案し、提案アルゴリズムは、誤(負)モデルの振る舞いを修正するために、正の例を1つだけ必要としながら、高い有効性を達成することを示す。

Large sequence to sequence models for tasks such as Neural Machine Translation (NMT) are usually trained over hundreds of millions of samples. However, training is just the origin of a model's life-cycle. Real-world deployments of models require further behavioral adaptations as new requirements emerge or shortcomings become known. Typically, in the space of model behaviors, behavior deletion requests are addressed through model retrainings whereas model finetuning is done to address behavior addition requests, both procedures being instances of data-based model intervention. In this work, we present a preliminary study investigating rank-one editing as a direct intervention method for behavior deletion requests in encoder-decoder transformer models. We propose four editing tasks for NMT and show that the proposed editing algorithm achieves high efficacy, while requiring only a single instance of positive example to fix an erroneous (negative) model behavior.
翻訳日:2022-11-28 14:40:16 公開日:2022-11-23
# Euphemisms Detection Shared Task 報告

A Report on the Euphemisms Detection Shared Task ( http://arxiv.org/abs/2211.13327v1 )

ライセンス: Link先を確認
Patrick Lee and Anna Feldman and Jing Peng(参考訳) 本稿では,EMNLP 2022と共に開催されている第3回図形言語処理ワークショップ(FigLang 2022)の共催作業について述べる。 参加者は、入力テキストを入力し、その中にエウヘミズムが含まれているかどうかを識別する。 入力データは、GloWbEコーパス(Davies and Fuchs, 2015)から収集された潜在的エウヘミスティック用語(PET)を含む文のコーパスであり、PETのエウヘミスティックまたはリテラル使用法のいずれかを含むものとして人間に注釈されている。 本稿では,参加者の共通テーマ,方法,知見について分析し,その結果について述べる。

This paper presents The Shared Task on Euphemism Detection for the Third Workshop on Figurative Language Processing (FigLang 2022) held in conjunction with EMNLP 2022. Participants were invited to investigate the euphemism detection task: given input text, identify whether it contains a euphemism. The input data is a corpus of sentences containing potentially euphemistic terms (PETs) collected from the GloWbE corpus (Davies and Fuchs, 2015), and are human-annotated as containing either a euphemistic or literal usage of a PET. In this paper, we present the results and analyze the common themes, methods and findings of the participating teams
翻訳日:2022-11-28 14:40:03 公開日:2022-11-23
# 視覚対話のための不一致訓練を用いた統一マルチモーダルモデル

Unified Multimodal Model with Unlikelihood Training for Visual Dialog ( http://arxiv.org/abs/2211.13235v1 )

ライセンス: Link先を確認
Zihao Wang, Junli Wang, and Changjun Jiang(参考訳) ビジュアルダイアログのタスクは、画像コンテンツに関する人間からのシーケンシャルな質問に答えるマルチモーダルチャットボットを必要とする。 事前の作業は、正のインスタンス(正しい回答を含む)で回答生成のための標準的可能性トレーニングを実行する。 しかし、可能性の目的はしばしば頻繁で鈍いアウトプットをもたらし、(誤った答えを伴う)負のインスタンスから有用な知識を活用できない。 本論文では,UniMM-ULと呼ばれるUn Likelihood Trainingを用いた統一マルチモーダルモデルを提案する。 まず,マルチタスク学習による視覚的対話の理解と生成を改善するため,VLBERTは回答識別のみをサポートするものから,異なる注目マスクによる回答識別と回答生成をシームレスに行うものへと拡張する。 具体的には, 自己回帰型マスク型言語モデル(autoregressive mlm)タスクを実装するために, 既存の識別モデルと回答生成の互換性を持たせるために, 新たな生成的注意マスクを設計した。 また, 確率目標の悪影響を軽減するために, 負の事例に対する違和感訓練を利用して, モデルが誤答を生じにくくする。 そこで, 密集アノテーションを活用するために, 先行研究のように回答を識別するだけでなく, 回答の生成と識別に異なる微調整手法を採用する。 最後に、VisDialデータセットを用いて、最適な生成結果(69.23 NDCGスコア)を得る。 また,シングルモデルとアンサンブルモデルでは75.92点と76.17点の両方において,最先端と同等の判別結果が得られる。

The task of visual dialog requires a multimodal chatbot to answer sequential questions from humans about image content. Prior work performs the standard likelihood training for answer generation on the positive instances (involving correct answers). However, the likelihood objective often leads to frequent and dull outputs and fails to exploit the useful knowledge from negative instances (involving incorrect answers). In this paper, we propose a Unified Multimodal Model with UnLikelihood Training, named UniMM-UL, to tackle this problem. First, to improve visual dialog understanding and generation by multi-task learning, our model extends ViLBERT from only supporting answer discrimination to holding both answer discrimination and answer generation seamlessly by different attention masks. Specifically, in order to make the original discriminative model compatible with answer generation, we design novel generative attention masks to implement the autoregressive Masked Language Modeling (autoregressive MLM) task. And to attenuate the adverse effects of the likelihood objective, we exploit unlikelihood training on negative instances to make the model less likely to generate incorrect answers. Then, to utilize dense annotations, we adopt different fine-tuning methods for both generating and discriminating answers, rather than just for discriminating answers as in the prior work. Finally, on the VisDial dataset, our model achieves the best generative results (69.23 NDCG score). And our model also yields comparable discriminative results with the state-of-the-art in both single-model and ensemble settings (75.92 and 76.17 NDCG scores).
翻訳日:2022-11-28 14:23:35 公開日:2022-11-23
# SEAT: 安定して説明可能な注意

SEAT: Stable and Explainable Attention ( http://arxiv.org/abs/2211.13290v1 )

ライセンス: Link先を確認
Lijie Hu, Yixin Liu, Ninghao Liu, Mengdi Huai, Lichao Sun and Di Wang(参考訳) 現在、注意機構は、ほとんどの最先端自然言語処理(NLP)モデルにおいて標準のフィクスチャとなり、優れたパフォーマンスを得られるだけでなく、それが提供するニューラルネットワークの振る舞いに関する明確な説明によってもたらされる。 しかし、近年の研究では、ランダム種子や埋め込みベクトルのわずかな摂動など、トレーニングやテスト中のランダム性や摂動に対する注意が不安定であることが示され、それが忠実な説明ツールになることを妨げている。 したがって、より安定しており、注意の解釈や予測において最も重要な特徴を維持できる現在の注意の代用を見つけることができるかどうかが自然の疑問である。 本稿では,この問題を解決するために,シート(安定・説明可能な注意)という代替概念を初めて厳密に定義する。 具体的には、(1)その予測分布がバニラ注意に基づく分布に近いように強制される、(2)そのトップk指標がバニラ注意値と重なること、(3)ロバストなw.r.t摂動、すなわち、座席上のわずかな摂動は予測分布をあまり変化させないこと、そして暗黙的にランダム性や摂動に安定していることを示す、の3つの特性を有するべきである。 最後に,様々なデータセットに対する集中的な実験を通じて,モデル解釈,安定性,正確性に関する6つの評価基準を用いて,rnn,bilstm,bertアーキテクチャを用いた他のベースライン手法と比較した。 結果は、SEATは異なる摂動やランダム性に対してより安定であり、注意力の説明可能性も維持していることを示し、より忠実な説明であることを示している。 また,バニラアテンションと比較して,SEATの実用性(精度)の低下はほとんどない。

Currently, attention mechanism becomes a standard fixture in most state-of-the-art natural language processing (NLP) models, not only due to outstanding performance it could gain, but also due to plausible innate explanation for the behaviors of neural architectures it provides, which is notoriously difficult to analyze. However, recent studies show that attention is unstable against randomness and perturbations during training or testing, such as random seeds and slight perturbation of embedding vectors, which impedes it from becoming a faithful explanation tool. Thus, a natural question is whether we can find some substitute of the current attention which is more stable and could keep the most important characteristics on explanation and prediction of attention. In this paper, to resolve the problem, we provide a first rigorous definition of such alternate namely SEAT (Stable and Explainable Attention). Specifically, a SEAT should has the following three properties: (1) Its prediction distribution is enforced to be close to the distribution based on the vanilla attention; (2) Its top-k indices have large overlaps with those of the vanilla attention; (3) It is robust w.r.t perturbations, i.e., any slight perturbation on SEAT will not change the prediction distribution too much, which implicitly indicates that it is stable to randomness and perturbations. Finally, through intensive experiments on various datasets, we compare our SEAT with other baseline methods using RNN, BiLSTM and BERT architectures via six different evaluation metrics for model interpretation, stability and accuracy. Results show that SEAT is more stable against different perturbations and randomness while also keeps the explainability of attention, which indicates it is a more faithful explanation. Moreover, compared with vanilla attention, there is almost no utility (accuracy) degradation for SEAT.
翻訳日:2022-11-28 14:22:42 公開日:2022-11-23
# scirepeval: 科学文書表現のためのマルチフォーマットベンチマーク

SciRepEval: A Multi-Format Benchmark for Scientific Document Representations ( http://arxiv.org/abs/2211.13308v1 )

ライセンス: Link先を確認
Amanpreet Singh, Mike D'Arcy, Arman Cohan, Doug Downey, Sergey Feldman(参考訳) 科学的文書の学習された表現は、さらなる微調整を必要とせず、下流タスクの貴重な入力機能として機能する。 しかし、これらの表現を評価するための既存のベンチマークは、関連するタスクの多様性を捉えていない。 そこで本研究では,科学文書表現の学習と評価のための最初の総合ベンチマークであるscirepevalを紹介する。 これは25の挑戦的で現実的なタスクを含み、11のタスクは新しいもので、分類、回帰、ランキング、検索の4つの形式がある。 次に、ベンチマークを用いて、科学的文書表現モデルの一般化能力の研究と改善を行う。 我々は、最先端モデルがタスクフォーマットを一般化するのにいかに苦労しているかを示し、単純なマルチタスクトレーニングでは改善できないことを示す。 しかし、ドキュメントごとに複数の埋め込みを学習する新しいアプローチは、それぞれ異なるフォーマットに合わせて、パフォーマンスを向上させることができる。 タスク形式固有の制御コードとアダプタをマルチタスク設定で実験した結果、既存の単一埋め込み状態を1.5ポイントまで上回っていることがわかった。

Learned representations of scientific documents can serve as valuable input features for downstream tasks, without the need for further fine-tuning. However, existing benchmarks for evaluating these representations fail to capture the diversity of relevant tasks. In response, we introduce SciRepEval, the first comprehensive benchmark for training and evaluating scientific document representations. It includes 25 challenging and realistic tasks, 11 of which are new, across four formats: classification, regression, ranking and search. We then use the benchmark to study and improve the generalization ability of scientific document representation models. We show how state-of-the-art models struggle to generalize across task formats, and that simple multi-task training fails to improve them. However, a new approach that learns multiple embeddings per document, each tailored to a different format, can improve performance. We experiment with task-format-specific control codes and adapters in a multi-task setting and find that they outperform the existing single-embedding state-of-the-art by up to 1.5 points absolute.
翻訳日:2022-11-28 14:22:10 公開日:2022-11-23
# データ駆動神経科学 - データ収集とベンチマークについて

Data-Driven Network Neuroscience: On Data Collection and Benchmark ( http://arxiv.org/abs/2211.12421v2 )

ライセンス: Link先を確認
David Tse Jung Huang, Sophi Shilpa Gururajapathy, Yiping Ke, Miao Qiao, Alan Wang, Haribalan Kumar, Yunhan Yang(参考訳) 本稿では,神経科学,機械学習,グラフ分析の交点研究のための機能的脳ネットワークデータの包括的かつ高品質な収集について述べる。 脳の解剖学的および機能的MRI画像は、人間の脳の機能的接続を理解するために使用され、特にアルツハイマー病、パーキンソン病、自閉症などの神経変性疾患の特定に重要である。 近年、機械学習とグラフ分析を用いた脳ネットワークの形での脳の研究が、特にこれらの状態の早期発生を予測するために人気が高まっている。 グラフとして表される脳ネットワークは、従来の検査方法では捉えられないような、よりリッチな構造と位置情報を保持する。 しかし、機能的なMRI画像から変換された脳ネットワークデータの欠如は、研究者がデータ駆動探索を妨げている。 主な課題の1つは、複雑なドメイン固有の前処理ステップと、MRI画像から脳ネットワークへのデータ変換に必要な徹底的な計算である。 このギャップを埋めるために、既存の研究から利用可能なMRI画像を大量に収集し、ドメインの専門家と協力して適切な設計選択を行い、MRIイメージを前処理して脳ネットワークデータセットの収集を行います。 データセットは5つの異なるソースから始まり、3つの神経変性条件をカバーし、合計2,642人の被験者からなる。 我々は、ニューロサイエンスでよく使用される5つの機械学習モデルと最近のグラフベース分析モデルを用いて、データ品質の検証とドメインベースラインの提供を目的として、グラフデータセットをテストする。 この分野の参入障壁を低くし、研究を促進するため、我々は脳ネットワークデータ https://doi.org/10.17608/k6.auckland.21397377 を公開し、コードを含む全ての前処理の詳細を公開します。

This paper presents a comprehensive and quality collection of functional human brain network data for potential research in the intersection of neuroscience, machine learning, and graph analytics. Anatomical and functional MRI images of the brain have been used to understand the functional connectivity of the human brain and are particularly important in identifying underlying neurodegenerative conditions such as Alzheimer's, Parkinson's, and Autism. Recently, the study of the brain in the form of brain networks using machine learning and graph analytics has become increasingly popular, especially to predict the early onset of these conditions. A brain network, represented as a graph, retains richer structural and positional information that traditional examination methods are unable to capture. However, the lack of brain network data transformed from functional MRI images prevents researchers from data-driven explorations. One of the main difficulties lies in the complicated domain-specific preprocessing steps and the exhaustive computation required to convert data from MRI images into brain networks. We bridge this gap by collecting a large amount of available MRI images from existing studies, working with domain experts to make sensible design choices, and preprocessing the MRI images to produce a collection of brain network datasets. The datasets originate from 5 different sources, cover 3 neurodegenerative conditions, and consist of a total of 2,642 subjects. We test our graph datasets on 5 machine learning models commonly used in neuroscience and on a recent graph-based analysis model to validate the data quality and to provide domain baselines. To lower the barrier to entry and promote the research in this interdisciplinary field, we release our brain network data https://doi.org/10.17608/k6.auckland.21397377 and complete preprocessing details including codes.
翻訳日:2022-11-27 13:25:59 公開日:2022-11-23
# 深層学習の代替としての効率的な浅層学習

Efficient shallow learning as an alternative to deep learning ( http://arxiv.org/abs/2211.11106v2 )

ライセンス: Link先を確認
Yuval Meir, Ofek Tevet, Yarden Tzach, Shiri Hodassman, Ronit D. Gross and Ido Kanter(参考訳) 複雑な分類タスクの実現には、人間の脳の現実とはかけ離れた、数十から数百の畳み込みと完全に結びついた隠された層からなるディープラーニング(DL)アーキテクチャのトレーニングが必要である。 DLの論理によれば、第1の畳み込み層は、入力のクラスを確実に特徴づけるまで、以下の層における入力および大規模パターンの局所化パターンを明らかにする。 本稿では,第1畳み込み層と第2畳み込み層の深さの比率が一定であることから,第1畳み込み層のフィルタ数に比例するパワー則として減衰する5層のみからなる一般浅層リーネットアーキテクチャの誤差率を示す。 この電力法則の外挿は、一般化されたLeNetが、DLアーキテクチャを用いてCIFAR-10データベースで以前得られた小さなエラー率を達成できることを示している。 同様の指数を持つ電力法則も一般化されたVGG-16アーキテクチャを特徴付けている。 しかし、この結果、lenetに関して与えられたエラー率を達成するのに必要な操作数が大幅に増加する。 このパワーロー現象は、様々な一般化されたlenetとvgg-16アーキテクチャを管理し、その普遍的な振る舞いを示唆し、機械学習アーキテクチャ間での定量的階層的時間空間複雑性を示唆する。 さらに、その大きさの深さの平方根である畳み込み層に沿った保存法則は、漸近的に誤り率を最小化する。 本研究で実証された効率的な浅層学習は,様々なデータベースとアーキテクチャを用いたさらなる定量的評価と,今後の専用ハードウェア開発による実装の促進を求めるものである。

The realization of complex classification tasks requires training of deep learning (DL) architectures consisting of tens or even hundreds of convolutional and fully connected hidden layers, which is far from the reality of the human brain. According to the DL rationale, the first convolutional layer reveals localized patterns in the input and large-scale patterns in the following layers, until it reliably characterizes a class of inputs. Here, we demonstrate that with a fixed ratio between the depths of the first and second convolutional layers, the error rates of the generalized shallow LeNet architecture, consisting of only five layers, decay as a power law with the number of filters in the first convolutional layer. The extrapolation of this power law indicates that the generalized LeNet can achieve small error rates that were previously obtained for the CIFAR-10 database using DL architectures. A power law with a similar exponent also characterizes the generalized VGG-16 architecture. However, this results in a significantly increased number of operations required to achieve a given error rate with respect to LeNet. This power law phenomenon governs various generalized LeNet and VGG-16 architectures, hinting at its universal behavior and suggesting a quantitative hierarchical time-space complexity among machine learning architectures. Additionally, the conservation law along the convolutional layers, which is the square-root of their size times their depth, is found to asymptotically minimize error rates. The efficient shallow learning that is demonstrated in this study calls for further quantitative examination using various databases and architectures and its accelerated implementation using future dedicated hardware developments.
翻訳日:2022-11-27 13:10:00 公開日:2022-11-23
# リソース制約エッジデバイスによるイベントトリガー型分散フェデレーション学習

Event-Triggered Decentralized Federated Learning over Resource-Constrained Edge Devices ( http://arxiv.org/abs/2211.12640v1 )

ライセンス: Link先を確認
Shahryar Zehtabi, Seyyedali Hosseinalipour, Christopher G. Brinton(参考訳) Federated Learning(FL)は、エッジデバイスが個々のデータセット上でローカルモデルトレーニングを行う、分散機械学習(ML)のテクニックである。 従来のFLアルゴリズムでは、エッジで訓練されたモデルを中央サーバに定期的に送信し、基礎となる通信グラフとして星のトポロジーを利用する。 しかし、例えばアドホックな無線ネットワークの設定では、中央コーディネータへのアクセスを仮定することは必ずしも実用的ではない。 本稿では,分散化flのための新しい手法を開発し,ローカルトレーニングに加えて,分散基盤物理ネットワーク上の1ホップ近傍との協調コンセンサス形成を通じて,デバイスがモデルアグリゲーションを行う。 さらに、デバイス間で非同期なイベントトリガー通信を導入することで、タイミングコーディネータの必要性を解消する。 そこで,FLにおける資源の不均一性の課題を考慮し,各機器におけるローカルモデルパラメータの変化を考慮に入れた個別の通信トリガ条件を定義した。 我々は,分散学習とコンセンサス文学における標準的な仮定の下で,この方法論が大域的最適学習モデルに$O{(\frac{\ln{k}}{\sqrt{k}})$で収束することを理論的に実証した。 その後の数値評価により,既存の分散flベースラインと比較して,収束速度および/または通信節約の大幅な改善が得られた。

Federated learning (FL) is a technique for distributed machine learning (ML), in which edge devices carry out local model training on their individual datasets. In traditional FL algorithms, trained models at the edge are periodically sent to a central server for aggregation, utilizing a star topology as the underlying communication graph. However, assuming access to a central coordinator is not always practical, e.g., in ad hoc wireless network settings. In this paper, we develop a novel methodology for fully decentralized FL, where in addition to local training, devices conduct model aggregation via cooperative consensus formation with their one-hop neighbors over the decentralized underlying physical network. We further eliminate the need for a timing coordinator by introducing asynchronous, event-triggered communications among the devices. In doing so, to account for the inherent resource heterogeneity challenges in FL, we define personalized communication triggering conditions at each device that weigh the change in local model parameters against the available local resources. We theoretically demonstrate that our methodology converges to the globally optimal learning model at a $O{(\frac{\ln{k}}{\sqrt{k}})}$ rate under standard assumptions in distributed learning and consensus literature. Our subsequent numerical evaluations demonstrate that our methodology obtains substantial improvements in convergence speed and/or communication savings compared with existing decentralized FL baselines.
翻訳日:2022-11-24 16:35:57 公開日:2022-11-23
# 大規模にロバストな量子機械学習のベンチマーク

Benchmarking Adversarially Robust Quantum Machine Learning at Scale ( http://arxiv.org/abs/2211.12681v1 )

ライセンス: Link先を確認
Maxwell T. West, Sarah M. Erfani, Christopher Leckie, Martin Sevior, Lloyd C.L. Hollenberg, Muhammad Usman(参考訳) 人工知能などの機械学習(ML)手法は、現代科学、技術、産業において急速に普及している。 その正確さと高度さにもかかわらず、ニューラルネットワークは敵攻撃として知られる慎重に設計された悪意のある入力によって簡単に騙される。 このような脆弱性は、古典的ニューラルネットワークにとって依然として深刻な課題であるが、量子ml設定ではその存在範囲が完全には理解されていない。 本研究では,量子変分分類器(QVC)などの量子MLネットワークのロバスト性を,単純かつ複雑な画像データセットと多種多様なハイエンド攻撃による厳密なトレーニングによって評価する。 この結果から,QVCは古典的ニューラルネットワークでは検出されない特徴を学習することで,古典的敵攻撃に対する顕著な堅牢性を示し,MLタスクの量子的優位性を示している。 対照的に、そして驚くべきことに、量子ネットワークに対する攻撃は古典的なニューラルネットワークを欺くことができる。 量子と古典的ネットワークの結果を組み合わせることで,新たな敵攻撃検出技術を提案する。 従来のMLシステムの量子優位性は、精度の向上やアルゴリズムのスピードアップを通じて求められてきましたが、我々の研究は、自動運転車、サイバーセキュリティ、監視ロボットシステムなど、無数のアプリケーションで採用されているMLアルゴリズムの深刻なセキュリティ上の問題と信頼性の問題に対処する、MLモデルの優れた堅牢性を通じて、新しい種類の量子優位性の可能性を明らかにしました。

Machine learning (ML) methods such as artificial neural networks are rapidly becoming ubiquitous in modern science, technology and industry. Despite their accuracy and sophistication, neural networks can be easily fooled by carefully designed malicious inputs known as adversarial attacks. While such vulnerabilities remain a serious challenge for classical neural networks, the extent of their existence is not fully understood in the quantum ML setting. In this work, we benchmark the robustness of quantum ML networks, such as quantum variational classifiers (QVC), at scale by performing rigorous training for both simple and complex image datasets and through a variety of high-end adversarial attacks. Our results show that QVCs offer a notably enhanced robustness against classical adversarial attacks by learning features which are not detected by the classical neural networks, indicating a possible quantum advantage for ML tasks. Contrarily, and remarkably, the converse is not true, with attacks on quantum networks also capable of deceiving classical neural networks. By combining quantum and classical network outcomes, we propose a novel adversarial attack detection technology. Traditionally quantum advantage in ML systems has been sought through increased accuracy or algorithmic speed-up, but our work has revealed the potential for a new kind of quantum advantage through superior robustness of ML models, whose practical realisation will address serious security concerns and reliability issues of ML algorithms employed in a myriad of applications including autonomous vehicles, cybersecurity, and surveillance robotic systems.
翻訳日:2022-11-24 16:35:33 公開日:2022-11-23
# SAH: 逆$k$-maximum内積探索のためのシフト対応非対称ハッシュ

SAH: Shifting-aware Asymmetric Hashing for Reverse $k$-Maximum Inner Product Search ( http://arxiv.org/abs/2211.12751v1 )

ライセンス: Link先を確認
Qiang Huang, Yanhao Wang, Anthony K. H. Tung(参考訳) 本稿では,Reverse $k$-Maximum inner Product Search (R$k$MIPS) と呼ばれる新たな課題について検討する。 クエリ(item)ベクター、アイテムベクターの集合、およびユーザベクターの集合が与えられたとき、r$k$mipsの問題は、クエリベクターを持つ内積がクエリベクターとアイテムベクターのうち最大の$k$の1つであるユーザベクターの集合を見つけることである。 我々は、R$k$MIPS問題に対処するために、第1の準四進時間アルゴリズム、すなわちシフト対応非対称ハッシュ(SAH)を提案する。 項目ベクトル上での最大内積探索(MIPS)を高速化するために、シフト不変な非対称変換を設計し、新しいサブ線形時間シフト型非対称局所性感性ハッシュ(SA-ALSH)方式を開発する。 さらに,conan-treeに基づく新たなブロッキング戦略を考案し,(バッチ内で)ユーザベクトルを効果的にプルーピングする。 RMIPS問題を解くための理論的保証をSAHが達成していることを示す。 5つの実世界のデータセットの実験結果から、SAHはR$k$MIPSの最先端メソッドよりも高速に4$\sim$8$\times$を実行し、F1スコアの90%以上を達成した。 コードは \url{https://github.com/huangqiang/sah} で入手できる。

This paper investigates a new yet challenging problem called Reverse $k$-Maximum Inner Product Search (R$k$MIPS). Given a query (item) vector, a set of item vectors, and a set of user vectors, the problem of R$k$MIPS aims to find a set of user vectors whose inner products with the query vector are one of the $k$ largest among the query and item vectors. We propose the first subquadratic-time algorithm, i.e., Shifting-aware Asymmetric Hashing (SAH), to tackle the R$k$MIPS problem. To speed up the Maximum Inner Product Search (MIPS) on item vectors, we design a shifting-invariant asymmetric transformation and develop a novel sublinear-time Shifting-Aware Asymmetric Locality Sensitive Hashing (SA-ALSH) scheme. Furthermore, we devise a new blocking strategy based on the Cone-Tree to effectively prune user vectors (in a batch). We prove that SAH achieves a theoretical guarantee for solving the RMIPS problem. Experimental results on five real-world datasets show that SAH runs 4$\sim$8$\times$ faster than the state-of-the-art methods for R$k$MIPS while achieving F1-scores of over 90\%. The code is available at \url{https://github.com/HuangQiang/SAH}.
翻訳日:2022-11-24 16:35:08 公開日:2022-11-23
# 分子予測のための正規化位置符号化の学習

Learning Regularized Positional Encoding for Molecular Prediction ( http://arxiv.org/abs/2211.12773v1 )

ライセンス: Link先を確認
Xiang Gao, Weihao Gao, Wenzhi Xiao, Zhirui Wang, Chong Wang, Liang Xiang(参考訳) 機械学習は分子モデリングに有望なアプローチになっている。 原子間距離や結合角などの位置的量は分子物理学において重要な役割を果たす。 既存の作品は、その表現の注意深い手動設計に依存している。 よりエンドツーエンドなアプローチで分子特性を予測する際に、複雑な非線形性をモデル化するために、連続的かつ微分可能な埋め込みを用いて位置量のエンコードを提案する。 物理次元に沿って滑らかな埋め込みを促すために正規化手法が用いられる。 我々は様々な分子特性と力場予測タスクを実験した。 提案手法を組み込んだ3種類のモデルアーキテクチャに対して, 改良された性能を示す。 さらに、学習された位置符号化により、物理に基づく解釈が容易になる。 同様の物理のタスクは、同様の学習された位置エンコーディングを持つ。

Machine learning has become a promising approach for molecular modeling. Positional quantities, such as interatomic distances and bond angles, play a crucial role in molecule physics. The existing works rely on careful manual design of their representation. To model the complex nonlinearity in predicting molecular properties in an more end-to-end approach, we propose to encode the positional quantities with a learnable embedding that is continuous and differentiable. A regularization technique is employed to encourage embedding smoothness along the physical dimension. We experiment with a variety of molecular property and force field prediction tasks. Improved performance is observed for three different model architectures after plugging in the proposed positional encoding method. In addition, the learned positional encoding allows easier physics-based interpretation. We observe that tasks of similar physics have the similar learned positional encoding.
翻訳日:2022-11-24 16:34:39 公開日:2022-11-23
# 協調データ駆動モデリング

Cooperative data-driven modeling ( http://arxiv.org/abs/2211.12971v1 )

ライセンス: Link先を確認
Aleksandr Dekhovich, O. Taylan Turan, Jiaxiang Yi, Miguel A. Bessa(参考訳) メカニクスにおけるデータ駆動モデリングは、最近の機械学習の進歩、特に人工ニューラルネットワークに基づいて急速に進化している。 この分野が成熟するにつれて、異なるグループが作成した新しいデータとモデルが利用可能になり、協調モデリングの可能性が開けた。 しかし、ニューラルネットワークは破滅的な忘れ、すなわち新しいタスクでトレーニングされたときに古いタスクを実行する方法を忘れてしまう。 これは、新しいタスクに既存のモデルを適用することが、他の人が訓練した前のタスクのパフォーマンスに影響するため、協力を妨げる。 著者らはこの問題に対処する継続的学習法を開発し、固体力学に初めて適用した。 特に、この方法は、他のアーキテクチャ(フィードフォワード、畳み込みなど)で使用でき、他の現象を予測するために、履歴に依存した塑性挙動を予測するために、繰り返しニューラルネットワークに適用される。 本研究は, 機械工学コミュニティ間の協調戦略を育成し, ますます困難な課題を解決しようとする, 継続的な学習の今後の発展をめざすものである。 選択した連続学習戦略は、モデルを忘れずに連続的にいくつかの構成法則を学習できることを示し、少ないデータを用いて1モデル当たりの標準法則と同じ誤差を達成する。

Data-driven modeling in mechanics is evolving rapidly based on recent machine learning advances, especially on artificial neural networks. As the field matures, new data and models created by different groups become available, opening possibilities for cooperative modeling. However, artificial neural networks suffer from catastrophic forgetting, i.e. they forget how to perform an old task when trained on a new one. This hinders cooperation because adapting an existing model for a new task affects the performance on a previous task trained by someone else. The authors developed a continual learning method that addresses this issue, applying it here for the first time to solid mechanics. In particular, the method is applied to recurrent neural networks to predict history-dependent plasticity behavior, although it can be used on any other architecture (feedforward, convolutional, etc.) and to predict other phenomena. This work intends to spawn future developments on continual learning that will foster cooperative strategies among the mechanics community to solve increasingly challenging problems. We show that the chosen continual learning strategy can sequentially learn several constitutive laws without forgetting them, using less data to achieve the same error as standard training of one law per model.
翻訳日:2022-11-24 16:34:01 公開日:2022-11-23
# 木の上で成長するサブグループロバストネス:実証的ベースライン調査

Subgroup Robustness Grows On Trees: An Empirical Baseline Investigation ( http://arxiv.org/abs/2211.12703v1 )

ライセンス: Link先を確認
Josh Gardner, Zoran Popovi\'c, Ludwig Schmidt(参考訳) 研究者は、公平で堅牢な機械学習のための多くの方法を提案してきたが、そのサブグループの堅牢性に関する包括的な実証的な評価は欠如している。 本研究では, 感性部分群が明確に定義され, 現実の公正性問題が多く, 先行研究は, 最先端のツリーベースモデルをベースラインとして比較しないことが多い, 表層データにおけるこのギャップに対処する。 我々は,最先端ツリーベース手法と他のベースラインと並行して,公正かつ堅牢な学習のためのいくつかの手法を実証的に比較する。 8つのデータセット上での340{,}000ドル以上のモデル構成を用いた実験により、木に基づく手法はロバストネスおよびフェアネスエンハンシング手法と比較して強いサブグループロバスト性を有することを示した。 さらに、最良のツリーベースモデルは様々なメトリクスよりも優れたパフォーマンスを示す傾向がありますが、ロバストモデルやグループフェアモデルは不安定性を示し、固定されたモデルで異なるメトリクス間で大きなパフォーマンスの差があります。 また,木ベースのモデルではハイパーパラメータの設定に対する感度が低く,トレーニングコストも低いことを実証した。 本研究は,木に基づくアンサンブルモデルが表データに対して有効なベースラインとなることを示唆する。 関連コードと詳細な結果については、https://github.com/jpgard/subgroup-robustness-grows-on-treesを参照。

Researchers have proposed many methods for fair and robust machine learning, but comprehensive empirical evaluation of their subgroup robustness is lacking. In this work, we address this gap in the context of tabular data, where sensitive subgroups are clearly-defined, real-world fairness problems abound, and prior works often do not compare to state-of-the-art tree-based models as baselines. We conduct an empirical comparison of several previously-proposed methods for fair and robust learning alongside state-of-the-art tree-based methods and other baselines. Via experiments with more than $340{,}000$ model configurations on eight datasets, we show that tree-based methods have strong subgroup robustness, even when compared to robustness- and fairness-enhancing methods. Moreover, the best tree-based models tend to show good performance over a range of metrics, while robust or group-fair models can show brittleness, with significant performance differences across different metrics for a fixed model. We also demonstrate that tree-based models show less sensitivity to hyperparameter configurations, and are less costly to train. Our work suggests that tree-based ensemble models make an effective baseline for tabular data, and are a sensible default when subgroup robustness is desired. For associated code and detailed results, see https://github.com/jpgard/subgroup-robustness-grows-on-trees .
翻訳日:2022-11-24 16:29:10 公開日:2022-11-23
# OGB大規模チャレンジ@NeurIPS 2022におけるVisNet, Transformer-M, および分子特性予測のための事前学習モデル

An ensemble of VisNet, Transformer-M, and pretraining models for molecular property prediction in OGB Large-Scale Challenge @ NeurIPS 2022 ( http://arxiv.org/abs/2211.12791v1 )

ライセンス: Link先を確認
Yusong Wang, Shaoning Li, Tong Wang, Zun Wang, Xinheng He, Bin Shao and Tie-Yan Liu(参考訳) 技術的レポートでは、OGB-LSC 2022 Graph Regression Taskに対するソリューションを提供する。 このタスクの目的は、pcqm4mv2データセット上の任意の分子の量子化学的性質、ホモルーモギャップを予測することである。 コンペティションでは,完全連結なグラフグラフのための幾何強化グラフニューラルネットワークであるTransformer-M-ViSNetと,最適化された構造から測地情報を抽出して事前学習したViSNetであるPretrained-3D-ViSNetの2種類のモデルを構築した。 22モデルのアンサンブルにより、ViSNet Teamはテストチェレンジセットで0.0723 eVのMAEを達成し、昨年のベストメソッドと比較してエラーを39.75%削減した。

In the technical report, we provide our solution for OGB-LSC 2022 Graph Regression Task. The target of this task is to predict the quantum chemical property, HOMO-LUMO gap for a given molecule on PCQM4Mv2 dataset. In the competition, we designed two kinds of models: Transformer-M-ViSNet which is an geometry-enhanced graph neural network for fully connected molecular graphs and Pretrained-3D-ViSNet which is a pretrained ViSNet by distilling geomeotric information from optimized structures. With an ensemble of 22 models, ViSNet Team achieved the MAE of 0.0723 eV on the test-challenge set, dramatically reducing the error by 39.75% compared with the best method in the last year competition.
翻訳日:2022-11-24 16:28:28 公開日:2022-11-23
# 対比較による完全サンプリング

Perfect Sampling from Pairwise Comparisons ( http://arxiv.org/abs/2211.12868v1 )

ライセンス: Link先を確認
Dimitris Fotakis, Alkis Kalavasis, Christos Tzamos(参考訳) そこで本研究では, 離散分布$\mathcal{D}$ から完全標本を効率よく取得する方法を, サポート対象要素のペア比較に限定して検討する。 具体的には、$(x, s)$ が$\mathcal{q}$ (比較される要素を示す) 上の分布から$s$ が引き出され、$x$ が条件付き分布 $\mathcal{d}_s$ (比較の勝者を示す) から引き出され、$\mathcal{d}$ に従って分散されたクリーンサンプル $y$ が出力される。 主に、すべての集合 S$ がサイズ 2 を持つペアワイズ比較の場合に焦点を当てる。 固定分布が$\mathcal{D}$と一致するマルコフ連鎖を設計し、過去からの結合技術を用いて正確なサンプルを得るアルゴリズムを提供する。 しかし、このアルゴリズムのサンプルの複雑さは分布 $\mathcal{D}$ の構造に依存し、多くの自然シナリオにおいて$\mathcal{D}$ のサポートにおいて指数関数的である。 我々の主な貢献は、$\mathcal{D}$の構造に依存しない効率的な正確なサンプリングアルゴリズムを提供することである。 この目的のために、静止分布のよい近似を考えるとかなり高速に混合するパラメトリックマルコフ連鎖を与える。 このような近似は対比較アルゴリズム(shah et al., jmlr 17, 2016)から効率的な学習を用いて得られる。 定常分布が大まかに知られているマルコフ鎖からのサンプリングを高速化する手法は単純で、汎用的で、おそらくは独立した関心事である。

In this work, we study how to efficiently obtain perfect samples from a discrete distribution $\mathcal{D}$ given access only to pairwise comparisons of elements of its support. Specifically, we assume access to samples $(x, S)$, where $S$ is drawn from a distribution over sets $\mathcal{Q}$ (indicating the elements being compared), and $x$ is drawn from the conditional distribution $\mathcal{D}_S$ (indicating the winner of the comparison) and aim to output a clean sample $y$ distributed according to $\mathcal{D}$. We mainly focus on the case of pairwise comparisons where all sets $S$ have size 2. We design a Markov chain whose stationary distribution coincides with $\mathcal{D}$ and give an algorithm to obtain exact samples using the technique of Coupling from the Past. However, the sample complexity of this algorithm depends on the structure of the distribution $\mathcal{D}$ and can be even exponential in the support of $\mathcal{D}$ in many natural scenarios. Our main contribution is to provide an efficient exact sampling algorithm whose complexity does not depend on the structure of $\mathcal{D}$. To this end, we give a parametric Markov chain that mixes significantly faster given a good approximation to the stationary distribution. We can obtain such an approximation using an efficient learning from pairwise comparisons algorithm (Shah et al., JMLR 17, 2016). Our technique for speeding up sampling from a Markov chain whose stationary distribution is approximately known is simple, general and possibly of independent interest.
翻訳日:2022-11-24 16:28:02 公開日:2022-11-23
# Android マルウェア分類のための動的重み付きフェデレーション学習

A Dynamic Weighted Federated Learning for Android Malware Classification ( http://arxiv.org/abs/2211.12874v1 )

ライセンス: Link先を確認
Ayushi Chaudhuri and Arijit Nandi and Buddhadeb Pradhan(参考訳) Androidのマルウェア攻撃は毎日増えており、Androidのユーザはサイバー攻撃に弱い。 研究者はアンドロイドマルウェアの攻撃を検出し軽減するために、多くの機械学習/ディープラーニング(DL)技術を開発した。 しかし、技術の進歩により、androidのモバイルデバイスは増加している。 さらに、デバイスは地理的に分散し、分散データを生成する。 このようなシナリオでは、従来のML/DL技術は、すべてのアプローチが中央システムにデータを保持する必要があるため、実現不可能である。 また、従来のML/DLベースのアンドロイドマルウェア分類技術はスケーラブルではない。 研究者らは、高い分類性能でプライバシー保護とスケーラビリティを解決するために、FLベースのアンドロイドマルウェア分類システムを提案した。 従来のFLでは、フェデレート平均化(FedAvg)を利用して各ラウンドのグローバルモデルを構築し、FLに参加した全顧客から得られるすべてのローカルモデルを統合する。 しかし、従来のFedAvgには欠点があり、各ラウンドのグローバルモデル開発に1つの貧弱なローカルモデルが組み込まれれば、パフォーマンスの低いグローバルモデルになる可能性がある。 FedAvgは平均的にすべてのローカルモデルを好むからです。 この問題に対処するため、本研究の目的は、クライアントの性能に応じて各ローカルモデルの重みが自動的に更新される動的重み付き平均化(dw-fedavg)戦略を設計することである。 DW-FedAvgは4つの人気のあるベンチマークデータセット、Melgenome、Drebin、Kronodroid、Tuandromdを使って評価されている。

Android malware attacks are increasing daily at a tremendous volume, making Android users more vulnerable to cyber-attacks. Researchers have developed many machine learning (ML)/ deep learning (DL) techniques to detect and mitigate android malware attacks. However, due to technological advancement, there is a rise in android mobile devices. Furthermore, the devices are geographically dispersed, resulting in distributed data. In such scenario, traditional ML/DL techniques are infeasible since all of these approaches require the data to be kept in a central system; this may provide a problem for user privacy because of the massive proliferation of Android mobile devices; putting the data in a central system creates an overhead. Also, the traditional ML/DL-based android malware classification techniques are not scalable. Researchers have proposed federated learning (FL) based android malware classification system to solve the privacy preservation and scalability with high classification performance. In traditional FL, Federated Averaging (FedAvg) is utilized to construct the global model at each round by merging all of the local models obtained from all of the customers that participated in the FL. However, the conventional FedAvg has a disadvantage: if one poor-performing local model is included in global model development for each round, it may result in an under-performing global model. Because FedAvg favors all local models equally when averaging. To address this issue, our main objective in this work is to design a dynamic weighted federated averaging (DW-FedAvg) strategy in which the weights for each local model are automatically updated based on their performance at the client. The DW-FedAvg is evaluated using four popular benchmark datasets, Melgenome, Drebin, Kronodroid and Tuandromd used in android malware classification research.
翻訳日:2022-11-24 16:27:32 公開日:2022-11-23
# 対人攻撃は驚くべきほど強力なメタラーナーの攻撃

Adversarial Attacks are a Surprisingly Strong Baseline for Poisoning Few-Shot Meta-Learners ( http://arxiv.org/abs/2211.12990v1 )

ライセンス: Link先を確認
Elre T. Oldewage, John Bronskill, Richard E. Turner(参考訳) 本稿では,展開された数発のメタラーニングシステムの頑健性について検討する。 トレーニングデータとして使用すると、システムの学習アルゴリズムを騙すように調整された、衝突する一連の入力を作成できる。 共作の逆入力は、分類器を相乗的に操作することが期待され、検出が難しい非常に強力なデータポゾン攻撃が可能となる。 ホワイトボックスの設定では、これらの攻撃は非常に成功し、ターゲットモデルの予測が偶然よりも悪化する可能性があることを示します。 しかし、一般に敵の例のよく知られた転送可能性とは対照的に、コルーディング集合は異なる分類器にうまく転送されない。 我々は,攻撃による「過度」と,攻撃が生成されるモデルと攻撃が伝達されるモデルとのミスマッチという2つの仮説を考察する。 これらの仮説によって示唆される緩和戦略にかかわらず、共役入力は通常の方法で独立に生成される逆入力よりも転送される。

This paper examines the robustness of deployed few-shot meta-learning systems when they are fed an imperceptibly perturbed few-shot dataset. We attack amortized meta-learners, which allows us to craft colluding sets of inputs that are tailored to fool the system's learning algorithm when used as training data. Jointly crafted adversarial inputs might be expected to synergistically manipulate a classifier, allowing for very strong data-poisoning attacks that would be hard to detect. We show that in a white box setting, these attacks are very successful and can cause the target model's predictions to become worse than chance. However, in opposition to the well-known transferability of adversarial examples in general, the colluding sets do not transfer well to different classifiers. We explore two hypotheses to explain this: 'overfitting' by the attack, and mismatch between the model on which the attack is generated and that to which the attack is transferred. Regardless of the mitigation strategies suggested by these hypotheses, the colluding inputs transfer no better than adversarial inputs that are generated independently in the usual way.
翻訳日:2022-11-24 16:27:04 公開日:2022-11-23
# 4DVarNetによる衛星SST-SSHシナジーからの海面電流のインバージョン

Inversion of sea surface currents from satellite-derived SST-SSH synergies with 4DVarNets ( http://arxiv.org/abs/2211.13059v1 )

ライセンス: Link先を確認
Ronan Fablet, Bertrand Chapron, Julien Le Sommer, Florian S\'evellec(参考訳) 衛星高度計は、海面のダイナミクスを直接観測するためのユニークな方法である。 しかし、これは海面速度の表面に拘束された地動学的成分に限定されている。 しかし、高齢化のダイナミクスは、100km以下の水平スケールと10日以下のタイムスケールで重要と期待されている。 海洋一般循環モデルの同化は、おそらくこの老朽化した成分のごく一部しか示さない。 そこで我々は,観測された海面トレーサ,特に海面高度(SSH)と海面温度(SST)の相乗効果をよりよく活用し,海面電流をよりよく知るための学習的手法を探る。 具体的には、4DVarNetスキームを開発し、トレーニング可能な観測と事前条件による変動データ同化の定式化を利用する。 ガルフストリームの地域にある観測システムシミュレーション実験 (OSSE) では、SST-SSHのシナジーにより、2.5-3.0日の時間スケールと0.5$^\circ$-0.7$^\circ$の水平スケールの海面速度が明らかになると示唆している。 異なる観測データ、すなわち、沿線高度計、広帯域SWOT高度計およびSSTデータの寄与の分析は、水平空間スケールでの再構成におけるSSTの特徴の重要性を強調している。

Satellite altimetry is a unique way for direct observations of sea surface dynamics. This is however limited to the surface-constrained geostrophic component of sea surface velocities. Ageostrophic dynamics are however expected to be significant for horizontal scales below 100~km and time scale below 10~days. The assimilation of ocean general circulation models likely reveals only a fraction of this ageostrophic component. Here, we explore a learning-based scheme to better exploit the synergies between the observed sea surface tracers, especially sea surface height (SSH) and sea surface temperature (SST), to better inform sea surface currents. More specifically, we develop a 4DVarNet scheme which exploits a variational data assimilation formulation with trainable observations and {\em a priori} terms. An Observing System Simulation Experiment (OSSE) in a region of the Gulf Stream suggests that SST-SSH synergies could reveal sea surface velocities for time scales of 2.5-3.0 days and horizontal scales of 0.5$^\circ$-0.7$^\circ$, including a significant fraction of the ageostrophic dynamics ($\approx$ 47\%). The analysis of the contribution of different observation data, namely nadir along-track altimetry, wide-swath SWOT altimetry and SST data, emphasizes the role of SST features for the reconstruction at horizontal spatial scales ranging from \nicefrac{1}{20}$^\circ$ to \nicefrac{1}{4}$^\circ$.
翻訳日:2022-11-24 16:26:25 公開日:2022-11-23
# ASiT:一般的な音声表現のためのオーディオスペクトログラムvIsion変換器

ASiT: Audio Spectrogram vIsion Transformer for General Audio Representation ( http://arxiv.org/abs/2211.13189v1 )

ライセンス: Link先を確認
Sara Atito, Muhammad Awais, Wenwu Wang, Mark D Plumbley, Josef Kittler(参考訳) 元々自然言語処理用に開発されたビジョントランスフォーマーは、長距離関係の学習に柔軟性があることから、コンピュータビジョンとオーディオコミュニティに大きな関心を集めている。 トランスフォーマーと制限付きデータによって制限される オーディオタスク用のトランスフォーマーベースのほとんどのモデルは、自然画像ドメインとオーディオドメインの間に大きなギャップがあるにもかかわらず、imagenetプリトレーニングされたモデルから微調整される。 これは、オーディオトランスフォーマの自己教師あり事前学習の研究の動機となり、大量のラベル付きデータへの依存を減らし、オーディオスペクトログラムの簡潔な表現の抽出に焦点を当てた。 本稿では,グループマスキングモデル学習と自己蒸留を用いた局所的・グローバルな文脈情報をキャプチャする汎用音声表現用自己教師型トランスフォーマであるASiTを提案する。 我々は,音声イベント分類,キーワードスポッティング,話者識別を含む音声と音声の分類タスクにおいて,事前学習したモデルを評価する。 我々はさらに,様々な事前訓練戦略の評価を含む包括的アブレーション研究を行う。 提案したASiTフレームワークは、すべてのタスクのパフォーマンスを大幅に向上させ、5つのオーディオおよび音声分類タスクに新しい最先端のパフォーマンスを設定し、事前トレーニングに追加データセットを使用するアプローチを含む最近の手法より優れている。 コードと事前訓練された重量は、科学コミュニティ向けに公開されます。

Vision transformers, which were originally developed for natural language processing, have recently generated significant interest in the computer vision and audio communities due to their flexibility in learning long-range relationships. Constrained by data hungry nature of transformers and limited labelled data most transformer-based models for audio tasks are finetuned from ImageNet pretrained models, despite the huge gap between the natural images domain and audio domain. This has motivated the research in self-supervised pretraining of audio transformers, which reduces the dependency on large amounts of labeled data and focuses on extracting concise representation of the audio spectrograms. In this paper, we propose ASiT, a novel self-supervised transformer for general audio representations that captures local and global contextual information employing group masked model learning and self-distillation. We evaluate our pretrained models on both audio and speech classification tasks including audio event classification, keyword spotting, and speaker identification. We further conduct comprehensive ablation studies, including evaluations of different pretraining strategies. The proposed ASiT framework significantly boosts the performance on all tasks and sets a new state-of-the-art performance on five audio and speech classification tasks, outperforming recent methods, including the approaches that use additional datasets for pretraining. The code and pretrained weights will be made publicly available for the scientific community.
翻訳日:2022-11-24 16:25:11 公開日:2022-11-23
# 制限付きマルチウィンナー選挙におけるかなりユーティリティーの割当

Fairly Allocating Utility in Constrained Multiwinner Elections ( http://arxiv.org/abs/2211.12820v1 )

ライセンス: Link先を確認
Kunal Relia(参考訳) マルチウィンナー選挙の公平性は様々な状況で研究されている。 例えば、候補者の多様性と有権者の表現はどちらもフェアと呼ばれる。 すべてのコンテキストにおいて公平性を保証する共通の分母は制約の使用である。 しかし、これらの文脈において、与えられた制約を満たすために選ばれた候補者は、歴史的に不公平な有権者に対して、不公平な結果をもたらす可能性がある。 そこで我々は, 投票者間の制約を公平に満たす候補を選択するモデルを構築した。 そのために、制約付きマルチウィンナー選挙問題を、かなり分けられない商品を割り当てる問題にマップする。 我々は,このモデルの3つの変種,すなわちグローバル,ローカライズ,セクション間を提案する。 次に、モデルの計算複雑性を解析し、3つの変種にわたるモデルの様々な設定におけるユーティリティトレードオフの実証分析を行い、シンプソンのパラドックスの影響について、合成データセットと国連における投票データセットを用いて議論する。 最後に、AIと機械学習の研究、特に公正性を保証するために制約を使用する研究の意義について論じる。

Fairness in multiwinner elections is studied in varying contexts. For instance, diversity of candidates and representation of voters are both separately termed as being fair. A common denominator to ensure fairness across all such contexts is the use of constraints. However, across these contexts, the candidates selected to satisfy the given constraints may systematically lead to unfair outcomes for historically disadvantaged voter populations as the cost of fairness may be borne unequally. Hence, we develop a model to select candidates that satisfy the constraints fairly across voter populations. To do so, the model maps the constrained multiwinner election problem to a problem of fairly allocating indivisible goods. We propose three variants of the model, namely, global, localized, and inter-sectional. Next, we analyze the model's computational complexity, and we present an empirical analysis of the utility traded-off across various settings of our model across the three variants and discuss the impact of Simpson's paradox using synthetic datasets and a dataset of voting at the United Nations. Finally, we discuss the implications of our work for AI and machine learning, especially for studies that use constraints to guarantee fairness.
翻訳日:2022-11-24 16:18:53 公開日:2022-11-23
# 多目的衝突探索のためのコスト分割

Cost Splitting for Multi-Objective Conflict-Based Search ( http://arxiv.org/abs/2211.12885v1 )

ライセンス: Link先を確認
Cheng Ge, Han Zhang, Jiaoyang Li, Sven Koenig(参考訳) 多目的多目的経路探索(MO-MAPF)問題は、複数のコストメトリクスを最小化しながら、エージェントチームにとって衝突のない経路のパレート最適フロンティアを見つける問題である。 このようなコストメトリクスの例としては、到着時間、移動距離、エネルギー消費量などがある。本論文では、最先端のmo-mapfアルゴリズムである多目的コンフリクトベース探索(mo-cbs)アルゴリズムに焦点を当てる。 提案手法では,MO-CBSが使用する標準分割戦略が検索ノードの重複を招き,MO-CBSが行わなければならない探索作業を重複させる可能性があることを示す。 そこで本研究では,mo-cbのコスト分割とコスト分割という2つの新しい分割戦略を提案する。 この2つの新たな分割戦略を組み合わせれば,MO-CBSは完全性と最適性を保証する。 実験結果から,MO-CBSを最大2桁の速度で高速化し,様々な環境での成功率を大幅に向上させることが示唆された。

The Multi-Objective Multi-Agent Path Finding (MO-MAPF) problem is the problem of finding the Pareto-optimal frontier of collision-free paths for a team of agents while minimizing multiple cost metrics. Examples of such cost metrics include arrival times, travel distances, and energy consumption.In this paper, we focus on the Multi-Objective Conflict-Based Search (MO-CBS) algorithm, a state-of-the-art MO-MAPF algorithm. We show that the standard splitting strategy used by MO-CBS can lead to duplicate search nodes and hence can duplicate the search effort that MO-CBS needs to make. To address this issue, we propose two new splitting strategies for MO-CBS, namely cost splitting and disjoint cost splitting. Our theoretical results show that, when combined with either of these two new splitting strategies, MO-CBS maintains its completeness and optimality guarantees. Our experimental results show that disjoint cost splitting, our best splitting strategy, speeds up MO-CBS by up to two orders of magnitude and substantially improves its success rates in various settings.
翻訳日:2022-11-24 16:18:35 公開日:2022-11-23
# 音楽系列の典型性について

On the Typicality of Musical Sequences ( http://arxiv.org/abs/2211.13016v1 )

ライセンス: Link先を確認
Mathias Rose Bjare and Stefan Lattner(参考訳) 最近の出版物では、人為的な英語の単語は条件付きエントロピーに近い情報内容を持つ傾向があることが示されている。 本稿では,人間が生成する単音節音楽列のイベントについても,同じことが当てはまることを示す。 また,「典型的サンプリング」が単一事象やシーケンスのエントロピーに関する情報の分布にどのように影響するかを示す。

It has been shown in a recent publication that words in human-produced English language tend to have an information content close to the conditional entropy. In this paper, we show that the same is true for events in human-produced monophonic musical sequences. We also show how "typical sampling" influences the distribution of information around the entropy for single events and sequences.
翻訳日:2022-11-24 16:18:16 公開日:2022-11-23
# 実世界の人間ロボットコラボレーションにおけるトランスファーラーニングによるチームのパフォーマンス向上

Enhancing team performance with transfer-learning during real-world human-robot collaboration ( http://arxiv.org/abs/2211.13070v1 )

ライセンス: Link先を確認
Athanasios C. Tsitos and Maria Dagioglou(参考訳) 社会的に認識されたロボットは、解決のために相互依存のアクションを必要とするタスクにおいて、人間とロボットの融合を円滑に支援できるはずである。 相互性能の向上に向けて、協調ロボットは適応と学習能力を備えるべきである。 しかし、コラーニングは時間のかかる手順である。 そのため、専門家から知識を移すことで、チーム全体のパフォーマンスが向上する可能性がある。 本研究では,伝達学習を深層強化学習(dRL)エージェントに統合した。 リアルタイムおよび実世界のセットアップでは、参加者の2つのグループは、drlエージェントの2つの異なる条件下でコボットと協力しなければならなかった。 伝達学習(TL)には確率的政策再利用法が用いられた。 その結果、2つのグループの成績には有意差があり、tlは新たな参加者の訓練に要する時間を半減した。 さらに、TLはチームの主観的パフォーマンスにも影響を与え、知覚された流感を高めた。 最後に、多くの場合、客観的なパフォーマンス指標は、透明で説明可能なコボットの振る舞いの設計に関する興味深い洞察を提供する主観的な指標と相関しなかった。

Socially aware robots should be able, among others, to support fluent human-robot collaboration in tasks that require interdependent actions in order to be solved. Towards enhancing mutual performance, collaborative robots should be equipped with adaptation and learning capabilities. However, co-learning can be a time consuming procedure. For this reason, transferring knowledge from an expert could potentially boost the overall team performance. In the present study, transfer learning was integrated in a deep Reinforcement Learning (dRL) agent. In a real-time and real-world set-up, two groups of participants had to collaborate with a cobot under two different conditions of dRL agents; one that was transferring knowledge and one that did not. A probabilistic policy reuse method was used for the transfer learning (TL). The results showed that there was a significant difference between the performance of the two groups; TL halved the time needed for the training of new participants to the task. Moreover, TL also affected the subjective performance of the teams and enhanced the perceived fluency. Finally, in many cases the objective performance metrics did not correlate with the subjective ones providing interesting insights about the design of transparent and explainable cobot behaviour.
翻訳日:2022-11-24 16:18:09 公開日:2022-11-23
# モノトーン分離型多人数投票規則を用いた多人数代表委員会作成の複雑さについて

On the Complexity of Finding a Diverse and Representative Committee using a Monotone, Separable Positional Multiwinner Voting Rule ( http://arxiv.org/abs/2211.13217v1 )

ライセンス: Link先を確認
Kunal Relia(参考訳) マルチウィンター選挙における公正さは、計算社会選択における研究の行数の増加であり、公正性を確保するために制約を使用することを主に懸念している。 最近の研究は、多種多様な \emph{and} 代表委員会を見つけるためのモデルを提案し、モデルの計算的側面を研究した。 しかし、この研究は候補者と有権者がどうグループ化されるかという大きな仮定の下で複雑な結果をもたらした。 ここでは、このギャップを埋めて、P$\neq$ NP という仮定に基づいて、単調で分離可能な位置多元投票規則を用いて、多様で代表的な委員会を見つける複雑さを分類する。

Fairness in multiwinner elections, a growing line of research in computational social choice, primarily concerns the use of constraints to ensure fairness. Recent work proposed a model to find a diverse \emph{and} representative committee and studied the model's computational aspects. However, the work gave complexity results under major assumptions on how the candidates and the voters are grouped. Here, we close this gap and classify the complexity of finding a diverse and representative committee using a monotone, separable positional multiwinner voting rule, conditioned \emph{only} on the assumption that P $\neq$ NP.
翻訳日:2022-11-24 16:17:32 公開日:2022-11-23
# H \rightarrow b\bar{b}$ jets 同定のための相互作用ネットワークの解釈可能性

Interpretability of an Interaction Network for identifying $H \rightarrow b\bar{b}$ jets ( http://arxiv.org/abs/2211.12770v1 )

ライセンス: Link先を確認
Avik Roy, Mark S. Neubauer(参考訳) 多変量技術と機械学習モデルは、長年にわたり高エネルギー物理学(HEP)研究に多くの応用を見出している。 近年、ディープニューラルネットワークに基づくAIモデルは、これらのアプリケーションの多くで人気が高まっている。 しかし、ニューラルネットワークはブラックボックスと見なされる -- その複雑さが高いため、ニューラルネットワークの出力を、扱いやすい入出力関係とディープネットワーク層を通じた情報伝達を確立することによって定量的に説明することが難しいことが多い。 近年、説明可能なAI(xAI)手法が普及してきているため、QCDの背景にある$H\to b\bar{b}$ジェットを識別するために設計されたインタラクションネットワーク(IN)モデルを調べ、AIモデルの解釈可能性を検討する。 分類器ネットワークが入力に基づいてどのように決定を下すか、この情報を用いてモデル作成をシンプルかつ等しく効果的に再最適化するかを示すために、異なる定量的手法を探索する。 さらに、INモデル内の隠れレイヤの活動を、ニューラルアクティベーションパターン(NAP)ダイアグラムとして記述する。 実験の結果,napダイアグラムは,深層モデルの隠れた層間での情報伝達方法に関する重要な情報を明らかにすることが示唆された。 これらの洞察は、効果的なモデル再最適化とハイパーパラメータチューニングに有用である。

Multivariate techniques and machine learning models have found numerous applications in High Energy Physics (HEP) research over many years. In recent times, AI models based on deep neural networks are becoming increasingly popular for many of these applications. However, neural networks are regarded as black boxes -- because of their high degree of complexity it is often quite difficult to quantitatively explain the output of a neural network by establishing a tractable input-output relationship and information propagation through the deep network layers. As explainable AI (xAI) methods are becoming more popular in recent years, we explore interpretability of AI models by examining an Interaction Network (IN) model designed to identify boosted $H\to b\bar{b}$ jets amid QCD background. We explore different quantitative methods to demonstrate how the classifier network makes its decision based on the inputs and how this information can be harnessed to reoptimize the model-making it simpler yet equally effective. We additionally illustrate the activity of hidden layers within the IN model as Neural Activation Pattern (NAP) diagrams. Our experiments suggest NAP diagrams reveal important information about how information is conveyed across the hidden layers of deep model. These insights can be useful to effective model reoptimization and hyperparameter tuning.
翻訳日:2022-11-24 16:17:17 公開日:2022-11-23
# 日内電力市場におけるシミュレーションに基づく予測:価格分布の位置, 形状, 規模をモデル化する

Simulation-based Forecasting for Intraday Power Markets: Modelling Fundamental Drivers for Location, Shape and Scale of the Price Distribution ( http://arxiv.org/abs/2211.13002v1 )

ライセンス: Link先を確認
Simon Hirsch, Florian Ziel(参考訳) 過去数年間、欧州の日内電力市場は、断続的な再生可能エネルギーの発生量の増加による予測エラーのバランスをとる上で重要になっている。 しかし、日頭市場と比較して、日内価格プロセスのドライバーはいまだに調査されていない。 本稿では,基本変数に基づく日内市場におけるリターン分布の位置,形状,スケールパラメータのモデル化手法を提案する。 我々は、風と太陽の予報と、その日内更新、停電、価格情報、およびスポットオークション曲線を説明変数として導出した、メリットオーダの形状の新しい尺度について考察する。 価格経路をシミュレートしてモデリングを検証するとともに、ドイツ市場を対象とした予測研究において、モデルの確率的予測性能をベンチマークモデルと比較した。 このアプローチは、特に分布の尾部において、予測性能に大きな改善をもたらす。 同時に、我々は駆動変数の寄与を導出することができる。 価格変更の最初のラグとは別に、私たちの基本的な変数は、日内リターンの期待値に関する説明力を持っていないことが分かりました。 これは、再生可能エネルギーの予測変更や停止情報が市場によって価格設定されているように見えるため、市場効率の低下を意味する。 ボラティリティーは、メリット秩序体制、納品時間、クロスボーダー注文帳の閉鎖によって引き起こされていることが分かりました。 流通の尾は、主に過去の価格差と取引活動に影響されている。 当社のアプローチは、ヨーロッパの他の日内市場に直接移行可能です。

During the last years, European intraday power markets have gained importance for balancing forecast errors due to the rising volumes of intermittent renewable generation. However, compared to day-ahead markets, the drivers for the intraday price process are still sparsely researched. In this paper, we propose a modelling strategy for the location, shape and scale parameters of the return distribution in intraday markets, based on fundamental variables. We consider wind and solar forecasts and their intraday updates, outages, price information and a novel measure for the shape of the merit-order, derived from spot auction curves as explanatory variables. We validate our modelling by simulating price paths and compare the probabilistic forecasting performance of our model to benchmark models in a forecasting study for the German market. The approach yields significant improvements in the forecasting performance, especially in the tails of the distribution. At the same time, we are able to derive the contribution of the driving variables. We find that, apart from the first lag of the price changes, none of our fundamental variables have explanatory power for the expected value of the intraday returns. This implies weak-form market efficiency as renewable forecast changes and outage information seems to be priced in by the market. We find that the volatility is driven by the merit-order regime, the time to delivery and the closure of cross-border order books. The tail of the distribution is mainly influenced by past price differences and trading activity. Our approach is directly transferable to other continuous intraday markets in Europe.
翻訳日:2022-11-24 16:16:56 公開日:2022-11-23
# 量子ニューラルネットワークの表現可能性向上戦略

Expressibility-Enhancing Strategies for Quantum Neural Networks ( http://arxiv.org/abs/2211.12670v1 )

ライセンス: Link先を確認
Yalin Liao, Junpeng Zhan(参考訳) パラメータ化された量子回路で表現される量子ニューラルネットワーク(QNN)は、入力データを予測にマッピングする教師あり学習のパラダイムで訓練することができる。 多くの研究はQNNの表現力を理論的に分析することに重点を置いている。 しかし、ほとんどすべての文献において、QNNの表現力は単純な単変量関数のみを用いて数値的に検証される。 高い表現力を持つ最先端QNNは,単純な正弦波関数でさえも近似性能が劣ることがわかった。 このギャップを埋めるために, 正弦波対応埋め込み, 冗長測定, 後測定機能, ランダムトレーニングデータという4つのQNNの表現可能性向上戦略を提案する。 複雑な正弦波関数の学習を含む数学的解析および/または数値研究を通じて,これらの戦略の有効性を分析する。 比較実験の結果,複素多変数関数近似におけるqnnの性能を著しく向上させ,必要な量子回路深度と量子ビットを低減できることを確認した。

Quantum neural networks (QNNs), represented by parameterized quantum circuits, can be trained in the paradigm of supervised learning to map input data to predictions. Much work has focused on theoretically analyzing the expressive power of QNNs. However, in almost all literature, QNNs' expressive power is numerically validated using only simple univariate functions. We surprisingly discover that state-of-the-art QNNs with strong expressive power can have poor performance in approximating even just a simple sinusoidal function. To fill the gap, we propose four expressibility-enhancing strategies for QNNs: Sinusoidal-friendly embedding, redundant measurement, post-measurement function, and random training data. We analyze the effectiveness of these strategies via mathematical analysis and/or numerical studies including learning complex sinusoidal-based functions. Our results from comparative experiments validate that the four strategies can significantly increase the QNNs' performance in approximating complex multivariable functions and reduce the quantum circuit depth and qubits required.
翻訳日:2022-11-24 16:16:14 公開日:2022-11-23
# FLAIR #1: セマンティックセグメンテーションとドメイン適応データセット

FLAIR #1: semantic segmentation and domain adaptation dataset ( http://arxiv.org/abs/2211.12979v1 )

ライセンス: Link先を確認
Anatol Garioud, St\'ephane Peillet, Eva Bookjans, S\'ebastien Giordano, Boris Wattrelos(参考訳) フランス国立地理学・森林情報研究所(IGN)は、フランス領の土地被覆を文書化し、測定する任務を持ち、高解像度の空中画像や地形地図を含む参照地理的データセットを提供している。 土地被覆のモニタリングは土地管理と計画のイニシアチブにおいて重要な役割を果たす。 リモートセンシング技術とともに、人工知能(ia)は、土地被覆とその進化を決定する強力なツールになることを約束する。 IGNは現在、高解像度の土地被覆地図の作成においてIAの可能性を探っている。 特に,空中画像のセマンティックセグメンテーションを得るために深層学習法が用いられている。 しかし、フランスのように広い領域は異質な文脈を暗示している: 風景の変化と画像の取得は、フランス全土で均一で信頼性が高く正確な結果を提供することを困難にしている。 FLAIR-oneデータセットは、現在IGNで使われているデータセットの一部であり、フランス国立土地被覆地図「Occupation du sol \`a grande \'echelle」(OCS-GE)の確立に使用されている。

The French National Institute of Geographical and Forest Information (IGN) has the mission to document and measure land-cover on French territory and provides referential geographical datasets, including high-resolution aerial images and topographic maps. The monitoring of land-cover plays a crucial role in land management and planning initiatives, which can have significant socio-economic and environmental impact. Together with remote sensing technologies, artificial intelligence (IA) promises to become a powerful tool in determining land-cover and its evolution. IGN is currently exploring the potential of IA in the production of high-resolution land cover maps. Notably, deep learning methods are employed to obtain a semantic segmentation of aerial images. However, territories as large as France imply heterogeneous contexts: variations in landscapes and image acquisition make it challenging to provide uniform, reliable and accurate results across all of France. The FLAIR-one dataset presented is part of the dataset currently used at IGN to establish the French national reference land cover map "Occupation du sol \`a grande \'echelle" (OCS- GE).
翻訳日:2022-11-24 16:10:00 公開日:2022-11-23
# Fusing Expert Features による視覚的テキスト知覚分析の改善

Improving Visual-textual Sentiment Analysis by Fusing Expert Features ( http://arxiv.org/abs/2211.12981v1 )

ライセンス: Link先を確認
Junyu Chen, Jie An, Hanjia Lyu, Jiebo Luo(参考訳) 視覚-テキスト感情分析は、画像とテキストのペア入力で感情を予測することを目的としている。 視覚的・テキスト的感情分析の主な課題は、入力画像が非常に多様なため、感情予測に効果的な視覚的特徴を学習する方法である。 この課題に対処するために,強力な視覚機能を導入することにより,視覚-文感情分析を改善する新しい手法を提案する。 提案手法は,(1)感情分析のためのデータから特徴を直接学習する視覚テキストブランチ,(2)効果的な視覚特徴を抽出する訓練済みの「エキスパート」エンコーダを備えた視覚専門家ブランチ,(3)暗黙的に視覚テキスト対応をモデル化するCLIPブランチ,(4)多モード特徴を融合し感情予測を行うBERTまたはMLPに基づくマルチモーダル特徴融合ネットワークの4つの部分から構成される。 3つのデータセットを広範囲に実験した結果,既存の手法よりも視覚的・テキスト的感情分析性能が向上した。

Visual-textual sentiment analysis aims to predict sentiment with the input of a pair of image and text. The main challenge of visual-textual sentiment analysis is how to learn effective visual features for sentiment prediction since input images are often very diverse. To address this challenge, we propose a new method that improves visual-textual sentiment analysis by introducing powerful expert visual features. The proposed method consists of four parts: (1) a visual-textual branch to learn features directly from data for sentiment analysis, (2) a visual expert branch with a set of pre-trained "expert" encoders to extract effective visual features, (3) a CLIP branch to implicitly model visual-textual correspondence, and (4) a multimodal feature fusion network based on either BERT or MLP to fuse multimodal features and make sentiment prediction. Extensive experiments on three datasets show that our method produces better visual-textual sentiment analysis performance than existing methods.
翻訳日:2022-11-24 16:09:39 公開日:2022-11-23
# 自律視覚に基づく高速空中把持

Autonomous Vision-based Rapid Aerial Grasping ( http://arxiv.org/abs/2211.13093v1 )

ライセンス: Link先を確認
Erik Bauer, Barnabas Gavin Cangan, Robert K. Katzschmann(参考訳) ロボットの未来において、視覚と空間の知覚はロボットシステムにとって最も重要である。 特に航空ロボットには、現実世界のシナリオに視覚知覚を利用する多くの応用がある。 ドローンによる空中の把握は、他のロボティクスソリューションよりも大きなモビリティを持つ高速なピック・アンド・プレイス・ソリューションを約束する。 本研究では,Mask R-CNNシーンセグメンテーション(detectron2)を用いて,物体の局所化のマーカーに頼らず,既知物体のサイズを必要としない自律的高速空中捕捉システムを提案する。 深度カメラからの空間情報を用いて検出対象の点雲を生成し,幾何学に基づく把握計画を行い,物体の把握点を決定する。 実世界実験では, 0.5mから2.5mの範囲の物体からの距離に対して, 平均誤差3cmで物体をローカライズできることを示した。 物体定位のためのモーションキャプチャを用いたシステムと比較して, 同様の把握の有効性が維持される。 本研究は,空飛ぶプラットフォームを用いた幾何学的把持技術の最初の使用例を示し,既存の航空操作プラットフォームの自律性向上を目標とし,倉庫等における実世界の応用に向けた。

In a future with autonomous robots, visual and spatial perception is of utmost importance for robotic systems. Particularly for aerial robotics, there are many applications where utilizing visual perception is necessary for any real-world scenarios. Robotic aerial grasping using drones promises fast pick-and-place solutions with a large increase in mobility over other robotic solutions. Utilizing Mask R-CNN scene segmentation (detectron2), we propose a vision-based system for autonomous rapid aerial grasping which does not rely on markers for object localization and does not require the size of the object to be previously known. With spatial information from a depth camera, we generate a point cloud of the detected objects and perform geometry-based grasp planning to determine grasping points on the objects. In real-world experiments, we show that our system can localize objects with a mean error of 3 cm compared to a motion capture ground truth for distances from the object ranging from 0.5 m to 2.5 m. Similar grasping efficacy is maintained compared to a system using motion capture for object localization in experiments. With our results, we show the first use of geometry-based grasping techniques with a flying platform and aim to increase the autonomy of existing aerial manipulation platforms, bringing them further towards real-world applications in warehouses and similar environments.
翻訳日:2022-11-24 16:09:17 公開日:2022-11-23
# 行動認識における効率的なクロスデータセット転送可能なブラックボックス攻撃

Query Efficient Cross-Dataset Transferable Black-Box Attack on Action Recognition ( http://arxiv.org/abs/2211.13171v1 )

ライセンス: Link先を確認
Rohit Gupta, Naveed Akhtar, Gaurav Kumar Nayak, Ajmal Mian and Mubarak Shah(参考訳) ブラックボックス攻撃は、アクション認識システムに現実的な脅威をもたらす。 既存のブラックボックス攻撃は、ターゲットモデルをクエリすることで攻撃を最適化するクエリベースのアプローチか、代替モデルを使用して攻撃を生成する転送ベースのアプローチのいずれかに従う。 これらの手法はまともな騙し率を達成することができるが、前者はクエリ非効率であり、後者はブラックボックスモデルのトレーニングデータの広範な知識を前提としている。 本稿では,事前訓練した代用モデルで学習した特徴を乱し,クエリ数を減らすことで,これらの欠点に対処する新たな行動認識攻撃を提案する。 提案手法は,ほぼ不規則なデータセットを用いて代替モデルをトレーニングすることにより,対象モデルと同じデータセットを用いて代用モデルをトレーニングすることの必要性を排除し,クエリベースの手法によって提供される不正率のメリットを維持するために,ターゲットモデルに対するクエリを利用する。 その結果、従来のブラックボックス攻撃よりも転送可能な攻撃が発生する。 広範な実験を通じて,提案フレームワークを用いたクエリ効率の高いブラックボックス攻撃を実証する。 提案手法は,最先端のクエリベースおよび転送ベースの攻撃と比較して,8%,12%高い遅延率を達成する。

Black-box adversarial attacks present a realistic threat to action recognition systems. Existing black-box attacks follow either a query-based approach where an attack is optimized by querying the target model, or a transfer-based approach where attacks are generated using a substitute model. While these methods can achieve decent fooling rates, the former tends to be highly query-inefficient while the latter assumes extensive knowledge of the black-box model's training data. In this paper, we propose a new attack on action recognition that addresses these shortcomings by generating perturbations to disrupt the features learned by a pre-trained substitute model to reduce the number of queries. By using a nearly disjoint dataset to train the substitute model, our method removes the requirement that the substitute model be trained using the same dataset as the target model, and leverages queries to the target model to retain the fooling rate benefits provided by query-based methods. This ultimately results in attacks which are more transferable than conventional black-box attacks. Through extensive experiments, we demonstrate highly query-efficient black-box attacks with the proposed framework. Our method achieves 8% and 12% higher deception rates compared to state-of-the-art query-based and transfer-based attacks, respectively.
翻訳日:2022-11-24 16:08:58 公開日:2022-11-23
# 拡散モデルによるインバージョンベース創造性伝達

Inversion-Based Creativity Transfer with Diffusion Models ( http://arxiv.org/abs/2211.13203v1 )

ライセンス: Link先を確認
Yuxin Zhang, Nisha Huang, Fan Tang, Haibin Huang, Chongyang Ma, Weiming Dong, Changsheng Xu(参考訳) 本稿では,Creativity Transferの課題について紹介する。 絵画における芸術的創造性は表現の手段であり、絵画の素材、色、ブラシストロークだけでなく、意味的要素、物体の形状などを含む高レベルな属性も含む。 以前の任意の例で指示された芸術的画像生成手法(例えば、スタイル転送)は、しばしば形状変化の制御や意味的要素の伝達に失敗する。 事前学習されたテキストから画像への合成拡散確率モデルは驚くべき品質を達成したが、それらはしばしば特定の絵画の属性を正確に描写するために広範なテキスト記述を必要とする。 アートワークの独特さは、通常の言語では十分に説明できないという事実に正確に関係していると考えています。 私たちの重要なアイデアは、単一の絵画から直接芸術的創造性を学び、複雑なテキスト記述を提供することなく合成を導くことです。 具体的には、創造性を絵画の学習可能なテキスト記述とみなす。 本稿では,画像の全体的かつ詳細な情報を効率よく,かつ正確に学習し,絵画の完全な芸術的創造性を捉える,注目に基づくインバージョン手法を提案する。 本手法の質と効率を,様々な芸術家や様式の多彩な絵画に示す。 コードとモデルはhttps://github.com/zyxelsa/creativity-transfer.comで入手できる。

In this paper, we introduce the task of "Creativity Transfer". The artistic creativity within a painting is the means of expression, which includes not only the painting material, colors, and brushstrokes, but also the high-level attributes including semantic elements, object shape, etc. Previous arbitrary example-guided artistic image generation methods (e.g., style transfer) often fail to control shape changes or convey semantic elements. The pre-trained text-to-image synthesis diffusion probabilistic models have achieved remarkable quality, but they often require extensive textual descriptions to accurately portray attributes of a particular painting. We believe that the uniqueness of an artwork lies precisely in the fact that it cannot be adequately explained with normal language. Our key idea is to learn artistic creativity directly from a single painting and then guide the synthesis without providing complex textual descriptions. Specifically, we assume creativity as a learnable textual description of a painting. We propose an attention-based inversion method, which can efficiently and accurately learn the holistic and detailed information of an image, thus capturing the complete artistic creativity of a painting. We demonstrate the quality and efficiency of our method on numerous paintings of various artists and styles. Code and models are available at https://github.com/zyxElsa/creativity-transfer.
翻訳日:2022-11-24 16:08:38 公開日:2022-11-23
# ClimateNeRF: 極端気候合成のための物理ベースニューラルレンダリング

ClimateNeRF: Physically-based Neural Rendering for Extreme Climate Synthesis ( http://arxiv.org/abs/2211.13226v1 )

ライセンス: Link先を確認
Yuan Li, Zhi-Hao Lin, David Forsyth, Jia-Bin Huang, Shenlong Wang(参考訳) 物理シミュレーションは天気効果の予測に優れる。 神経放射場はSOTAシーンモデルを生成する。 本稿では,自然現象のリアルな映画を再現し,シーンのnerfモデルと物理シミュレーションを融合させる,新しいnerf編集手法について述べる。 私たちのアプリケーションであるClimate NeRFは、気候変動の結果が彼らに与える影響を可視化します。 ClimateNeRFを使えば、スモッグや雪、洪水など、現実的な気象効果を表現できます。 結果は水位のような物理的に有意義な変数で制御できる。 定性的および定量的研究により、我々のシミュレーション結果は最先端の2D画像編集や3D NeRFスタイリングよりもはるかに現実的であることが示された。

Physical simulations produce excellent predictions of weather effects. Neural radiance fields produce SOTA scene models. We describe a novel NeRF-editing procedure that can fuse physical simulations with NeRF models of scenes, producing realistic movies of physical phenomena inthose scenes. Our application -- Climate NeRF -- allows people to visualize what climate change outcomes will do to them. ClimateNeRF allows us to render realistic weather effects, including smog, snow, and flood. Results can be controlled with physically meaningful variables like water level. Qualitative and quantitative studies show that our simulated results are significantly more realistic than those from state-of-the-art 2D image editing and 3D NeRF stylization.
翻訳日:2022-11-24 16:08:17 公開日:2022-11-23
# 生成AIがビジュアルコンテンツマーケティングの将来に与える影響

The Impact of Generative AI on the Future of Visual Content Marketing ( http://arxiv.org/abs/2211.12660v1 )

ライセンス: Link先を確認
Shiva Mayahi, Marko Vidrih(参考訳) 今日のマーケティングの世界では、視覚的にアピールするコンテンツが必要である。 ビジュアル素材は、マスコミュニケーションのためのガジェットが広く普及し、視覚の進歩が拡大した結果、あらゆる企業にとって重要な分野となっている。 同様に、人工知能も台頭しており、これまでで最も革新的な技術進歩であることが証明されている。 ビジュアルコンテンツと人工知能の統合は、忠実な顧客の獲得と維持の鍵であり、あらゆるプロダクションの包括的なマーケティング戦略が欠如していることは、最終的に同社の市場シェアを小さくする恐れがある。

In today's world of marketing, it is necessary to have visually appealing content. Visual material has become an essential area of focus for every company as a result of the widespread availability of gadgets for mass communication and extended visual advancements. Similarly, artificial intelligence is also gaining ground and it is proving to be the most revolutionary technological advancement thus far. The integration of visual content with artificial intelligence is the key to acquiring and retaining loyal customers; its absence from the overarching marketing strategy of any production raises a red flag that could ultimately result in a smaller market share for that company.
翻訳日:2022-11-24 16:07:58 公開日:2022-11-23
# SciAI4Industry -- ディープラーニングによる産業規模の問題解決

SciAI4Industry -- Solving PDEs for industry-scale problems with deep learning ( http://arxiv.org/abs/2211.12709v1 )

ライセンス: Link先を確認
Philipp A. Witte, Russell J. Hewett, Kumar Saurabh, AmirHossein Sojoodi, Ranveer Chandra(参考訳) 深層学習による偏微分方程式の解法により、シミュレーション時間を桁違いに減らし、最適化や不確実性定量化のような多くの逐次シミュレーションに依存する科学的手法を解くことができる。 産業問題設定に科学的aiを採用する上での最大の課題は、トレーニングデータセットを事前にシミュレートしなければならず、大規模pdesを解決するニューラルネットワークが現在のgpuのメモリ能力を超えていることだ。 我々はJulia言語に分散プログラミングAPIを導入し、クラウド上で並列にトレーニングデータをシミュレートし、ユーザが基盤となるHPCインフラストラクチャを管理する必要をなくした。 さらに,ドメイン分解に基づくモデル並列ディープラーニングによって,pdesを商業的な問題設定に拡張し,90%以上の並列効率を達成するために,ニューラルネットワークをスケールできることを示す。 データ生成とモデル並列ディープラーニングをトレーニングするクラウドapiを組み合わせることで,3次元navier-stokes方程式を解き,多孔質媒質中の3次元co2フローをシミュレートするために,大規模ニューラルネットワークをトレーニングする。 CO2の例では、商用の炭素捕獲・貯蔵(CCS)プロジェクトに基づくトレーニングデータセットをシミュレートし、従来の数値シミュレータよりも5桁高速で3200倍安い200万以上のセルを持つ3Dグリッド上で、CO2フローシミュレーションのためのニューラルネットワークをトレーニングする。

Solving partial differential equations with deep learning makes it possible to reduce simulation times by multiple orders of magnitude and unlock scientific methods that typically rely on large numbers of sequential simulations, such as optimization and uncertainty quantification. Two of the largest challenges of adopting scientific AI for industrial problem settings is that training datasets must be simulated in advance and that neural networks for solving large-scale PDEs exceed the memory capabilities of current GPUs. We introduce a distributed programming API in the Julia language for simulating training data in parallel on the cloud and without requiring users to manage the underlying HPC infrastructure. In addition, we show that model-parallel deep learning based on domain decomposition allows us to scale neural networks for solving PDEs to commercial-scale problem settings and achieve above 90% parallel efficiency. Combining our cloud API for training data generation and model-parallel deep learning, we train large-scale neural networks for solving the 3D Navier-Stokes equation and simulating 3D CO2 flow in porous media. For the CO2 example, we simulate a training dataset based on a commercial carbon capture and storage (CCS) project and train a neural network for CO2 flow simulation on a 3D grid with over 2 million cells that is 5 orders of magnitudes faster than a conventional numerical simulator and 3,200 times cheaper.
翻訳日:2022-11-24 16:07:49 公開日:2022-11-23
# リスクシナリオにおける個人化オンボード運転支援のためのオープンケースベース推論フレームワーク

An Open Case-based Reasoning Framework for Personalized On-board Driving Assistance in Risk Scenarios ( http://arxiv.org/abs/2211.12798v1 )

ライセンス: Link先を確認
Wenbin Gan, Minh-Son Dao, Koji Zettsu(参考訳) ドライバーの反応はリスクシナリオにおいて極めて重要である。 ドライバーは適切なクッションタイムで正確な回避操作をすることができるが、この反応プロセスは経験に依存しており、様々なレベルの運転スキルを必要とする。 運転安全性の向上と交通事故の回避には、すべての道路運転手に車載運転支援を提供する必要がある。 本研究は, 交通事例の定常的流れから人間運転経験の富を生かし, 衝突回避行動の選択とクッション時間に基づく推論のパラダイムとして, ケースベース推論(CBR)の妥当性を検討するものである。 そこで本稿では,パーソナライズされた車載運転支援を実現するためのオープンなフレームワークを提案する。 特に,交通イベントをモデル化し,ケースデータベースを構築するための高性能なFFMTEモデルを提案する。 実験は合理的な結果を示し、異なるシナリオにおける潜在的なクラッシュを避けるために、ドライバーに貴重な回避情報を提供します。

Driver reaction is of vital importance in risk scenarios. Drivers can take correct evasive maneuver at proper cushion time to avoid the potential traffic crashes, but this reaction process is highly experience-dependent and requires various levels of driving skills. To improve driving safety and avoid the traffic accidents, it is necessary to provide all road drivers with on-board driving assistance. This study explores the plausibility of case-based reasoning (CBR) as the inference paradigm underlying the choice of personalized crash evasive maneuvers and the cushion time, by leveraging the wealthy of human driving experience from the steady stream of traffic cases, which have been rarely explored in previous studies. To this end, in this paper, we propose an open evolving framework for generating personalized on-board driving assistance. In particular, we present the FFMTE model with high performance to model the traffic events and build the case database; A tailored CBR-based method is then proposed to retrieve, reuse and revise the existing cases to generate the assistance. We take the 100-Car Naturalistic Driving Study dataset as an example to build and test our framework; the experiments show reasonable results, providing the drivers with valuable evasive information to avoid the potential crashes in different scenarios.
翻訳日:2022-11-24 16:07:24 公開日:2022-11-23
# 一般構造をもつサンプル共分散行列の定量的決定論的等価性

Quantitative deterministic equivalent of sample covariance matrices with a general dependence structure ( http://arxiv.org/abs/2211.13044v1 )

ライセンス: Link先を確認
Cl\'ement Chouard (UT3)(参考訳) 矩形ランダム行列から生じるサンプル共分散行列を列を用いて検討した。 以前は、スペクトルパラメータが実軸から離れて有界であるとき、これらの行列の解法が決定論的同値を持つことが知られていた。 我々は、次元とスペクトルパラメータの両方を含む量的境界を証明し、特に実正の半直線に近づくことを可能にすることにより、この仕事を拡大する。 応用として、これらの一般モデルの経験的スペクトル分布のコルモゴロフ距離における収束の新しい境界を得る。 また,ガウス仮説を伴わない機械学習におけるランダム特徴モデルの正規化問題にもフレームワークを適用した。

We study sample covariance matrices arising from rectangular random matrices with i.i.d. columns. It was previously known that the resolvent of these matrices admits a deterministic equivalent when the spectral parameter stays bounded away from the real axis. We extend this work by proving quantitative bounds involving both the dimensions and the spectral parameter, in particular allowing it to get closer to the real positive semi-line. As applications, we obtain a new bound for the convergence in Kolmogorov distance of the empirical spectral distributions of these general models. We also apply our framework to the problem of regularization of Random Features models in Machine Learning without Gaussian hypothesis.
翻訳日:2022-11-24 16:01:08 公開日:2022-11-23
# ニューラル超統計:認知の動的モデル推定のためのベイズ的手法

Neural Superstatistics: A Bayesian Method for Estimating Dynamic Models of Cognition ( http://arxiv.org/abs/2211.13165v1 )

ライセンス: Link先を確認
Lukas Schumacher, Paul-Christian B\"urkner, Andreas Voss, Ullrich K\"othe, Stefan T. Radev(参考訳) 認知の数学的モデルは、しばしば記憶がなく、パラメータの潜在的な揺らぎを無視する。 しかしながら、人間の認知は基準時間スケールに関係なく本質的に動的である。 そこで本稿では,時間次元の機械的認知モデルを拡張し,超統計学の観点から結果のダイナミクスを推定する。 最も単純な形式では、そのようなモデルは低レベルの観測モデルと高レベルの遷移モデルの間の階層を含む。 観測モデルはシステムの局所挙動を記述し、遷移モデルは観察モデルのパラメータが時間とともにどのように進化するかを特定する。 超統計モデルの複雑さから生じる推定課題を克服するため、ベイズ推論のシミュレーションに基づくディープラーニング手法を開発し、検証し、時間変化パラメータと時間不変パラメータの両方を復元する。 まず,提案手法を時間変動パラメータを推定可能な2つの既存フレームワークに対してベンチマークした。 次に,拡散決定モデルの動的バージョンをヒトの応答時間の時系列データに適用する手法を提案する。 その結果、ディープラーニングアプローチはモデルの時間的ダイナミクスを捉えるのに非常に効率的であることがわかった。 さらに,静的パラメータや均質パラメータの誤った仮定が重要な時間情報を隠蔽することを示す。

Mathematical models of cognition are often memoryless and ignore potential fluctuations of their parameters. However, human cognition is inherently dynamic, regardless of the reference time scale. Thus, we propose to augment mechanistic cognitive models with a temporal dimension and estimate the resulting dynamics from a superstatistics perspective. In its simplest form, such a model entails a hierarchy between a low-level observation model and a high-level transition model. The observation model describes the local behavior of a system, and the transition model specifies how the parameters of the observation model evolve over time. To overcome the estimation challenges resulting from the complexity of superstatistical models, we develop and validate a simulation-based deep learning method for Bayesian inference, which can recover both time-varying and time-invariant parameters. We first benchmark our method against two existing frameworks capable of estimating time-varying parameters. We then apply our method to fit a dynamic version of the diffusion decision model to long time series of human response times data. Our results show that the deep learning approach is very efficient in capturing the temporal dynamics of the model. Furthermore, we show that the erroneous assumption of static or homogeneous parameters will hide important temporal information.
翻訳日:2022-11-24 16:00:59 公開日:2022-11-23
# imasc -- icfoss malayalam音声コーパス

IMaSC -- ICFOSS Malayalam Speech Corpus ( http://arxiv.org/abs/2211.12796v1 )

ライセンス: Link先を確認
Deepa P Gopinath, Thennal D K, Vrinda V Nair, Swaraj K S, Sachin G(参考訳) 現代のテキスト音声合成システム(TTS)は、人間の品質に近づきつつある音声を深層学習で合成するが、訓練には高品質な音声テキスト文ペアのデータベースが必要である。 インド・ケララ州の公用語であるマラヤラムは、3500万人以上の人々が話しており、TSシステムのコーパスとして利用できる低資源言語である。 本稿では,約50時間の音声を含むマラヤラム語テキストと音声コーパスであるIMaSCについて述べる。 8つのスピーカーと合計34,473のテキストオーディオペアを持つIMaSCは、他のすべてのパブリックな代替品よりも大きい。 我々は,最新のディープラーニングアーキテクチャに基づいて,話者毎のTSモデルをトレーニングするためにデータベースを評価した。 主観的評価により,我々のモデルは,従来の研究や公開モデルに比べて自然度が有意に向上し,平均世論スコアは4.50であり,合成された音声は人的品質に近いことを示す。

Modern text-to-speech (TTS) systems use deep learning to synthesize speech increasingly approaching human quality, but they require a database of high quality audio-text sentence pairs for training. Malayalam, the official language of the Indian state of Kerala and spoken by 35+ million people, is a low resource language in terms of available corpora for TTS systems. In this paper, we present IMaSC, a Malayalam text and speech corpora containing approximately 50 hours of recorded speech. With 8 speakers and a total of 34,473 text-audio pairs, IMaSC is larger than every other publicly available alternative. We evaluated the database by using it to train TTS models for each speaker based on a modern deep learning architecture. Via subjective evaluation, we show that our models perform significantly better in terms of naturalness compared to previous studies and publicly available models, with an average mean opinion score of 4.50, indicating that the synthesized speech is close to human quality.
翻訳日:2022-11-24 16:00:41 公開日:2022-11-23
# 未探索環境における視覚ナビゲーションのためのトポロジマップの予測

Predicting Topological Maps for Visual Navigation in Unexplored Environments ( http://arxiv.org/abs/2211.12649v1 )

ライセンス: Link先を確認
Huangying Zhan, Hamid Rezatofighi, Ian Reid(参考訳) 本研究では,未探索環境における自律探索とナビゲーションのためのロボット学習システムを提案する。 私たちは、目に見えない環境でさえ、同様の環境での経験から慣れているかもしれないという考えに動機づけられている。 そこで本手法のコアとなるのは,目標に基づく視覚ナビゲーションを支援するための確率的レイアウトグラフの構築,予測,利用である。 レイアウト予測を用いて高水準の目標(例えば「キッチンに行く」など)を満たすナビゲーションシステムについて,先行技術よりも迅速かつ正確に記述する。 提案するナビゲーションフレームワークは,(1)知覚とマッピング:多レベル3dシーングラフの構築,(2)予測:未探索環境における確率的3dシーングラフの予測,(3)ナビゲーション:グラフによるナビゲーション支援,の3段階からなる。 我々はMatterport3Dで我々のフレームワークをテストし、目に見えない環境でより成功し、効率的なナビゲーションを示す。

We propose a robotic learning system for autonomous exploration and navigation in unexplored environments. We are motivated by the idea that even an unseen environment may be familiar from previous experiences in similar environments. The core of our method, therefore, is a process for building, predicting, and using probabilistic layout graphs for assisting goal-based visual navigation. We describe a navigation system that uses the layout predictions to satisfy high-level goals (e.g. "go to the kitchen") more rapidly and accurately than the prior art. Our proposed navigation framework comprises three stages: (1) Perception and Mapping: building a multi-level 3D scene graph; (2) Prediction: predicting probabilistic 3D scene graph for the unexplored environment; (3) Navigation: assisting navigation with the graphs. We test our framework in Matterport3D and show more success and efficient navigation in unseen environments.
翻訳日:2022-11-24 16:00:00 公開日:2022-11-23
# ActiveRMAP: アクティブマッピングと計画のための放射場

ActiveRMAP: Radiance Field for Active Mapping And Planning ( http://arxiv.org/abs/2211.12656v1 )

ライセンス: Link先を確認
Huangying Zhan, Jiyang Zheng, Yi Xu, Ian Reid, Hamid Rezatofighi(参考訳) 2d画像の集合からシーンの高品質な3d再構築は、オフライン/オンラインマッピングによって実現できる。 本稿では,最近様々なアプリケーションで説得力のある結果を生み出した暗黙表現の観点から,アクティブマッピングについて検討する。 もっとも一般的な暗黙的表現の1つ、Neural Radiance Field (NeRF)は、まず多層パーセプトロンを用いて光リアルなレンダリング結果を示し、放射場の副産物としてオフライン3D再構成を約束した。 最近では、この暗黙の表現をオンライン再構成とローカライゼーション(暗黙のSLAMシステム)にも適用している。 しかし、アクティブビジョンタスクに暗黙的表現を使用する研究は、まだ非常に限られている。 本稿では,能動系における密結合タスクであるアクティブマッピングと計画問題に対して,特にニューラル放射場の適用に関心がある。 我々は,RGBのみのアクティブビジョンフレームワークを,アクティブな3次元再構成と計画のための放射場表現を用いてオンライン的に提示した。 具体的には、この共同タスクを2段階の反復最適化問題として定式化し、ラミアンス場表現と経路計画に代えて最適化する。 実験結果から,提案手法は他のオフライン手法と比較し,nyrfsを用いた能動的再構成法を上回った。

A high-quality 3D reconstruction of a scene from a collection of 2D images can be achieved through offline/online mapping methods. In this paper, we explore active mapping from the perspective of implicit representations, which have recently produced compelling results in a variety of applications. One of the most popular implicit representations - Neural Radiance Field (NeRF), first demonstrated photorealistic rendering results using multi-layer perceptrons, with promising offline 3D reconstruction as a by-product of the radiance field. More recently, researchers also applied this implicit representation for online reconstruction and localization (i.e. implicit SLAM systems). However, the study on using implicit representation for active vision tasks is still very limited. In this paper, we are particularly interested in applying the neural radiance field for active mapping and planning problems, which are closely coupled tasks in an active system. We, for the first time, present an RGB-only active vision framework using radiance field representation for active 3D reconstruction and planning in an online manner. Specifically, we formulate this joint task as an iterative dual-stage optimization problem, where we alternatively optimize for the radiance field representation and path planning. Experimental results suggest that the proposed method achieves competitive results compared to other offline methods and outperforms active reconstruction methods using NeRFs.
翻訳日:2022-11-24 15:59:46 公開日:2022-11-23
# ハンズ・アバター:モノクラー・ビデオによる無料のハンドアニメーションとレンダリング

Hand Avatar: Free-Pose Hand Animation and Rendering from Monocular Video ( http://arxiv.org/abs/2211.12782v1 )

ライセンス: Link先を確認
Xingyu Chen, Baoyuan Wang, Heung-Yeung Shum(参考訳) 本稿では,手動アニメーションとレンダリングのための新しい表現であるHandAvatarについて述べる。 具体的には,まず,個人の手形に適合する高分解能メッシュトポロジとしてmano-hdモデルを開発した。 続いて、手動幾何学を骨ごとの剛性部分に分解し、ペア化された幾何符号化を再度分解して、一貫した占有場を導出する。 テクスチャモデリングでは,自己閉塞型シェーディングフィールド(SelF)を提案する。 SelFでは、乾燥可能なアンカーをMANO-HD表面に舗装し、さまざまな手ポーズの下でアルベド情報を記録する。 さらに, 姿勢非依存アルベドとポーズ依存イルミネーションのアンタングル化のための照明場を生成するために利用した光-表面関係を記述した。 モノクロビデオデータからトレーニングしたHandAvatarは、自由な手動アニメーションとレンダリングを同時に実現しつつ、優れた外観忠実性を実現します。 また,ハンダバタールが手外観編集の経路を提供することも実証した。 プロジェクトウェブサイト: https://seanchenxy.github.io/HandAvatarWeb

We present HandAvatar, a novel representation for hand animation and rendering, which can generate smoothly compositional geometry and self-occlusion-aware texture. Specifically, we first develop a MANO-HD model as a high-resolution mesh topology to fit personalized hand shapes. Sequentially, we decompose hand geometry into per-bone rigid parts, and then re-compose paired geometry encodings to derive an across-part consistent occupancy field. As for texture modeling, we propose a self-occlusion-aware shading field (SelF). In SelF, drivable anchors are paved on the MANO-HD surface to record albedo information under a wide variety of hand poses. Moreover, directed soft occupancy is designed to describe the ray-to-surface relation, which is leveraged to generate an illumination field for the disentanglement of pose-independent albedo and pose-dependent illumination. Trained from monocular video data, our HandAvatar can perform free-pose hand animation and rendering while at the same time achieving superior appearance fidelity. We also demonstrate that HandAvatar provides a route for hand appearance editing. Project website: https://seanchenxy.github.io/HandAvatarWeb.
翻訳日:2022-11-24 15:59:22 公開日:2022-11-23
# 非線形等変イメージング:圧縮的定量的MRIのための地中真実のないマルチパラメトリック組織マッピングの学習

Nonlinear Equivariant Imaging: Learning Multi-Parametric Tissue Mapping without Ground Truth for Compressive Quantitative MRI ( http://arxiv.org/abs/2211.12786v1 )

ライセンス: Link先を確認
Ketan Fatania, Kwai Y. Chau, Carolin M. Pirkl, Marion I. Menzel, Peter Hall and Mohammad Golbabaee(参考訳) 高速・圧縮・磁気共鳴フィンガープリンティング(mrf)による定量的組織マップの現在の再構築は、高忠実度な基底真理組織マップトレーニングデータを必要とするという欠点を伴い、教師付き深層学習を用いる。 本稿では,深部MRF画像再構成における基底真理の不要な自己教師型学習手法であるNonLinear Equivariant Imaging (NLEI)を提案する。 NLEI は最近の等変イメージングフレームワークを MRF などの非線形逆問題に拡張する。 高速で圧縮されたMRFスキャンのみが訓練に使用される。 NLEIは時空間前駆体を用いて組織マッピングを学習する:空間前駆体はMDFデータの幾何学的画像変換群への不変性から得られ、時間前駆体は事前学習されたニューラルネットワークによって近似された非線形ブロッホ応答モデルから得られる。 NLEI(self-supervised learning, 自己教師学習)は, 学習中に基礎的真理を使わずとも, 教師あり学習のパフォーマンスに近づきつつある。

Current state-of-the-art reconstruction for quantitative tissue maps from fast, compressive, Magnetic Resonance Fingerprinting (MRF), use supervised deep learning, with the drawback of requiring high-fidelity ground truth tissue map training data which is limited. This paper proposes NonLinear Equivariant Imaging (NLEI), a self-supervised learning approach to eliminate the need for ground truth for deep MRF image reconstruction. NLEI extends the recent Equivariant Imaging framework to nonlinear inverse problems such as MRF. Only fast, compressed-sampled MRF scans are used for training. NLEI learns tissue mapping using spatiotemporal priors: spatial priors are obtained from the invariance of MRF data to a group of geometric image transformations, while temporal priors are obtained from a nonlinear Bloch response model approximated by a pre-trained neural network. Tested retrospectively on two acquisition settings, we observe that NLEI (self-supervised learning) closely approaches the performance of supervised learning, despite not using ground truth during training.
翻訳日:2022-11-24 15:59:00 公開日:2022-11-23
# レンズレス分類のためのプライバシエンハンシング光学埋め込み

Privacy-Enhancing Optical Embeddings for Lensless Classification ( http://arxiv.org/abs/2211.12864v1 )

ライセンス: Link先を確認
Eric Bezzam, Martin Vetterli, Matthieu Simeoni(参考訳) レンズレスイメージングは、その測定の高度に多重化された特性のために、視覚プライバシを提供することができる。 しかし、このようなカメラの1対多のシーンマッピングを逆転するように様々な敵攻撃を設計できるため、これはセキュリティの弱い形態である。 本研究では,(1)センサでのダウンサンプリング,(2)光エンコーダとして可変パターンのプログラム可能なマスクを用いて,レンズレス撮像によるプライバシー向上を図る。 私たちは、低価格のLCDとRaspberry Piコンポーネントからプロトタイプを作り、合計で約100USDのコストで開発しています。 この非常に低い価格設定により、私たちのシステムは広範囲のアプリケーションにデプロイされ、活用できます。 本実験では,MNIST, CelebA(顔属性), CIFAR10 といった様々な分類タスクに適用することで, システムの可視性と再構成性を示す。 マスクパターンとデジタル分類器をエンドツーエンドで共同最適化することにより、センサに直接低次元のプライバシー強調埋め込みを学習する。 第2に,提案システムでは,変動マスクパターンを介して,(1)平文攻撃や(2)カメラパラメータのリーク時にシステムに逆戻りしようとする敵を阻止する方法について述べる。 我々は,モデルに基づく凸最適化と生成ニューラルネットワークに基づく攻撃に対して,画像品質指標の55%と26%の低下という,両リスクに対するシステムの防御効果を示す。 我々は、エンドツーエンドの最適化に必要な波動伝搬とカメラシミュレータ、トレーニングソフトウェア、カメラと対話するためのライブラリをオープンソース化した。

Lensless imaging can provide visual privacy due to the highly multiplexed characteristic of its measurements. However, this alone is a weak form of security, as various adversarial attacks can be designed to invert the one-to-many scene mapping of such cameras. In this work, we enhance the privacy provided by lensless imaging by (1) downsampling at the sensor and (2) using a programmable mask with variable patterns as our optical encoder. We build a prototype from a low-cost LCD and Raspberry Pi components, for a total cost of around 100 USD. This very low price point allows our system to be deployed and leveraged in a broad range of applications. In our experiments, we first demonstrate the viability and reconfigurability of our system by applying it to various classification tasks: MNIST, CelebA (face attributes), and CIFAR10. By jointly optimizing the mask pattern and a digital classifier in an end-to-end fashion, low-dimensional, privacy-enhancing embeddings are learned directly at the sensor. Secondly, we show how the proposed system, through variable mask patterns, can thwart adversaries that attempt to invert the system (1) via plaintext attacks or (2) in the event of camera parameters leaks. We demonstrate the defense of our system to both risks, with 55% and 26% drops in image quality metrics for attacks based on model-based convex optimization and generative neural networks respectively. We open-source a wave propagation and camera simulator needed for end-to-end optimization, the training software, and a library for interfacing with the camera.
翻訳日:2022-11-24 15:58:38 公開日:2022-11-23
# SS-CXR:胸部X線による自己監督型事前訓練によるマルチタスク表現学習

SS-CXR: Multitask Representation Learning using Self Supervised Pre-training from Chest X-Rays ( http://arxiv.org/abs/2211.12944v1 )

ライセンス: Link先を確認
Syed Muhammad Anwar, Abhijeet Parida, Sara Atito, Muhammad Awais, Gustavo Nino, Josef Kitler, Marius George Linguraru(参考訳) 胸部X線(CXR)は肺疾患の診断と予後のための画像モダリティとして広く用いられている。 画像解析のタスクは様々です。 例えば、病理診断や肺分画がある。 機械学習アルゴリズムが特定のタスクのために開発される大規模な作業がある。 最近の顕著な例は、CXRデータを用いたコロナウイルス(covid-19)の検出である。 しかしながら、教師付き学習に基づく従来の診断ツール設計手法は、より良い臨床結果を得るために良質なトレーニングデータアノテーションの必要性によって負担されている。 本稿では,cxrsの汎用表現をグループマスク型自己教師付きフレームワークを用いて学習する,新しい自己教師付きパラダイムを提案する。 事前訓練されたモデルは、コビッド19、肺炎の検出、一般的な健康スクリーニングといったドメイン固有のタスクのために微調整される。 肺の分節作業には,同じ事前訓練が有効であることを示す。 提案手法は,複数のダウンストリームタスクにおいて,事前学習の成功を示すロバストな性能を示す。 さらに、テスト期間中に大きなドリフトを持つデータ上での事前学習モデルの性能は、より汎用的な表現を学ぶことを証明している。 これらの方法は、ユニークな小規模の小児用データセットにおいて、covid-19検出によってさらに検証される。 教師付き変圧器方式と比較すると, 精度 (~25\%) は有意であった。 これは、提案するフレームワークの強度と信頼性と事前学習戦略に信頼性を与えます。

Chest X-rays (CXRs) are a widely used imaging modality for the diagnosis and prognosis of lung disease. The image analysis tasks vary. Examples include pathology detection and lung segmentation. There is a large body of work where machine learning algorithms are developed for specific tasks. A significant recent example is Coronavirus disease (covid-19) detection using CXR data. However, the traditional diagnostic tool design methods based on supervised learning are burdened by the need to provide training data annotation, which should be of good quality for better clinical outcomes. Here, we propose an alternative solution, a new self-supervised paradigm, where a general representation from CXRs is learned using a group-masked self-supervised framework. The pre-trained model is then fine-tuned for domain-specific tasks such as covid-19, pneumonia detection, and general health screening. We show that the same pre-training can be used for the lung segmentation task. Our proposed paradigm shows robust performance in multiple downstream tasks which demonstrates the success of the pre-training. Moreover, the performance of the pre-trained models on data with significant drift during test time proves the learning of a better generic representation. The methods are further validated by covid-19 detection in a unique small-scale pediatric data set. The performance gain in accuracy (~25\%) is significant when compared to a supervised transformer-based method. This adds credence to the strength and reliability of our proposed framework and pre-training strategy.
翻訳日:2022-11-24 15:58:11 公開日:2022-11-23
# MECCH:メタパスコンテキスト畳み込みに基づく異種グラフニューラルネットワーク

MECCH: Metapath Context Convolution-based Heterogeneous Graph Neural Networks ( http://arxiv.org/abs/2211.12792v1 )

ライセンス: Link先を確認
Xinyu Fu, Irwin King(参考訳) 複数のノードとエッジを持つ構造データによる表現学習のために,ヘテロジニアスグラフニューラルネットワーク(hgnns)が提案されている。 関係性に基づくHGNNの過度に平滑な問題に対処するメタパスベースのHGNNを開発した。 しかし、既存のメタパスベースのモデルは情報損失または高い計算コストに悩まされている。 これらの問題に対処するために、メタパスコンテキスト畳み込みに基づく異種グラフニューラルネットワーク(MECCH)を設計する。 具体的には,(1)メタパスコンテクスト構成,(2)メタパスコンテクストエンコーダ,(3)畳み込みメタパス融合の3つの特徴前処理により,入力グラフから包括的情報を効率的に抽出する。 ノード分類とリンク予測のための5つの実世界の異種グラフデータセットの実験により、MECCHは計算効率を向上した最先端のベースラインと比較して予測精度が優れていることが示された。

Heterogeneous graph neural networks (HGNNs) were proposed for representation learning on structural data with multiple types of nodes and edges. Researchers have developed metapath-based HGNNs to deal with the over-smoothing problem of relation-based HGNNs. However, existing metapath-based models suffer from either information loss or high computation costs. To address these problems, we design a new Metapath Context Convolution-based Heterogeneous Graph Neural Network (MECCH). Specifically, MECCH applies three novel components after feature preprocessing to extract comprehensive information from the input graph efficiently: (1) metapath context construction, (2) metapath context encoder, and (3) convolutional metapath fusion. Experiments on five real-world heterogeneous graph datasets for node classification and link prediction show that MECCH achieves superior prediction accuracy compared with state-of-the-art baselines with improved computational efficiency.
翻訳日:2022-11-24 15:52:29 公開日:2022-11-23
# タスクの接ベクトル場に沿った積分連続学習

Integral Continual Learning Along the Tangent Vector Field of Tasks ( http://arxiv.org/abs/2211.13108v1 )

ライセンス: Link先を確認
Tian Yu Liu, Aditya Golatkar, Stefano Soatto, Alessandro Achille(参考訳) 本稿では,「ジェネラリスト」モデルのベクトル場に沿って,特殊データセットからの情報を漸進的に組み込む連続学習手法を提案する。 スペシャリストモデルに対する接地平面は、一般のガイドとして機能し、接地平面における最適化景観の凸性を活用しながら、破滅的な忘れ込みにつながる過度な適合を避ける。 それは小さな固定サイズのメモリバッファを維持し、ソースデータセットの0.4%まで低く、単純な再サンプリングによって更新される。 提案手法は,異なるデータセットに対して,様々なバッファサイズにまたがる最先端を実現する。 具体的には、Seq-CIFAR-10 と Seq-TinyImageNet でそれぞれ 26.24% と 28.48% の既存手法を上回ります。 本手法は既存のリプレイ型連続学習手法と容易に組み合わせることができる。 メモリバッファの制約を緩和してロジットなどのメタデータを保存すると,Seq-CIFAR-10のパラゴン性能に対して36%の誤差で最先端の精度が得られる。

We propose a continual learning method which incorporates information from specialized datasets incrementally, by integrating it along the vector field of "generalist" models. The tangent plane to the specialist model acts as a generalist guide and avoids the kind of over-fitting that leads to catastrophic forgetting, while exploiting the convexity of the optimization landscape in the tangent plane. It maintains a small fixed-size memory buffer, as low as 0.4% of the source datasets, which is updated by simple resampling. Our method achieves state-of-the-art across various buffer sizes for different datasets. Specifically, in the class-incremental setting we outperform the existing methods by an average of 26.24% and 28.48%, for Seq-CIFAR-10 and Seq-TinyImageNet respectively. Our method can easily be combined with existing replay-based continual learning methods. When memory buffer constraints are relaxed to allow storage of other metadata such as logits, we attain state-of-the-art accuracy with an error reduction of 36% towards the paragon performance on Seq-CIFAR-10.
翻訳日:2022-11-24 15:51:56 公開日:2022-11-23
# 線形関数近似を用いたオフライン強化学習のためのインスタンス依存境界について

On Instance-Dependent Bounds for Offline Reinforcement Learning with Linear Function Approximation ( http://arxiv.org/abs/2211.13208v1 )

ライセンス: Link先を確認
Thanh Nguyen-Tang, Ming Yin, Sunil Gupta, Svetha Venkatesh, Raman Arora(参考訳) 線形関数近似を用いたサンプル効率オフライン強化学習(RL)が最近広く研究されている。 以前の作業の多くでは、$\tilde{\mathcal{O}}(\frac{1}{\sqrt{K}})$のminimax-Optimal境界が得られており、オフラインデータでは$K$がエピソード数である。 本研究では,関数近似を用いたオフラインRLのインスタンス依存境界を理解する。 本稿では,データのブートストラップと制約付き最適化を利用したbcp-vi(bootstrapped and restricteded pessimistic value iteration)というアルゴリズムを提案する。 提案手法は,部分的データカバレッジ仮定の下では,最適方針に関して \emph{concentrability} を仮定すると,オフラインデータが適応的に収集された場合でも,最適なq値関数に正のギャップがある場合に,オフラインrlに対して$\tilde{\mathcal{o}}(\frac{1}{k})$ の高速率が得られることを示す。 さらに、最適ポリシーによって到達可能な状態の最適動作の線形的特徴が行動ポリシーによって到達可能な状態にまたがり、最適動作が一意である場合、オフラインRLは、(有限)インスタンス依存しきい値を超える場合、絶対ゼロの最適誤差を達成する。 我々の知る限りでは、これらは最初の$\tilde{\mathcal{o}}(\frac{1}{k})$boundと絶対零のサブオプティリティをそれぞれオフラインrlにバインドし、部分カバレッジを持つ適応データから線形関数近似する。 また、上界を補完するために、インスタンスに依存しない情報理論的下界も提供する。

Sample-efficient offline reinforcement learning (RL) with linear function approximation has recently been studied extensively. Much of prior work has yielded the minimax-optimal bound of $\tilde{\mathcal{O}}(\frac{1}{\sqrt{K}})$, with $K$ being the number of episodes in the offline data. In this work, we seek to understand instance-dependent bounds for offline RL with function approximation. We present an algorithm called Bootstrapped and Constrained Pessimistic Value Iteration (BCP-VI), which leverages data bootstrapping and constrained optimization on top of pessimism. We show that under a partial data coverage assumption, that of \emph{concentrability} with respect to an optimal policy, the proposed algorithm yields a fast rate of $\tilde{\mathcal{O}}(\frac{1}{K})$ for offline RL when there is a positive gap in the optimal Q-value functions, even when the offline data were adaptively collected. Moreover, when the linear features of the optimal actions in the states reachable by an optimal policy span those reachable by the behavior policy and the optimal actions are unique, offline RL achieves absolute zero sub-optimality error when $K$ exceeds a (finite) instance-dependent threshold. To the best of our knowledge, these are the first $\tilde{\mathcal{O}}(\frac{1}{K})$ bound and absolute zero sub-optimality bound respectively for offline RL with linear function approximation from adaptive data with partial coverage. We also provide instance-agnostic and instance-dependent information-theoretical lower bounds to complement our upper bounds.
翻訳日:2022-11-24 15:51:36 公開日:2022-11-23
# モデル学習に基づく自律走行システムの安全性解析

Safety Analysis of Autonomous Driving Systems Based on Model Learning ( http://arxiv.org/abs/2211.12733v1 )

ライセンス: Link先を確認
Renjue Li, Tianhang Qin, Pengfei Yang, Cheng-Chao Huang, Youcheng Sun and Lijun Zhang(参考訳) 本稿では,自律運転システム(ADS)の安全性解析のための実用的検証手法を提案する。 主なアイデアは、指定されたトラフィックシナリオにおけるADSの振る舞いを定量的に描写する代理モデルを構築することである。 結果として得られたサロゲートモデルで証明された安全性特性は、確率論的保証を持つ元のADSに適用される。 さらに,運転危険時の交通シナリオの安全及び安全でないパラメータ空間について検討する。 文献における最先端のADSの安全性特性を,様々なシミュレートされた交通シナリオを用いて評価することにより,提案手法の有用性を実証する。

We present a practical verification method for safety analysis of the autonomous driving system (ADS). The main idea is to build a surrogate model that quantitatively depicts the behaviour of an ADS in the specified traffic scenario. The safety properties proved in the resulting surrogate model apply to the original ADS with a probabilistic guarantee. Furthermore, we explore the safe and the unsafe parameter space of the traffic scenario for driving hazards. We demonstrate the utility of the proposed approach by evaluating safety properties on the state-of-the-art ADS in literature, with a variety of simulated traffic scenarios.
翻訳日:2022-11-24 15:51:03 公開日:2022-11-23
# 長期ライフログによる睡眠状態のモニタリングと改善

Monitoring and Improving Personalized Sleep Quality from Long-Term Lifelogs ( http://arxiv.org/abs/2211.12778v1 )

ライセンス: Link先を確認
Wenbin Gan, Minh-Son Dao and Koji Zettsu(参考訳) 睡眠は、身体的、認知的、心理的健康に重要な役割を果たす。 その重要性にもかかわらず、現実の文脈におけるパーソナライズされた睡眠品質(SQ)の長期的なモニタリングは依然として困難である。 多くの睡眠研究はいまだに臨床的に発展しており、一般市民にはアクセスできない。 幸いなことに、ウェアラブルとIoTデバイスは、マルチモーダルデータから睡眠洞察を探索する可能性を提供し、いくつかのSQ研究で使用されている。 しかし、これらの研究の多くは睡眠関連データを分析し、その結果を遅延的に提示する(すなわち、昨夜のデータから得られたSQ)。 そこで本稿では,複数ソースからの目的データと主観データの両方に基づいて個別のsqを監視する計算フレームワークを提案し,sqをデータ駆動方式で改善するためのパーソナライズされたフィードバックの提供に向けて一歩前進する。 このフィードバックは、ライフイベントと異なるレベルのSQの間の発見パターンに基づいて、PMDataデータセットからの洞察を参照することによって実現される。 長期不均質データを使用し、キャリーオーバー効果を考慮したディープラーニングベースのパーソナルsqモデル(persq)は、ベースラインモデルよりも高い予測性能を達成する。 ケーススタディでは、個人が将来SQを監視し改善する上で妥当な結果も示している。

Sleep plays a vital role in our physical, cognitive, and psychological well-being. Despite its importance, long-term monitoring of personalized sleep quality (SQ) in real-world contexts is still challenging. Many sleep researches are still developing clinically and far from accessible to the general public. Fortunately, wearables and IoT devices provide the potential to explore the sleep insights from multimodal data, and have been used in some SQ researches. However, most of these studies analyze the sleep related data and present the results in a delayed manner (i.e., today's SQ obtained from last night's data), it is sill difficult for individuals to know how their sleep will be before they go to bed and how they can proactively improve it. To this end, this paper proposes a computational framework to monitor the individual SQ based on both the objective and subjective data from multiple sources, and moves a step further towards providing the personalized feedback to improve the SQ in a data-driven manner. The feedback is implemented by referring the insights from the PMData dataset based on the discovered patterns between life events and different levels of SQ. The deep learning based personal SQ model (PerSQ), using the long-term heterogeneous data and considering the carry-over effect, achieves higher prediction performance compared with baseline models. A case study also shows reasonable results for an individual to monitor and improve the SQ in the future.
翻訳日:2022-11-24 15:50:55 公開日:2022-11-23
# DGEKT:知識追跡のためのデュアルグラフアンサンブル学習法

DGEKT: A Dual Graph Ensemble Learning Method for Knowledge Tracing ( http://arxiv.org/abs/2211.12881v1 )

ライセンス: Link先を確認
Chaoran Cui, Yumo Yao, Chunyun Zhang, Hebo Ma, Yuling Ma, Zhaochun Ren, Chen Zhang, James Ko(参考訳) 知識追跡は、学生の発達する知識状態を、概念に関連した演習で予測することによって追跡することを目的としている。 近年,知識追跡を改善するためにエクササイズ間の関係を取り入れたグラフベースモデルが開発されているが,一般的には1種類の関係情報のみを探索している。 本稿では,学生の学習インタラクションの双対グラフ構造を確立し,ハイパーグラフモデリングと有向グラフモデリングによる不均質な運動概念関係と相互作用遷移を捉えた,知識トレースのための双対グラフアンサンブル学習手法(dgekt)を提案する。 双対グラフモデルを合理化するために,オンライン知識蒸留の手法を導入する。知識追跡モデルは,異なる概念に関連した演習に対する学生の反応を予測することが期待されているが,各ステップにおける1回の運動における予測精度に対してのみ最適化されている。 オンライン知識蒸留では、二重グラフモデルは適応的に結合され、より強力な教師モデルを形成する。 実験では、DGEKTを3つのベンチマークデータセット上の8つの知識トレースベースラインと比較し、DGEKTが最先端の性能を達成することを示す。

Knowledge tracing aims to trace students' evolving knowledge states by predicting their future performance on concept-related exercises. Recently, some graph-based models have been developed to incorporate the relationships between exercises to improve knowledge tracing, but only a single type of relationship information is generally explored. In this paper, we present a novel Dual Graph Ensemble learning method for Knowledge Tracing (DGEKT), which establishes a dual graph structure of students' learning interactions to capture the heterogeneous exercise-concept associations and interaction transitions by hypergraph modeling and directed graph modeling, respectively. To ensemble the dual graph models, we introduce the technique of online knowledge distillation, due to the fact that although the knowledge tracing model is expected to predict students' responses to the exercises related to different concepts, it is optimized merely with respect to the prediction accuracy on a single exercise at each step. With online knowledge distillation, the dual graph models are adaptively combined to form a stronger teacher model, which in turn provides its predictions on all exercises as extra supervision for better modeling ability. In the experiments, we compare DGEKT against eight knowledge tracing baselines on three benchmark datasets, and the results demonstrate that DGEKT achieves state-of-the-art performance.
翻訳日:2022-11-24 15:50:33 公開日:2022-11-23
# 老年病院における患者の長期管理の質評価システムの実装と評価

Implementation and Evaluation of a System for Assessment of The Quality of Long-Term Management of Patients at a Geriatric Hospital ( http://arxiv.org/abs/2211.12904v1 )

ライセンス: Link先を確認
Erez Shalom, Ayelet Goldstein, Roni Wais, Maya Slivanova, Nogah Melamed Cohen and Yuval Shahar(参考訳) 背景 コンピュータ化された臨床ガイドライン(GL)に基づくケアの質を評価するための臨床意思決定支援システムの使用は、ケアを改善し、コストを削減し、時間を節約し、スタッフの能力を高める可能性がある。 目的は、GLに対する職員のコンプライアンスのレベルを調べることにより、圧力潰瘍の管理領域におけるケアの質を評価するシステムの実装と評価である。 局所emrシステムから100名の無作為患者を対象にしたデータを用いた評価を行い, 適用性とユーザビリティを検証し, 続いて, 医療スタッフのプロトコル遵守に与えた品質指標を検査するシステムの性能評価を行った。 システム支援時の看護師の得点と,システム支援のない看護師の得点と,システムによる得点とを比較した。 また,システム支援の有無に関わらず,評価を行うのに要する時間を測定した。 結果, 看護婦が与える得点は, 制度が与える得点と比較すると有意な差は認められなかった。 また,サポートのない看護師が与える品質指標の値と,支援のある看護師が与える価値との間に有意な差は認められなかった。 しかし,このシステムを用いることで看護婦の平均評価時間が大幅に短縮された。 結論 自動品質評価システムを用いて、高齢者看護師が介護の質を迅速かつ正確に評価することができる。 その精度に加えて、様々な品質対策を評価するのに要する時間を大幅に短縮する。

Background The use of a clinical decision support system for assessing the quality of care, based on computerized clinical guidelines (GLs), is likely to improve care, reduce costs, save time, and enhance the staff's capabilities. Objectives Implement and evaluate a system for assessment of the quality of the care, in the domain of management of pressure ulcers, by investigating the level of compliance of the staff to the GLs. Methods Using data for 100 random patients from the local EMR system we performed a technical evaluation, checking the applicability and usability, followed by a functional evaluation of the system investigating the quality metrics given to the compliance of the medical's staff to the protocol. We compared the scores given by the nurse when supported by the system, to the scores given by the nurse without the system's support, and to the scores given by the system. We also measured the time taken to perform the assessment with and without the system's support. Results There were no significant differences in the scores of most measures given by the nurse using the system, compared to the scores given by the system. There were also no significant differences across the values of most quality measures given by the nurse without support compared to the values given by the nurse with support. Using the system, however, significantly reduced the nurse's average assessment time. Conclusions Using an automated quality-assessment system, may enable a senior nurse, to quickly and accurately assess the quality of care. In addition to its accuracy, the system considerably reduces the time taken to assess the various quality measures.
翻訳日:2022-11-24 15:50:08 公開日:2022-11-23
# エピソード・非エピソードシナリオにおけるイントロスペクションに基づく説明可能な強化学習

Introspection-based Explainable Reinforcement Learning in Episodic and Non-episodic Scenarios ( http://arxiv.org/abs/2211.12930v1 )

ライセンス: Link先を確認
Niclas Schroeter, Francisco Cruz, Stefan Wermter(参考訳) 現代社会におけるロボットシステムや人間ロボット環境の存在の増加に伴い、ロボットによる行動の背後にある理由を理解することがますます重要になっている。 この理解を深めるために、ユーザーは、なぜ特定のアクションが取られたのかの説明を提供する。 これらの説明は、ロボットパートナーのユーザの信頼度を向上させる。 これらの説明を作成するための選択肢の1つは、イントロスペクションに基づくアプローチであり、これは強化学習エージェントと組み合わせて、成功の確率を提供するために使用できる。 これらは、人間が理解可能な方法でエージェントが取る行為を推論するために使用できる。 本研究は, エピソディクスと非エピソジックロボットシミュレーションタスクに基づいて, このイントロスペクションに基づくアプローチを開発し, さらなる評価を行う。 さらに,負および相対的に小さいq値に対するイントロスペクションベースアプローチの利用を可能にする,q値に対する追加正規化ステップを提案する。 その結果, エピソジックロボットの課題に対するイントロスペクションの有効性が示され, また, イントロスペクションに基づくアプローチは, 非エピソジックロボット環境における行動の説明も生成できることがわかった。

With the increasing presence of robotic systems and human-robot environments in today's society, understanding the reasoning behind actions taken by a robot is becoming more important. To increase this understanding, users are provided with explanations as to why a specific action was taken. Among other effects, these explanations improve the trust of users in their robotic partners. One option for creating these explanations is an introspection-based approach which can be used in conjunction with reinforcement learning agents to provide probabilities of success. These can in turn be used to reason about the actions taken by the agent in a human-understandable fashion. In this work, this introspection-based approach is developed and evaluated further on the basis of an episodic and a non-episodic robotics simulation task. Furthermore, an additional normalization step to the Q-values is proposed, which enables the usage of the introspection-based approach on negative and comparatively small Q-values. Results obtained show the viability of introspection for episodic robotics tasks and, additionally, that the introspection-based approach can be used to generate explanations for the actions taken in a non-episodic robotics environment as well.
翻訳日:2022-11-24 15:49:45 公開日:2022-11-23
# インドの商用トラックのナンバープレート検出と計量橋の自動化

Indian Commercial Truck License Plate Detection and Recognition for Weighbridge Automation ( http://arxiv.org/abs/2211.13194v1 )

ライセンス: Link先を確認
Siddharth Agrawal and Keyur D. Joshi(参考訳) ウェイトブリッジサービスの自動化には,ライセンスプレートの検出と認識が重要である。 多くの大きなデータベースがラテン文字と中国語の英数字のライセンスプレートで利用可能であるが、インド・ライセンスプレートのデータは不十分である。 特に、インドの商用トラックナンバープレートのデータベースは、商用車両ナンバープレートの認識が物流管理やウェイトブリッジの自動化において重要な役割を果たすにもかかわらず、不十分である。 さらに、ライセンスプレートを認識するモデルは、その困難な性質と手書きのライセンスプレートの多さのため、そのようなデータに対して効果的に一般化できないため、多様なフォントスタイルが使用されることになる。 したがって、このようなライセンスプレートを認識・検出するためのデータベースと有効なモデルが不可欠である。 本稿では、商用トラックのライセンスプレートに関するデータベースを提供し、リアルタイムオブジェクト検出における最先端モデルの使用: You Only Look Once Version 7 and SceneText Recognition: Permuted Autoregressive Sequence Modelsでは、得られた最大精度が90%未満である他、提案した挑戦的なライセンスプレートデータセット上でアルゴリズムの実装において95.82%の精度を実現している。 指標項 - 自動ライセンスプレート認識、文字認識、ライセンスプレート検出、視覚変換器。

Detection and recognition of a licence plate is important when automating weighbridge services. While many large databases are available for Latin and Chinese alphanumeric license plates, data for Indian License Plates is inadequate. In particular, databases of Indian commercial truck license plates are inadequate, despite the fact that commercial vehicle license plate recognition plays a profound role in terms of logistics management and weighbridge automation. Moreover, models to recognise license plates are not effectively able to generalise to such data due to its challenging nature, and due to the abundant frequency of handwritten license plates, leading to the usage of diverse font styles. Thus, a database and effective models to recognise and detect such license plates are crucial. This paper provides a database on commercial truck license plates, and using state-of-the-art models in real-time object Detection: You Only Look Once Version 7, and SceneText Recognition: Permuted Autoregressive Sequence Models, our method outperforms the other cited references where the maximum accuracy obtained was less than 90%, while we have achieved 95.82% accuracy in our algorithm implementation on the presented challenging license plate dataset. Index Terms- Automatic License Plate Recognition, character recognition, license plate detection, vision transformer.
翻訳日:2022-11-24 15:43:40 公開日:2022-11-23
# lite-mono: 自己教師付き単眼深度推定のための軽量cnnおよびトランスフォーマーアーキテクチャ

Lite-Mono: A Lightweight CNN and Transformer Architecture for Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2211.13202v1 )

ライセンス: Link先を確認
Ning Zhang, Francesco Nex, George Vosselman, Norman Kerle(参考訳) 近年,地道な訓練を必要としない自己監督型単眼深度推定が注目されている。 エッジデバイスにデプロイできるように、軽量で効果的なモデルを設計することは、非常に興味深いことです。 多くの既存アーキテクチャは、モデルサイズを犠牲にして重いバックボーンを使用することで恩恵を受ける。 本稿では,軽量アーキテクチャと同等の結果を得る。 具体的には,CNNとトランスフォーマーの効率的な組み合わせについて検討し,ハイブリッドアーキテクチャLite-Monoを設計する。 連続拡張畳み込み(cdc)モジュールと局所グローバル特徴相互作用(lgfi)モジュールを提案する。 前者はリッチなマルチスケールな局所特徴抽出に用いられ、後者は長距離グローバル情報をその特徴にエンコードする自己認識機構を利用する。 実験では、トレーニング可能なパラメータが約80%減少し、Monodepth2の精度に大きな差があることが示されている。

Self-supervised monocular depth estimation that does not require ground-truth for training has attracted attention in recent years. It is of high interest to design lightweight but effective models, so that they can be deployed on edge devices. Many existing architectures benefit from using heavier backbones at the expense of model sizes. In this paper we achieve comparable results with a lightweight architecture. Specifically, we investigate the efficient combination of CNNs and Transformers, and design a hybrid architecture Lite-Mono. A Consecutive Dilated Convolutions (CDC) module and a Local-Global Features Interaction (LGFI) module are proposed. The former is used to extract rich multi-scale local features, and the latter takes advantage of the self-attention mechanism to encode long-range global information into the features. Experiments demonstrate that our full model outperforms Monodepth2 by a large margin in accuracy, with about 80% fewer trainable parameters.
翻訳日:2022-11-24 15:43:17 公開日:2022-11-23
# manvatar : モーションアウェアニューラルボクセルを用いた高速3次元頭部アバター再構成

ManVatar : Fast 3D Head Avatar Reconstruction Using Motion-Aware Neural Voxels ( http://arxiv.org/abs/2211.13206v1 )

ライセンス: Link先を確認
Yuelang Xu, Lizhen Wang, Xiaochen Zhao, Hongwen Zhang, Yebin Liu(参考訳) 顔の再現に広く利用されているNeRFでは、最近の方法は単眼ビデオから写実的な3D頭部アバターを回収することができる。 残念なことに、NeRFベースの手法のトレーニングプロセスは非常に時間がかかり、NeRFベースの手法で使用されるMPPは非効率であり、収束するにはイテレーションが多すぎる。 この問題を解決するために,モーションアウェアニューラルボクセルを用いた高速3次元頭部アバター再構成法manvatarを提案する。 ManVatarは、頭アバターの標準外見から初めて発現運動を分離し、ニューラルボクセルによる発現運動をモデル化した。 特に、複数の4次元テンソルの重み付け連結から運動認識型ニューラルボクセルが生成される。 4Dテンソルは意味的に3DMM式ベースと1対1に対応し、3DMM式係数と同じ重みを共有する。 提案したManVatarは、私たちの新しい表現に相応しく、写真リアルな頭部アバターを5分で回収できる(純粋なPyTorchで実装されている)。

With NeRF widely used for facial reenactment, recent methods can recover photo-realistic 3D head avatar from just a monocular video. Unfortunately, the training process of the NeRF-based methods is quite time-consuming, as MLP used in the NeRF-based methods is inefficient and requires too many iterations to converge. To overcome this problem, we propose ManVatar, a fast 3D head avatar reconstruction method using Motion-Aware Neural Voxels. ManVatar is the first to decouple expression motion from canonical appearance for head avatar, and model the expression motion by neural voxels. In particular, the motion-aware neural voxels is generated from the weighted concatenation of multiple 4D tensors. The 4D tensors semantically correspond one-to-one with 3DMM expression bases and share the same weights as 3DMM expression coefficients. Benefiting from our novel representation, the proposed ManVatar can recover photo-realistic head avatars in just 5 minutes (implemented with pure PyTorch), which is significantly faster than the state-of-the-art facial reenactment methods.
翻訳日:2022-11-24 15:43:05 公開日:2022-11-23
# SVFormer:アクション認識のための半教師付きビデオトランス

SVFormer: Semi-supervised Video Transformer for Action Recognition ( http://arxiv.org/abs/2211.13222v1 )

ライセンス: Link先を確認
Zhen Xing and Qi Dai and Han Hu and Jingjing Chen and Zuxuan Wu and Yu-Gang Jiang(参考訳) 半教師付き動作認識はビデオアノテーションのコストが高いため、難しいが重要な課題である。 既存のアプローチは主に畳み込みニューラルネットワークを使用しているが、現在の革命的ビジョントランスフォーマーモデルはあまり研究されていない。 本稿では,SSL設定下でのトランスフォーマーモデルを用いた動作認識について検討する。 この目的のために、SVFormerを導入し、静的な擬似ラベルフレームワーク(EMA-Teacher)を用いて、未ラベルのビデオサンプルに対処する。 半教師付き画像分類には幅広いデータ拡張が有効であることが示されているが、一般的にはビデオ認識の限られた結果が得られる。 そこで本研究では,ビデオクリップをテンポラリ軸上に一貫したマスクトークンを持つマスクで混合した映像データに対して,新たな拡張戦略である tube tokenmix を導入する。 さらに,ビデオの複雑な時間変動をカバーし,選択したフレームをクリップ内の様々な時間的持続時間に拡張する時間的ワープ拡張を提案する。 Kinetics-400, UCF-101, HMDB-51の3つのデータセットに対する大規模な実験はSVFormerの利点を検証する。 特にSVFormerは、Kinetics-400の1%のラベル付け率でトレーニングエポックを減らし、最先端の技術を31.5%上回る。 提案手法は強力なベンチマークとして機能し,Transformer ネットワークを用いた半教師付き行動認識の検索を促進できる。

Semi-supervised action recognition is a challenging but critical task due to the high cost of video annotations. Existing approaches mainly use convolutional neural networks, yet current revolutionary vision transformer models have been less explored. In this paper, we investigate the use of transformer models under the SSL setting for action recognition. To this end, we introduce SVFormer, which adopts a steady pseudo-labeling framework (ie, EMA-Teacher) to cope with unlabeled video samples. While a wide range of data augmentations have been shown effective for semi-supervised image classification, they generally produce limited results for video recognition. We therefore introduce a novel augmentation strategy, Tube TokenMix, tailored for video data where video clips are mixed via a mask with consistent masked tokens over the temporal axis. In addition, we propose a temporal warping augmentation to cover the complex temporal variation in videos, which stretches selected frames to various temporal durations in the clip. Extensive experiments on three datasets Kinetics-400, UCF-101, and HMDB-51 verify the advantage of SVFormer. In particular, SVFormer outperforms the state-of-the-art by 31.5% with fewer training epochs under the 1% labeling rate of Kinetics-400. Our method can hopefully serve as a strong benchmark and encourage future search on semi-supervised action recognition with Transformer networks.
翻訳日:2022-11-24 15:42:43 公開日:2022-11-23
# 例によるペイント:拡散モデルを用いたexemplarベースの画像編集

Paint by Example: Exemplar-based Image Editing with Diffusion Models ( http://arxiv.org/abs/2211.13227v1 )

ライセンス: Link先を確認
Binxin Yang, Shuyang Gu, Bo Zhang, Ting Zhang, Xuejin Chen, Xiaoyan Sun, Dong Chen and Fang Wen(参考訳) 言語誘導画像編集は近年大きな成功を収めている。 本稿では,より正確な制御のために,例示ガイド画像編集について初めて検討する。 我々は、この目標を達成するために、自己指導型トレーニングを活用して、ソースイメージとインスペクタを再編成する。 しかし、ナイーブなアプローチは明らかな融合アーティファクトを引き起こす。 画像を直接コピー&ペーストする自明な解決策を避けるため、慎重に分析し、情報ボトルネックと強力な拡張を提案する。 一方、編集プロセスの制御性を確保するため、画像の任意の形状マスクをデザインし、分類器フリーのガイダンスを利用して画像の類似度を高める。 フレームワーク全体は、反復的な最適化なしに拡散モデルの単一の前方を含む。 提案手法は印象的な性能を実現し,高忠実度で画像の編集を制御できることを実証する。

Language-guided image editing has achieved great success recently. In this paper, for the first time, we investigate exemplar-guided image editing for more precise control. We achieve this goal by leveraging self-supervised training to disentangle and re-organize the source image and the exemplar. However, the naive approach will cause obvious fusing artifacts. We carefully analyze it and propose an information bottleneck and strong augmentations to avoid the trivial solution of directly copying and pasting the exemplar image. Meanwhile, to ensure the controllability of the editing process, we design an arbitrary shape mask for the exemplar image and leverage the classifier-free guidance to increase the similarity to the exemplar image. The whole framework involves a single forward of the diffusion model without any iterative optimization. We demonstrate that our method achieves an impressive performance and enables controllable editing on in-the-wild images with high fidelity.
翻訳日:2022-11-24 15:42:23 公開日:2022-11-23
# 外部知識を効果的に活用できるオープンドメインQAリーダー

Can Open-Domain QA Reader Utilize External Knowledge Efficiently like Humans? ( http://arxiv.org/abs/2211.12707v1 )

ライセンス: Link先を確認
Neeraj Varshney, Man Luo, Chitta Baral(参考訳) 最近の最先端のオープンドメインqaモデルは、一般的には2段階のレトリバー-リーダーアプローチに基づいており、レトリバーはまず関連する知識/パスを見つけ、その後読者はそれを利用して回答を予測する。 以前の研究によると、読者のパフォーマンスは通常、これらのパスの数が増えるにつれて改善する傾向にある。 したがって、最先端のモデルは推論に多くの節(例えば100)を使用する。 このアプローチの読者は高い予測性能を達成するが、推論は非常に高価である。 第一に、私たちが既に獲得した知識を使って自信を持って質問に答えることができれば、外部の知識は使わず、外部の知識が必要な場合、その知識全体を一度に読めず、その答えを見つけるのに十分な知識しか読めません。 そこで我々は,「オープンドメインのQA読者は,予測性能を犠牲にすることなく,人間のような外部知識を効率的に活用できるのか?」という研究課題を問う。この課題に乗じて,「クローズドブック」と「オープンブック」推論(外部知識を平均化する)の両方を活用するアプローチを探る。 さらに,オープンブック推論に多くの固定された節を用いる代わりに,複数の「知識イテレーション」で外部知識を動的に読み取る。 nqおよびtriviaqaデータセットに関する包括的実験を通じて,この動的読解手法が,読者の「参照効率」と「予測精度」の両方を改善することを実証する。 fid readerと比較すると、このアプローチは、そのリーダー推論コストの18.32%を活用し、nq openで最大55.10%の精度を達成することで、その精度を上回っている。

Recent state-of-the-art open-domain QA models are typically based on a two stage retriever-reader approach in which the retriever first finds the relevant knowledge/passages and the reader then leverages that to predict the answer. Prior work has shown that the performance of the reader usually tends to improve with the increase in the number of these passages. Thus, state-of-the-art models use a large number of passages (e.g. 100) for inference. While the reader in this approach achieves high prediction performance, its inference is computationally very expensive. We humans, on the other hand, use a more efficient strategy while answering: firstly, if we can confidently answer the question using our already acquired knowledge then we do not even use the external knowledge, and in the case when we do require external knowledge, we don't read the entire knowledge at once, instead, we only read that much knowledge that is sufficient to find the answer. Motivated by this procedure, we ask a research question "Can the open-domain QA reader utilize external knowledge efficiently like humans without sacrificing the prediction performance?" Driven by this question, we explore an approach that utilizes both 'closed-book' (leveraging knowledge already present in the model parameters) and 'open-book' inference (leveraging external knowledge). Furthermore, instead of using a large fixed number of passages for open-book inference, we dynamically read the external knowledge in multiple 'knowledge iterations'. Through comprehensive experiments on NQ and TriviaQA datasets, we demonstrate that this dynamic reading approach improves both the 'inference efficiency' and the 'prediction accuracy' of the reader. Comparing with the FiD reader, this approach matches its accuracy by utilizing just 18.32% of its reader inference cost and also outperforms it by achieving up to 55.10% accuracy on NQ Open.
翻訳日:2022-11-24 15:42:08 公開日:2022-11-23
# 高次元モデルに基づく強化学習のための原型的文脈認識ダイナミクス一般化

Prototypical context-aware dynamics generalization for high-dimensional model-based reinforcement learning ( http://arxiv.org/abs/2211.12774v1 )

ライセンス: Link先を確認
Junjie Wang, Yao Mu, Dong Li, Qichao Zhang, Dongbin Zhao, Yuzheng Zhuang, Ping Luo, Bin Wang, Jianye Hao(参考訳) 潜在世界モデルは、高次元の観察を伴うタスクのためにコンパクトな潜在空間でポリシーを学ぶ有望な方法を提供するが、未知のダイナミクスを持つ多様な環境にまたがる一般化は依然として困難である。 現在の進歩で利用される再帰構造は局所力学を捉えるのに役立つが、環境コンテキストを明示的に理解せずに状態遷移のみをモデル化することは、力学モデルの一般化能力を制限している。 この問題に対処するために,我々は,時間的一貫性のある潜在コンテキストによって局所的なダイナミクスを捉え,高次元制御タスクにおけるダイナミクスの一般化を可能にするprotocadモデルを提案する。 protocadは、バッチ上にクラスタ化されたプロトタイプの助けを借りて、有用なコンテキスト情報を抽出する。 1) 時間的に整合性のある原型正規化器を利用することにより,同一の潜航路の異なる時間部分に発生する原型割り当てを,特徴を比較せずに時間的に整合性にする。 2) 潜在状態の投影埋め込みと集約プロトタイプの両方を組み合わせたコンテキスト表現が設計され, ダイナミックス一般化能力が大幅に向上する。 拡張実験により,ProtoCADは動的一般化の点で既存の手法を超越していることがわかった。 反復型モデルRSSMと比較すると、ProtoCADはすべての動的一般化タスクにおいて平均と中央値のパフォーマンスが13.2%と26.7%向上している。

The latent world model provides a promising way to learn policies in a compact latent space for tasks with high-dimensional observations, however, its generalization across diverse environments with unseen dynamics remains challenging. Although the recurrent structure utilized in current advances helps to capture local dynamics, modeling only state transitions without an explicit understanding of environmental context limits the generalization ability of the dynamics model. To address this issue, we propose a Prototypical Context-Aware Dynamics (ProtoCAD) model, which captures the local dynamics by time consistent latent context and enables dynamics generalization in high-dimensional control tasks. ProtoCAD extracts useful contextual information with the help of the prototypes clustered over batch and benefits model-based RL in two folds: 1) It utilizes a temporally consistent prototypical regularizer that encourages the prototype assignments produced for different time parts of the same latent trajectory to be temporally consistent instead of comparing the features; 2) A context representation is designed which combines both the projection embedding of latent states and aggregated prototypes and can significantly improve the dynamics generalization ability. Extensive experiments show that ProtoCAD surpasses existing methods in terms of dynamics generalization. Compared with the recurrent-based model RSSM, ProtoCAD delivers 13.2% and 26.7% better mean and median performance across all dynamics generalization tasks.
翻訳日:2022-11-24 15:40:50 公開日:2022-11-23
# ghostnetv2: 長距離注意による安価操作の強化

GhostNetV2: Enhance Cheap Operation with Long-Range Attention ( http://arxiv.org/abs/2211.12905v1 )

ライセンス: Link先を確認
Yehui Tang, Kai Han, Jianyuan Guo, Chang Xu, Chao Xu, Yunhe Wang(参考訳) 軽量畳み込みニューラルネットワーク(CNN)は、高速な推論速度を持つモバイルデバイス上のアプリケーション用に特別に設計されている。 畳み込み操作は、ウィンドウ領域内のローカル情報のみをキャプチャできるため、パフォーマンスがさらに向上することがない。 畳み込みに自己注意を導入することは、グローバルな情報をうまく捉えることができる。 本稿では,ハードウェアフレンドリーなアテンション機構(DFCアテンション)を提案し,モバイルアプリケーションのための新しいGhostNetV2アーキテクチャを提案する。 提案したDFCアテンションは、ハードウェア上で高速に動作できるだけでなく、長距離画素間の依存を捉えることができる完全接続層に基づいて構築されている。 我々はさらに,これまでのghostnetにおける表現性ボトルネックを再検討し,dfc注目による安価操作による拡張機能を拡張し,ghostnetv2ブロックがローカル情報と長距離情報を同時に集約できるようにする。 広範な実験により、ghostnetv2が既存のアーキテクチャよりも優れていることが示されている。 例えば、ImageNetで167MのFLOPで75.3%の精度を実現し、同様の計算コストでGhostNetV1 (74.5%) を大幅に抑制した。 ソースコードはhttps://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorchとhttps://gitee.com/mindspore/models/tree/master/research/cv/ghostnetv2で入手できる。

Light-weight convolutional neural networks (CNNs) are specially designed for applications on mobile devices with faster inference speed. The convolutional operation can only capture local information in a window region, which prevents performance from being further improved. Introducing self-attention into convolution can capture global information well, but it will largely encumber the actual speed. In this paper, we propose a hardware-friendly attention mechanism (dubbed DFC attention) and then present a new GhostNetV2 architecture for mobile applications. The proposed DFC attention is constructed based on fully-connected layers, which can not only execute fast on common hardware but also capture the dependence between long-range pixels. We further revisit the expressiveness bottleneck in previous GhostNet and propose to enhance expanded features produced by cheap operations with DFC attention, so that a GhostNetV2 block can aggregate local and long-range information simultaneously. Extensive experiments demonstrate the superiority of GhostNetV2 over existing architectures. For example, it achieves 75.3% top-1 accuracy on ImageNet with 167M FLOPs, significantly suppressing GhostNetV1 (74.5%) with a similar computational cost. The source code will be available at https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/ghostnetv2_pytorch and https://gitee.com/mindspore/models/tree/master/research/cv/ghostnetv2.
翻訳日:2022-11-24 15:34:57 公開日:2022-11-23
# 胸部x線に対する自己教師付き事前訓練は可能か?

Can we Adopt Self-supervised Pretraining for Chest X-Rays? ( http://arxiv.org/abs/2211.12931v1 )

ライセンス: Link先を確認
Arsh Verma, Makarand Tapaswi(参考訳) 胸部X線 (Chest X-Ray, CXR) は、世界中の放射線技師が心臓や肺の状態を診断するために用いられる、一般的な医用画像モダリティである。 過去10年間、CNN(Convolutional Neural Networks)は、CXR画像の病理を識別することに成功した。 通常、これらのCNNは標準のImageNet分類タスクで事前トレーニングされるが、これは大規模な注釈付きデータセットが利用できることを前提としている。 本研究では,ラベルのないImageNetやChest X-Ray(CXR)データセットの事前トレーニングの有用性を,さまざまなアルゴリズムと複数の設定を用いて分析する。 私たちの研究のいくつかの発見は (i)ラベル付きimagenetによる教師付きトレーニングは、打ち負かすのが難しい強い表現を学ぶ。 (ii)imagenet(~1m画像)における自己教師付きプリトレーニングは、cxrデータセット(~10k画像)上での自己教師付きプリトレーニングと同様のパフォーマンスを示し、 (iii) 教師付きImageNetでトレーニングされたCNNは、特にダウンストリームデータセットが数千のイメージの順にある場合、改善につながる自己教師付きCXRイメージでさらに訓練することができる。

Chest radiograph (or Chest X-Ray, CXR) is a popular medical imaging modality that is used by radiologists across the world to diagnose heart or lung conditions. Over the last decade, Convolutional Neural Networks (CNN), have seen success in identifying pathologies in CXR images. Typically, these CNNs are pretrained on the standard ImageNet classification task, but this assumes availability of large-scale annotated datasets. In this work, we analyze the utility of pretraining on unlabeled ImageNet or Chest X-Ray (CXR) datasets using various algorithms and in multiple settings. Some findings of our work include: (i) supervised training with labeled ImageNet learns strong representations that are hard to beat; (ii) self-supervised pretraining on ImageNet (~1M images) shows performance similar to self-supervised pretraining on a CXR dataset (~100K images); and (iii) the CNN trained on supervised ImageNet can be trained further with self-supervised CXR images leading to improvements, especially when the downstream dataset is on the order of a few thousand images.
翻訳日:2022-11-24 15:34:31 公開日:2022-11-23
# Look, Read and Ask: 画像中のテキストを読んで質問する学習

Look, Read and Ask: Learning to Ask Questions by Reading Text in Images ( http://arxiv.org/abs/2211.12950v1 )

ライセンス: Link先を確認
Soumya Jahagirdar, Shankar Gangisetty, Anand Mishra(参考訳) テキストベースの視覚的質問生成(TextVQG)という新しい問題を提案する。 テキスト理解と会話型人工知能(例えばテキストベースの視覚的質問応答)を組み合わせることに対する文書画像分析コミュニティの関心が最近高まり、TextVQGは重要なタスクとなっている。 TextVQGは、与えられた入力画像とOCRトークンとして知られる自動抽出されたテキストに対して、OCRトークンが生成された質問に対する回答であるように自然言語質問を生成することを目的としている。 TextVQGは会話エージェントにとって不可欠な機能である。 しかし、シーンの深い理解と、画像に存在するテキストで視覚的コンテンツを意味的にブリッジする能力が必要であるため、これは難しい。 テキストVQGに対処するために,OCRの一貫性のある視覚的質問生成モデルを提案する。 提案したモデルをOLRAと呼ぶ。 2つの公開ベンチマークでOLRAを広範囲に評価し、ベースラインと比較する。 我々のモデルOLRAは、手動で編集した公開テキストベースの視覚的質問応答データセットに似た質問を自動的に生成する。 また,テキスト生成文学で広く用いられている性能尺度において,ベースラインアプローチを有意に上回っている。

We present a novel problem of text-based visual question generation or TextVQG in short. Given the recent growing interest of the document image analysis community in combining text understanding with conversational artificial intelligence, e.g., text-based visual question answering, TextVQG becomes an important task. TextVQG aims to generate a natural language question for a given input image and an automatically extracted text also known as OCR token from it such that the OCR token is an answer to the generated question. TextVQG is an essential ability for a conversational agent. However, it is challenging as it requires an in-depth understanding of the scene and the ability to semantically bridge the visual content with the text present in the image. To address TextVQG, we present an OCR consistent visual question generation model that Looks into the visual content, Reads the scene text, and Asks a relevant and meaningful natural language question. We refer to our proposed model as OLRA. We perform an extensive evaluation of OLRA on two public benchmarks and compare them against baselines. Our model OLRA automatically generates questions similar to the public text-based visual question answering datasets that were curated manually. Moreover, we significantly outperform baseline approaches on the performance measures popularly used in text generation literature.
翻訳日:2022-11-24 15:34:11 公開日:2022-11-23
# 顔生成のためのセマンティクス保存型スケッチ埋め込み

Semantics-Preserving Sketch Embedding for Face Generation ( http://arxiv.org/abs/2211.13015v1 )

ライセンス: Link先を確認
Binxin Yang, Xuejin Chen, Chaoqun Wang, Chi Zhang, Zihan Chen and Xiaoyan Sun(参考訳) 画像から画像への翻訳タスクの最近の進歩により、スケッチから顔画像を生成するのに顕著な進歩が見られた。 しかし、既存の手法では、特に様々な装飾ストロークを描く場合に、入力スケッチと意味的に幾何学的に一致する詳細画像を生成することがしばしば発生する。 この問題に対処するために、W+空間の高表現力とW+空間のセマンティック制御性を利用する新しいW-W+エンコーダアーキテクチャを提案する。 スケッチセマンティック埋め込みのための明示的な中間表現を導入する。 効果的な意味的監督のために失われる意味的特徴により、我々のスケッチ埋め込みは、入力されたスケッチのセマンティクスを合成画像に正確に伝達する。 さらに、ベクトル化されたスケッチから意味を自動的に抽出する新しいスケッチ意味解釈手法が設計されている。 本研究では,合成スケッチと手書きスケッチの両方について広範な実験を行い,セマンティクス保存と一般化の両面で既存の手法よりも優れた方法を示す。

With recent advances in image-to-image translation tasks, remarkable progress has been witnessed in generating face images from sketches. However, existing methods frequently fail to generate images with details that are semantically and geometrically consistent with the input sketch, especially when various decoration strokes are drawn. To address this issue, we introduce a novel W-W+ encoder architecture to take advantage of the high expressive power of W+ space and semantic controllability of W space. We introduce an explicit intermediate representation for sketch semantic embedding. With a semantic feature matching loss for effective semantic supervision, our sketch embedding precisely conveys the semantics in the input sketches to the synthesized images. Moreover, a novel sketch semantic interpretation approach is designed to automatically extract semantics from vectorized sketches. We conduct extensive experiments on both synthesized sketches and hand-drawn sketches, and the results demonstrate the superiority of our method over existing approaches on both semantics-preserving and generalization ability.
翻訳日:2022-11-24 15:33:52 公開日:2022-11-23
# マスク付き顔分類ベンチマーク

A Masked Face Classification Benchmark ( http://arxiv.org/abs/2211.13061v1 )

ライセンス: Link先を確認
Federico Cunico, Andrea Toaiari and Marco Cristani(参考訳) マスク分類のためにマスクを被った小さな顔に焦点をあてた新しい画像データセットである small face mask (sf-mask) を提案する。これは7 x 7から64 x 64ピクセルの解像度まで、多種多様なデータセットからエクスポートされた20kの低解像度画像から成る。 このコレクションの正確な視覚化は、グリッドを数えることで、歩行者の頭部が想定するさまざまなポーズのギャップを強調することができる。 特に、非常に高いカメラで撮影された顔は、顔の特徴が強く歪んでいるように見える。 この構造的欠陥に対処するため,我々は一連の合成画像を作成し,クラス内分散を良好にカバーした。 さらに1701枚の小さなサブサンプルには、摩耗の悪いフェイスマスクが含まれており、多種分類の課題に直面している。 SF-MASKの実験は、複数の分類器を用いたマスク分類に焦点を当てている。 その結果,SF-MASK(実画像+合成画像)の豊かさは,テスト対象の分類器を,固定された1077枚の画像検定セット上で比較マスクデータセットの活用よりも優れていることがわかった。 データセットと評価コードはここで公開されている。 https://github.com/humaticslab/sf-mask

We propose a novel image dataset focused on tiny faces wearing face masks for mask classification purposes, dubbed Small Face MASK (SF-MASK), composed of a collection made from 20k low-resolution images exported from diverse and heterogeneous datasets, ranging from 7 x 7 to 64 x 64 pixel resolution. An accurate visualization of this collection, through counting grids, made it possible to highlight gaps in the variety of poses assumed by the heads of the pedestrians. In particular, faces filmed by very high cameras, in which the facial features appear strongly skewed, are absent. To address this structural deficiency, we produced a set of synthetic images which resulted in a satisfactory covering of the intra-class variance. Furthermore, a small subsample of 1701 images contains badly worn face masks, opening to multi-class classification challenges. Experiments on SF-MASK focus on face mask classification using several classifiers. Results show that the richness of SF-MASK (real + synthetic images) leads all of the tested classifiers to perform better than exploiting comparative face mask datasets, on a fixed 1077 images testing set. Dataset and evaluation code are publicly available here: https://github.com/HumaticsLAB/sf-mask
翻訳日:2022-11-24 15:33:34 公開日:2022-11-23
# Sparse2Dense: 3Dオブジェクト検出のための3D特徴の密度化学習

Sparse2Dense: Learning to Densify 3D Features for 3D Object Detection ( http://arxiv.org/abs/2211.13067v1 )

ライセンス: Link先を確認
Tianyu Wang, Xiaowei Hu, Zhengzhe Liu, Chi-Wing Fu(参考訳) LiDARが生成する点雲は、最先端の3Dオブジェクト検出器の主要な情報源である。 しかし、小さくて遠くて不完全で、点がほとんどないし少ないオブジェクトは、しばしば検出が難しい。 Sparse2Denseは、潜在空間における点雲の密度化を学習することで、3D検出性能を効率的に向上する新しいフレームワークである。 具体的には,まず,高密度点雲を入力とする高密度点3d検出器(ddet)を訓練し,正規点雲を入力とするスパース点3d検出器(sdet)を設計する。 重要なことは、SDetの軽量プラグインS2Dモジュールとポイントクラウド再構築モジュールを定式化し、3D特徴を密度化し、3D特徴をDDetの高密度な3D特徴に従うようにSDetを訓練する。 したがって、SDetは高密度入力を必要とせず、通常の(スパース)ポイントクラウド入力から高密度な3D特徴をシミュレートすることができる。 本稿では,waymo open datasetとwaymo domain adaptation datasetを用いた大規模データセットの手法を評価し,その性能と効率性を示す。

LiDAR-produced point clouds are the major source for most state-of-the-art 3D object detectors. Yet, small, distant, and incomplete objects with sparse or few points are often hard to detect. We present Sparse2Dense, a new framework to efficiently boost 3D detection performance by learning to densify point clouds in latent space. Specifically, we first train a dense point 3D detector (DDet) with a dense point cloud as input and design a sparse point 3D detector (SDet) with a regular point cloud as input. Importantly, we formulate the lightweight plug-in S2D module and the point cloud reconstruction module in SDet to densify 3D features and train SDet to produce 3D features, following the dense 3D features in DDet. So, in inference, SDet can simulate dense 3D features from regular (sparse) point cloud inputs without requiring dense inputs. We evaluate our method on the large-scale Waymo Open Dataset and the Waymo Domain Adaptation Dataset, showing its high performance and efficiency over the state of the arts.
翻訳日:2022-11-24 15:33:11 公開日:2022-11-23
# 連続的および段階的テスト時間適応のためのロバスト平均教師

Robust Mean Teacher for Continual and Gradual Test-Time Adaptation ( http://arxiv.org/abs/2211.13081v1 )

ライセンス: Link先を確認
Mario D\"obler, Robert A. Marsden, Bin Yang(参考訳) テスト時のドメインシフトを実際に経験することは避けられないので、TTA(Test-time Adaption)はデプロイ中にモデルを適応し続けます。 近年,TTA (Continuous and gradual test-time adapt) が出現している。 標準的なTTAとは対照的に、連続的なTTAは単一のドメインシフトだけでなく、一連のシフトも考慮している。 経時変化TTAは、時間とともに徐々に変化していく性質をさらに活用する。 どちらの設定にも長いテストシーケンスが存在するため、自己学習に依存するメソッドではエラーの蓄積に対処する必要がある。 本稿では,ttaの設定において,対称クロスエントロピーが一般的なクロスエントロピーと比較して,平均教師の一貫性損失として適していることを示す。 これは(対称)クロスエントロピーの勾配特性に関する解析によって正当化される。 事前学習されたモデルがよく提示されているソース領域にテスト特徴空間を近づけるには、コントラスト学習を利用する。 アプリケーションは要件が異なるため、ソースデータが利用可能であることと、より困難なソースフリー設定に対処します。 提案手法がCIFAR10C, CIFAR100C, Imagenet-Cの連続的, 段階的な汚職ベンチマークに与える影響を実証した。 我々はさらにimagenet-rを検討し、新しいcontinual domainnet-126ベンチマークを提案する。 最先端の結果はすべてのベンチマークで達成される。

Since experiencing domain shifts during test-time is inevitable in practice, test-time adaption (TTA) continues to adapt the model during deployment. Recently, the area of continual and gradual test-time adaptation (TTA) emerged. In contrast to standard TTA, continual TTA considers not only a single domain shift, but a sequence of shifts. Gradual TTA further exploits the property that some shifts evolve gradually over time. Since in both settings long test sequences are present, error accumulation needs to be addressed for methods relying on self-training. In this work, we propose and show that in the setting of TTA, the symmetric cross-entropy is better suited as a consistency loss for mean teachers compared to the commonly used cross-entropy. This is justified by our analysis with respect to the (symmetric) cross-entropy's gradient properties. To pull the test feature space closer to the source domain, where the pre-trained model is well posed, contrastive learning is leveraged. Since applications differ in their requirements, we address different settings, namely having source data available and the more challenging source-free setting. We demonstrate the effectiveness of our proposed method 'robust mean teacher' (RMT) on the continual and gradual corruption benchmarks CIFAR10C, CIFAR100C, and Imagenet-C. We further consider ImageNet-R and propose a new continual DomainNet-126 benchmark. State-of-the-art results are achieved on all benchmarks.
翻訳日:2022-11-24 15:32:50 公開日:2022-11-23
# TransVCL:フレキシブル・スーパービジョンによる注意力強化ビデオコピー・ローカライゼーション・ネットワーク

TransVCL: Attention-enhanced Video Copy Localization Network with Flexible Supervision ( http://arxiv.org/abs/2211.13090v1 )

ライセンス: Link先を確認
Sifeng He, Yue He, Minlong Lu, Chen Jiang, Xudong Yang, Feng Qian, Xiaobo Zhang, Lei Yang, Jiandong Zhang(参考訳) ビデオコピーのローカライゼーションは、ビデオ検索アプリケーションにおいて、コピーされた全セグメントを、一対の未トリミングビデオに正確にローカライズすることを目的としている。 従来の手法は、入力されたビデオペアのフレームレベルの特徴間のコサイン類似性によって生成されるフレーム間類似性行列から始まり、時間的制約の下で類似性行列上のコピーセグメントの境界を検出して洗練する。 本稿では,初期フレームレベルの特徴から直接最適化され,特徴強化のためのカスタマイズされたトランスフォーマー,類似度行列生成のための相関・ソフトマックス層,コピーセグメントローカライズのための時間的アライメントモジュールの3つの主要コンポーネントを備えた,注目度の高いビデオコピーローカライゼーションネットワークであるTransVCLを提案する。 従来の手作り類似性行列要求手法とは対照的に,TransVCLでは,自己注意層と横断注意層を用いた特徴系列ペア間の長距離時間情報を組み込んでいる。 3つのコンポーネントの合同設計と最適化により、類似性マトリックスはより識別可能なコピーパターンを示し、セグメントレベルのラベル付きデータセット(vcslとvcdb)の以前の方法を大きく改善した。 完全に教師された環境での最先端のパフォーマンスに加えて、アテンションアーキテクチャはTransVCLにラベルなしまたは単にビデオレベルのラベル付きデータをさらに活用させる。 SVDやFIVRなど、ビデオレベルのラベル付きデータセットを補完する追加実験は、TransVCLの完全な監督から半監督(ビデオレベルのアノテーションの有無に関わらず)への高い柔軟性を明らかにしている。 コードはhttps://github.com/transvcl/TransVCLで公開されている。

Video copy localization aims to precisely localize all the copied segments within a pair of untrimmed videos in video retrieval applications. Previous methods typically start from frame-to-frame similarity matrix generated by cosine similarity between frame-level features of the input video pair, and then detect and refine the boundaries of copied segments on similarity matrix under temporal constraints. In this paper, we propose TransVCL: an attention-enhanced video copy localization network, which is optimized directly from initial frame-level features and trained end-to-end with three main components: a customized Transformer for feature enhancement, a correlation and softmax layer for similarity matrix generation, and a temporal alignment module for copied segments localization. In contrast to previous methods demanding the handcrafted similarity matrix, TransVCL incorporates long-range temporal information between feature sequence pair using self- and cross- attention layers. With the joint design and optimization of three components, the similarity matrix can be learned to present more discriminative copied patterns, leading to significant improvements over previous methods on segment-level labeled datasets (VCSL and VCDB). Besides the state-of-the-art performance in fully supervised setting, the attention architecture facilitates TransVCL to further exploit unlabeled or simply video-level labeled data. Additional experiments of supplementing video-level labeled datasets including SVD and FIVR reveal the high flexibility of TransVCL from full supervision to semi-supervision (with or without video-level annotation). Code is publicly available at https://github.com/transvcl/TransVCL.
翻訳日:2022-11-24 15:32:28 公開日:2022-11-23
# コンピュータビジョンのためのプルーニング軽量エンコーダ

Pruned Lightweight Encoders for Computer Vision ( http://arxiv.org/abs/2211.13137v1 )

ライセンス: Link先を確認
Jakub \v{Z}\'adn\'ik, Markku M\"akitalo, Pekka J\"a\"askel\"ainen(参考訳) 自律運転やドローン制御などの遅延クリティカルなコンピュータビジョンシステムは、ニューラルネットワーク推論をリモートコンピュータにオフロードする場合、高速画像やビデオ圧縮を必要とする。 近接センサエッジデバイスにおいて低レイテンシを確保するため,ビットレートとプルーニングされた符号化構成,すなわちASTCとJPEG XSを用いた軽量エンコーダを提案する。 Pruningは、圧縮後の圧縮データでニューラルネットワークを再トレーニングすることで、回復できる重要な歪みをもたらす。 このようなアプローチは、ネットワークアーキテクチャを変更したり、コーディングフォーマットを変更したりしない。 圧縮データセットをリトレーニングすることにより,astc圧縮による分類精度と分節平均交点を,それぞれ4.9-5.0点 (pp) と4.4-4.0pp に削減した。 同じ方法で、JPEG XS圧縮で失われたmIoUは2.7-2.3 ppに復元された。 符号化速度に関しては、ASTCエンコーダの実装はJPEGよりも2.3倍高速です。 JPEG XS参照エンコーダは低レイテンシを実現するために最適化を必要とするが、無効な重要フラグ符号化では、再トレーニング後の0.4~0.3 mIoUのコストで符号化時間を22~23%節約できることを示した。

Latency-critical computer vision systems, such as autonomous driving or drone control, require fast image or video compression when offloading neural network inference to a remote computer. To ensure low latency on a near-sensor edge device, we propose the use of lightweight encoders with constant bitrate and pruned encoding configurations, namely, ASTC and JPEG XS. Pruning introduces significant distortion which we show can be recovered by retraining the neural network with compressed data after decompression. Such an approach does not modify the network architecture or require coding format modifications. By retraining with compressed datasets, we reduced the classification accuracy and segmentation mean intersection over union (mIoU) degradation due to ASTC compression to 4.9-5.0 percentage points (pp) and 4.4-4.0 pp, respectively. With the same method, the mIoU lost due to JPEG XS compression at the main profile was restored to 2.7-2.3 pp. In terms of encoding speed, our ASTC encoder implementation is 2.3x faster than JPEG. Even though the JPEG XS reference encoder requires optimizations to reach low latency, we showed that disabling significance flag coding saves 22-23% of encoding time at the cost of 0.4-0.3 mIoU after retraining.
翻訳日:2022-11-24 15:31:56 公開日:2022-11-23
# BaRe-ESA: 登録されていない人体形状のためのリーマン的フレームワーク

BaRe-ESA: A Riemannian Framework for Unregistered Human Body Shapes ( http://arxiv.org/abs/2211.13185v1 )

ライセンス: Link先を確認
Emmanuel Hartman, Emery Pierson, Martin Bauer, Nicolas Charon, Mohamed Daoudi(参考訳) 本研究では,人体スキャン,補間,外挿のための新しいリーマン的枠組みであるBaRe-ESAを提案する。 bare-esaは、未登録のメッシュ、すなわち、事前のポイントからポイント対応、あるいは一貫性のあるメッシュ構造を前提として、直接動作する。 この方法は、曲面の空間上の不変高階計量に付随するリーマン計量(非ユークリッド)を備える潜在空間表現に依存する。 FAUSTおよびDFAUSTデータセットの実験結果から、BaRe-ESAは、形状登録、補間、外挿の点で、以前のソリューションに関して大幅に改善されている。 モデルの有効性と強度は, 動き伝達やランダムな身体形状の生成, ポーズなどの応用でさらに実証される。

We present BaRe-ESA, a novel Riemannian framework for human body scan representation, interpolation and extrapolation. BaRe-ESA operates directly on unregistered meshes, i.e., without the need to establish prior point to point correspondences or to assume a consistent mesh structure. Our method relies on a latent space representation, which is equipped with a Riemannian (non-Euclidean) metric associated to an invariant higher-order metric on the space of surfaces. Experimental results on the FAUST and DFAUST datasets show that BaRe-ESA brings significant improvements with respect to previous solutions in terms of shape registration, interpolation and extrapolation. The efficiency and strength of our model is further demonstrated in applications such as motion transfer and random generation of body shape and pose.
翻訳日:2022-11-24 15:31:31 公開日:2022-11-23
# 目標追跡における深層学習に基づくデータ融合アルゴリズムの研究

Research on Data Fusion Algorithm Based on Deep Learning in Target Tracking ( http://arxiv.org/abs/2211.12776v1 )

ライセンス: Link先を確認
Huihui Wu(参考訳) Aiming at the limitation that deep long and short-term memory network(DLSTM) algorithm cannot perform parallel computing and cannot obtain global information, in this paper, feature extraction and feature processing are firstly carried out according to the characteristics of eye movement data and tracking data, then by introducing a convolutional neural network (CNN) into a deep long and short-term memory network, developed a new network structure and designed a fusion strategy, an eye tracking data fusion algorithm based on long and short-term memory network is proposed. 実験の結果, 深層学習に基づく2つの融合アルゴリズムと比較して, 本論文では, 融合品質の点で良好な性能を示した。

Aiming at the limitation that deep long and short-term memory network(DLSTM) algorithm cannot perform parallel computing and cannot obtain global information, in this paper, feature extraction and feature processing are firstly carried out according to the characteristics of eye movement data and tracking data, then by introducing a convolutional neural network (CNN) into a deep long and short-term memory network, developed a new network structure and designed a fusion strategy, an eye tracking data fusion algorithm based on long and short-term memory network is proposed. The experimental results show that compared with the two fusion algorithms based on deep learning, the algorithm proposed in this paper performs well in terms of fusion quality.
翻訳日:2022-11-24 15:25:26 公開日:2022-11-23
# リード・orthogonal attentionとecg分類のためのメタ情報を有するデュアルスケールリードセパレートトランス

A Dual-scale Lead-seperated Transformer With Lead-orthogonal Attention And Meta-information For Ecg Classification ( http://arxiv.org/abs/2211.12777v1 )

ライセンス: Link先を確認
Yang Li, Guijin Wang, Zhourui Xia, Wenming Yang, Li Sun(参考訳) 12誘導心電図(ECG)を用いて心電気生理学的状態の補助診断を行うことができる。 本研究は、この課題に対処するための新しいアプローチとして、鉛直交の注意とメタ情報(DLTM-ECG)を用いたデュアルスケールリード分離変換器を提案する。 各リードのECGセグメントは独立パッチとして解釈され、縮小次元信号と共に二重スケールの表現を形成する。 相関の低いセグメントからの干渉を低減する方法として、2つのグループアテンション機構がリードインターナルとクロスリードの両方のアテンションを実行する。 従来廃棄されていたメタ情報の付加が可能であり,臨床情報の利用性がさらに向上する。 実験の結果,我々のDLTM-ECGは,2つのベンチマークデータセット上での最先端(SOTA)深層学習手法よりも,他のトランスフォーマーベースモデルよりもはるかに優れた分類スコアが得られることがわかった。 本研究は,同様の生体電気信号処理と生理的マルチモーダルタスクの可能性を秘めている。

Auxiliary diagnosis of cardiac electrophysiological status can be obtained through the analysis of 12-lead electrocardiograms (ECGs). This work proposes a dual-scale lead-separated transformer with lead-orthogonal attention and meta-information (DLTM-ECG) as a novel approach to address this challenge. ECG segments of each lead are interpreted as independent patches, and together with the reduced dimension signal, they form a dual-scale representation. As a method to reduce interference from segments with low correlation, two group attention mechanisms perform both lead-internal and cross-lead attention. Our method allows for the addition of previously discarded meta-information, further improving the utilization of clinical information. Experimental results show that our DLTM-ECG yields significantly better classification scores than other transformer-based models,matching or performing better than state-of-the-art (SOTA) deep learning methods on two benchmark datasets. Our work has the potential for similar multichannel bioelectrical signal processing and physiological multimodal tasks.
翻訳日:2022-11-24 15:25:17 公開日:2022-11-23
# イベントカメラのためのデータ駆動型特徴追跡

Data-driven Feature Tracking for Event Cameras ( http://arxiv.org/abs/2211.12826v1 )

ライセンス: Link先を確認
Nico Messikommer, Carter Fang, Mathias Gehrig, Davide Scaramuzza(参考訳) 高時間分解能、動きのぼかしに対するレジリエンスの増大、そして非常に少ない出力のため、イベントカメラは挑戦的なシナリオであっても低レイテンシで低帯域幅の特徴追跡に最適であることが示されている。 既存のイベントカメラの特徴追跡手法は手作りか第一原理から派生しているが、広範なパラメータチューニングが必要であり、ノイズに敏感であり、非モデル化効果のために異なるシナリオに一般化しない。 これらの欠陥に対処するために、グレースケールフレームで検出された特徴を追跡するために、低レイテンシイベントを活用するイベントカメラ用の最初のデータ駆動機能トラッカーを導入する。 特徴トラック間で情報を共有する新しいフレームアテンションモジュールにより,ロバストな性能を実現する。 合成データから実データに直接ゼロショットを転送することで、データ駆動型トラッカーは、相対的な機能年齢における既存のアプローチを最大120パーセント上回り、最も低いレイテンシを達成します。 このパフォーマンスギャップは,新たな自己スーパービジョン戦略によって,トラッカを実データに適用することで,さらに130パーセントまで向上します。

Because of their high temporal resolution, increased resilience to motion blur, and very sparse output, event cameras have been shown to be ideal for low-latency and low-bandwidth feature tracking, even in challenging scenarios. Existing feature tracking methods for event cameras are either handcrafted or derived from first principles but require extensive parameter tuning, are sensitive to noise, and do not generalize to different scenarios due to unmodeled effects. To tackle these deficiencies, we introduce the first data-driven feature tracker for event cameras, which leverages low-latency events to track features detected in a grayscale frame. We achieve robust performance via a novel frame attention module, which shares information across feature tracks. By directly transferring zero-shot from synthetic to real data, our data-driven tracker outperforms existing approaches in relative feature age by up to 120 % while also achieving the lowest latency. This performance gap is further increased to 130 % by adapting our tracker to real data with a novel self-supervision strategy.
翻訳日:2022-11-24 15:24:58 公開日:2022-11-23
# ビデオインスタンスシャドー検出

Video Instance Shadow Detection ( http://arxiv.org/abs/2211.12827v1 )

ライセンス: Link先を確認
Zhenghao Xing, Tianyu Wang, Xiaowei Hu, Haoran Wu, Chi-Wing Fu, Pheng-Ann Heng(参考訳) ビデオインスタンスシャドー検出は、ビデオ中の対のシャドーオブジェクト関連を同時に検出、セグメンテーション、アソシエイト、追跡することを目的としている。 この仕事には3つの重要な貢献がある。 まずSSIS-Trackを設計する。これは、ビデオ内の影オブジェクト関連を、カテゴリー仕様なしで抽出する新しいフレームワークであり、特に、オブジェクトやシャドウが一時的にいくつかのフレームに隠されている場合でも、ペアトラッキングを維持するために努力する。 第2に,ラベル付き画像とラベル付きビデオの両方を利用し,連想サイクル一貫性損失による追跡能力の向上による時間的コヒーレンスを探索し,ssis-trackの性能を最適化する。 最後に、$\textit{soba-vid}$を構築します。新しいデータセットには、トレーニング用の${5,863}$ framesとテスト用の${1,182}$ framesというラベル付きビデオがあります。 SSIS-TrackはSOTAビデオトラッキングとインスタンスシャドウ検出法で構築したベースラインを大きなマージンで上回ることを示す実験結果を得た。 最後に、ビデオレベルのアプリケーションをいくつか紹介する。

Video instance shadow detection aims to simultaneously detect, segment, associate, and track paired shadow-object associations in videos. This work has three key contributions to the task. First, we design SSIS-Track, a new framework to extract shadow-object associations in videos with paired tracking and without category specification; especially, we strive to maintain paired tracking even the objects/shadows are temporarily occluded for several frames. Second, we leverage both labeled images and unlabeled videos, and explore temporal coherence by augmenting the tracking ability via an association cycle consistency loss to optimize SSIS-Track's performance. Last, we build $\textit{SOBA-VID}$, a new dataset with 232 unlabeled videos of ${5,863}$ frames for training and 60 labeled videos of ${1,182}$ frames for testing. Experimental results show that SSIS-Track surpasses baselines built from SOTA video tracking and instance-shadow-detection methods by a large margin. In the end, we showcase several video-level applications.
翻訳日:2022-11-24 15:24:39 公開日:2022-11-23
# BAD-NeRF: 結合調整デブレアニューラル放射場

BAD-NeRF: Bundle Adjusted Deblur Neural Radiance Fields ( http://arxiv.org/abs/2211.12853v1 )

ライセンス: Link先を確認
Peng Wang, Lingzhe Zhao, Ruijie Ma, Peidong Liu(参考訳) ニューラル・レージアンス・フィールズ(NeRF)は、カメラ画像のセットから、フォトリアリスティックな3D再構成と新しいビュー合成の優れた能力により、近年大きな注目を集めている。 初期の作業は通常、入力画像の品質がよいと仮定する。 しかし、画像の劣化(例えば低照度での動画像のぼやけ)は現実世界のシナリオで容易に起こり、nerfのレンダリング品質にさらに影響を及ぼす。 本稿では,重度動きのぼやけた画像や不正確なカメラポーズに対して頑丈な,新しいバンドル調整型デブルーニューラルレージアンス場(BAD-NeRF)を提案する。 提案手法は、動きのぼやけた画像の物理的画像形成過程をモデル化し、nerfのパラメータを共同学習し、露光時間中にカメラの動き軌跡を復元する。 実験では,実際の画像形成過程を直接モデル化することにより,bad-nerfが合成データと実データの両方の先行処理よりも優れた性能を実現することを示す。

Neural Radiance Fields (NeRF) have received considerable attention recently, due to its impressive capability in photo-realistic 3D reconstruction and novel view synthesis, given a set of posed camera images. Earlier work usually assumes the input images are in good quality. However, image degradation (e.g. image motion blur in low-light conditions) can easily happen in real-world scenarios, which would further affect the rendering quality of NeRF. In this paper, we present a novel bundle adjusted deblur Neural Radiance Fields (BAD-NeRF), which can be robust to severe motion blurred images and inaccurate camera poses. Our approach models the physical image formation process of a motion blurred image, and jointly learns the parameters of NeRF and recovers the camera motion trajectories during exposure time. In experiments, we show that by directly modeling the real physical image formation process, BAD-NeRF achieves superior performance over prior works on both synthetic and real datasets.
翻訳日:2022-11-24 15:24:17 公開日:2022-11-23
# ActMAD: テスト時間トレーニングのためのアラインディストリビューションへのアクティベーションマッチング

ActMAD: Activation Matching to Align Distributions for Test-Time-Training ( http://arxiv.org/abs/2211.12870v1 )

ライセンス: Link先を確認
Muhammad Jehanzeb Mirza, Pol Jan\'e Soneira, Wei Lin, Mateusz Kozinski, Horst Possegger, Horst Bischof(参考訳) TTT(Test-Time-Training)は、テスト時に発生する分散シフトにトレーニングされたモデルを適用することで、アウト・オブ・ディストリビューション(OOD)データに対処するアプローチである。 そこで本研究では,モデルのアクティベーションマッチング(actmad)を用いて,モデルのアクティベーションを分析し,oodテストデータのアクティベーション統計をトレーニングデータと整合させる手法を提案する。 特徴抽出器の終端層におけるチャネル全体の分布をモデル化する既存の手法とは対照的に,ネットワーク上の複数の層における各特徴の分布をモデル化する。 これにより、よりきめ細かい監督が可能となり、ActMADはCIFAR-100CおよびImagenet-C上でのアートパフォーマンスの状態を達成できる。 ActMADはまた、アーキテクチャとタスクに依存しないので、画像分類を超えて、KITTI-Fog上でKITTIで訓練されたオブジェクト検出器を評価する際に、以前のアプローチよりも15.4%改善できる。 実験の結果、ActMADは現実的なシナリオにおけるオンライン適応に適用可能であり、完全なパフォーマンスを得るためにはほとんどデータを必要としないことがわかった。

Test-Time-Training (TTT) is an approach to cope with out-of-distribution (OOD) data by adapting a trained model to distribution shifts occurring at test-time. We propose to perform this adaptation via Activation Matching (ActMAD): We analyze activations of the model and align activation statistics of the OOD test data to those of the training data. In contrast to existing methods, which model the distribution of entire channels in the ultimate layer of the feature extractor, we model the distribution of each feature in multiple layers across the network. This results in a more fine-grained supervision and makes ActMAD attain state of the art performance on CIFAR-100C and Imagenet-C. ActMAD is also architecture- and task-agnostic, which lets us go beyond image classification, and score 15.4% improvement over previous approaches when evaluating a KITTI-trained object detector on KITTI-Fog. Our experiments highlight that ActMAD can be applied to online adaptation in realistic scenarios, requiring little data to attain its full performance.
翻訳日:2022-11-24 15:23:05 公開日:2022-11-23
# 微細画像分類のためのデータ拡張ビジョン変換器

Data Augmentation Vision Transformer for Fine-grained Image Classification ( http://arxiv.org/abs/2211.12879v1 )

ライセンス: Link先を確認
Chao Hu, Liqiang Zhu, Weibin Qiu, and Weijie Wu(参考訳) 近年、視覚変換器(ViT)は画像認識において画期的な進歩を遂げている。 その自己認識機構(MSA)は、異なる画素ブロックの識別ラベル情報を抽出し、画像分類精度を向上させる。 しかし、その深層における分類マークは、層間の局所的な特徴を無視する傾向がある。 さらに、埋め込み層は固定サイズのピクセルブロックになる。 入力ネットワーク 必然的に画像ノイズを導入する。 そこで本研究では,データ増補に基づくデータ増補視覚トランスフォーマ(davt)について検討し,注意重みを画像の収穫ガイドとして活用し,ネットワークが重要な特徴を学習する能力を向上させるアテンショントリッピングのためのデータ増補手法を提案する。 次に,階層的注意選択(has)手法を提案する。この手法は,レベル間のラベルをフィルタリングし,融合することにより,学習レベル間の識別マーカーの能力を向上させる。 実験の結果,CUB-200-2011とStanford Dogsの2つの一般的なデータセットの精度は従来の主流手法よりも優れており,その精度は元のViTよりも1.4\%,1.6\%高いことがわかった。

Recently, the vision transformer (ViT) has made breakthroughs in image recognition. Its self-attention mechanism (MSA) can extract discriminative labeling information of different pixel blocks to improve image classification accuracy. However, the classification marks in their deep layers tend to ignore local features between layers. In addition, the embedding layer will be fixed-size pixel blocks. Input network Inevitably introduces additional image noise. To this end, this paper studies a data augmentation vision transformer (DAVT) based on data augmentation and proposes a data augmentation method for attention cropping, which uses attention weights as the guide to crop images and improve the ability of the network to learn critical features. Secondly, this paper also proposes a hierarchical attention selection (HAS) method, which improves the ability of discriminative markers between levels of learning by filtering and fusing labels between levels. Experimental results show that the accuracy of this method on the two general datasets, CUB-200-2011, and Stanford Dogs, is better than the existing mainstream methods, and its accuracy is 1.4\% and 1.6\% higher than the original ViT, respectively.
翻訳日:2022-11-24 15:22:43 公開日:2022-11-23
# 背景と前景における行動表現の静的バイアスの評価と軽減

Evaluating and Mitigating Static Bias of Action Representations in the Background and the Foreground ( http://arxiv.org/abs/2211.12883v1 )

ライセンス: Link先を確認
Haoxin Li, Yue Wu, Yuan Liu, Hanwang Zhang, Boyang Li(参考訳) ビデオアクション認識のためのディープニューラルネットワークは、モーション機能の代わりに背景やオブジェクトなどのショートカット静的機能を利用するように簡単に学習する。 この結果、(サッカー場の代わりに)コンクリート表面で遊ぶサッカーのような非定型ビデオへの一般化が不十分になる。 しかし,out-of-distribution (ood) データの希薄さから,静的バイアスの定量的評価はいまだに難しい課題である。 本稿では,背景の静的なキューに対するSCUBや前景の静的なキューに対するSCUFなど,アクション表現の静的なバイアスを評価するための新しいベンチマークセットを合成する。 さらに, バイアスを誘発するビデオフレームを自動的に識別する, 単純かつ効果的なビデオデータ拡張手法であるStillMixを提案する。 広範囲な実験により,既存の行動認識モデルを定量的に比較分析し,その特徴を明らかにする。 StillMix の有効性を検証するとともに, SCUB の OOD 動作認識における TSM (Lin, Gan, Han 2021) と Video Swin Transformer (Liu et al. 2021) の精度を 10% 以上向上することを示した。

Deep neural networks for video action recognition easily learn to utilize shortcut static features, such as background and objects instead of motion features. This results in poor generalization to atypical videos such as soccer playing on concrete surfaces (instead of soccer fields). However, due to the rarity of out-of-distribution (OOD) data, quantitative evaluation of static bias remains a difficult task. In this paper, we synthesize new sets of benchmarks to evaluate static bias of action representations, including SCUB for static cues in the background, and SCUF for static cues in the foreground. Further, we propose a simple yet effective video data augmentation technique, StillMix, that automatically identifies bias-inducing video frames; unlike similar augmentation techniques, StillMix does not need to enumerate or precisely segment biased content. With extensive experiments, we quantitatively compare and analyze existing action recognition models on the created benchmarks to reveal their characteristics. We validate the effectiveness of StillMix and show that it improves TSM (Lin, Gan, and Han 2021) and Video Swin Transformer (Liu et al. 2021) by more than 10% of accuracy on SCUB for OOD action recognition.
翻訳日:2022-11-24 15:22:23 公開日:2022-11-23
# one class one click: アクティブラーニングによる準シーンレベル弱教師付きポイントクラウド意味セグメンテーション

One Class One Click: Quasi Scene-level Weakly Supervised Point Cloud Semantic Segmentation with Active Learning ( http://arxiv.org/abs/2211.12657v1 )

ライセンス: Link先を確認
Puzuo Wang, Wei Yao, Jie Shao(参考訳) リーディングパフォーマンスを達成するために巨大なアノテーションに依存することは、大規模ポイントクラウドセマンティクスセグメンテーションの実用性を厳しく制限する。 データアノテーションコストを削減するため、効果的なラベリング方式を開発し、弱い監督戦略の下での競争結果の達成に寄与する。 現在の弱いラベル形式を再検討し、ポイントレベルのアノテーションとシーンレベルのアノテーションをカプセル化した、低コストで情報のある準シーンレベルのラベルであるOne Class One Click (OCOC)を導入する。 グローバルおよびローカルな視点からの弱い監督を伴って、希少なラベルを活用するために、アクティブな弱教師付きフレームワークが提案されている。 文脈制約は、グローバル特徴埋め込みと、ococラベルのみにモデル予測を制限するポイントワイズ予測アグリゲーションに基づいて、補助シーン分類タスクによって課される。 さらに,ポイントレベルの監視信号を効果的に補う,コンテキスト対応の擬似ラベリング戦略を設計する。 最後に、不確実な時間的出力不一致を伴うアクティブラーニングスキームを統合して、情報的サンプルを調べ、より望ましいOCOCアノテーションを迅速に取得し、ラベリングコストを極端に低めることができるサブクラウドクエリーに関するガイダンスを提供する。 航空機, 移動機, 地上プラットフォームから収集した3つのlidarベンチマークを用いた大規模実験により, 提案手法は非常に有望な結果が得られることを示した。 実際のシーンレベルの弱い監督手法を平均F1スコアで最大25倍に上回り、完全な監督スキームに対する競争結果を得る。 約2\textpertenthousand{}のラベルを用いた地球上のLiDARデータセット-Semantics3Dでは,ベースラインモデルと比較して平均F1スコアが85.2\%増加し,11.58\%上昇する。

Reliance on vast annotations to achieve leading performance severely restricts the practicality of large-scale point cloud semantic segmentation. For the purpose of reducing data annotation costs, effective labeling schemes are developed and contribute to attaining competitive results under weak supervision strategy. Revisiting current weak label forms, we introduce One Class One Click (OCOC), a low cost yet informative quasi scene-level label, which encapsulates point-level and scene-level annotations. An active weakly supervised framework is proposed to leverage scarce labels by involving weak supervision from global and local perspectives. Contextual constraints are imposed by an auxiliary scene classification task, respectively based on global feature embedding and point-wise prediction aggregation, which restricts the model prediction merely to OCOC labels. Furthermore, we design a context-aware pseudo labeling strategy, which effectively supplement point-level supervisory signals. Finally, an active learning scheme with a uncertainty measure - temporal output discrepancy is integrated to examine informative samples and provides guidance on sub-clouds query, which is conducive to quickly attaining desirable OCOC annotations and reduces the labeling cost to an extremely low extent. Extensive experimental analysis using three LiDAR benchmarks collected from airborne, mobile and ground platforms demonstrates that our proposed method achieves very promising results though subject to scarce labels. It considerably outperforms genuine scene-level weakly supervised methods by up to 25\% in terms of average F1 score and achieves competitive results against full supervision schemes. On terrestrial LiDAR dataset - Semantics3D, using approximately 2\textpertenthousand{} of labels, our method achieves an average F1 score of 85.2\%, which increases by 11.58\% compared to the baseline model.
翻訳日:2022-11-24 15:16:14 公開日:2022-11-23
# ディエンス対応推定を用いた意味認識型ワンショット顔再現

Semantic-aware One-shot Face Re-enactment with Dense Correspondence Estimation ( http://arxiv.org/abs/2211.12674v1 )

ライセンス: Link先を確認
Yunfan Liu, Qi Li, Zhenan Sun, Tieniu Tan(参考訳) ワンショット顔の再現は、ソースと駆動面の同一性ミスマッチのため、難しい課題である。 具体的には、運転者の不整合性情報に対して、必然的に再現結果に干渉し、顔形状の歪みを引き起こす。 そこで本研究では,3次元モーフィブルモデル(3DMM)を明示的な顔のセマンティックな分解と識別の不整合に利用することを提案する。 再現性制御に3D係数のみを用いる代わりに、3DMMによるテクスチャ化された顔プロキシの描画能力を生かした。 これらのプロキシには、人間の顔の十分なコンパクトな幾何学的・意味的な情報が含まれており、密度の高い対応を推定することにより、音源と駆動画像の間の顔の動き場を計算することができる。 このようにして、モーションフィールドに応じてソースイメージをワープすることで、再現結果を近似することができ、また、ワープ結果の視覚的品質をさらに向上するために、ジェネレーティブ・ディバイザリアル・ネットワーク(GAN)が採用される。 各種データセットに対する広範囲な実験により,提案手法は,アイデンティティ保存と再現充足の両面において,既存の最先端ベンチマークよりも優れていることが示された。

One-shot face re-enactment is a challenging task due to the identity mismatch between source and driving faces. Specifically, the suboptimally disentangled identity information of driving subjects would inevitably interfere with the re-enactment results and lead to face shape distortion. To solve this problem, this paper proposes to use 3D Morphable Model (3DMM) for explicit facial semantic decomposition and identity disentanglement. Instead of using 3D coefficients alone for re-enactment control, we take the advantage of the generative ability of 3DMM to render textured face proxies. These proxies contain abundant yet compact geometric and semantic information of human faces, which enable us to compute the face motion field between source and driving images by estimating the dense correspondence. In this way, we could approximate re-enactment results by warping source images according to the motion field, and a Generative Adversarial Network (GAN) is adopted to further improve the visual quality of warping results. Extensive experiments on various datasets demonstrate the advantages of the proposed method over existing start-of-the-art benchmarks in both identity preservation and re-enactment fulfillment.
翻訳日:2022-11-24 15:15:40 公開日:2022-11-23
# 深部畳み込みニューラルネットワークのためのRega-Net:Retina Gaborアテンション

Rega-Net:Retina Gabor Attention for Deep Convolutional Neural Networks ( http://arxiv.org/abs/2211.12698v1 )

ライセンス: Link先を確認
Chun Bao, Jie Cao, Yaqian Ning, Yang Cheng, Qun Hao(参考訳) 大規模な研究は、畳み込みニューラルネットワーク(CNN)の注意機構が効果的に精度を向上させることを示した。 しかし、大きな受容場を用いた注意機構の設計はほとんど行われない。 そこで本研究では,rega-netという新しい注意手法を提案する。 ヒト網膜のメカニズムにインスパイアされた我々は、ヒト網膜の非一様分布構造に類似した畳み込みカーネルを設計する。 次に、Gabor関数分布の変数分解能値をサンプリングし、これらの値を網膜様のカーネルで埋める。 この分布により、受容野の中心位置において重要な特徴がより見えるようになる。 さらに、これらの網膜様カーネルを含む注目モジュールを設計する。 実験により、Rega-NetはImageNet-1K分類で79.963\%、COCO2017オブジェクト検出で43.1\%mAPを達成した。 Rega-NetのmAPはベースラインネットワークに比べて3.5\%増加した。

Extensive research works demonstrate that the attention mechanism in convolutional neural networks (CNNs) effectively improves accuracy. But little works design attention mechanisms using large receptive fields. In this work, we propose a novel attention method named Rega-net to increase CNN accuracy by enlarging the receptive field. Inspired by the mechanism of the human retina, we design convolutional kernels to resemble the non-uniformly distributed structure of the human retina. Then, we sample variable-resolution values in the Gabor function distribution and fill these values in retina-like kernels. This distribution allows important features to be more visible in the center position of the receptive field. We further design an attention module including these retina-like kernels. Experiments demonstrate that our Rega-Net achieves 79.963\% top-1 accuracy on ImageNet-1K classification and 43.1\% mAP on COCO2017 object detection. The mAP of the Rega-Net increased by up to 3.5\% compared to baseline networks.
翻訳日:2022-11-24 15:15:19 公開日:2022-11-23
# Global Meets Local: Category-Aware Weak Supervisionによる効果的なマルチラベル画像分類

Global Meets Local: Effective Multi-Label Image Classification via Category-Aware Weak Supervision ( http://arxiv.org/abs/2211.12716v1 )

ライセンス: Link先を確認
Jiawei Zhan, Jun Liu, Wei Tang, Guannan Jiang, Xi Wang, Bin-Bin Gao, Tianliang Zhang, Wenlong Wu, Wei Zhang, Chengjie Wang, Yuan Xie(参考訳) ラベル依存と領域ベースの方法に分類できるマルチラベル画像分類は、複雑なオブジェクトレイアウトのために難しい問題である。 領域ベースの手法はラベル依存法よりもモデル一般化可能性の問題に遭遇する可能性は低いが、何百もの無意味または騒がしい提案を非識別情報で生成し、局所化された領域間の文脈依存はしばしば無視または単純化される。 本稿では,雑音抑圧を効果的に行うための統一フレームワークを構築し,ロバストな特徴学習のためのグローバル特徴とローカル特徴の相互作用について述べる。 具体的には,局所的特徴学習のための決定論的情報を提供するために,非存在カテゴリに集中するためのカテゴリ認識の弱い監督を提案する。 さらに,グローバル-ローカル間だけでなくローカル-ローカル間関係も含む高次特徴相関を構築できるグローバル-ローカル間の補完情報を探索するクロスグラニュラ性アテンションモジュールを開発した。 どちらのメリットも、ネットワーク全体のパフォーマンスの向上を保証します。 2つの大規模データセット(MS-COCOとVOC 2007)に対する大規模な実験により、我々のフレームワークは最先端の手法よりも優れた性能を達成できることを示した。

Multi-label image classification, which can be categorized into label-dependency and region-based methods, is a challenging problem due to the complex underlying object layouts. Although region-based methods are less likely to encounter issues with model generalizability than label-dependency methods, they often generate hundreds of meaningless or noisy proposals with non-discriminative information, and the contextual dependency among the localized regions is often ignored or over-simplified. This paper builds a unified framework to perform effective noisy-proposal suppression and to interact between global and local features for robust feature learning. Specifically, we propose category-aware weak supervision to concentrate on non-existent categories so as to provide deterministic information for local feature learning, restricting the local branch to focus on more high-quality regions of interest. Moreover, we develop a cross-granularity attention module to explore the complementary information between global and local features, which can build the high-order feature correlation containing not only global-to-local, but also local-to-local relations. Both advantages guarantee a boost in the performance of the whole network. Extensive experiments on two large-scale datasets (MS-COCO and VOC 2007) demonstrate that our framework achieves superior performance over state-of-the-art methods.
翻訳日:2022-11-24 15:15:05 公開日:2022-11-23
# マルチラベル画像認識のためのプロンプトチューニングにおける画像としてのテキスト

Texts as Images in Prompt Tuning for Multi-Label Image Recognition ( http://arxiv.org/abs/2211.12739v1 )

ライセンス: Link先を確認
Zixian Guo, Bowen Dong, Zhilong Ji, Jinfeng Bai, Yiwen Guo, Wangmeng Zuo(参考訳) プロンプトチューニングは、データ制限またはラベル制限設定の様々な下流タスクに、大きな視覚言語事前学習モデル(例えばクリップ)を適用する効率的な方法として採用されている。 それでも、ビジュアルデータ(例:画像)は、既存の方法での学習の前提条件である。 本稿では,この2つの様相(トレーニングクリップ)を整合させることで,画像-テキスト対比学習の有効性をさらに高め,即興チューニングのための画像としてテキストを扱いやすくし,taiプロンプトを導入することを提案する。 視覚的データとは対照的に、テキスト記述は収集が容易であり、クラスラベルを直接導出することができる。 特にTaIプロンプトをマルチラベル画像認識に適用し、野生の文が画像の代替として機能し、迅速なチューニングを行う。 さらに,多段認識性能向上のための粗粒度と細粒度の両方を抽出し,二重粒度プロンプトチューニング(tai-dpt)を行う。 実験の結果,提案したTaI-DPTは,MS-COCO,VOC2007,NAS-WIDEなど複数のベンチマークにおいてゼロショットCLIPよりも優れており,既存の画像からのプロンプト手法と組み合わせて認識性能を向上させることができることがわかった。 コードはhttps://github.com/guozix/TaI-DPTで公開されている。

Prompt tuning has been employed as an efficient way to adapt large vision-language pre-trained models (e.g. CLIP) to various downstream tasks in data-limited or label-limited settings. Nonetheless, visual data (e.g., images) is by default prerequisite for learning prompts in existing methods. In this work, we advocate that the effectiveness of image-text contrastive learning in aligning the two modalities (for training CLIP) further makes it feasible to treat texts as images for prompt tuning and introduce TaI prompting. In contrast to the visual data, text descriptions are easy to collect, and their class labels can be directly derived. Particularly, we apply TaI prompting to multi-label image recognition, where sentences in the wild serve as alternatives to images for prompt tuning. Moreover, with TaI, double-grained prompt tuning (TaI-DPT) is further presented to extract both coarse-grained and fine-grained embeddings for enhancing the multi-label recognition performance. Experimental results show that our proposed TaI-DPT outperforms zero-shot CLIP by a large margin on multiple benchmarks, e.g., MS-COCO, VOC2007, and NUS-WIDE, while it can be combined with existing methods of prompting from images to improve recognition performance further. Code is released at https://github.com/guozix/TaI-DPT.
翻訳日:2022-11-24 15:14:38 公開日:2022-11-23
# Wasserstein GAN と Transformers による少数点からの点雲の補完

Completing point cloud from few points by Wasserstein GAN and Transformers ( http://arxiv.org/abs/2211.12746v1 )

ライセンス: Link先を確認
Xianfeng Wu and Jinhui Qian and Qing Wei and Xianzu Wu and Xinyi Liu and Luxin Hu and Yanli Gong and Zhongyuan Lai and Libing Wu(参考訳) 多くのビジョンやロボット工学の応用において、捕獲された物体は非常に少ない点で表現されるのが一般的である。 既存の完了法のほとんどは、多くの点を持つ部分点雲のために設計されており、少数点の場合、性能が悪く、あるいは完全に失敗する。 しかし、詳細情報が不足しているため、少数のポイントからオブジェクトを完了させることは大きな課題に直面します。 画像ベース視覚タスクにおけるGANとTransformerの応用に触発されて、上記の問題に対処するためのGANとTransformer技術を導入する。 まず,Transformerを用いたエンドツーエンドエンコーダデコーダネットワークとTransformerを用いたWasserstein GANを事前トレーニングし,ネットワーク全体を微調整する。 ShapeNetデータセットの実験結果から,本手法は多数の入力点に対する完了性能を向上するだけでなく,少数の入力点に対して安定に維持できることが示唆された。 ソースコードはhttps://github.com/wxfqjh/stability-point-recovery.gitで入手できます。

In many vision and robotics applications, it is common that the captured objects are represented by very few points. Most of the existing completion methods are designed for partial point clouds with many points, and they perform poorly or even fail completely in the case of few points. However, due to the lack of detail information, completing objects from few points faces a huge challenge. Inspired by the successful applications of GAN and Transformers in the image-based vision task, we introduce GAN and Transformer techniques to address the above problem. Firstly, the end-to-end encoder-decoder network with Transformers and the Wasserstein GAN with Transformer are pre-trained, and then the overall network is fine-tuned. Experimental results on the ShapeNet dataset show that our method can not only improve the completion performance for many input points, but also keep stable for few input points. Our source code is available at https://github.com/WxfQjh/Stability-point-recovery.git.
翻訳日:2022-11-24 15:14:12 公開日:2022-11-23
# 動的外観:共同訓練による行動認識のための映像表現

Dynamic Appearance: A Video Representation for Action Recognition with Joint Training ( http://arxiv.org/abs/2211.12748v1 )

ライセンス: Link先を確認
Guoxi Huang, Adrian G. Bors(参考訳) ビデオの静的な出現は、ディープニューラルネットワークがビデオアクション認識の動作関連特徴を学習する能力を妨げる可能性がある。 本稿では,動画中の動きに関連する外観情報を要約し,動きに関係のないと考えられる静的情報をフィルタリングする動的外観(DA)という新しい概念を紹介する。 生のビデオデータからダイナミックな外観を蒸留して,映像理解の効率化を図る。 この目的のために,PWTP (Pixel-Wise Temporal Projection) を提案し,ビデオの静的な外観をベクトル空間内の部分空間に投影し,ダイナミックな外観を特殊な動きパターンを記述する投影残差に符号化する。 さらに,PWTPモジュールとCNNやTransformerをエンドツーエンドのトレーニングフレームワークに統合し,多目的最適化アルゴリズムを用いて最適化する。 Kinetics400, Something-Something V1, UCF101, HMDB51 の4つの行動認識ベンチマークについて実験を行った。

Static appearance of video may impede the ability of a deep neural network to learn motion-relevant features in video action recognition. In this paper, we introduce a new concept, Dynamic Appearance (DA), summarizing the appearance information relating to movement in a video while filtering out the static information considered unrelated to motion. We consider distilling the dynamic appearance from raw video data as a means of efficient video understanding. To this end, we propose the Pixel-Wise Temporal Projection (PWTP), which projects the static appearance of a video into a subspace within its original vector space, while the dynamic appearance is encoded in the projection residual describing a special motion pattern. Moreover, we integrate the PWTP module with a CNN or Transformer into an end-to-end training framework, which is optimized by utilizing multi-objective optimization algorithms. We provide extensive experimental results on four action recognition benchmarks: Kinetics400, Something-Something V1, UCF101 and HMDB51.
翻訳日:2022-11-24 15:13:52 公開日:2022-11-23
# panerf: 短時間入力に基づくニューラルラミアンスフィールドの改善のための擬似ビュー拡張

PANeRF: Pseudo-view Augmentation for Improved Neural Radiance Fields Based on Few-shot Inputs ( http://arxiv.org/abs/2211.12758v1 )

ライセンス: Link先を確認
Young Chun Ahn, Seokhwan Jang, Sungheon Park, Ji-Yeon Kim, Nahyup Kang(参考訳) 近年,ニューラルラジアンス場(NeRF)の手法が開発され,複雑なシーンの新たなビューの合成への応用が期待されている。 しかし、nerfは高品質な画像を生成するために、通常数百の入力ビューを必要とする。 入力ビュー数が減少するにつれて、見えない視点に対するNeRFのレンダリング品質は劇的に低下する傾向にある。 この課題を克服するために,数発の入力の幾何学を考慮した十分な量のデータ拡張方式であるNeRFの擬似ビュー拡張を提案する。 まず、拡張された擬似ビューを利用してNeRFネットワークを初期化した。 その後,正確な形状と色情報を含むスパースビュー入力を用いてネットワークの微調整を行った。 様々な環境下で実験を行い,本モデルが優れた品質の新規ビューイメージを忠実に合成し,既存のマルチビューデータセットの手法を上回ることを検証した。

The method of neural radiance fields (NeRF) has been developed in recent years, and this technology has promising applications for synthesizing novel views of complex scenes. However, NeRF requires dense input views, typically numbering in the hundreds, for generating high-quality images. With a decrease in the number of input views, the rendering quality of NeRF for unseen viewpoints tends to degenerate drastically. To overcome this challenge, we propose pseudo-view augmentation of NeRF, a scheme that expands a sufficient amount of data by considering the geometry of few-shot inputs. We first initialized the NeRF network by leveraging the expanded pseudo-views, which efficiently minimizes uncertainty when rendering unseen views. Subsequently, we fine-tuned the network by utilizing sparse-view inputs containing precise geometry and color information. Through experiments under various settings, we verified that our model faithfully synthesizes novel-view images of superior quality and outperforms existing methods for multi-view datasets.
翻訳日:2022-11-24 15:13:35 公開日:2022-11-23
# 言語モデリングのためのバイトからの単語レベル表現

Word-Level Representation From Bytes For Language Modeling ( http://arxiv.org/abs/2211.12677v1 )

ライセンス: Link先を確認
Chu-Tak Lee, Qipeng Guo, Xipeng Qiu(参考訳) 現代の言語モデルは、主にサブワードを入力として取り、語彙のサイズ、パラメータの数、パフォーマンスのトレードオフをバランスさせる設計である。 しかし、サブワードトークン化には、ノイズに対して堅牢で、新しい言語への一般化が難しいといった欠点がある。 また、モデルをスケールアップする現在のトレンドは、より大きなモデルにはより大きな埋め込みが必要だが、並列化を難しくすることを示している。 画像分類に関するこれまでの研究は、生の入力をチャックの列に分割することは、強いモデルに依存しない帰納バイアスであることを示した。 本研究は,文字レベルの入力を取り入れつつ,単語レベルのシーケンスモデリングと予測を行う既存の文字認識手法を再考する。 本稿では,単語レベルの表現をバイトから直接構築するクロスアテンションネットワークと,単語レベルの隠れ状態に基づくサブワードレベルの予測を導入して,単語レベルの予測の時間と空間要件を回避する。 これら2つの改善を組み合わせることで、下流タスク用のスリムな入力埋め込みを備えたトークンフリーモデルが得られる。 提案手法はByte2Wordと命名し,言語モデリングとテキスト分類の評価を行う。 実験の結果、Byte2Wordは強力なサブワードベースラインBERTと同等だが、埋め込みサイズは10%に過ぎなかった。 さらに,合成雑音と言語間伝達に関する手法をテストした結果,両設定のベースライン法と比較した。

Modern language models mostly take sub-words as input, a design that balances the trade-off between vocabulary size, number of parameters, and performance. However, sub-word tokenization still has disadvantages like not being robust to noise and difficult to generalize to new languages. Also, the current trend of scaling up models reveals that larger models require larger embeddings but that makes parallelization hard. Previous work on image classification proves splitting raw input into a sequence of chucks is a strong, model-agnostic inductive bias. Based on this observation, we rethink the existing character-aware method that takes character-level inputs but makes word-level sequence modeling and prediction. We overhaul this method by introducing a cross-attention network that builds word-level representation directly from bytes, and a sub-word level prediction based on word-level hidden states to avoid the time and space requirement of word-level prediction. With these two improvements combined, we have a token free model with slim input embeddings for downstream tasks. We name our method Byte2Word and perform evaluations on language modeling and text classification. Experiments show that Byte2Word is on par with the strong sub-word baseline BERT but only takes up 10\% of embedding size. We further test our method on synthetic noise and cross-lingual transfer and find it competitive to baseline methods on both settings.
翻訳日:2022-11-24 15:07:22 公開日:2022-11-23
# 辞書スクリーニングを用いたテキスト分類のための埋め込み圧縮

Embedding Compression for Text Classification Using Dictionary Screening ( http://arxiv.org/abs/2211.12715v1 )

ライセンス: Link先を確認
Jing Zhou, Xinru Jing, Muyu Liu, Hansheng Wang(参考訳) 本稿では,テキスト分類タスクに圧縮を埋め込むための辞書スクリーニング手法を提案する。 本手法の主な目的は辞書における各キーワードの重要性を評価することである。 この目的のために、我々はまず、フル辞書を用いて、あらかじめ指定されたリカレントニューラルネットワークベースモデルを訓練する。 これはベンチマークモデルにつながり、データセット内の各サンプルの予測されたクラス確率を取得するために使用します。 次に,予測クラス確率に対する各キーワードの影響を評価するために,辞書における各キーワードの重要性を評価する新しい手法を開発した。 これにより、各キーワードを表示でき、最も重要なキーワードのみが予約される。 これらの画面付きキーワードにより、かなり小さいサイズの新しい辞書を構築することができる。 これにより、原文シーケンスを実質的に圧縮することができる。 提案手法は,パラメータ,平均テキストシーケンス,辞書サイズといった観点で有意な削減をもたらす。 一方、予測力はベンチマークモデルと比べて非常に競争力がある。 提案手法の実証性能を示すために, 大規模数値実験を行った。

In this paper, we propose a dictionary screening method for embedding compression in text classification tasks. The key purpose of this method is to evaluate the importance of each keyword in the dictionary. To this end, we first train a pre-specified recurrent neural network-based model using a full dictionary. This leads to a benchmark model, which we then use to obtain the predicted class probabilities for each sample in a dataset. Next, to evaluate the impact of each keyword in affecting the predicted class probabilities, we develop a novel method for assessing the importance of each keyword in a dictionary. Consequently, each keyword can be screened, and only the most important keywords are reserved. With these screened keywords, a new dictionary with a considerably reduced size can be constructed. Accordingly, the original text sequence can be substantially compressed. The proposed method leads to significant reductions in terms of parameters, average text sequence, and dictionary size. Meanwhile, the prediction power remains very competitive compared to the benchmark model. Extensive numerical studies are presented to demonstrate the empirical performance of the proposed method.
翻訳日:2022-11-24 15:06:59 公開日:2022-11-23
# 法的言語におけるエージェント特異的デオン性検出

Agent-Specific Deontic Modality Detection in Legal Language ( http://arxiv.org/abs/2211.12752v1 )

ライセンス: Link先を確認
Abhilasha Sancheti, Aparna Garimella, Balaji Vasan Srinivasan, Rachel Rudinger(参考訳) 法律文書は典型的には長く、法律で書かれるので、在職者が自分の権利や義務を理解することは特に困難である。 自然言語理解技術は、法的領域におけるそのような理解を支援する上で有用であるが、専門家を雇うコストとプライバシー問題のために、法律領域における非合法的なモダリティに注釈付けされたデータセットの限られた可用性はボトルネックである。 この目的のために,本論文では,契約者やエージェントに対して記述されたデオンモダリティを付加した英語契約のコーパスであるLEXDEMODを紹介する。 このデータセットを2つのタスクでベンチマークします。 (i)エージェント特異的マルチラベル・デオンティックモダリティ分類、及び (ii)トランスフォーマー(vaswani et al., 2017)言語モデルを用いたエージェント特異的デオン性およびトリガースパン検出 移動学習実験により,LEXDEMODにおけるモーダル表現の言語的多様性は,リースから雇用・賃貸契約まで合理的に一般化されることが示された。 LEXDEMODで訓練されたモデルは、高いリコールで赤い旗を検出することができる。 我々の研究は、法域におけるデオン的モダリティ検出のための新しい研究方向を提供すると考えている。

Legal documents are typically long and written in legalese, which makes it particularly difficult for laypeople to understand their rights and duties. While natural language understanding technologies can be valuable in supporting such understanding in the legal domain, the limited availability of datasets annotated for deontic modalities in the legal domain, due to the cost of hiring experts and privacy issues, is a bottleneck. To this end, we introduce, LEXDEMOD, a corpus of English contracts annotated with deontic modality expressed with respect to a contracting party or agent along with the modal triggers. We benchmark this dataset on two tasks: (i) agent-specific multi-label deontic modality classification, and (ii) agent-specific deontic modality and trigger span detection using Transformer-based (Vaswani et al., 2017) language models. Transfer learning experiments show that the linguistic diversity of modal expressions in LEXDEMOD generalizes reasonably from lease to employment and rental agreements. A small case study indicates that a model trained on LEXDEMOD can detect red flags with high recall. We believe our work offers a new research direction for deontic modality detection in the legal domain.
翻訳日:2022-11-24 15:06:46 公開日:2022-11-23
# トピック・セマンティクスコントラスト学習による短文トピックモデリングのためのデータスパーシティの軽減

Mitigating Data Sparsity for Short Text Topic Modeling by Topic-Semantic Contrastive Learning ( http://arxiv.org/abs/2211.12878v1 )

ライセンス: Link先を確認
Xiaobao Wu, Anh Tuan Luu, Xinshuai Dong(参考訳) 短文トピックモデリングにおけるデータの分散性問題を解決するため、既存の手法では、単語共起情報を導入するために、データ拡張や短文のデータ特性に依存している。 しかし、それらの多くは、拡張データやデータの特徴をフル活用していない。データ中のサンプル間の関係を不十分に学習し、意味的に類似したテキストペアの異なるトピック分布を生み出す。 データのスパース性を改善するため,本稿では,新しい短文トピックモデリングフレームワークであるトピック・セマンティクス・コントラスト・トピック・モデル(tsctm)を提案する。 サンプル間の関係を十分にモデル化するために,トピックセマンティクスに基づく効率的な正負のサンプリング戦略を用いたコントラスト学習手法を提案する。 この対照的な学習方法は表現を洗練させ、学習信号を豊かにし、余剰問題を緩和する。 総合的な実験結果から,TSCTMはデータ拡張の可利用性に関わらず,最先端のベースラインよりも優れ,高品質なトピックやトピックの分布が得られている。

To overcome the data sparsity issue in short text topic modeling, existing methods commonly rely on data augmentation or the data characteristic of short texts to introduce more word co-occurrence information. However, most of them do not make full use of the augmented data or the data characteristic: they insufficiently learn the relations among samples in data, leading to dissimilar topic distributions of semantically similar text pairs. To better address data sparsity, in this paper we propose a novel short text topic modeling framework, Topic-Semantic Contrastive Topic Model (TSCTM). To sufficiently model the relations among samples, we employ a new contrastive learning method with efficient positive and negative sampling strategies based on topic semantics. This contrastive learning method refines the representations, enriches the learning signals, and thus mitigates the sparsity issue. Extensive experimental results show that our TSCTM outperforms state-of-the-art baselines regardless of the data augmentation availability, producing high-quality topics and topic distributions.
翻訳日:2022-11-24 15:06:25 公開日:2022-11-23
# 半教師付き生涯言語学習

Semi-Supervised Lifelong Language Learning ( http://arxiv.org/abs/2211.13050v1 )

ライセンス: Link先を確認
Yingxiu Zhao, Yinhe Zheng, Bowen Yu, Zhiliang Tian, Dongkyu Lee, Jian Sun, Haiyang Yu, Yongbin Li, Nevin L. Zhang(参考訳) 生涯学習は、知識を蓄積し、タスクを逐次学習する際に破滅的な忘れを和らげることを目的としている。 しかし,既存の生涯学習手法は教師付き学習環境にのみ焦点をあてている。 現実世界のシナリオで簡単にアクセス可能なラベルのないデータは、未調査である。 本稿では,ラベル付きデータとラベルなしデータの両方を用いて,モデルが逐次到着する言語タスクを学習する,半教師付き生涯言語学習(SSLL)を提案する。 SSLLを探索するために、ラベルなしの生涯学習者を提案する。 特に,無ラベルデータを利用するために,壊滅的な忘れを緩和し,2つのモジュールを設計するタスク特化モジュールを考案する。(1)教師学習フレームワーク上に仮想監督強化タスクソルバを構築し,無ラベルデータから基礎となる知識を発掘し,(2)新しく到着した無ラベルデータから以前のタスクへの知識伝達を促すために,下位拡張学習器を構築した。 様々な言語タスクの実験結果から,新たなSSLLの下での競争ベースラインよりもモデルの有効性と優位性を示す。

Lifelong learning aims to accumulate knowledge and alleviate catastrophic forgetting when learning tasks sequentially. However, existing lifelong language learning methods only focus on the supervised learning setting. Unlabeled data, which can be easily accessed in real-world scenarios, are underexplored. In this paper, we explore a novel setting, semi-supervised lifelong language learning (SSLL), where a model learns sequentially arriving language tasks with both labeled and unlabeled data. We propose an unlabeled data enhanced lifelong learner to explore SSLL. Specially, we dedicate task-specific modules to alleviate catastrophic forgetting and design two modules to exploit unlabeled data: (1) a virtual supervision enhanced task solver is constructed on a teacher-student framework to mine the underlying knowledge from unlabeled data; and (2) a backward augmented learner is built to encourage knowledge transfer from newly arrived unlabeled data to previous tasks. Experimental results on various language tasks demonstrate our model's effectiveness and superiority over competitive baselines under the new setting SSLL.
翻訳日:2022-11-24 15:06:05 公開日:2022-11-23
# Schr\{o}dinger's Bat:拡散モデルが重ね合わせで多文語を生成することがある

Schr\"{o}dinger's Bat: Diffusion Models Sometimes Generate Polysemous Words in Superposition ( http://arxiv.org/abs/2211.13095v1 )

ライセンス: Link先を確認
Jennifer C. White, Ryan Cotterell(参考訳) 近年の研究では、DALL-E 2 (Ramesh et al., 2022) のようなテキストと画像の拡散モデルは印象的な機能にもかかわらず、プロンプトが複数の意味を持つ単語を含むと奇妙な振る舞いを示すことが示されている(Rassin et al., 2022)。 この研究で我々はこの現象の考えられる説明を試みている。 類似の安定拡散モデル(rombach et al., 2022)を用いて、2つの異なる単語のエンコーディングの和である入力が与えられると、モデルが2つの概念を合計で表現した画像を生成できることを示す。 次に,プロンプトを符号化するために使用されるクリップエンコーダ(radford et al., 2021)が意味の重ね合わせとして多義語を符号化し,線形代数的手法を用いてこれらの表現を編集して生成画像に表される感覚に影響を与えることができることを示す。 これらの2つの知見を組み合わせることで,Rassinらによる同名の重複現象(2022年)は,多文単語の符号化において重ね合わせに存在する意味の両方を表す画像を生成する拡散モデルによって引き起こされると考えられる。

Recent work has shown that despite their impressive capabilities, text-to-image diffusion models such as DALL-E 2 (Ramesh et al., 2022) can display strange behaviours when a prompt contains a word with multiple possible meanings, often generating images containing both senses of the word (Rassin et al., 2022). In this work we seek to put forward a possible explanation of this phenomenon. Using the similar Stable Diffusion model (Rombach et al., 2022), we first show that when given an input that is the sum of encodings of two distinct words, the model can produce an image containing both concepts represented in the sum. We then demonstrate that the CLIP encoder used to encode prompts (Radford et al., 2021) encodes polysemous words as a superposition of meanings, and that using linear algebraic techniques we can edit these representations to influence the senses represented in the generated images. Combining these two findings, we suggest that the homonym duplication phenomenon described by Rassin et al. (2022) is caused by diffusion models producing images representing both of the meanings that are present in superposition in the encoding of a polysemous word.
翻訳日:2022-11-24 15:05:46 公開日:2022-11-23
# ディジタル双中心状態型リアクタ電力予測のための物理式多段階ディープラーニングフレームワークの開発

Physics-Informed Multi-Stage Deep Learning Framework Development for Digital Twin-Centred State-Based Reactor Power Prediction ( http://arxiv.org/abs/2211.13157v1 )

ライセンス: Link先を確認
James Daniell, Kazuma Kobayashi, Dinesh Kumar, Souvik Chakraborty, Ayodeji Alajo, Ethan Taber, Joseph Graham, Syed Alam(参考訳) 計算効率が高く信頼性の高い機械学習アルゴリズムは、Digital Twin(DT)フレームワークの開発に必要である。 一般的に、DTエナリング技術は5つの主要コンポーネントから構成される。 (i)機械学習(ml)駆動予測アルゴリズム、 (ii)高度なセンサ・インスツルメンテーションを利用した物理とデジタル資産の時間同期 (iii)不確実性伝播、及び (iv)DTの運用フレームワーク。 残念ながら、これらの部品の開発には依然として大きなギャップがある。 このギャップに対処するため, 本研究は, 提案モデルの信頼性と有効性を評価しつつ, 「ML駆動予測アルゴリズム」を原子炉運転の有効成分として重視する。 そこで,本研究では, ニューラルネットワークを用いた2つのフィードフォワード深層学習(DNN)からなる多段階予測モデルを構築し, 原子炉・プラント用原子炉過渡電源の最終定常電力を決定する。 多段階モデルアーキテクチャの目標は、確率的分類を連続出力変数に変換し、信頼性と分析の容易性を向上させることである。 4つの回帰モデルを開発し、第1段階モデルから入力して原子炉出力を表す1つの値を予測する。 組み合わせモデルでは、第1段階の分類精度が96%、第2段階の絶対予測精度が92%となる。 開発手順は、一般的に類似システムに適用できるように議論されている。 同様のモデルがdtsで果たす役割の分析を行う。

Computationally efficient and trustworthy machine learning algorithms are necessary for Digital Twin (DT) framework development. Generally speaking, DT-enabling technologies consist of five major components: (i) Machine learning (ML)-driven prediction algorithm, (ii) Temporal synchronization between physics and digital assets utilizing advanced sensors/instrumentation, (iii) uncertainty propagation, and (iv) DT operational framework. Unfortunately, there is still a significant gap in developing those components for nuclear plant operation. In order to address this gap, this study specifically focuses on the "ML-driven prediction algorithms" as a viable component for the nuclear reactor operation while assessing the reliability and efficacy of the proposed model. Therefore, as a DT prediction component, this study develops a multi-stage predictive model consisting of two feedforward Deep Learning using Neural Networks (DNNs) to determine the final steady-state power of a reactor transient for a nuclear reactor/plant. The goal of the multi-stage model architecture is to convert probabilistic classification to continuous output variables to improve reliability and ease of analysis. Four regression models are developed and tested with input from the first stage model to predict a single value representing the reactor power output. The combined model yields 96% classification accuracy for the first stage and 92% absolute prediction accuracy for the second stage. The development procedure is discussed so that the method can be applied generally to similar systems. An analysis of the role similar models would fill in DTs is performed.
翻訳日:2022-11-24 14:58:19 公開日:2022-11-23
# 3次元形状生成のためのテトラダラル拡散モデル

Tetrahedral Diffusion Models for 3D Shape Generation ( http://arxiv.org/abs/2211.13220v1 )

ライセンス: Link先を確認
Nikolai Kalischek, Torben Peters, Jan D. Wegner, Konrad Schindler(参考訳) 近年,DDM(probabilistic denoising diffusion model)は,ニューラルネットワークの生成能力を大幅に向上させている。 非平衡熱力学にインスパイアされたddmは、2次元画像生成に使用されるだけでなく、3次元点雲にも容易に適用できる。 しかし、3次元形状を点雲として表すには多くの欠点があり、トポロジーや接続性の概念がないことは明らかである。 本稿では, ddmを3次元空間の四面体分割へ拡張した四面体拡散モデルを紹介する。 空間充填テトラヘドラによるより構造化された3次元表現により、拡散過程をガイドし、規則化し、それを着色資産に適用することができる。 提案手法を操作するために,四面体畳み込み,ダウンサンプリング,アップサンプリングカーネルを開発した。 これらの演算子では、3次元形状生成は四面体格子上の変位ベクトルと符号付き距離値の学習に等しい。 実験の結果, テトラドラル拡散は可塑性, 視覚的に快く, 多様な3次元形状をもたらし, 色などの表面特性を処理でき, 結果の形状を操作できることがわかった。

Recently, probabilistic denoising diffusion models (DDMs) have greatly advanced the generative power of neural networks. DDMs, inspired by non-equilibrium thermodynamics, have not only been used for 2D image generation, but can also readily be applied to 3D point clouds. However, representing 3D shapes as point clouds has a number of drawbacks, most obvious perhaps that they have no notion of topology or connectivity. Here, we explore an alternative route and introduce tetrahedral diffusion models, an extension of DDMs to tetrahedral partitions of 3D space. The much more structured 3D representation with space-filling tetrahedra makes it possible to guide and regularize the diffusion process and to apply it to colorized assets. To manipulate the proposed representation, we develop tetrahedral convolutions, down- and up-sampling kernels. With those operators, 3D shape generation amounts to learning displacement vectors and signed distance values on the tetrahedral grid. Our experiments confirm that Tetrahedral Diffusion yields plausible, visually pleasing and diverse 3D shapes, is able to handle surface attributes like color, and can be guided at test time to manipulate the resulting shapes.
翻訳日:2022-11-24 14:57:22 公開日:2022-11-23
# インターネットビデオからのオブジェクトインタラクションを模倣する学習

Learning to Imitate Object Interactions from Internet Videos ( http://arxiv.org/abs/2211.13225v1 )

ライセンス: Link先を確認
Austin Patel, Andrew Wang, Ilija Radosavovic, Jitendra Malik(参考訳) インターネットビデオからオブジェクトインタラクションを模倣する問題について検討する。 このためには、4d、空間的に3d、時間とともに手と物体の相互作用を理解する必要がある。 本稿では,(1)手と物体の4次元軌跡を2次元画像キューと時間的滑らか性制約を用いて再構成する新しい再構成手法RHOV(Reconstructing Hands and Objects from Videos),(2)強化学習を伴う物理シミュレータにおける物体の相互作用を模倣するシステムについて述べる。 再生技術は, 挑戦的なインターネットビデオ100本に応用する。 さらに,物理シミュレータで様々な物体の相互作用を模倣できることを示した。 私たちのオブジェクト中心のアプローチは、人間のようなエンドエフェクターに限らず、ロボットアームと平行な顎グリップのような異なる実施形態でオブジェクトの相互作用を模倣することを学ぶことができます。

We study the problem of imitating object interactions from Internet videos. This requires understanding the hand-object interactions in 4D, spatially in 3D and over time, which is challenging due to mutual hand-object occlusions. In this paper we make two main contributions: (1) a novel reconstruction technique RHOV (Reconstructing Hands and Objects from Videos), which reconstructs 4D trajectories of both the hand and the object using 2D image cues and temporal smoothness constraints; (2) a system for imitating object interactions in a physics simulator with reinforcement learning. We apply our reconstruction technique to 100 challenging Internet videos. We further show that we can successfully imitate a range of different object interactions in a physics simulator. Our object-centric approach is not limited to human-like end-effectors and can learn to imitate object interactions using different embodiments, like a robotic arm with a parallel jaw gripper.
翻訳日:2022-11-24 14:57:02 公開日:2022-11-23
# 相互学習型回帰器:学習型回帰システムの情報理論的視点

Mutual Information Learned Regressor: an Information-theoretic Viewpoint of Training Regression Systems ( http://arxiv.org/abs/2211.12685v1 )

ライセンス: Link先を確認
Jirong Yi, Qiaosheng Zhang, Zhen Chen, Qiao Liu, Wei Shao, Yusen He, Yaohua Wang(参考訳) 機械学習における中心的なタスクの1つとして、回帰は異なる分野における多くのアプリケーションを見つける。 回帰問題を解くための既存の慣習は、平均二乗誤差(MSE)最小化アプローチまたはモデルに関する事前知識を必要とする規則化された変種である。 近年Yiらは,事前知識を必要としないラベルエントロピー正規化を導入した相互情報に基づく教師付き学習フレームワークを提案している。 分類タスクに適用し、確率勾配勾配勾配(SGD)最適化アルゴリズムにより解いた場合、それらの手法は一般的に使用されるクロスエントロピー損失とその変種よりも大幅に改善された。 しかし、提案した定式化のためのSGDアルゴリズムの理論的収束解析は提供されなかった。 さらに、回帰タスクにフレームワークを適用することは、ラベルの無限のサポートセットのため、自明ではない。 本稿では,相互情報に基づく教師あり学習フレームワークにおける回帰について検討する。 まず,MSE最小化手法は条件付きエントロピー学習問題と等価であり,再パラメータ化手法を用いて回帰問題を解くための相互情報学習定式化を提案する。 提案手法では,sgdアルゴリズムの収束解析を行い,その解法を提案する。 最後に、基礎となるデータ分布に関連する相互情報の観点から、一般化性能の低い境界を導出する多出力回帰データモデルを考える。 その結果, 高次元性は, しきい値によって制御される呪いではなく祝福であることがわかった。 私たちの研究が、相互情報に基づく回帰に関するさらなる研究の出発点となることを願っています。

As one of the central tasks in machine learning, regression finds lots of applications in different fields. An existing common practice for solving regression problems is the mean square error (MSE) minimization approach or its regularized variants which require prior knowledge about the models. Recently, Yi et al., proposed a mutual information based supervised learning framework where they introduced a label entropy regularization which does not require any prior knowledge. When applied to classification tasks and solved via a stochastic gradient descent (SGD) optimization algorithm, their approach achieved significant improvement over the commonly used cross entropy loss and its variants. However, they did not provide a theoretical convergence analysis of the SGD algorithm for the proposed formulation. Besides, applying the framework to regression tasks is nontrivial due to the potentially infinite support set of the label. In this paper, we investigate the regression under the mutual information based supervised learning framework. We first argue that the MSE minimization approach is equivalent to a conditional entropy learning problem, and then propose a mutual information learning formulation for solving regression problems by using a reparameterization technique. For the proposed formulation, we give the convergence analysis of the SGD algorithm for solving it in practice. Finally, we consider a multi-output regression data model where we derive the generalization performance lower bound in terms of the mutual information associated with the underlying data distribution. The result shows that the high dimensionality can be a bless instead of a curse, which is controlled by a threshold. We hope our work will serve as a good starting point for further research on the mutual information based regression.
翻訳日:2022-11-24 14:56:42 公開日:2022-11-23
# 多変量極小に対するカーネルPCA

Kernel PCA for multivariate extremes ( http://arxiv.org/abs/2211.13172v1 )

ライセンス: Link先を確認
Marco Avella-Medina, Richard A. Davis and Gennady Samorodnitsky(参考訳) 多変量極端の依存構造を解析する手法としてカーネルPCAを提案し、クラスタリングと次元減少のための強力なツールであることを示す。 我々の研究は、カーネルPCAによって得られた事前イメージに関する理論的知見を提供し、ある条件下では、データ内のクラスタを効果的に識別できることを実証する。 我々は、これらの新しい洞察に基づいて、極端サンプル、すなわち半径が大きなしきい値を超えるランダムベクトルの角部に基づいて、カーネルPCAの性能を厳密に特徴づける。 より具体的には、極値理論における角あるいはスペクトル測度によって特徴づけられる多変量極値の漸近依存に注目し、極値が線形因子モデルから生成される場合の注意深い解析を提供する。 カーネルPCAがそれらの漸近分布をデイビス・カハン摂動境界とともに活用することにより、そのような極端の予測性能を理論的に保証する。 本手法の有限サンプル性能を実証する数値実験により, 理論的知見を補完する。

We propose kernel PCA as a method for analyzing the dependence structure of multivariate extremes and demonstrate that it can be a powerful tool for clustering and dimension reduction. Our work provides some theoretical insight into the preimages obtained by kernel PCA, demonstrating that under certain conditions they can effectively identify clusters in the data. We build on these new insights to characterize rigorously the performance of kernel PCA based on an extremal sample, i.e., the angular part of random vectors for which the radius exceeds a large threshold. More specifically, we focus on the asymptotic dependence of multivariate extremes characterized by the angular or spectral measure in extreme value theory and provide a careful analysis in the case where the extremes are generated from a linear factor model. We give theoretical guarantees on the performance of kernel PCA preimages of such extremes by leveraging their asymptotic distribution together with Davis-Kahan perturbation bounds. Our theoretical findings are complemented with numerical experiments illustrating the finite sample performance of our methods.
翻訳日:2022-11-24 14:56:02 公開日:2022-11-23
# 置換対称性を持つ変分量子回路のベンチマーク

Benchmarking variational quantum circuits with permutation symmetry ( http://arxiv.org/abs/2211.12711v1 )

ライセンス: Link先を確認
Han Zheng, Gokul Subramanian Ravi, Hanrui Wang, Kanav Setia, Frederic T. Chong, Junyu Liu(参考訳) 本稿では,同変量子畳み込み回路のハードウェア効率の良い変分回路であるsncqaを提案し,量子ビット数n$の置換対称性と空間格子対称性について述べる。 多くの量子多体および量子化学問題に共通する格子ハミルトンのようなシステムの置換対称性を活用することで、我々の量子ニューラルネットワークは置換対称性が存在する機械学習問題の解決に適しており、計算コストの大幅な削減につながる可能性がある。 その理論的新奇性とは別に、量子計算化学における基底状態の学習の実践例においても、シミュレーションはうまく機能し、数十のパラメータを持つ従来の手法と同等のパフォーマンスを達成できた。 純粋なハードウェア効率のansatz (phea) のような他の伝統的な変分量子回路と比較すると、sncqaはよりスケーラブルで正確で、ノイズ耐性がある($3 \times 4$ square lattice では$20\times$、様々な格子サイズでは$200\% - 1000\%$ のリソース節約と層数、パラメータ数、時間といった重要な基準で収束する)。

We propose SnCQA, a set of hardware-efficient variational circuits of equivariant quantum convolutional circuits respective to permutation symmetries and spatial lattice symmetries with the number of qubits $n$. By exploiting permutation symmetries of the system, such as lattice Hamiltonians common to many quantum many-body and quantum chemistry problems, Our quantum neural networks are suitable for solving machine learning problems where permutation symmetries are present, which could lead to significant savings of computational costs. Aside from its theoretical novelty, we find our simulations perform well in practical instances of learning ground states in quantum computational chemistry, where we could achieve comparable performances to traditional methods with few tens of parameters. Compared to other traditional variational quantum circuits, such as the pure hardware-efficient ansatz (pHEA), we show that SnCQA is more scalable, accurate, and noise resilient (with $20\times$ better performance on $3 \times 4$ square lattice and $200\% - 1000\%$ resource savings in various lattice sizes and key criterions such as the number of layers, parameters, and times to converge in our cases), suggesting a potentially favorable experiment on near-time quantum devices.
翻訳日:2022-11-24 14:55:45 公開日:2022-11-23
# 構造的知識共有による非IIDグラフのフェデレーション学習

Federated Learning on Non-IID Graphs via Structural Knowledge Sharing ( http://arxiv.org/abs/2211.13009v1 )

ライセンス: Link先を確認
Yue Tan, Yixin Liu, Guodong Long, Jing Jiang, Qinghua Lu, Chengqi Zhang(参考訳) グラフニューラルネットワーク(gnns)は、グラフデータのモデリングにおいてその優位性を示している。 フェデレーション学習の利点により、フェデレーショングラフ学習(FGL)は、クライアントがプライベートデータを共有せずに、分散的に強力なGNNモデルをトレーニングすることができる。 連合系における中核的な課題は、実世界のグラフデータにも広く存在する非IID問題である。 例えば、クライアントのローカルデータは、さまざまなデータセットや、例えばソーシャルネットワークや分子といったドメインから来ることもあり、FGLメソッドが共通に共有される知識をキャプチャし、一般化されたエンコーダを学ぶのが困難になる。 実世界のグラフデータセットから、いくつかの構造的特性が様々な領域で共有され、FGLで構造的知識を共有する大きな可能性を示す。 そこで我々はFedStarを提案する。FedStarは、グラフ間フェデレーション学習タスクの共通基盤構造情報を抽出し、共有するFGLフレームワークである。 ノードの特徴とともにエンコードするのではなく、構造情報を明示的に抽出するために、構造埋め込みを定義し、独立した構造エンコーダでエンコードする。 次に、構造エンコーダをクライアント間で共有し、特徴ベースの知識をパーソナライズした方法で学習することにより、feedstarは構造ベースのドメイン不変情報をキャプチャし、特徴的不一致を回避することができる。 クロスデータセットとクロスドメイン非iidfgl設定の両方について広範な実験を行い、feedstarの優位性を実証した。

Graph neural networks (GNNs) have shown their superiority in modeling graph data. Owing to the advantages of federated learning, federated graph learning (FGL) enables clients to train strong GNN models in a distributed manner without sharing their private data. A core challenge in federated systems is the non-IID problem, which also widely exists in real-world graph data. For example, local data of clients may come from diverse datasets or even domains, e.g., social networks and molecules, increasing the difficulty for FGL methods to capture commonly shared knowledge and learn a generalized encoder. From real-world graph datasets, we observe that some structural properties are shared by various domains, presenting great potential for sharing structural knowledge in FGL. Inspired by this, we propose FedStar, an FGL framework that extracts and shares the common underlying structure information for inter-graph federated learning tasks. To explicitly extract the structure information rather than encoding them along with the node features, we define structure embeddings and encode them with an independent structure encoder. Then, the structure encoder is shared across clients while the feature-based knowledge is learned in a personalized way, making FedStar capable of capturing more structure-based domain-invariant information and avoiding feature misalignment issues. We perform extensive experiments over both cross-dataset and cross-domain non-IID FGL settings, demonstrating the superiority of FedStar.
翻訳日:2022-11-24 14:49:24 公開日:2022-11-23
# バッチを用いた効率的なリストデコジュアブル回帰

Efficient List-Decodable Regression using Batches ( http://arxiv.org/abs/2211.12743v1 )

ライセンス: Link先を確認
Abhimanyu Das, Ayush Jain, Weihao Kong and Rajat Sen(参考訳) バッチを用いたリスト復号化線形回帰の研究を始める。 この設定では、バッチの$\alpha \in (0,1]$ fractionのみが真である。 それぞれの真のバッチは、共通の未知の分布からの$\ge n$ i.d.サンプルを含み、残りのバッチは、任意の、あるいは、敵対的なサンプルを含む。 多項式時間アルゴリズムは任意の$n\ge \tilde \Omega(1/\alpha)$に対して$\mathcal O(1/\alpha^2)$を返し、リスト内の項目の1つが真の回帰パラメータに近くなる。 このアルゴリズムは$\tilde{\mathcal{O}}(d/\alpha^2)$真のバッチのみを必要とし、分布に関するかなり一般的な仮定の下で機能する。 この結果から,非バッチ設定に対するSQ下界 \cite{diakonikolas2021statistical} が提案したように,非バッチ設定では不可能な,リスト復号化可能な回帰に対する最初の多項式時間アルゴリズムを実現するバッチ構造の有用性が示された。

We begin the study of list-decodable linear regression using batches. In this setting only an $\alpha \in (0,1]$ fraction of the batches are genuine. Each genuine batch contains $\ge n$ i.i.d. samples from a common unknown distribution and the remaining batches may contain arbitrary or even adversarial samples. We derive a polynomial time algorithm that for any $n\ge \tilde \Omega(1/\alpha)$ returns a list of size $\mathcal O(1/\alpha^2)$ such that one of the items in the list is close to the true regression parameter. The algorithm requires only $\tilde{\mathcal{O}}(d/\alpha^2)$ genuine batches and works under fairly general assumptions on the distribution. The results demonstrate the utility of batch structure, which allows for the first polynomial time algorithm for list-decodable regression, which may be impossible for the non-batch setting, as suggested by a recent SQ lower bound \cite{diakonikolas2021statistical} for the non-batch setting.
翻訳日:2022-11-24 14:47:46 公開日:2022-11-23
# 最大相似量子状態トモグラフィの高速確率的一階法

Faster Stochastic First-Order Method for Maximum-Likelihood Quantum State Tomography ( http://arxiv.org/abs/2211.12880v1 )

ライセンス: Link先を確認
Chung-En Tsai and Hao-Chung Cheng and Yen-Huan Li(参考訳) 最大類似量子状態トモグラフィーでは、サンプルサイズと寸法は量子ビット数で指数関数的に増加する。 したがって、現代の機械学習における確率勾配勾配のように、確率的一階法を開発することが望ましい。 そこで本研究では,バーグエントロピーを用いた確率ミラー降下法を提案する。 期待された最適化誤差は$o ( \sqrt{ ( 1 / t ) d \log t } )$レートで消滅し、ここではそれぞれ、$d$と$t$が反復の次元と数を表す。 時間単位の複雑性はサンプルサイズに依存しない$O ( d^3 )$である。 我々の知る限りでは、これは最大類似量子状態トモグラフィの計算速度が最も速い確率的一階法である。

In maximum-likelihood quantum state tomography, both the sample size and dimension grow exponentially with the number of qubits. It is therefore desirable to develop a stochastic first-order method, just like stochastic gradient descent for modern machine learning, to compute the maximum-likelihood estimate. To this end, we propose an algorithm called stochastic mirror descent with the Burg entropy. Its expected optimization error vanishes at a $O ( \sqrt{ ( 1 / t ) d \log t } )$ rate, where $d$ and $t$ denote the dimension and number of iterations, respectively. Its per-iteration time complexity is $O ( d^3 )$, independent of the sample size. To the best of our knowledge, this is currently the computationally fastest stochastic first-order method for maximum-likelihood quantum state tomography.
翻訳日:2022-11-24 14:47:26 公開日:2022-11-23
# トップキャット治験の因果分析:心機能維持心不全に対するスピロノラクトン

Causal Analysis of the TOPCAT Trial: Spironolactone for Preserved Cardiac Function Heart Failure ( http://arxiv.org/abs/2211.12983v1 )

ライセンス: Link先を確認
Francesca E. D. Raimondi, Tadhg O'Keeffe, Hana Chockler, Andrew R. Lawrence, Tamara Stemberga, Andre Franca, Maksim Sipos, Javed Butler, Shlomo Ben-Haim(参考訳) 心機能心不全に対するアルドステロンアンタゴニスト(TOPCAT)による治療について,多施設臨床試験のデータに因果発見法を適用した結果について述べる。 裁判は決着が付かず、集団全体に明確な利益が示されなかった。 しかし,コホートの地理的サブグループに対する診断・治療プロトコルの信頼性には疑問があった。 医学的文脈をドメイン知識の形で包含することで、因果的発見は、地域的な相違を示し、結果の地域的輸送可能性の枠組みとなる。 さらに, 世界中で, 特に一部のサブグループにおいて, 治療は有意な因果効果を示し, 試験結果のより精査されたビューを提供する。

We describe the results of applying causal discovery methods on the data from a multi-site clinical trial, on the Treatment of Preserved Cardiac Function Heart Failure with an Aldosterone Antagonist (TOPCAT). The trial was inconclusive, with no clear benefits consistently shown for the whole cohort. However, there were questions regarding the reliability of the diagnosis and treatment protocol for a geographic subgroup of the cohort. With the inclusion of medical context in the form of domain knowledge, causal discovery is used to demonstrate regional discrepancies and to frame the regional transportability of the results. Furthermore, we show that, globally and especially for some subgroups, the treatment has significant causal effects, thus offering a more refined view of the trial results.
翻訳日:2022-11-24 14:47:13 公開日:2022-11-23
# 物理インフォームドニューラルネットワークによるパスロス予測

Physics-informed neural networks for pathloss prediction ( http://arxiv.org/abs/2211.12986v1 )

ライセンス: Link先を確認
Steffen Limmer, Alberto Martinez Alba, Nicola Michailow(参考訳) 本稿では,パスロス予測のための物理インフォームド機械学習手法を提案する。 これは同時にトレーニングフェーズを含めることで達成される。 一 空間損失場と空間損失場の物理的依存関係 (ii)フィールド内のパスロス値を測定した。 提案する学習問題の解法が,少数のニューラルネットワーク層とパラメータを用いて一般化と予測品質を向上させることを示した。 後者は、ローカライゼーションのような下流タスクに好適な、高速な推論時間をもたらす。 さらに、物理情報を用いた定式化により、少量のトレーニングデータによるトレーニングと予測が可能となり、幅広い実用的なパスロス予測シナリオにアピールすることができる。

This paper introduces a physics-informed machine learning approach for pathloss prediction. This is achieved by including in the training phase simultaneously (i) physical dependencies between spatial loss field and (ii) measured pathloss values in the field. It is shown that the solution to a proposed learning problem improves generalization and prediction quality with a small number of neural network layers and parameters. The latter leads to fast inference times which are favorable for downstream tasks such as localization. Moreover, the physics-informed formulation allows training and prediction with small amount of training data which makes it appealing for a wide range of practical pathloss prediction scenarios.
翻訳日:2022-11-24 14:47:00 公開日:2022-11-23
# ポーランド語のための包括的なnlpベンチマークlepiszczeの設計とコンパイル

This is the way: designing and compiling LEPISZCZE, a comprehensive NLP benchmark for Polish ( http://arxiv.org/abs/2211.13112v1 )

ライセンス: Link先を確認
{\L}ukasz Augustyniak, Kamil Tagowski, Albert Sawczyn, Denis Janiak, Roman Bartusiak, Adrian Szymczak, Marcin W\k{a}troba, Arkadiusz Janz, Piotr Szyma\'nski, Miko{\l}aj Morzy, Tomasz Kajdanowicz, Maciej Piasecki(参考訳) より大きな言語モデルをトレーニングするための計算とデータの可用性は、LMトレーニングの真の進歩をベンチマークする堅牢な方法の需要を増加させる。 近年、英語の標準ベンチマークが大幅に進歩した。 GLUE、SuperGLUE、KILTなどのベンチマークは、大規模な言語モデルを比較するための事実上の標準ツールになっている。 他の言語でGLUEを複製するトレンドに続いて、KLEJベンチマークがポーランドでリリースされた。 本稿では,低リソース言語におけるベンチマークの進歩を評価する。 このような包括的なベンチマークを持つ言語はごくわずかです。 また、資源豊富な英語/中国語のベンチマークによって評価されるタスクの数と、世界の他の地域とのギャップについても言及する。 本稿では,LEPISZCZE (ポーランド語: glew, 英語: glew, the Middle English predecessor of glue) を紹介する。 柔軟性を考慮してLEPISZCZEを設計する。 新しいモデル、データセット、タスクを含めることは、データバージョニングとモデルトラッキングを提供しながら、可能な限りシンプルである。 最初のベンチマークでは、ポーランドの5つの最新のLMに基づいて13の実験(タスクとデータセットペア)を行った。 ポーランドベンチマークの5つのデータセットを使用して、8つの新しいデータセットを追加します。 論文の主な貢献として、LEPISZCZEとは別に、ポーランド語のためのベンチマークを作成しながら学んだ洞察と経験を提供し、他の低リソース言語向けの同様のベンチマークを設計する。

The availability of compute and data to train larger and larger language models increases the demand for robust methods of benchmarking the true progress of LM training. Recent years witnessed significant progress in standardized benchmarking for English. Benchmarks such as GLUE, SuperGLUE, or KILT have become de facto standard tools to compare large language models. Following the trend to replicate GLUE for other languages, the KLEJ benchmark has been released for Polish. In this paper, we evaluate the progress in benchmarking for low-resourced languages. We note that only a handful of languages have such comprehensive benchmarks. We also note the gap in the number of tasks being evaluated by benchmarks for resource-rich English/Chinese and the rest of the world. In this paper, we introduce LEPISZCZE (the Polish word for glew, the Middle English predecessor of glue), a new, comprehensive benchmark for Polish NLP with a large variety of tasks and high-quality operationalization of the benchmark. We design LEPISZCZE with flexibility in mind. Including new models, datasets, and tasks is as simple as possible while still offering data versioning and model tracking. In the first run of the benchmark, we test 13 experiments (task and dataset pairs) based on the five most recent LMs for Polish. We use five datasets from the Polish benchmark and add eight novel datasets. As the paper's main contribution, apart from LEPISZCZE, we provide insights and experiences learned while creating the benchmark for Polish as the blueprint to design similar benchmarks for other low-resourced languages.
翻訳日:2022-11-24 14:40:58 公開日:2022-11-23
# 確率容量アークルーティング問題

Stochastic Capacitated Arc Routing Problem ( http://arxiv.org/abs/2211.12728v1 )

ライセンス: Link先を確認
Fleury G\'erard, Lacomme Philippe, Christian Prins(参考訳) 本稿では,CARPのアークの量をランダム化したSCARP(Stochastic Capacitated Arc Routing Problem)について述べる。 SCARPの最適化問題は、その完全な結果を知ることなく行われる決定によって特徴づけられる。 実生活問題では、これらの量のランダム性のため、収集する量の変動に敏感な解を作ることが重要である。 効率的なロバストなソリューションは、費用のかかる車両のデポノードへの移動を避けるために必要である。 コストとロバスト性の両方を最適化する遺伝的アルゴリズムのSCARPと高度な概念をモデル化するための異なる基準を提案する。 この方法は、DeArmon、Eglese、Berenguerによって提案されたよく知られた例にベンチマークされる。 その結果,ソリューションコストを大幅に拡大することなく,ロバストなソリューションを得ることが可能となった。 これにより、産業目標や収集される量の変動に関連する制約を含むより現実的な問題を扱うことができる。

This paper deals with the Stochastic Capacitated Arc Routing Problem (SCARP), obtained by randomizing quantities on the arcs in the CARP. Optimization problems for the SCARP are characterized by decisions that are made without knowing their full consequences. For real-life problems, it is important to create solutions insensitive to variations of the quantities to collect because of the randomness of these quantities. Efficient robust solutions are required to avoid unprofitable costly moves of vehicles to the depot node. Different criteria are proposed to model the SCARP and advanced concepts of a genetic algorithm optimizing both cost and robustness are provided. The method is benchmarked on the well-known instances proposed by DeArmon, Eglese and Belenguer. The results prove it is possible to obtain robust solutions without any significant enlargement of the solution cost. This allows treating more realistic problems including industrial goals and constraints linked to variations in the quantities to be collected.
翻訳日:2022-11-24 14:40:35 公開日:2022-11-23
# 多目的連関ルールマイニングのためのカンブリア爆発アルゴリズム

Cambrian Explosion Algorithm for Multi-Objective Association Rules Mining ( http://arxiv.org/abs/2211.12767v1 )

ライセンス: Link先を確認
Th\'eophile Berteloot, Richard Khoury, Audrey Durand(参考訳) アソシエーション・ルール・マイニングは最も研究されているデータマイニングの研究分野の1つであり、食料品バスケットの問題から高度に説明可能な分類システムまで幅広い応用がある。 古典的なアソシエーションルールマイニングアルゴリズムは、特に実行時間、メモリ使用量、生成されるルールの数にいくつかの欠陥がある。 メタヒューリスティックス(Meta-heuristics)は、いくつかの最適化問題に使われている。 本論文には2つの目的がある。 まず,関連ルールマイニング問題における最先端メタヒューリスティックスの性能の比較を行った。 それらのアルゴリズムの多目的バージョンは、サポート、信頼、コサインを使って使用します。 第2に,カンブリア爆発の種多様性の爆発に類似した,多種多様な解を探索することにより,膨大なデータセットから効率的にルールをマイニングする新しいアルゴリズムを提案する。 本アルゴリズムを実世界の22のデータセット上で20のベンチマークアルゴリズムと比較し,そのアルゴリズムが優れた結果を示し,最先端アルゴリズムよりも優れていることを示す。

Association rule mining is one of the most studied research fields of data mining, with applications ranging from grocery basket problems to highly explainable classification systems. Classical association rule mining algorithms have several flaws especially with regards to their execution times, memory usage and number of rules produced. An alternative is the use of meta-heuristics, which have been used on several optimisation problems. This paper has two objectives. First, we provide a comparison of the performances of state-of-the-art meta-heuristics on the association rule mining problem. We use the multi-objective versions of those algorithms using support, confidence and cosine. Second, we propose a new algorithm designed to mine rules efficiently from massive datasets by exploring a large variety of solutions, akin to the explosion of species diversity of the Cambrian Explosion. We compare our algorithm to 20 benchmark algorithms on 22 real-world data-sets, and show that our algorithm present good results and outperform several state-of-the-art algorithms.
翻訳日:2022-11-24 14:40:22 公開日:2022-11-23
# MLOps設定における品質保証 : 産業的展望

Quality Assurance in MLOps Setting: An Industrial Perspective ( http://arxiv.org/abs/2211.12706v1 )

ライセンス: Link先を確認
Ayan Chatterjee, Bestoun S. Ahmed, Erik Hallin, Anton Engman(参考訳) 現在、機械学習(ML)は、産業においてプロダクションシステムのコア機能を提供するために広く使われている。 しかし、MLモデルに加えて、他のいくつかのコンポーネントで構成された大規模エンドツーエンドソフトウェアシステムの一部として、実運用システムではほぼ常に使用されている。 生産需要と時間の制約のため、自動化されたソフトウェアエンジニアリングプラクティスは極めて適用性が高い。 製造業やユーティリティなどの業界における自動MLソフトウェアエンジニアリングプラクティスの利用の増加には、MLソフトウェアの重要な部分として、自動品質保証(QA)アプローチが必要である。 ここでは、QAはソフトウェアタスクに対する客観的な視点を提供することでリスクを減らすのに役立ちます。 従来のソフトウェアエンジニアリングには、データ駆動型MLのためのQAデータ分析のための自動化ツールがあるが、ML運用(MLOps)におけるQAプラクティスの使用は不足している。 本稿では,産業MLOpsにおけるQA課題について検討し,データ整合性とデータ品質(DQ)を扱うためのモジュール戦略を概念化する。 この論文には、産業パートナーによる実際の産業利用事例が添付されている。 また,今後の研究の基盤となるいくつかの課題について述べる。

Today, machine learning (ML) is widely used in industry to provide the core functionality of production systems. However, it is practically always used in production systems as part of a larger end-to-end software system that is made up of several other components in addition to the ML model. Due to production demand and time constraints, automated software engineering practices are highly applicable. The increased use of automated ML software engineering practices in industries such as manufacturing and utilities requires an automated Quality Assurance (QA) approach as an integral part of ML software. Here, QA helps reduce risk by offering an objective perspective on the software task. Although conventional software engineering has automated tools for QA data analysis for data-driven ML, the use of QA practices for ML in operation (MLOps) is lacking. This paper examines the QA challenges that arise in industrial MLOps and conceptualizes modular strategies to deal with data integrity and Data Quality (DQ). The paper is accompanied by real industrial use-cases from industrial partners. The paper also presents several challenges that may serve as a basis for future studies.
翻訳日:2022-11-24 14:39:40 公開日:2022-11-23
# マルチエージェント値分解のためのコントラストid-aware learning

Contrastive Identity-Aware Learning for Multi-Agent Value Decomposition ( http://arxiv.org/abs/2211.12712v1 )

ライセンス: Link先を確認
Shunyu Liu, Yihe Zhou, Jie Song, Tongya Zheng, Kaixuan Chen, Tongtian Zhu, Zunlei Feng, Mingli Song(参考訳) 価値分解(vd)は,グローバル報酬のみを前提とした分散政策へのエージェントの貢献を推測することを目的としており,近年,協調的マルチエージェント強化学習(marl)問題に取り組むための強力なクレジット割り当てパラダイムとして浮上している。 VDの主な課題の1つはエージェント間の多様な行動を促進することであるが、既存の手法は学習したエージェントネットワークの様々な戦略を直接的に促進する。 しかし,これらのエージェントネットワーク専用設計は,識別不能なvdネットワークによって制限されるため,同質的なエージェントの振る舞いが得られ,協調能力が低下する。 本稿では,vdネットワークのクレジットレベルの識別性を高め,マルチエージェント多様性のボトルネックを解消する新しいコントラストid-aware learning(cia)手法を提案する。 具体的には,コントラスト学習を活用し,時間的信用と異なるエージェントのアイデンティティ表現間の相互情報を最大化し,信用割当の完全な表現性と個性の出現を促進する。 提案したCIAモジュールのアルゴリズムの実装は単純だが有効であり、様々なVDアーキテクチャに容易に組み込むことができる。 SMACベンチマークと異なるVDバックボーンを用いた実験により、提案手法は最先端の手法よりも優れた結果が得られることを示した。 私たちのコードはhttps://github.com/liushunyu/ciaで利用可能です。

Value Decomposition (VD) aims to deduce the contributions of agents for decentralized policies in the presence of only global rewards, and has recently emerged as a powerful credit assignment paradigm for tackling cooperative Multi-Agent Reinforcement Learning (MARL) problems. One of the main challenges in VD is to promote diverse behaviors among agents, while existing methods directly encourage the diversity of learned agent networks with various strategies. However, we argue that these dedicated designs for agent networks are still limited by the indistinguishable VD network, leading to homogeneous agent behaviors and thus downgrading the cooperation capability. In this paper, we propose a novel Contrastive Identity-Aware learning (CIA) method, explicitly boosting the credit-level distinguishability of the VD network to break the bottleneck of multi-agent diversity. Specifically, our approach leverages contrastive learning to maximize the mutual information between the temporal credits and identity representations of different agents, encouraging the full expressiveness of credit assignment and further the emergence of individualities. The algorithm implementation of the proposed CIA module is simple yet effective that can be readily incorporated into various VD architectures. Experiments on the SMAC benchmarks and across different VD backbones demonstrate that the proposed method yields results superior to the state-of-the-art counterparts. Our code is available at https://github.com/liushunyu/CIA.
翻訳日:2022-11-24 14:39:25 公開日:2022-11-23
# mlcデータの公平化

FAIRification of MLC data ( http://arxiv.org/abs/2211.12757v1 )

ライセンス: Link先を確認
Ana Kostovska, Jasmin Bogatinovski, Andrej Treven, Sa\v{s}o D\v{z}eroski, Dragi Kocev, Pan\v{c}e Panov(参考訳) マルチラベル分類(MLC)タスクは、文献に現れる論文や方法の増加によって証明されるように、機械学習(ML)コミュニティからますます関心を集めている。 したがって、適切な、正しい、堅牢で信頼できるベンチマークは、この分野のさらなる発展にとって最も重要である。 これは、fair (findable, access, interoperaable, and reusable) や trust (transparency, responsibility, user focus, sustainability, and technology) といった最近登場したデータ管理標準に固執することで実現できると考えています。 MLCデータセットをFAIRifyするために、これらの原則に従うLCデータセットのオントロジーに基づくオンラインカタログを導入する。 このカタログは、理解しやすいメタ機能、MLC固有のセマンティック記述、異なるデータプロファイナンス情報を備えた多くのMLCデータセットを広範囲に記述している。 MLCデータカタログは、最近のNature Scientific Reports, Kostovska & Bogatinovski et al.で広く説明されており、http://semantichub.ijs.si/MLCdatasets.comで公開されている。 さらに,総合的なMLCベンチマークから得られた性能/ベンチマークデータのアクセスとクエリを容易にするオントロジーに基づくシステムを提案する。 システムは以下の通りである。 http://semantichub.ijs.si/MLCbenchmark。

The multi-label classification (MLC) task has increasingly been receiving interest from the machine learning (ML) community, as evidenced by the growing number of papers and methods that appear in the literature. Hence, ensuring proper, correct, robust, and trustworthy benchmarking is of utmost importance for the further development of the field. We believe that this can be achieved by adhering to the recently emerged data management standards, such as the FAIR (Findable, Accessible, Interoperable, and Reusable) and TRUST (Transparency, Responsibility, User focus, Sustainability, and Technology) principles. To FAIRify the MLC datasets, we introduce an ontology-based online catalogue of MLC datasets that follow these principles. The catalogue extensively describes many MLC datasets with comprehensible meta-features, MLC-specific semantic descriptions, and different data provenance information. The MLC data catalogue is extensively described in our recent publication in Nature Scientific Reports, Kostovska & Bogatinovski et al., and available at: http://semantichub.ijs.si/MLCdatasets. In addition, we provide an ontology-based system for easy access and querying of performance/benchmark data obtained from a comprehensive MLC benchmark study. The system is available at: http://semantichub.ijs.si/MLCbenchmark.
翻訳日:2022-11-24 14:39:02 公開日:2022-11-23
# 垂直的フェデレーション学習

Vertical Federated Learning ( http://arxiv.org/abs/2211.12814v1 )

ライセンス: Link先を確認
Yang Liu, Yan Kang, Tianyuan Zou, Yanhong Pu, Yuanqin He, Xiaozhou Ye, Ye Ouyang, Ya-Qin Zhang and Qiang Yang(参考訳) Vertical Federated Learning(VFL)は、同じユーザのセットに関する異なる特徴を持つ複数のパーティが、生のデータやモデルのパラメータを公開せずに、共同で機械学習モデルをトレーニングする、フェデレーション付き学習環境である。 vfl研究と実世界のアプリケーションの急速な成長に動機づけられ、vflの概念とアルゴリズムの包括的なレビューと、有効性、効率性、プライバシなど、さまざまな面での現在の進歩と課題を提供する。 VFL設定とプライバシ保護プロトコルの徹底的な分類を行い、各プロトコルのプライバシ攻撃と防衛戦略を包括的に分析する。 最後に,コミュニケーションや計算,プライバシ,有効性といった制約の下でのvfl問題を考える,vflowと呼ばれる統一フレームワークを提案する。 最後に,産業応用の最新動向を概観し,vflの課題と今後の方向性について述べる。

Vertical Federated Learning (VFL) is a federated learning setting where multiple parties with different features about the same set of users jointly train machine learning models without exposing their raw data or model parameters. Motivated by the rapid growth in VFL research and real-world applications, we provide a comprehensive review of the concept and algorithms of VFL, as well as current advances and challenges in various aspects, including effectiveness, efficiency, and privacy. We provide an exhaustive categorization for VFL settings and privacy-preserving protocols and comprehensively analyze the privacy attacks and defense strategies for each protocol. In the end, we propose a unified framework, termed VFLow, which considers the VFL problem under communication, computation, privacy, and effectiveness constraints. Finally, we review the most recent advances in industrial applications, highlighting open challenges and future directions for VFL.
翻訳日:2022-11-24 14:38:33 公開日:2022-11-23
# ハイブリッド行動空間における交通信号制御のための強化学習

Reinforcement learning for traffic signal control in hybrid action space ( http://arxiv.org/abs/2211.12956v1 )

ライセンス: Link先を確認
Haoqing Luo, sheng jin(参考訳) 一般的な強化学習に基づくトラヒック信号制御手法は、通常、動作空間に応じてステージング最適化または持続時間最適化である。 本稿では,ハイブリッドな近位政策最適化に基づく新しい制御アーキテクチャtboを提案する。 我々の知る限り、TBOは、ステージングと期間の同期最適化を実装する最初のRLベースのアルゴリズムである。 離散的かつ連続的なアクション空間と比較して、ハイブリッドアクション空間は統合された検索空間であり、TBOは頻繁なスイッチングと不飽和なリリースの間のトレードオフをよりよく実装する。 TBOがキューの長さと遅延をそれぞれ、既存のベースラインと比較して平均で13.78%、14.08%削減することを示す実験が行われた。 さらに,TBOが効率を向上しながら公正性を損なわないことを示すために,右側のジーニ係数を計算する。

The prevailing reinforcement-learning-based traffic signal control methods are typically staging-optimizable or duration-optimizable, depending on the action spaces. In this paper, we propose a novel control architecture, TBO, which is based on hybrid proximal policy optimization. To the best of our knowledge, TBO is the first RL-based algorithm to implement synchronous optimization of the staging and duration. Compared to discrete and continuous action spaces, hybrid action space is a merged search space, in which TBO better implements the trade-off between frequent switching and unsaturated release. Experiments are given to demonstrate that TBO reduces the queue length and delay by 13.78% and 14.08% on average, respectively, compared to the existing baselines. Furthermore, we calculate the Gini coefficients of the right-of-way to indicate TBO does not harm fairness while improving efficiency.
翻訳日:2022-11-24 14:38:18 公開日:2022-11-23
# 帯域割当モデルを用いた強化学習エージェントの設計と最適化

Reinforcement Learning Agent Design and Optimization with Bandwidth Allocation Model ( http://arxiv.org/abs/2211.12987v1 )

ライセンス: Link先を確認
Rafael F. Reale, Joberto S. B. Martins(参考訳) 強化学習(rl)は現在、様々な現実のアプリケーションで使われている。 rlベースのソリューションは、ヒューリスティックやメタヒューリスティックで解決するのが難しい問題や、知的あるいは認知的なアプローチが必要な問題や問題など、問題を汎用的に解決する可能性を持っている。 しかし、強化学習エージェントは単純ではない設計が必要であり、重要な設計上の問題がある。 rlエージェントの設計問題には、ターゲット問題モデリング、状態空間爆発、トレーニングプロセス、エージェント効率などが含まれる。 研究は現在、RLの普及を促進するためにこれらの課題に対処している。 要約すると、BAMモデルはリソースをユーザと割り当て、共有する。 3つの基本的なBAMモデルと、ユーザ間でリソースの割り当てと共有方法が異なるいくつかのハイブリッドがある。 本稿ではRLエージェントの設計と効率の問題に対処する。 RLエージェントの目的は、ユーザ間でリソースを割り当て、共有することである。 本稿では,BAMモデルがRLエージェントの設計と効率にどのように貢献するかを検討する。 AllocTC-Sharing(ATCS)モデルは解析的に記述され、RLエージェントの動作をどのように模倣するか、そしてATCSがRLエージェントから計算タスクをオフロードするかを評価する。 RLエージェントの設計と操作を統合したアルゴリズムがエージェント設計を容易にし、その実行を最適化する可能性を秘めている。 ATCS分析モデルとシミュレーションは、BAMモデルがエージェントタスクをオフロードし、エージェントの設計と最適化を支援することを示した。

Reinforcement learning (RL) is currently used in various real-life applications. RL-based solutions have the potential to generically address problems, including the ones that are difficult to solve with heuristics and meta-heuristics and, in addition, the set of problems and issues where some intelligent or cognitive approach is required. However, reinforcement learning agents require a not straightforward design and have important design issues. RL agent design issues include the target problem modeling, state-space explosion, the training process, and agent efficiency. Research currently addresses these issues aiming to foster RL dissemination. A BAM model, in summary, allocates and shares resources with users. There are three basic BAM models and several hybrids that differ in how they allocate and share resources among users. This paper addresses the issue of an RL agent design and efficiency. The RL agent's objective is to allocate and share resources among users. The paper investigates how a BAM model can contribute to the RL agent design and efficiency. The AllocTC-Sharing (ATCS) model is analytically described and simulated to evaluate how it mimics the RL agent operation and how the ATCS can offload computational tasks from the RL agent. The essential argument researched is whether algorithms integrated with the RL agent design and operation have the potential to facilitate agent design and optimize its execution. The ATCS analytical model and simulation presented demonstrate that a BAM model offloads agent tasks and assists the agent's design and optimization.
翻訳日:2022-11-24 14:38:04 公開日:2022-11-23
# EurNet:空間的マルチリレーショナルデータの効率的なマルチレンジリレーショナルモデリング

EurNet: Efficient Multi-Range Relational Modeling of Spatial Multi-Relational Data ( http://arxiv.org/abs/2211.12941v1 )

ライセンス: Link先を確認
Minghao Xu, Yuanfan Guo, Yi Xu, Jian Tang, Xinlei Chen, Yuandong Tian(参考訳) データの空間的関係のモデル化は、画像分類、セマンティックセグメンテーション、タンパク質構造理解など、多くの異なるタスクにおいて重要なままである。 以前の作品では、相対的な位置符号化のような統一的なソリューションがしばしば用いられる。 しかし、短距離関係、中距離関係、長距離関係など様々な空間関係が存在し、それらをモデリングすることで、多範囲関係(例えば、短距離関係はインスタンスセグメンテーションにおいて重要であるが、長距離関係は意味的セグメンテーションのために重み付けされるべきである)に対する異なるタスクの焦点をよりよく捉えることができる。 本稿では,効率的なマルチレンジリレーショナルモデリングのためのEurNetを提案する。 EurNetは、各タイプのエッジが短距離または中距離の空間的相互作用に対応するマルチリレーショナルグラフを構築する。 構築されたグラフでは、eurnetはgated relational message passing(grmp)と呼ばれる新しいモデリング層を採用し、データをまたいで複数のリレーショナル情報を伝搬する。 GRMPは余分な計算コストでデータ内の複数の関係をキャプチャする。 画像およびタンパク質構造モデリングにおいて,EurNetsを2つの重要な領域で研究する。 ImageNet分類、COCOオブジェクト検出、ADE20Kセマンティックセグメンテーションに関する大規模な実験は、以前のSoTA FocalNetよりもEurNetの利点を検証する。 ECおよびGOタンパク質関数予測ベンチマークでは、EurNetは以前のSoTA GearNetを一貫して上回っている。 本研究では,様々な領域の空間的マルチリレーショナルデータのモデリングにおけるEurNetsの強みを示す。 画像モデリングのためのEurNetの実装はhttps://github.com/hirl-team/EurNet-Image で公開されている。 他の適用ドメイン/タスクの実装はまもなくリリースされる。

Modeling spatial relationship in the data remains critical across many different tasks, such as image classification, semantic segmentation and protein structure understanding. Previous works often use a unified solution like relative positional encoding. However, there exists different kinds of spatial relations, including short-range, medium-range and long-range relations, and modeling them separately can better capture the focus of different tasks on the multi-range relations (e.g., short-range relations can be important in instance segmentation, while long-range relations should be upweighted for semantic segmentation). In this work, we introduce the EurNet for Efficient multi-range relational modeling. EurNet constructs the multi-relational graph, where each type of edge corresponds to short-, medium- or long-range spatial interactions. In the constructed graph, EurNet adopts a novel modeling layer, called gated relational message passing (GRMP), to propagate multi-relational information across the data. GRMP captures multiple relations within the data with little extra computational cost. We study EurNets in two important domains for image and protein structure modeling. Extensive experiments on ImageNet classification, COCO object detection and ADE20K semantic segmentation verify the gains of EurNet over the previous SoTA FocalNet. On the EC and GO protein function prediction benchmarks, EurNet consistently surpasses the previous SoTA GearNet. Our results demonstrate the strength of EurNets on modeling spatial multi-relational data from various domains. The implementations of EurNet for image modeling are available at https://github.com/hirl-team/EurNet-Image . The implementations for other applied domains/tasks will be released soon.
翻訳日:2022-11-24 14:32:19 公開日:2022-11-23
# 嘘は偽造できるのか? 機械学習の観点からの低テイクと高テイクのデセプションビデオデータセットの比較

Can lies be faked? Comparing low-stakes and high-stakes deception video datasets from a Machine Learning perspective ( http://arxiv.org/abs/2211.13035v1 )

ライセンス: Link先を確認
Mateus Karvat Camara, Adriana Postal, Tomas Henrique Maul, Gustavo Paetzold(参考訳) 人間の社会に重大な影響があるにもかかわらず、認識検出(DD)の精度は54%に過ぎず、自動DDを実行する機械学習システムは、データ不足による現実の環境での適切な適用には至っていない。 公開されているDDデータセットはほとんど存在せず、新しいデータセットの作成は、低テイクと高テイクの嘘の概念的な区別によって妨げられている。 理論的には、2つの種類の嘘は非常に異なるので、ある種類のデータセットは別の種類のアプリケーションでは使用できない。 制御された設定でシミュレート(フェイク)できるので、低盗難のデータを取得するのは容易であるが、これらの嘘は本物のハイテイクの嘘と同じ重要性や深さを持っていないため、自動化DDシステムの実用的関心を得るのは非常に困難である。 この区別が実際的な観点から真であるかどうかを調べるため,ビデオデータからのみ動作する深層学習分類器を用いて,高値ddデータセットと低値ddデータセットを比較したいくつかの実験を行った。 実験では,低テイクデータセットの強化戦略として低テイクデータを用いた場合,低テイクデータを用いた場合よりも,高テイクデータを識別するネットワークの精度が向上した。

Despite the great impact of lies in human societies and a meager 54% human accuracy for Deception Detection (DD), Machine Learning systems that perform automated DD are still not viable for proper application in real-life settings due to data scarcity. Few publicly available DD datasets exist and the creation of new datasets is hindered by the conceptual distinction between low-stakes and high-stakes lies. Theoretically, the two kinds of lies are so distinct that a dataset of one kind could not be used for applications for the other kind. Even though it is easier to acquire data on low-stakes deception since it can be simulated (faked) in controlled settings, these lies do not hold the same significance or depth as genuine high-stakes lies, which are much harder to obtain and hold the practical interest of automated DD systems. To investigate whether this distinction holds true from a practical perspective, we design several experiments comparing a high-stakes DD dataset and a low-stakes DD dataset evaluating their results on a Deep Learning classifier working exclusively from video data. In our experiments, a network trained in low-stakes lies had better accuracy classifying high-stakes deception than low-stakes, although using low-stakes lies as an augmentation strategy for the high-stakes dataset decreased its accuracy.
翻訳日:2022-11-24 14:31:52 公開日:2022-11-23
# BiasBed - 厳密なテクスチャバイアス評価

BiasBed -- Rigorous Texture Bias Evaluation ( http://arxiv.org/abs/2211.13190v1 )

ライセンス: Link先を確認
Nikolai Kalischek, Rodrigo C. Daudt, Torben Peters, Jan D. Wegner, Konrad Schindler(参考訳) 現代の畳み込みニューラルネットワークにおけるテクスチャバイアスの存在は、しばしば新しいドメインへの一般化を支援するために、シェイプキューに重点を置くアルゴリズムの多さにつながっている。 しかし、一般的なデータセット、ベンチマーク、一般的なモデル選択戦略は欠落しており、合意された厳密な評価プロトコルは存在しない。 本稿では,テクスチャバイアスを低減したトレーニングネットワークの困難さと限界について検討する。 特に,手法間の適切な評価と有意義な比較は自明ではないことを示す。 複数のデータセットや既存のアルゴリズムを含む、テクスチャとスタイルバイアスのトレーニングのためのテストベッドであるBiasBedを紹介します。 スタイルバイアス法のかなりのトレーニング不安定さにもかかわらず、結果の重要度を測定するための厳密な仮説検証を含む広範な評価プロトコルが付属している。 私たちの広範な実験は、慎重に統計的に確立されたスタイルバイアスの評価プロトコルの必要性に新たな光を当てました。 例えば、文献で提案されているいくつかのアルゴリズムは、スタイルバイアスの影響を全く軽減しない。 BiasBedのリリースにより、一貫した意味のある比較の共通理解が促進され、その結果、テクスチャバイアスのない学習方法へのさらなる進歩が期待できる。 コードはhttps://github.com/D1noFuzi/BiasBedで入手できる。

The well-documented presence of texture bias in modern convolutional neural networks has led to a plethora of algorithms that promote an emphasis on shape cues, often to support generalization to new domains. Yet, common datasets, benchmarks and general model selection strategies are missing, and there is no agreed, rigorous evaluation protocol. In this paper, we investigate difficulties and limitations when training networks with reduced texture bias. In particular, we also show that proper evaluation and meaningful comparisons between methods are not trivial. We introduce BiasBed, a testbed for texture- and style-biased training, including multiple datasets and a range of existing algorithms. It comes with an extensive evaluation protocol that includes rigorous hypothesis testing to gauge the significance of the results, despite the considerable training instability of some style bias methods. Our extensive experiments, shed new light on the need for careful, statistically founded evaluation protocols for style bias (and beyond). E.g., we find that some algorithms proposed in the literature do not significantly mitigate the impact of style bias at all. With the release of BiasBed, we hope to foster a common understanding of consistent and meaningful comparisons, and consequently faster progress towards learning methods free of texture bias. Code is available at https://github.com/D1noFuzi/BiasBed
翻訳日:2022-11-24 14:31:27 公開日:2022-11-23
# インスタンスパターン作曲家による一般化可能な暗黙的神経表現

Generalizable Implicit Neural Representations via Instance Pattern Composers ( http://arxiv.org/abs/2211.13223v1 )

ライセンス: Link先を確認
Chiheon Kim, Doyup Lee, Saehoon Kim, Minsu Cho, Wook-Shin Han(参考訳) 近年の暗黙的神経表現(INR)の進歩にもかかわらず、INRの座標ベースの多層パーセプトロン(MLP)が、データインスタンス間の共通表現を学習し、目に見えないインスタンスに対して一般化することは、依然として困難である。 本研究では,初期MLP層内の少量の重みだけをインスタンスパターンの合成として調整することにより,座標ベースのMLPが複雑なデータインスタンスを表現できる,一般化可能なINRのフレームワークを提案する。 我々の一般化可能なINRフレームワークは、既存のメタラーニングやハイパーネットワークと完全に互換性があり、未確認インスタンスの変調重量を予測することができる。 広範囲な実験により,音声,画像,3dオブジェクトなど幅広い領域において高い性能を得られたが,アブレーション実験では重みの変調が検証された。

Despite recent advances in implicit neural representations (INRs), it remains challenging for a coordinate-based multi-layer perceptron (MLP) of INRs to learn a common representation across data instances and generalize it for unseen instances. In this work, we introduce a simple yet effective framework for generalizable INRs that enables a coordinate-based MLP to represent complex data instances by modulating only a small set of weights in an early MLP layer as an instance pattern composer; the remaining MLP weights learn pattern composition rules for common representations across instances. Our generalizable INR framework is fully compatible with existing meta-learning and hypernetworks in learning to predict the modulated weight for unseen instances. Extensive experiments demonstrate that our method achieves high performance on a wide range of domains such as an audio, image, and 3D object, while the ablation study validates our weight modulation.
翻訳日:2022-11-24 14:31:05 公開日:2022-11-23
# 熱方程式に基づく自己教師付き学習

Self-Supervised Learning based on Heat Equation ( http://arxiv.org/abs/2211.13228v1 )

ライセンス: Link先を確認
Yinpeng Chen and Xiyang Dai and Dongdong Chen and Mengchen Liu and Lu Yuan and Zicheng Liu and Youzuo Lin(参考訳) 本稿では,熱方程式を高次元特徴空間に拡張した自己教師あり学習の新しい視点を提案する。 特に、定常状態による時間依存を除去し、残りの2次元ラプラシアンを x-y 等方性から線形相関に拡張する。 さらに、x と y を2つの一階線型微分方程式として分割することで単純化する。 このような単純化は、水平方向と垂直方向の空間不変性を個別にモデル化し、画像ブロック間の予測をサポートする。 これはQB-Heatと呼ばれる非常に単純なマスク付き画像モデリング(MIM)手法を導入する。 QB-Heatは4分の1の大きさの1ブロックを残し、他の3つのマスク付きクォーターを直線的に外挿する。 MIMはベルやホイッスルを使わずにCNNに導入され、微調整なしで画像分類と物体検出の両方に適した軽量ネットワークの事前トレーニングにも有効だ。 MoCo-v2の5.8Mパラメータと285M FLOPの事前トレーニングと比較すると、QB-HeatはImageNet上の線形プローブでは同等だが、線形分類器(65.6%対52.9%)の前にトランスフォーマーブロックを追加する非線形プローブでは明らかに優れる。 凍結したバックボーンで物体検出に移行すると、QB-HeatはMoCo-v2より優れ、ImageNetの事前トレーニングを7.9 APと4.5 APで監督する。 この研究は、異なる形状とテクスチャに対する視覚的表現の不変性に関する洞察に富んだ仮説を提供する:水平微分と垂直微分の間の線形関係。 コードは公開される予定だ。

This paper presents a new perspective of self-supervised learning based on extending heat equation into high dimensional feature space. In particular, we remove time dependence by steady-state condition, and extend the remaining 2D Laplacian from x--y isotropic to linear correlated. Furthermore, we simplify it by splitting x and y axes as two first-order linear differential equations. Such simplification explicitly models the spatial invariance along horizontal and vertical directions separately, supporting prediction across image blocks. This introduces a very simple masked image modeling (MIM) method, named QB-Heat. QB-Heat leaves a single block with size of quarter image unmasked and extrapolates other three masked quarters linearly. It brings MIM to CNNs without bells and whistles, and even works well for pre-training light-weight networks that are suitable for both image classification and object detection without fine-tuning. Compared with MoCo-v2 on pre-training a Mobile-Former with 5.8M parameters and 285M FLOPs, QB-Heat is on par in linear probing on ImageNet, but clearly outperforms in non-linear probing that adds a transformer block before linear classifier (65.6% vs. 52.9%). When transferring to object detection with frozen backbone, QB-Heat outperforms MoCo-v2 and supervised pre-training on ImageNet by 7.9 and 4.5 AP respectively. This work provides an insightful hypothesis on the invariance within visual representation over different shapes and textures: the linear relationship between horizontal and vertical derivatives. The code will be publicly released.
翻訳日:2022-11-24 14:30:48 公開日:2022-11-23
# 心電図の特徴帰属法の評価

Evaluating Feature Attribution Methods for Electrocardiogram ( http://arxiv.org/abs/2211.12702v1 )

ライセンス: Link先を確認
Jangwon Suh, Jimyeong Kim, Euna Jung, Wonjong Rhee(参考訳) 心電図(ECG)を用いた心不整脈検出の性能は,ディープラーニングモデルの導入以降,大幅に改善されている。 実際には、ハイパフォーマンスだけでは不十分であり、適切な説明も必要である。 近年,この要件に対処する特徴属性法の採用が始まっているが,どの手法がECGに適しているのかは分かっていない。 本研究は,ECGの特徴に基づく特徴帰属手法の3つの評価指標(ローカライゼーションスコア,ポインティングゲーム,劣化スコア)を特定し,カスタマイズする。 3つの評価指標を用いて,11種類の機能帰属法を評価し分析した。 特徴帰属手法のいくつかはECGを説明するのに適しており、Grad-CAMは2番目に良い方法よりも大きなマージンで優れている。

The performance of cardiac arrhythmia detection with electrocardiograms(ECGs) has been considerably improved since the introduction of deep learning models. In practice, the high performance alone is not sufficient and a proper explanation is also required. Recently, researchers have started adopting feature attribution methods to address this requirement, but it has been unclear which of the methods are appropriate for ECG. In this work, we identify and customize three evaluation metrics for feature attribution methods based on the characteristics of ECG: localization score, pointing game, and degradation score. Using the three evaluation metrics, we evaluate and analyze eleven widely-used feature attribution methods. We find that some of the feature attribution methods are much more adequate for explaining ECG, where Grad-CAM outperforms the second-best method by a large margin.
翻訳日:2022-11-24 14:30:20 公開日:2022-11-23
# InDiReCT:画像のための言語誘導ゼロショット深度学習

InDiReCT: Language-Guided Zero-Shot Deep Metric Learning for Images ( http://arxiv.org/abs/2211.12760v1 )

ライセンス: Link先を確認
Konstantin Kobs, Michael Steininger, Andreas Hotho(参考訳) 共通ディープメトリックラーニング(dml)データセットは、cars196データセット内の2つのイメージが同じカーモデルを示す場合のように、類似性の1つの概念のみを指定する。 アプリケーションによって、画像検索システムの利用者は、可能な限り簡単に組み込むべき類似性の概念を異なっており、変化していると論じる。 そこで我々は,Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) を,自然言語のみを用いて学習することなく,画像表現に重要なプロパティをユーザが制御できる新しいDML設定として提案する。 そこで本研究では,学習用テキストプロンプトのみを使用する画像上でのlanz-dmlのモデルである間接表現(クリップ埋め込みテキストにおける次元縮小を用いた画像表現)を提案する。 InDiReCTはCLIPを画像とテキストの固定的特徴抽出器として使用し、テキストのバリエーションを画像埋め込み空間に転送する。 5つのデータセットと13の類似性概念に関する広範な実験は、トレーニング中に画像が見えなかったにもかかわらず、間接的なパフォーマンスは強力なベースラインよりも優れており、完全な教師付きモデルのパフォーマンスにアプローチしていることを示している。 分析により、間接的に画像の領域に焦点をあてることを学び、所望の類似性の概念に関連付けることにより、自然言語のみを使用して独自の埋め込み空間を作成する方法の学習が迅速かつ容易にできることが明らかになった。

Common Deep Metric Learning (DML) datasets specify only one notion of similarity, e.g., two images in the Cars196 dataset are deemed similar if they show the same car model. We argue that depending on the application, users of image retrieval systems have different and changing similarity notions that should be incorporated as easily as possible. Therefore, we present Language-Guided Zero-Shot Deep Metric Learning (LanZ-DML) as a new DML setting in which users control the properties that should be important for image representations without training data by only using natural language. To this end, we propose InDiReCT (Image representations using Dimensionality Reduction on CLIP embedded Texts), a model for LanZ-DML on images that exclusively uses a few text prompts for training. InDiReCT utilizes CLIP as a fixed feature extractor for images and texts and transfers the variation in text prompt embeddings to the image embedding space. Extensive experiments on five datasets and overall thirteen similarity notions show that, despite not seeing any images during training, InDiReCT performs better than strong baselines and approaches the performance of fully-supervised models. An analysis reveals that InDiReCT learns to focus on regions of the image that correlate with the desired similarity notion, which makes it a fast to train and easy to use method to create custom embedding spaces only using natural language.
翻訳日:2022-11-24 14:30:09 公開日:2022-11-23
# 数学語問題学習のためのソクラテス命題の自動生成

Automatic Generation of Socratic Subquestions for Teaching Math Word Problems ( http://arxiv.org/abs/2211.12835v1 )

ライセンス: Link先を確認
Kumar Shridhar, Jakub Macina, Mennatallah El-Assady, Tanmay Sinha, Manu Kapur, Mrinmaya Sachan(参考訳) ソクラテス・クエスチョン(socratic questioning)は、学生が複雑な問題に対する答えを見つけるための教育手法である。 ディダクティカルな質問の生成は困難であり、問題にかかわる推論プロセスを理解する必要がある。 我々は,このような質問戦略は人的パフォーマンスを高めるだけでなく,算術語問題(MWP)解決者を支援することができると仮定する。 本研究では,大規模言語モデル (LM) が数学用語の問題解決を導くための逐次質問を生成する能力について検討する。 入力条件付けと強化学習に基づく様々な質問生成手法を提案する。 自動品質評価と人的品質評価の両方において、所望の質問特性に制約されたLMが優れた質問を生成し、数学語問題解決器の全体的な性能を向上させる。 教育領域における質問生成モデルの潜在価値を検討するために,予備的なユーザ調査を行う。 その結果,課題の難易度は,質問が人間のパフォーマンスを損なうか否かを決定する上で重要な役割を担っていることが示唆された。 我々は,このような質問戦略を教育に活用する未来について論じる。

Socratic questioning is an educational method that allows students to discover answers to complex problems by asking them a series of thoughtful questions. Generation of didactically sound questions is challenging, requiring understanding of the reasoning process involved in the problem. We hypothesize that such questioning strategy can not only enhance the human performance, but also assist the math word problem (MWP) solvers. In this work, we explore the ability of large language models (LMs) in generating sequential questions for guiding math word problem-solving. We propose various guided question generation schemes based on input conditioning and reinforcement learning. On both automatic and human quality evaluations, we find that LMs constrained with desirable question properties generate superior questions and improve the overall performance of a math word problem solver. We conduct a preliminary user study to examine the potential value of such question generation models in the education domain. Results suggest that the difficulty level of problems plays an important role in determining whether questioning improves or hinders human performance. We discuss the future of using such questioning strategies in education.
翻訳日:2022-11-24 14:29:31 公開日:2022-11-23
# SketchBoost: マルチ出力問題に対する高速勾配ブースト決定木

SketchBoost: Fast Gradient Boosted Decision Tree for Multioutput Problems ( http://arxiv.org/abs/2211.12858v1 )

ライセンス: Link先を確認
Leonid Iosipoi and Anton Vakhrushev(参考訳) Gradient Boosted Decision Tree (GBDT)は、多くの標準的なデータサイエンス問題に対して最先端の結果を得るために広く使われている機械学習アルゴリズムである。 出力が多次元である場合のマルチアウトプット問題への応用に関心がある。 非常に効果的なGBDT実装はあるが、そのような問題に対するスケーラビリティはまだ不十分である。 本稿では,マルチアウトプットシナリオにおけるgbdtの学習プロセスを高速化するための新しい手法を提案する。 これらの手法の背景にある考え方は、決定木の最良の分割を見つけるために用いられるスコアリング関数の近似計算にある。 これらのメソッドはSketchBoostで実装されており、Py-Boostと呼ばれるGBDTのPythonベースのGPU実装に統合されています。 私たちの数値的な研究は、SketchBoostがGBDTのトレーニングプロセスを最大40倍スピードアップし、同等あるいはそれ以上のパフォーマンスを実現していることを示している。

Gradient Boosted Decision Tree (GBDT) is a widely-used machine learning algorithm that has been shown to achieve state-of-the-art results on many standard data science problems. We are interested in its application to multioutput problems when the output is highly multidimensional. Although there are highly effective GBDT implementations, their scalability to such problems is still unsatisfactory. In this paper, we propose novel methods aiming to accelerate the training process of GBDT in the multioutput scenario. The idea behind these methods lies in the approximate computation of a scoring function used to find the best split of decision trees. These methods are implemented in SketchBoost, which itself is integrated into our easily customizable Python-based GPU implementation of GBDT called Py-Boost. Our numerical study demonstrates that SketchBoost speeds up the training process of GBDT by up to over 40 times while achieving comparable or even better performance.
翻訳日:2022-11-24 14:22:53 公開日:2022-11-23
# AugOp: 神経オペレータへのインジェクション変換

AugOp: Inject Transformation into Neural Operator ( http://arxiv.org/abs/2211.12514v1 )

ライセンス: Link先を確認
Longqing Ye(参考訳) 本稿では,正規畳み込み演算子を訓練中に余分なグループワイズ変換を注入し,推論中にそれを回復させることにより,単純で一般的な方法を提案する。 余剰変換は、各群における正規畳み込みとマージできることを保証するために慎重に選択され、推論中の正規畳み込みの位相構造は変化しない。 通常の畳み込み演算子と比較すると,本手法(augconv)はトレーニング中のモデル性能を改善するために,より大きな学習能力を導入することができるが,モデル展開のための計算オーバーヘッドは増大しない。 ResNetに基づいて、AugConvを使用してAugResNetという畳み込みニューラルネットワークを構築します。 画像分類データセットCifar-10の結果、AugResNetはモデル性能の点でベースラインを上回っている。

In this paper, we propose a simple and general approach to augment regular convolution operator by injecting extra group-wise transformation during training and recover it during inference. Extra transformation is carefully selected to ensure it can be merged with regular convolution in each group and will not change the topological structure of regular convolution during inference. Compared with regular convolution operator, our approach (AugConv) can introduce larger learning capacity to improve model performance during training but will not increase extra computational overhead for model deployment. Based on ResNet, we utilize AugConv to build convolutional neural networks named AugResNet. Result on image classification dataset Cifar-10 shows that AugResNet outperforms its baseline in terms of model performance.
翻訳日:2022-11-24 14:22:18 公開日:2022-11-23
# fre: 異常検出とセグメント化のための高速手法

FRE: A Fast Method For Anomaly Detection And Segmentation ( http://arxiv.org/abs/2211.12650v1 )

ライセンス: Link先を確認
Ibrahima Ndiour and Nilesh Ahuja and Utku Genc and Omesh Tickoo(参考訳) 本稿では,視覚異常の検出とセグメンテーションを高速かつ原理的に解決する手法を提案する。 この設定では、異常のないトレーニングデータのみにアクセスでき、テストデータ上で任意の性質の異常を検出し、識別したいと考えています。 本研究では,訓練データに事前学習したdnnが生成する中間的特徴に対する線形統計次元低減手法の応用を提案し,その特徴に真にまたがる低次元部分空間をキャプチャする。 高次元空間における元の特徴と低次元縮小埋め込みの前像との差の$\ell_2$-normである \emph{feature reconstruction error} (fre) が異常検出に非常に有効であることを示す。 さらに,中間畳み込み層上の同じ特徴再構成誤差概念を用いて,画像中の異常のピクセルレベル空間的局在(すなわちセグメント化)を提供するfreマップを導出する。 標準異常検出データセットとDNNアーキテクチャを用いた実験により、我々の手法は最高の品質性能を達成できるが、最先端技術が要求する計算コストとメモリコストのごく一部に収まることを示した。 従来のcpuでも、非常に効率的にトレーニングや実行が可能です。

This paper presents a fast and principled approach for solving the visual anomaly detection and segmentation problem. In this setup, we have access to only anomaly-free training data and want to detect and identify anomalies of an arbitrary nature on test data. We propose the application of linear statistical dimensionality reduction techniques on the intermediate features produced by a pretrained DNN on the training data, in order to capture the low-dimensional subspace truly spanned by said features. We show that the \emph{feature reconstruction error} (FRE), which is the $\ell_2$-norm of the difference between the original feature in the high-dimensional space and the pre-image of its low-dimensional reduced embedding, is extremely effective for anomaly detection. Further, using the same feature reconstruction error concept on intermediate convolutional layers, we derive FRE maps that provide pixel-level spatial localization of the anomalies in the image (i.e. segmentation). Experiments using standard anomaly detection datasets and DNN architectures demonstrate that our method matches or exceeds best-in-class quality performance, but at a fraction of the computational and memory cost required by the state of the art. It can be trained and run very efficiently, even on a traditional CPU.
翻訳日:2022-11-24 14:22:03 公開日:2022-11-23
# 特徴の能力を識別するクラスを再検討し、それらをよりよく知る

Reconnoitering the class distinguishing abilities of the features, to know them better ( http://arxiv.org/abs/2211.12771v1 )

ライセンス: Link先を確認
Payel Sadhukhan, Sarbani palit, Kausik Sengupta(参考訳) 日常生活における機械学習(ML)の関連性は、その説明可能性と密接に関連している。 説明可能性により、エンドユーザは、MLスキームの能力とユーティリティを透過的で人間的とみなすことができる。 また、システムの自動決定に対するユーザの自信を高める。 モデルの決定を説明するために変数や特徴を説明することは、現在の必要性である。 クラス分け能力(特に実世界のデータがほとんどマルチクラスな性質である場合)に基づいて特徴を説明するような作業は、実際には見つからなかったのです。 任意のデータセットにおいて、ある機能は、データポイントの異なる分類(またはクラス)を区別するのに等しく適していない。 本稿では,それらのクラスやカテゴリ識別機能に基づいて特徴を説明する。 特に、ペアのクラスの組み合わせに対する変数のクラス識別能力(スコア)を推定する。 複数の実世界のマルチクラスデータセット上で経験的に提案手法が与える説明可能性を検証する。 さらに,潜伏特徴の文脈でクラス識別スコアを活用し,新たな意思決定プロトコルを提案する。 この研究のもう1つの目新しさは、潜在変数(テストポイント)が可能性のあるクラスに対して高いクラス分散ポテンシャルを持つ場合、 \emph{refuse to render decision}オプションである。

The relevance of machine learning (ML) in our daily lives is closely intertwined with its explainability. Explainability can allow end-users to have a transparent and humane reckoning of a ML scheme's capability and utility. It will also foster the user's confidence in the automated decisions of a system. Explaining the variables or features to explain a model's decision is a need of the present times. We could not really find any work, which explains the features on the basis of their class-distinguishing abilities (specially when the real world data are mostly of multi-class nature). In any given dataset, a feature is not equally good at making distinctions between the different possible categorizations (or classes) of the data points. In this work, we explain the features on the basis of their class or category-distinguishing capabilities. We particularly estimate the class-distinguishing capabilities (scores) of the variables for pair-wise class combinations. We validate the explainability given by our scheme empirically on several real-world, multi-class datasets. We further utilize the class-distinguishing scores in a latent feature context and propose a novel decision making protocol. Another novelty of this work lies with a \emph{refuse to render decision} option when the latent variable (of the test point) has a high class-distinguishing potential for the likely classes.
翻訳日:2022-11-24 14:21:43 公開日:2022-11-23
# マルチビュー幾何を用いた教師なし3次元キーポイント推定

Unsupervised 3D Keypoint Estimation with Multi-View Geometry ( http://arxiv.org/abs/2211.12829v1 )

ライセンス: Link先を確認
Sina Honari, Pascal Fua(参考訳) 十分なアノテートトレーニングデータがあれば、3D人間のポーズ推定モデルは高い精度を達成することができる。 しかし、特に異常な活動を行う人にとっては、常にアノテーションが利用できるとは限らない。 本稿では,多視点幾何の制約以外に何の監督もせずに,多視点から人体の3次元キーポイントを検出するアルゴリズムを提案する。 推定された3Dキーポイントが意味を持つことを保証するため、各ビューに再投影され、モデル自体が最初に見積もった人のマスクを推定する。 提案手法は,Human3.6MおよびMPI-INF-3DHPベンチマークデータセットにおいて,最先端の非教師付き3次元ポーズ推定法より優れている。

Given enough annotated training data, 3D human pose estimation models can achieve high accuracy. However, annotations are not always available, especially for people performing unusual activities. In this paper, we propose an algorithm that learns to detect 3D keypoints on human bodies from multiple-views without any supervision other than the constraints multiple-view geometry provides. To ensure that the estimated 3D keypoints are meaningful, they are re-projected to each view to estimate the person's mask that the model itself has initially estimated. Our approach outperforms other state-of-the-art unsupervised 3D human pose estimation methods on the Human3.6M and MPI-INF-3DHP benchmark datasets.
翻訳日:2022-11-24 14:21:22 公開日:2022-11-23
# 顕微鏡データの効率的な画像分解

{\mu}Split: efficient image decomposition for microscopy data ( http://arxiv.org/abs/2211.12872v1 )

ライセンス: Link先を確認
Ashesh, Alexander Krull, Moises Di Sante, Francesco Silvio Pasqualini, Florian Jug(参考訳) 光顕微鏡は生体細胞や生体組織を細胞内分解能で観察するために日常的に用いられる。 画像化された細胞の成分は蛍光ラベルを使ってハイライトできるため、生物学者は興味のある個々の構造を調べることができる。 生物学的プロセスの複雑さを考えると、典型的には複数の構造を同時に観察する必要がある。 それでも、技術的理由から、3つか4つ以上の構造を撮影することは困難であり、生命科学における科学的進歩の速度を制限している。 したがって、単一の画像チャネルで得られた重畳された生物学的構造を分割(分解)する計算手法、すなわち時間多重化なしでは、大きな影響を与える。 ここでは、訓練された画像分解のための専用アプローチである {\mu}Splitを紹介する。 トレーニング中に大きなイメージパッチを使用すると,通常のディープアーキテクチャによる最良の結果が得られることが分かり,メモリ消費が性能向上の限界要因となる。 そこで我々は,小さな入力パッチでうまく動作する深層ネットワークを学習するためのメモリ効率の良い方法である横型コンテキスト化(lc)を導入する。 後段のレイヤでは、適切な解像度で追加のイメージコンテキストが供給される。 我々はLCを階層型オートエンコーダと階層型VAEと統合し、後者では改良されたELBO損失を提示し、音波VAE訓練を可能にすることを示す。 合成データセットに1つ、実際の2つの顕微鏡データセットから派生した4つの分解タスクに {\mu}Splitを適用した。 LCは一貫してSOTA結果を達成し、同時にLCを使用しない競合アーキテクチャよりもGPUメモリをかなり少なくする。 LCを導入する際、上記のバニラアーキテクチャで得られた結果は平均2.36dB(PSNRデシベル)で改善され、個々の改善は0.9から3.4dBである。

Light microscopy is routinely used to look at living cells and biological tissues at sub-cellular resolution. Components of the imaged cells can be highlighted using fluorescent labels, allowing biologists to investigate individual structures of interest. Given the complexity of biological processes, it is typically necessary to look at multiple structures simultaneously, typically via a temporal multiplexing scheme. Still, imaging more than 3 or 4 structures in this way is difficult for technical reasons and limits the rate of scientific progress in the life sciences. Hence, a computational method to split apart (decompose) superimposed biological structures acquired in a single image channel, i.e. without temporal multiplexing, would have tremendous impact. Here we present {\mu}Split, a dedicated approach for trained image decomposition. We find that best results using regular deep architectures is achieved when large image patches are used during training, making memory consumption the limiting factor to further improving performance. We therefore introduce lateral contextualization (LC), a memory efficient way to train deep networks that operate well on small input patches. In later layers, additional image context is fed at adequately lowered resolution. We integrate LC with Hierarchical Autoencoders and Hierarchical VAEs.For the latter, we also present a modified ELBO loss and show that it enables sound VAE training. We apply {\mu}Split to five decomposition tasks, one on a synthetic dataset, four others derived from two real microscopy datasets. LC consistently achieves SOTA results, while simultaneously requiring considerably less GPU memory than competing architectures not using LC. When introducing LC, results obtained with the above-mentioned vanilla architectures do on average improve by 2.36 dB (PSNR decibel), with individual improvements ranging from 0.9 to 3.4 dB.
翻訳日:2022-11-24 14:21:14 公開日:2022-11-23
# orex: ニューラルフィールドを用いたプランナー断面からのオブジェクト再構成

OReX: Object Reconstruction from Planner Cross-sections Using Neural Fields ( http://arxiv.org/abs/2211.12886v1 )

ライセンス: Link先を確認
Haim Sawdayee, Amir Vaxman, Amit H. Bermano(参考訳) 平面断面から3D形状を再構築することは、医用画像や地理情報学といった下流の応用にインスパイアされた課題である。 入力は空間内の平面のスパース集合上で完全に定義されたイン/アウトインジケータ関数であり、出力はインジケータ関数のボリューム全体への補間である。 このスパースで不適切な問題に対処する以前の作品は、低品質の結果を生み出すか、ターゲットトポロジー、外観情報、入力正規方向といった追加の事前情報に依存する。 本稿では,スライスのみによる3次元形状復元手法であるOReXについて述べる。 単純なニューラルネットワークが入力プレーン上で訓練され、3d座標を受け取り、クエリポイントの内側/外側の見積もりを返す。 この前者は滑らかさと自己相似性をもたらすのに強力である。 このアプローチの主な課題は、神経前兆が過度に滑らかになっているため、高周波の詳細である。 これを緩和するために,反復的推定アーキテクチャと階層的入力サンプリングスキームを提供し,細かなトレーニングを奨励し,後段の高周波数にフォーカスすることができる。 さらに,メッシュ抽出工程から発生する一般的なリップル様効果を同定し,解析する。 入力イン/アウト境界付近のインジケータ関数の空間勾配を規則化し、根の問題を削減して緩和する。 定性的かつ定量的な実験を通じて,本手法は精度が高く,入力の大きさとよく一致していることを示す。 我々は,従来のアプローチと最近の潜在的ソリューションと比較して,最先端の成果を報告し,分析とアブレーション研究による個人貢献のメリットを実証する。

Reconstructing 3D shapes from planar cross-sections is a challenge inspired by downstream applications like medical imaging and geographic informatics. The input is an in/out indicator function fully defined on a sparse collection of planes in space, and the output is an interpolation of the indicator function to the entire volume. Previous works addressing this sparse and ill-posed problem either produce low quality results, or rely on additional priors such as target topology, appearance information, or input normal directions. In this paper, we present OReX, a method for 3D shape reconstruction from slices alone, featuring a Neural Field as the interpolation prior. A simple neural network is trained on the input planes to receive a 3D coordinate and return an inside/outside estimate for the query point. This prior is powerful in inducing smoothness and self-similarities. The main challenge for this approach is high-frequency details, as the neural prior is overly smoothing. To alleviate this, we offer an iterative estimation architecture and a hierarchical input sampling scheme that encourage coarse-to-fine training, allowing focusing on high frequencies at later stages. In addition, we identify and analyze a common ripple-like effect stemming from the mesh extraction step. We mitigate it by regularizing the spatial gradients of the indicator function around input in/out boundaries, cutting the problem at the root. Through extensive qualitative and quantitative experimentation, we demonstrate our method is robust, accurate, and scales well with the size of the input. We report state-of-the-art results compared to previous approaches and recent potential solutions, and demonstrate the benefit of our individual contributions through analysis and ablation studies.
翻訳日:2022-11-24 14:20:43 公開日:2022-11-23
# open-vocabulary属性検出

Open-vocabulary Attribute Detection ( http://arxiv.org/abs/2211.12914v1 )

ライセンス: Link先を確認
Mar\'ia A. Bravo, Sudhanshu Mittal, Simon Ging, Thomas Brox(参考訳) 視覚言語モデリングにより、ゼロショットで任意のテキストプロンプトを使って予測をクエリできるオープン語彙タスクが可能になった。 既存のオープン語彙タスクはオブジェクトクラスにフォーカスするが、オブジェクト属性の研究は信頼性のある属性中心の評価ベンチマークが欠如しているため限られている。 本稿では,Open-Vocabulary Attribute Detection (OVAD)タスクとそれに対応するOVADベンチマークを紹介する。 新しいタスクとベンチマークの目的は、視覚言語モデルによって学習されるオブジェクトレベルの属性情報を調べることである。 この目的のために、MS COCOの80のオブジェクトクラスに117の属性クラスを含むクリーンで高密度な注釈付きテストセットを作成しました。 オープンボキャブラリー評価を可能にする、ポジティブなアノテーションとネガティブなアノテーションが含まれている。 全体として、ベンチマークは140万のアノテーションで構成されている。 参考までに,open-vocabulary属性検出のための最初のベースライン手法を提案する。 さらに,いくつかの基礎モデルの属性検出性能を調べ,ベンチマーク値を示す。 プロジェクトページ https://ovad-benchmark.github.io/

Vision-language modeling has enabled open-vocabulary tasks where predictions can be queried using any text prompt in a zero-shot manner. Existing open-vocabulary tasks focus on object classes, whereas research on object attributes is limited due to the lack of a reliable attribute-focused evaluation benchmark. This paper introduces the Open-Vocabulary Attribute Detection (OVAD) task and the corresponding OVAD benchmark. The objective of the novel task and benchmark is to probe object-level attribute information learned by vision-language models. To this end, we created a clean and densely annotated test set covering 117 attribute classes on the 80 object classes of MS COCO. It includes positive and negative annotations, which enables open-vocabulary evaluation. Overall, the benchmark consists of 1.4 million annotations. For reference, we provide a first baseline method for open-vocabulary attribute detection. Moreover, we demonstrate the benchmark's value by studying the attribute detection performance of several foundation models. Project page https://ovad-benchmark.github.io/
翻訳日:2022-11-24 14:20:13 公開日:2022-11-23
# スケーラブルで汎用的な意思決定のためのマスク付き自動エンコーディング

Masked Autoencoding for Scalable and Generalizable Decision Making ( http://arxiv.org/abs/2211.12740v1 )

ライセンス: Link先を確認
Fangchen Liu, Hao Liu, Aditya Grover, Pieter Abbeel(参考訳) 現在の大規模ビジョンや言語モデルに似た大規模で多様なシーケンシャルなデータから学ぶことができる、強化学習のためのスケーラブルなエージェントの学習に興味があります。 そこで本稿では,強化学習(RL)と行動クローニング(BC)のための簡易かつスケーラブルな自己教師付き事前学習手法であるマスク決定予測(MaskDP)を提案する。 MaskDPアプローチでは,マスク付きオートエンコーダ(MAE)を用いて状態-動作軌跡を解析し,状態と動作トークンをランダムにマスキングし,欠落したデータを再構成する。 そうすることで、モデルはマスクアウト状態とアクションを推測し、ダイナミクスに関する情報を抽出する必要がある。 入力シーケンスの異なる割合をマスキングすることは、複数の下流タスクをうまく一般化するより良いモデルを学ぶのに大いに役立ちます。 実証実験では、MaskDPモデルが、単一および複数ゴール到達のような新しいBCタスクへのゼロショット転送能力を獲得し、いくつかの例からゼロショット推論のスキルを得ることができた。 さらに、MaskDPはオフラインのRLによく移行し、モデルサイズに有望なスケーリング動作を示す。 データ効率の良い微調整には適しており、自己回帰的事前訓練に基づく先行手法による競合結果が得られる。

We are interested in learning scalable agents for reinforcement learning that can learn from large-scale, diverse sequential data similar to current large vision and language models. To this end, this paper presents masked decision prediction (MaskDP), a simple and scalable self-supervised pretraining method for reinforcement learning (RL) and behavioral cloning (BC). In our MaskDP approach, we employ a masked autoencoder (MAE) to state-action trajectories, wherein we randomly mask state and action tokens and reconstruct the missing data. By doing so, the model is required to infer masked-out states and actions and extract information about dynamics. We find that masking different proportions of the input sequence significantly helps with learning a better model that generalizes well to multiple downstream tasks. In our empirical study, we find that a MaskDP model gains the capability of zero-shot transfer to new BC tasks, such as single and multiple goal reaching, and it can zero-shot infer skills from a few example transitions. In addition, MaskDP transfers well to offline RL and shows promising scaling behavior w.r.t. to model size. It is amenable to data-efficient finetuning, achieving competitive results with prior methods based on autoregressive pretraining.
翻訳日:2022-11-24 14:13:08 公開日:2022-11-23
# ディープグラフクラスタリングに関する調査:分類学、挑戦、応用

A Survey of Deep Graph Clustering: Taxonomy, Challenge, and Application ( http://arxiv.org/abs/2211.12875v1 )

ライセンス: Link先を確認
Liu Yue, Xia Jun, Zhou Sihang, Wang Siwei, Guo Xifeng, Yang Xihong, Liang Ke, Tu Wenxuan, Li Stan Z., Liu Xin Wang(参考訳) グラフクラスタリングは、グラフのノードを複数の異なるクラスタに分割することを目的としています。 近年,ディープグラフクラスタリング手法が提案され,有望な性能を達成している。 しかし、それに対応する調査論文は乏しく、この分野で概要を述べることは差し迫っている。 この動機から,本論文はディープグラフクラスタリングに関する最初の包括的調査を行う。 まず,ディープグラフクラスタリングの詳細な定義と重要なベースライン手法を紹介する。 さらに,グラフタイプ,ネットワークアーキテクチャ,学習パラダイム,クラスタリング手法の4つの異なる基準に基づいて,ディープグラフクラスタリング手法の分類法を提案する。 さらに,既存の作品の慎重な分析を通じて,5つの観点からの課題と機会を要約した。 最後に、4つの領域におけるディープグラフクラスタリングの応用について述べる。 論文やコード,データセットなど,最先端のディープグラフクラスタリングメソッドのコレクションがgithubで公開されている点に注意が必要だ。 この研究がクイックガイドとなり、この活気ある分野の課題を克服するのに役立つことを期待しています。

Graph clustering, which aims to divide the nodes in the graph into several distinct clusters, is a fundamental and challenging task. In recent years, deep graph clustering methods have been increasingly proposed and achieved promising performance. However, the corresponding survey paper is scarce and it is imminent to make a summary in this field. From this motivation, this paper makes the first comprehensive survey of deep graph clustering. Firstly, the detailed definition of deep graph clustering and the important baseline methods are introduced. Besides, the taxonomy of deep graph clustering methods is proposed based on four different criteria including graph type, network architecture, learning paradigm, and clustering method. In addition, through the careful analysis of the existing works, the challenges and opportunities from five perspectives are summarized. At last, the applications of deep graph clustering in four domains are presented. It is worth mentioning that a collection of state-of-the-art deep graph clustering methods including papers, codes, and datasets is available on GitHub. We hope this work will serve as a quick guide and help researchers to overcome challenges in this vibrant field.
翻訳日:2022-11-24 14:12:46 公開日:2022-11-23
# オートエンコーダによる概念ドリフトの教師なし学習

Unsupervised Unlearning of Concept Drift with Autoencoders ( http://arxiv.org/abs/2211.12989v1 )

ライセンス: Link先を確認
Andr\'e Artelt, Kleanthis Malialis, Christos Panayiotou, Marios Polycarpou, Barbara Hammer(参考訳) コンセプトドリフトの現象は、将来のサンプルのデータストリームに影響を与えるデータ分布の変化を指す。 その結果、データストリーム上で動作する学習モデルは時代遅れになり、再トレーニングや適応のようなコストがかかり難しい調整が必要になる。 概念ドリフトに対処する既存の方法は、通常、アクティブまたはパッシブに分類される。 前者は漸進学習を用いてモデルを継続的に適応し、後者はドリフト検出機構がアラームをトリガーするときに完全なモデル再訓練を行う。 我々は伝統的な道から出発し、コンセプトドリフトの効果を「解き放つ」代替アプローチを初めて提案する。 具体的には,データ上で動作する学習モデルの再トレーニングや適応を必要とせず,教師なしの方法で概念ドリフトを"アンラーニング"するオートエンコーダベースの手法を提案する。

The phenomena of concept drift refers to a change of the data distribution affecting the data stream of future samples -- such non-stationary environments are often encountered in the real world. Consequently, learning models operating on the data stream might become obsolete, and need costly and difficult adjustments such as retraining or adaptation. Existing methods to address concept drift are, typically, categorised as active or passive. The former continually adapt a model using incremental learning, while the latter perform a complete model retraining when a drift detection mechanism triggers an alarm. We depart from the traditional avenues and propose for the first time an alternative approach which "unlearns" the effects of the concept drift. Specifically, we propose an autoencoder-based method for "unlearning" the concept drift in an unsupervised manner, without having to retrain or adapt any of the learning models operating on the data.
翻訳日:2022-11-24 14:12:15 公開日:2022-11-23
# リスク認識と多目的強化学習のためのモンテカルロ木探索アルゴリズム

Monte Carlo Tree Search Algorithms for Risk-Aware and Multi-Objective Reinforcement Learning ( http://arxiv.org/abs/2211.13032v1 )

ライセンス: Link先を確認
Conor F. Hayes and Mathieu Reymond and Diederik M. Roijers and Enda Howley and Patrick Mannion(参考訳) 多くのリスク認識および多目的強化学習設定において、ユーザの有用性はポリシーの単一実行から導かれる。 これらの設定では、平均的な将来のリターンに基づいた決定は適切ではない。 例えば、医療現場では、患者は病気を治療する機会を1つだけ持つことができる。 期待される将来のリターン(強化学習でその価値として知られる)だけを使って決定を下すことは、決定が持つ可能性のある有害あるいはポジティブな結果の範囲を考慮できない。 したがって、期待される未来に対する分布は、エージェントが決定時に要求する重要な情報を表すために、未来と獲得されたリターンの両方を考慮に入れ、異なる方法で利用すべきである。 本稿では2つのモンテカルロ木探索アルゴリズムを提案する。 まず,非線形ユーティリティ関数(nlu-mcts)のポリシーを,個別のポリシー実行から実現可能な異なる帰納法の有用性を最適化することで計算し,リスク認識と多目的設定の両方に優れたポリシーをもたらすモンテカルロ木探索アルゴリズムを提案する。 次に,NLU-MCTSを拡張した分布型モンテカルロ木探索アルゴリズム(DMCTS)を提案する。 DMCTSはリターンの効用に関する近似した後続分布を計算し、トンプソンサンプリングを用いてリスク対応および多目的設定のポリシーを計算する。 どちらのアルゴリズムも、リターンの期待する有用性のために、多目的強化学習において最先端を上回っている。

In many risk-aware and multi-objective reinforcement learning settings, the utility of the user is derived from a single execution of a policy. In these settings, making decisions based on the average future returns is not suitable. For example, in a medical setting a patient may only have one opportunity to treat their illness. Making decisions using just the expected future returns -- known in reinforcement learning as the value -- cannot account for the potential range of adverse or positive outcomes a decision may have. Therefore, we should use the distribution over expected future returns differently to represent the critical information that the agent requires at decision time by taking both the future and accrued returns into consideration. In this paper, we propose two novel Monte Carlo tree search algorithms. Firstly, we present a Monte Carlo tree search algorithm that can compute policies for nonlinear utility functions (NLU-MCTS) by optimising the utility of the different possible returns attainable from individual policy executions, resulting in good policies for both risk-aware and multi-objective settings. Secondly, we propose a distributional Monte Carlo tree search algorithm (DMCTS) which extends NLU-MCTS. DMCTS computes an approximate posterior distribution over the utility of the returns, and utilises Thompson sampling during planning to compute policies in risk-aware and multi-objective settings. Both algorithms outperform the state-of-the-art in multi-objective reinforcement learning for the expected utility of the returns.
翻訳日:2022-11-24 14:12:02 公開日:2022-11-23
# powderworld:リッチなタスク分散による一般化を理解するプラットフォーム

Powderworld: A Platform for Understanding Generalization via Rich Task Distributions ( http://arxiv.org/abs/2211.13051v1 )

ライセンス: Link先を確認
Kevin Frans, Phillip Isola(参考訳) 強化学習の大きな課題の1つは、新しいタスクに一般化する能力である。 しかし、一般的なエージェントは訓練するために豊富な多様なタスクを必要とする。 そのようなタスクのための'基礎環境'を設計するのは難しい -- 理想的な環境は、様々な創発的な現象、表現力のあるタスク空間、高速なランタイムをサポートするだろう。 この研究ボトルネックに対処するために、この研究は、GPU上で直接実行される軽量で表現力のあるシミュレーション環境であるPowderworldを提示する。 powderworldでは、世界モデリングのためのものと強化学習のためのものという、2つのモチベーションのある課題が提示されている。 それぞれが一般化を調べるための手動で設計されたテストタスクを含んでいる。 実験により、環境の複雑さを増大させることで、世界モデルや特定の強化学習エージェントの一般化が向上するが、高分散環境における学習を阻害する可能性が示唆された。 Powderworldは、同じコアルールから生じる多様なタスクのソースを提供することで、一般化の研究を支援することを目指している。

One of the grand challenges of reinforcement learning is the ability to generalize to new tasks. However, general agents require a set of rich, diverse tasks to train on. Designing a `foundation environment' for such tasks is tricky -- the ideal environment would support a range of emergent phenomena, an expressive task space, and fast runtime. To take a step towards addressing this research bottleneck, this work presents Powderworld, a lightweight yet expressive simulation environment running directly on the GPU. Within Powderworld, two motivating challenges distributions are presented, one for world-modelling and one for reinforcement learning. Each contains hand-designed test tasks to examine generalization. Experiments indicate that increasing the environment's complexity improves generalization for world models and certain reinforcement learning agents, yet may inhibit learning in high-variance environments. Powderworld aims to support the study of generalization by providing a source of diverse tasks arising from the same core rules.
翻訳日:2022-11-24 14:11:38 公開日:2022-11-23
# コンセプトドリフト検出器は信頼性アラームシステムか? ─比較研究

Are Concept Drift Detectors Reliable Alarming Systems? -- A Comparative Study ( http://arxiv.org/abs/2211.13098v1 )

ライセンス: Link先を確認
Lorena Poenaru-Olaru, Luis Cruz, Arie van Deursen, Jan S. Rellermeyer(参考訳) 機械学習モデルがプロダクションシステムにおける従来のビジネスロジックを置き換えるにつれ、彼らのライフサイクル管理は重要な関心事になりつつある。 運用環境にデプロイされると、機械学習モデルは、新しいストリーミングデータに対して常に評価される。 連続的なデータフローを考えると、コンセプトドリフト(concept drift)としても知られるシフトデータは、そのような設定ではユビキタスである。 コンセプトドリフトは通常、機械学習モデルのパフォーマンスに影響を与えるため、概念ドリフトが発生する瞬間を特定する必要がある。 概念ドリフトは概念ドリフト検出器によって識別される。 本研究では, ドリフト検知器の信頼性を検証し, ドリフトがいつまで遅れているか, 誤報が何回鳴らされているかを調べる。 2つの異なる概念ドリフト検出器群に属する最も人気のあるドリフト検出器(誤差率に基づく検出器とデータ分布に基づく検出器)の性能を比較する。 合成データと実世界データの両方でその性能を評価する。 合成データの場合,2種類のコンセプトドリフト,突発的および漸進的なドリフトを検知する検出器の性能について検討する。 本研究は,ドリフト検出器をどのような状況で使用するべきかを実践者が理解することを目的としており,本研究を通じて最も重要な観測結果のリストを公開し,実際的利用のガイドラインとして提供する。 さらに,実験結果に基づき,警報システムとして使用する概念ドリフト検出グループの適合性について検討した。

As machine learning models increasingly replace traditional business logic in the production system, their lifecycle management is becoming a significant concern. Once deployed into production, the machine learning models are constantly evaluated on new streaming data. Given the continuous data flow, shifting data, also known as concept drift, is ubiquitous in such settings. Concept drift usually impacts the performance of machine learning models, thus, identifying the moment when concept drift occurs is required. Concept drift is identified through concept drift detectors. In this work, we assess the reliability of concept drift detectors to identify drift in time by exploring how late are they reporting drifts and how many false alarms are they signaling. We compare the performance of the most popular drift detectors belonging to two different concept drift detector groups, error rate-based detectors and data distribution-based detectors. We assess their performance on both synthetic and real-world data. In the case of synthetic data, we investigate the performance of detectors to identify two types of concept drift, abrupt and gradual. Our findings aim to help practitioners understand which drift detector should be employed in different situations and, to achieve this, we share a list of the most important observations made throughout this study, which can serve as guidelines for practical usage. Furthermore, based on our empirical results, we analyze the suitability of each concept drift detection group to be used as alarming system.
翻訳日:2022-11-24 14:11:23 公開日:2022-11-23
# バイナリニューラルネットワークによるImageNetの高精度クラブへの参加

Join the High Accuracy Club on ImageNet with A Binary Neural Network Ticket ( http://arxiv.org/abs/2211.12933v1 )

ライセンス: Link先を確認
Nianhui Guo, Joseph Bethge, Christoph Meinel, Haojin Yang(参考訳) バイナリニューラルネットワークは、エッジ機械学習ソリューションとして長年考えられてきた、ネットワーク量子化の極端なケースである。 しかし、実際の精度との大きなギャップは、モバイルアプリケーションに対する創造的可能性を制限する。 ILSVRC-2012 ImageNetでは、バイナリニューラルネットワークが重要な精度レベル(例えば80%)をどうやって達成できるのか? 我々は,(1)バイナリアーキテクチャの包括的研究と最適化プロセスに基づいて,新しいバイナリアーキテクチャbnextを設計すること,という3つの相補的な視点から最適化プロセスを強化することで,この目標を達成している。 2) 極めて正確なバイナリモデルを訓練する際の反直観的オーバーフィッティング問題を緩和する新しい知識蒸留手法を提案する。 3) バイナリネットワークのデータ拡張パイプラインを解析し, 高精度モデルによる最新の手法を用いて近代化する。 ImageNetの評価結果によると、BNextは初めてバイナリモデルの精度境界を80.57%に押し上げ、既存の全てのバイナリネットワークを大幅に上回っている。 コードとトレーニングされたモデルは、 (blind url, appendix を参照) で利用可能である。

Binary neural networks are the extreme case of network quantization, which has long been thought of as a potential edge machine learning solution. However, the significant accuracy gap to the full-precision counterparts restricts their creative potential for mobile applications. In this work, we revisit the potential of binary neural networks and focus on a compelling but unanswered problem: how can a binary neural network achieve the crucial accuracy level (e.g., 80%) on ILSVRC-2012 ImageNet? We achieve this goal by enhancing the optimization process from three complementary perspectives: (1) We design a novel binary architecture BNext based on a comprehensive study of binary architectures and their optimization process. (2) We propose a novel knowledge-distillation technique to alleviate the counter-intuitive overfitting problem observed when attempting to train extremely accurate binary models. (3) We analyze the data augmentation pipeline for binary networks and modernize it with up-to-date techniques from full-precision models. The evaluation results on ImageNet show that BNext, for the first time, pushes the binary model accuracy boundary to 80.57% and significantly outperforms all the existing binary networks. Code and trained models are available at: (blind URL, see appendix).
翻訳日:2022-11-24 14:05:46 公開日:2022-11-23
# 人間かマシンか? 視覚と言語のためのチューリングテスト

Human or Machine? Turing Tests for Vision and Language ( http://arxiv.org/abs/2211.13087v1 )

ライセンス: Link先を確認
Mengmi Zhang, Giorgia Dellaferrera, Ankur Sikarwar, Marcelo Armendariz, Noga Mudrik, Prachi Agrawal, Spandan Madan, Andrei Barbu, Haochen Yang, Tanishq Kumar, Meghna Sadwani, Stella Dellaferrera, Michele Pizzochero, Hanspeter Pfister, Gabriel Kreiman(参考訳) AIアルゴリズムは、かつて人類の唯一の州だった日々の活動にますます参加しているので、私たちは必然的に、機械が本当に私たちに似ているかを考える。 この問題に対処するため、チューリングテストに目を向け、現在のAIを人間を模倣する能力で体系的にベンチマークする。 本研究では,チューリング型テストにおける人間対機械の評価手法を確立し,選択された領域,パラメータ,変数の代表集合を体系的に評価する。 実験では、769人の人間エージェント、24人の最先端AIエージェント、896人の人間裁判官、8人のAI裁判官が、視覚と言語モダリティを含む6つのタスクにわたる21,570人のチューリングテストを行った。 驚くべきことに、現在のAIは、複雑な視覚的および言語的課題において、年齢、性別、教育レベルの異なる人間の裁判官を偽装できるわけではない。 対照的に、単純なAIは人間の答えと機械の答えを区別することで人間の判断を上回ります。 ここで紹介された大規模チューリングテストデータセットとその評価メトリクスは、エージェントが人間であるかどうかを評価するための貴重な洞察を提供する。 現在のaisにおける人間の模倣能力を評価するための定式化は、研究コミュニティがチューリングテストを他の研究領域や条件に拡大する方法である。 すべてのソースコードとデータはhttps://tinyurl.com/8x8nha7pで公開されている。

As AI algorithms increasingly participate in daily activities that used to be the sole province of humans, we are inevitably called upon to consider how much machines are really like us. To address this question, we turn to the Turing test and systematically benchmark current AIs in their abilities to imitate humans. We establish a methodology to evaluate humans versus machines in Turing-like tests and systematically evaluate a representative set of selected domains, parameters, and variables. The experiments involved testing 769 human agents, 24 state-of-the-art AI agents, 896 human judges, and 8 AI judges, in 21,570 Turing tests across 6 tasks encompassing vision and language modalities. Surprisingly, the results reveal that current AIs are not far from being able to impersonate human judges across different ages, genders, and educational levels in complex visual and language challenges. In contrast, simple AI judges outperform human judges in distinguishing human answers versus machine answers. The curated large-scale Turing test datasets introduced here and their evaluation metrics provide valuable insights to assess whether an agent is human or not. The proposed formulation to benchmark human imitation ability in current AIs paves a way for the research community to expand Turing tests to other research areas and conditions. All of source code and data are publicly available at https://tinyurl.com/8x8nha7p
翻訳日:2022-11-24 14:05:26 公開日:2022-11-23
# 物体検出のための構造知識蒸留

Structural Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2211.13133v1 )

ライセンス: Link先を確認
Philip de Rijk, Lukas Schneider, Marius Cordts, Dariu M. Gavrila(参考訳) 知識蒸留(KD)は、大きな教師モデルによって得られた知識を小学生に伝達するディープニューラルネットワークにおいてよく知られた訓練パラダイムである。 kdは、オブジェクト検出を含む様々なタスクにおける学生のパフォーマンスを大幅に改善する効果的な技術であることが証明されている。 したがって、kd技法は主に中間的特徴レベルでの指導に依存しており、訓練中に教師と生徒のアクティベーションの間のlpノルム距離を最小化することで実装される。 本稿では,構造的類似性(SSIM)に基づく画素単位独立lp-normの置き換えを提案する。 付加的なコントラストと構造的手がかりを考慮し, 特徴空間における特徴の重要性, 相関, 空間依存性を考慮する。 MSCOCOに関する大規模な実験は、異なるトレーニングスキームとアーキテクチャにわたる手法の有効性を実証している。 本手法は計算オーバーヘッドが少なく,実装が容易であると同時に,標準の lp-norm を著しく上回っている。 さらに、注意に基づくサンプリング機構を用いたより複雑な最先端KD手法は、バニラモデルに比べて高速なR-CNN R-50を用いた+3.5APゲインを含む性能が優れている。

Knowledge Distillation (KD) is a well-known training paradigm in deep neural networks where knowledge acquired by a large teacher model is transferred to a small student. KD has proven to be an effective technique to significantly improve the student's performance for various tasks including object detection. As such, KD techniques mostly rely on guidance at the intermediate feature level, which is typically implemented by minimizing an lp-norm distance between teacher and student activations during training. In this paper, we propose a replacement for the pixel-wise independent lp-norm based on the structural similarity (SSIM). By taking into account additional contrast and structural cues, feature importance, correlation and spatial dependence in the feature space are considered in the loss formulation. Extensive experiments on MSCOCO demonstrate the effectiveness of our method across different training schemes and architectures. Our method adds only little computational overhead, is straightforward to implement and at the same time it significantly outperforms the standard lp-norms. Moreover, more complex state-of-the-art KD methods using attention-based sampling mechanisms are outperformed, including a +3.5 AP gain using a Faster R-CNN R-50 compared to a vanilla model.
翻訳日:2022-11-24 14:04:47 公開日:2022-11-23
# 任意長高精細ビデオ生成のための潜時拡散モデル

Latent Video Diffusion Models for High-Fidelity Video Generation with Arbitrary Lengths ( http://arxiv.org/abs/2211.13221v1 )

ライセンス: Link先を確認
Yingqing He, Tianyu Yang, Yong Zhang, Ying Shan, Qifeng Chen(参考訳) AI生成コンテンツは近年多くの注目を集めているが、写真リアリスティックなビデオ合成はまだ難しい。 GANと自己回帰モデルを用いた多くの試みがこの領域で行われているが、生成したビデオの視覚的品質と長さは満足できない。 拡散モデル (DM) は深層生成モデルの別のクラスであり、最近では様々な画像合成タスクにおいて顕著な性能を達成している。 しかし、画像拡散モデルの訓練は通常、高パフォーマンスを達成するためにかなりの計算資源を必要とするため、高次元ビデオ合成タスクへの拡散モデルの拡張は計算コストが高くなる。 優位性を生かしながらこの問題を緩和するために,高忠実度および任意の長大映像を純雑音から合成する軽量ビデオ拡散モデルを導入する。 具体的には, 計算予算が限定された場合の3次元画素空間における従来の方法を大幅に上回る低次元3次元潜時空間における拡散と除音を行う。 さらに、何万フレームでトレーニングしても、私たちのモデルは任意の長さ、すなわち数千フレームの動画を自己回帰的に生成することができます。 最後に, 条件付き潜伏摂動を導入し, 長周期ビデオの合成における性能劣化を低減する。 さまざまなデータセットと生成した長さに関する広範な実験は、ganベース、自己回帰ベース、拡散ベースなど、以前のアプローチよりもずっとリアルで長いビデオをサンプリングできることを示唆している。

AI-generated content has attracted lots of attention recently, but photo-realistic video synthesis is still challenging. Although many attempts using GANs and autoregressive models have been made in this area, the visual quality and length of generated videos are far from satisfactory. Diffusion models (DMs) are another class of deep generative models and have recently achieved remarkable performance on various image synthesis tasks. However, training image diffusion models usually requires substantial computational resources to achieve a high performance, which makes expanding diffusion models to high-dimensional video synthesis tasks more computationally expensive. To ease this problem while leveraging its advantages, we introduce lightweight video diffusion models that synthesize high-fidelity and arbitrary-long videos from pure noise. Specifically, we propose to perform diffusion and denoising in a low-dimensional 3D latent space, which significantly outperforms previous methods on 3D pixel space when under a limited computational budget. In addition, though trained on tens of frames, our models can generate videos with arbitrary lengths, i.e., thousands of frames, in an autoregressive way. Finally, conditional latent perturbation is further introduced to reduce performance degradation during synthesizing long-duration videos. Extensive experiments on various datasets and generated lengths suggest that our framework is able to sample much more realistic and longer videos than previous approaches, including GAN-based, autoregressive-based, and diffusion-based methods.
翻訳日:2022-11-24 14:04:15 公開日:2022-11-23
# 感情・感性特徴を用いたサルカズム検出フレームワーク

Sarcasm Detection Framework Using Emotion and Sentiment Features ( http://arxiv.org/abs/2211.13014v1 )

ライセンス: Link先を確認
Oxana Vitman, Yevhen Kostiuk, Grigori Sidorov, Alexander Gelbukh(参考訳) Sarcasm検出は、議論フォーラムやツイートなど、ユーザ生成データ内の実際の感情を識別する上で不可欠なタスクである。 サルカズム(英: sarcasm)は、表面的な意味が通常内的、より深い意味と矛盾するため、洗練された言語表現である。 このような違和感はサルカズムの重要な構成要素であるが、サルカズムの検出は非常に難しい課題である。 本稿では,サルカズムに固有の違和感を捉えるために感情と感情の特徴を組み込んだモデルを提案する。 さらに,cnnと事前学習トランスフォーマを使用してコンテキスト特徴をキャプチャする。 我々のアプローチは、ソーシャルネットワークプラットフォームとオンラインメディアの4つのデータセットに対して、最先端の結果を得た。

Sarcasm detection is an essential task that can help identify the actual sentiment in user-generated data, such as discussion forums or tweets. Sarcasm is a sophisticated form of linguistic expression because its surface meaning usually contradicts its inner, deeper meaning. Such incongruity is the essential component of sarcasm, however, it makes sarcasm detection quite a challenging task. In this paper, we propose a model which incorporates emotion and sentiment features to capture the incongruity intrinsic to sarcasm. Moreover, we use CNN and pre-trained Transformer to capture context features. Our approach achieved state-of-the-art results on four datasets from social networking platforms and online media.
翻訳日:2022-11-24 14:03:50 公開日:2022-11-23
# TorchScale: スケールでのトランスフォーマー

TorchScale: Transformers at Scale ( http://arxiv.org/abs/2211.13184v1 )

ライセンス: Link先を確認
Shuming Ma, Hongyu Wang, Shaohan Huang, Wenhui Wang, Zewen Chi, Li Dong, Alon Benhaim, Barun Patra, Vishrav Chaudhary, Xia Song, Furu Wei(参考訳) 大規模トランスフォーマーは多くのタスクで最先端のパフォーマンスを達成した。 スケーリングトランスフォーマーのほとんどのオープンソースライブラリは、トレーニングや推論の改善と並列化の改善に重点を置いている。 本稿では,研究者や開発者が効率的にTransformerをスケールアップできるオープンソースツールキットであるTorchScaleを紹介する。 TorchScaleには,モデリングの汎用性と能力の向上,安定性と効率のトレーニングなど,いくつかのモデリングテクニックが実装されている。 言語モデリングとニューラルマシン翻訳の実験結果は、トーチスケールが涙なしでトランスフォーマーを異なるサイズにスケールできることを示した。 ライブラリはhttps://aka.ms/torchscale.comで入手できる。

Large Transformers have achieved state-of-the-art performance across many tasks. Most open-source libraries on scaling Transformers focus on improving training or inference with better parallelization. In this work, we present TorchScale, an open-source toolkit that allows researchers and developers to scale up Transformers efficiently and effectively. TorchScale has the implementation of several modeling techniques, which can improve modeling generality and capability, as well as training stability and efficiency. Experimental results on language modeling and neural machine translation demonstrate that TorchScale can successfully scale Transformers to different sizes without tears. The library is available at https://aka.ms/torchscale.
翻訳日:2022-11-24 14:03:38 公開日:2022-11-23
# SeedBERT: 集約ラベルからアノテーションのレーティング分布を復元する

SeedBERT: Recovering Annotator Rating Distributions from an Aggregated Label ( http://arxiv.org/abs/2211.13196v1 )

ライセンス: Link先を確認
Aneesha Sampath, Victoria Lin, Louis-Philippe Morency(参考訳) 多くの機械学習タスク、特に感情的コンピューティングタスクは、本質的に主観的です。 表情の分類や個人の魅力の評価を求めると、人間は互いに意見が一致せず、客観的に正しい答えは得られない。 しかしながら、機械学習データセットは、サンプル毎に単一の"ground truth"ラベルを持つことが多いため、これらのラベルでトレーニングされたモデルは、本質的に主観的なタスクではうまく機能しない可能性がある。 個々のアノテータのレーティングからモデルを学習することは有効であるが、ほとんどのデータセットは各サンプルに対してアノテータ固有のラベルを提供していない。 そこで本研究では,入力の異なる部分に対応するために事前学習したモデルを誘導することにより,単一ラベルからアノテータ評価分布を復元するSeedBERTを提案する。 人間の評価は,SeedBERTの注意機構がアノテータの不一致の原因と一致していることを示している。 さらに,大規模な言語モデルを用いた経験的評価では,標準的なディープラーニングモデルとアノテータの不一致を明示する他のモデルと比較して,下流の主観的タスクにおける性能が著しく向上したことを示す。

Many machine learning tasks -- particularly those in affective computing -- are inherently subjective. When asked to classify facial expressions or to rate an individual's attractiveness, humans may disagree with one another, and no single answer may be objectively correct. However, machine learning datasets commonly have just one "ground truth" label for each sample, so models trained on these labels may not perform well on tasks that are subjective in nature. Though allowing models to learn from the individual annotators' ratings may help, most datasets do not provide annotator-specific labels for each sample. To address this issue, we propose SeedBERT, a method for recovering annotator rating distributions from a single label by inducing pre-trained models to attend to different portions of the input. Our human evaluations indicate that SeedBERT's attention mechanism is consistent with human sources of annotator disagreement. Moreover, in our empirical evaluations using large language models, SeedBERT demonstrates substantial gains in performance on downstream subjective tasks compared both to standard deep learning models and to other current models that account explicitly for annotator disagreement.
翻訳日:2022-11-24 14:03:29 公開日:2022-11-23
# DyRRen: 単語とテキストデータを用いた数値推論のための動的Retriever-Reranker-Generatorモデル

DyRRen: A Dynamic Retriever-Reranker-Generator Model for Numerical Reasoning over Tabular and Textual Data ( http://arxiv.org/abs/2211.12668v1 )

ライセンス: Link先を確認
Xiao Li, Yin Zhu, Sichen Liu, Jiangzhou Ju, Yuzhong Qu, Gong Cheng(参考訳) テーブルと長いテキストを含むハイブリッドデータに対する数値推論は、最近AIコミュニティから研究の注目を集めている。 質問に答えるために数学とテーブル操作からなる実行可能な推論プログラムを生成するために、最先端の手法は、検索器ジェネレータパイプラインを使用する。 しかし、検索結果は静的であり、異なる生成ステップは異なる文に依存する可能性がある。 本稿では,各生成ステップに関連する検索情報に対応するために,検索文の動的更新によって各生成ステップが強化される拡張された検索-参照-生成フレームワークDyRRenを提案する。 FinQAデータセットの既存のベースラインを上回ります。

Numerical reasoning over hybrid data containing tables and long texts has recently received research attention from the AI community. To generate an executable reasoning program consisting of math and table operations to answer a question, state-of-the-art methods use a retriever-generator pipeline. However, their retrieval results are static, while different generation steps may rely on different sentences. To attend to the retrieved information that is relevant to each generation step, in this paper, we propose DyRRen, an extended retriever-reranker-generator framework where each generation step is enhanced by a dynamic reranking of retrieved sentences. It outperforms existing baselines on the FinQA dataset.
翻訳日:2022-11-24 14:02:38 公開日:2022-11-23
# 漢字の表現基盤を打破する:ストロークシーケンスモデリングを用いたニューラルマシン翻訳

Breaking the Representation Bottleneck of Chinese Characters: Neural Machine Translation with Stroke Sequence Modeling ( http://arxiv.org/abs/2211.12781v1 )

ライセンス: Link先を確認
Zhijun Wang, Xuebo Liu, Min Zhang(参考訳) 現存する研究は通常、漢字を表現の最小単位として扱う。 しかし、このような漢字表現には2つのボトルネックがある。 1)学習ボトルネック、学習は、その豊富な内部特徴(例えば、急進性とストローク)の恩恵を受けることができない。 2) パラメータのボトルネック,各文字を一意なベクトルで表現する必要がある。 本稿では,ラテン化ストローク列で漢字を表現したストロークネット(ao1(concave)→ajaie(ajaie)→tu1(convex)→aeaqe(aeaqe))という,漢字のボトルネックを解消するための新しい表現法を提案する。 具体的には、StrokeNetは各ストロークを特定のラテン文字にマッピングし、類似の漢字が同様のラテン表現を持つようにしている。 strokenet to neural machine translation (nmt) の導入により、非ラテン言語(例えば、共用サブワード語彙学習や暗号テキストベースのデータ拡張)に応用できない多くの強力な技術が完全に実装できるようになった。 NIST Chinese- English, WMT17 Chinese- English and IWSLT17 Japanese- English NMT task において、StrokeNet は強力なベースラインに対して、より少ないモデルパラメータで大幅な性能向上を実現し、WMT17 Chinese- English task において26.5 BLEU を達成した。 コードとスクリプトはhttps://github.com/zjwang21/StrokeNetで無料で入手できる。

Existing research generally treats Chinese character as a minimum unit for representation. However, such Chinese character representation will suffer two bottlenecks: 1) Learning bottleneck, the learning cannot benefit from its rich internal features (e.g., radicals and strokes); and 2) Parameter bottleneck, each individual character has to be represented by a unique vector. In this paper, we introduce a novel representation method for Chinese characters to break the bottlenecks, namely StrokeNet, which represents a Chinese character by a Latinized stroke sequence (e.g., "ao1 (concave)" to "ajaie" and "tu1 (convex)" to "aeaqe"). Specifically, StrokeNet maps each stroke to a specific Latin character, thus allowing similar Chinese characters to have similar Latin representations. With the introduction of StrokeNet to neural machine translation (NMT), many powerful but not applicable techniques to non-Latin languages (e.g., shared subword vocabulary learning and ciphertext-based data augmentation) can now be perfectly implemented. Experiments on the widely-used NIST Chinese-English, WMT17 Chinese-English and IWSLT17 Japanese-English NMT tasks show that StrokeNet can provide a significant performance boost over the strong baselines with fewer model parameters, achieving 26.5 BLEU on the WMT17 Chinese-English task which is better than any previously reported results without using monolingual data. Code and scripts are freely available at https://github.com/zjwang21/StrokeNet.
翻訳日:2022-11-24 13:56:57 公開日:2022-11-23
# GraphWOZ:会話知識グラフを用いた対話管理

GraphWOZ: Dialogue Management with Conversational Knowledge Graphs ( http://arxiv.org/abs/2211.12852v1 )

ライセンス: Link先を確認
Nicholas Thomas Walker, Stefan Ultes, Pierre Lison(参考訳) 本稿では,対話状態のコア表現として会話知識グラフを用いた対話管理手法を提案する。 この目的のために,人間の参加者が受付係として働くロボットと対話する,Wizard-of-Oz対話を含む新しいデータセットGraphWOZを導入する。 対話管理に関する既存のほとんどの作業とは対照的に、GraphWOZはスロットの固定セットではなく、動的知識グラフとして明示的に表される対話状態に依存している。 このグラフは、さまざまなエンティティ(個人、場所、イベント、発話、言及など)とそれらの関係(グループの一員である人、イベントに参加する人など)で構成されている。 グラフは、新しい観測とシステムアクションに基づいて定期的に更新される。 GraphWOZは、ユーザ意図、システム応答、およびユーザとシステムターンの両方で発生する参照関係に関する詳細なマニュアルアノテーションとともにリリースされた。 GraphWOZに基づいて,対話型エンティティリンクと応答ランキングという2つの対話管理タスクの実験結果を示す。 対話型エンティティリンクでは,文字列とグラフに基づく特徴の組み合わせに依存したニューラルモデルを用いて,知識グラフ内の発話参照を対応するエンティティに接続する方法を示す。 次に、応答ランキングは、グラフの関連内容をテキストに要約し、対話履歴と連結し、所定の対話状態に対して可能な応答をスコアする入力として使用される。

We present a new approach to dialogue management using conversational knowledge graphs as core representation of the dialogue state. To this end, we introduce a new dataset, GraphWOZ, which comprises Wizard-of-Oz dialogues in which human participants interact with a robot acting as a receptionist. In contrast to most existing work on dialogue management, GraphWOZ relies on a dialogue state explicitly represented as a dynamic knowledge graph instead of a fixed set of slots. This graph is composed of a varying number of entities (such as individuals, places, events, utterances and mentions) and relations between them (such as persons being part of a group or attending an event). The graph is then regularly updated on the basis of new observations and system actions. GraphWOZ is released along with detailed manual annotations related to the user intents, system responses, and reference relations occurring in both user and system turns. Based on GraphWOZ, we present experimental results for two dialogue management tasks, namely conversational entity linking and response ranking. For conversational entity linking, we show how to connect utterance mentions to their corresponding entity in the knowledge graph with a neural model relying on a combination of both string and graph-based features. Response ranking is then performed by summarizing the relevant content of the graph into a text, which is concatenated with the dialogue history and employed as input to score possible responses to a given dialogue state.
翻訳日:2022-11-24 13:56:23 公開日:2022-11-23
# 何が起きたのか:マルチモーダルマスクビデオ生成によるテキストガイドビデオの完成

Tell Me What Happened: Unifying Text-guided Video Completion via Multimodal Masked Video Generation ( http://arxiv.org/abs/2211.12824v1 )

ライセンス: Link先を確認
Tsu-Jui Fu, Licheng Yu, Ning Zhang, Cheng-Yang Fu, Jong-Chyi Su, William Yang Wang, Sean Bell(参考訳) 最初のいくつかの静的フレームを与えられたビデオを生成することは、時間的コヒーレンスで合理的な将来のフレームを予測できるため、難しい。 ビデオ予測の他に、最後のフレームから巻き戻したり、頭と尾の間に埋め込む能力も重要であるが、ビデオ補完のために探索されることはめったにない。 ほんの数フレームのヒントから異なる結果が得られる可能性があるため、自然言語に従ってビデオ補完を行うシステムは、制御性を大幅に改善する可能性がある。 そこで本研究では,テキスト誘導ビデオ補完(TVC)という新たなタスクを導入し,命令で案内された部分フレームから映像を生成することをモデルに要求する。 次に,このTVC課題に対処するため,MMVG(Multimodal Masked Video Generation)を提案する。 トレーニング中、MMVGはビデオフレームを視覚トークンとマスクに識別し、そのほとんどが任意の時点からビデオ補完を行う。 推測時に、単一のMMVGモデルは、対応するマスキング条件を適用することで、ビデオ予測、巻き戻し、埋め込みを含むTVCの3つのケースすべてに対処することができる。 我々は、エゴセントリック、アニメーション、ゲームなど、様々なビデオシナリオでMMVGを評価する。 広汎な実験結果から,MMVGはTVCのテキスト誘導による高品質な視覚的外観の生成に有効であることが示唆された。

Generating a video given the first several static frames is challenging as it anticipates reasonable future frames with temporal coherence. Besides video prediction, the ability to rewind from the last frame or infilling between the head and tail is also crucial, but they have rarely been explored for video completion. Since there could be different outcomes from the hints of just a few frames, a system that can follow natural language to perform video completion may significantly improve controllability. Inspired by this, we introduce a novel task, text-guided video completion (TVC), which requests the model to generate a video from partial frames guided by an instruction. We then propose Multimodal Masked Video Generation (MMVG) to address this TVC task. During training, MMVG discretizes the video frames into visual tokens and masks most of them to perform video completion from any time point. At inference time, a single MMVG model can address all 3 cases of TVC, including video prediction, rewind, and infilling, by applying corresponding masking conditions. We evaluate MMVG in various video scenarios, including egocentric, animation, and gaming. Extensive experimental results indicate that MMVG is effective in generating high-quality visual appearances with text guidance for TVC.
翻訳日:2022-11-24 13:56:03 公開日:2022-11-23
# 自動構築アタックアンサンブルによる信頼性ロバスト性評価

Reliable Robustness Evaluation via Automatically Constructed Attack Ensembles ( http://arxiv.org/abs/2211.12713v1 )

ライセンス: Link先を確認
Shengcai Liu, Fu Peng, Ke Tang(参考訳) 複数の攻撃を組み合わせるアタック・アンサンブル(AE)は、敵の堅牢性を評価する信頼性の高い方法を提供する。 実際には、AEは人間の専門家によって構築され、調整されることが多いが、これは準最適で時間を要する傾向がある。 本稿では,AEを自動構築するための概念的にシンプルなアプローチであるAutoAEを提案する。 簡単に言うと、autoaeはアタックとそのイテレーションステップをアンサンブルに追加し、追加のイテレーションに対してアンサンブルの改善を最大化する。 理論上、AutoAEは与えられた防御に最適の定数係数でAEを確実に得ることを示す。 次に、AutoAEを使用して、$l_{\infty}$と$l_2$攻撃用の2つのAEを構築し、ロバストベンチリーダーボード上の45のトップ敵防衛にチューニングや適応をせずにそれらを適用します。 1つのケースを除いて、既存のaesよりもロバスト性評価が等しく(しばしば後者)、特に29ケースでは、最もよく知られたものよりもロバスト性評価が優れています。 このようなAutoAEの性能は、自身を敵の堅牢性に対する信頼性の高い評価プロトコルとして示しており、さらに自動AE構築の可能性を示している。 コードは \url{https://github.com/LeegerPENG/AutoAE} で入手できる。

Attack Ensemble (AE), which combines multiple attacks together, provides a reliable way to evaluate adversarial robustness. In practice, AEs are often constructed and tuned by human experts, which however tends to be sub-optimal and time-consuming. In this work, we present AutoAE, a conceptually simple approach for automatically constructing AEs. In brief, AutoAE repeatedly adds the attack and its iteration steps to the ensemble that maximizes ensemble improvement per additional iteration consumed. We show theoretically that AutoAE yields AEs provably within a constant factor of the optimal for a given defense. We then use AutoAE to construct two AEs for $l_{\infty}$ and $l_2$ attacks, and apply them without any tuning or adaptation to 45 top adversarial defenses on the RobustBench leaderboard. In all except one cases we achieve equal or better (often the latter) robustness evaluation than existing AEs, and notably, in 29 cases we achieve better robustness evaluation than the best known one. Such performance of AutoAE shows itself as a reliable evaluation protocol for adversarial robustness, which further indicates the huge potential of automatic AE construction. Code is available at \url{https://github.com/LeegerPENG/AutoAE}.
翻訳日:2022-11-24 13:55:41 公開日:2022-11-23
# 機能的コネクトーム:ニューラルネットワークによる脳ネットワークの近似化

Functional Connectome: Approximating Brain Networks with Artificial Neural Networks ( http://arxiv.org/abs/2211.12935v1 )

ライセンス: Link先を確認
Sihao Liu (Daniel), Augustine N Mavor-Parker, Caswell Barry(参考訳) 生体神経回路, 機能コネクトームによってインスタンス化された関数を近似する深層学習の能力を探究することを目的とした。 ディープニューラルネットワークを用いて,人工的に構築したニューラルネットワークと,実験的に支持された境界ベクトル型セルプレースセルネットワークによる発火速度観測を行い,教師あり学習を行った。 訓練されたネットワークの性能は、様々な基準とタスクを用いて定量化した。 その結果, 深層ニューラルネットワークは, 合成生物ネットワークによる計算を高精度に捉えることができ, データの効率が高く, 生体可塑性にも頑健であった。 訓練された深層ニューラルネットワークは、新しい環境でゼロショットの一般化を実行でき、宇宙における動物の位置を高精度に復号するといった、豊富なタスクを実現できることを示す。 本研究は,システム神経科学における新しい,有望な方向性を明らかにし,目標指向強化学習など,多数の下流応用によって拡張することができる。

We aimed to explore the capability of deep learning to approximate the function instantiated by biological neural circuits-the functional connectome. Using deep neural networks, we performed supervised learning with firing rate observations drawn from synthetically constructed neural circuits, as well as from an empirically supported Boundary Vector Cell-Place Cell network. The performance of trained networks was quantified using a range of criteria and tasks. Our results show that deep neural networks were able to capture the computations performed by synthetic biological networks with high accuracy, and were highly data efficient and robust to biological plasticity. We show that trained deep neural networks are able to perform zero-shot generalisation in novel environments, and allows for a wealth of tasks such as decoding the animal's location in space with high accuracy. Our study reveals a novel and promising direction in systems neuroscience, and can be expanded upon with a multitude of downstream applications, for example, goal-directed reinforcement learning.
翻訳日:2022-11-24 13:55:19 公開日:2022-11-23
# 統合事前学習型変圧器ピラミッドネットワーク

Integrally Pre-Trained Transformer Pyramid Networks ( http://arxiv.org/abs/2211.12735v1 )

ライセンス: Link先を確認
Yunjie Tian, Lingxi Xie, Zhaozhi Wang, Longhui Wei, Xiaopeng Zhang, Jianbin Jiao, Yaowei Wang, Qi Tian, Qixiang Ye(参考訳) 本稿では,マスク画像モデリング(MIM)に基づく統合事前学習フレームワークを提案する。 我々は,MIMと下流認識タスク間の伝達ギャップを最小限に抑えるために,バックボーンとネックを共同で事前訓練することを提唱する。 私たちは2つの技術貢献をします。 まず,事前学習段階に特徴ピラミッドを挿入することで,復元と認識の首を統一する。 第二に、マスク画像モデリング(MIM)とマスク特徴モデリング(MFM)を補完し、特徴ピラミッドの多段階監視を行う。 統合的に事前訓練されたトランスフォーマーピラミッドネットワーク(iTPN)と呼ばれる事前学習モデルは、視覚認識のための強力な基礎モデルとして機能する。 特に、ベースレベルのiTPNはImageNet-1Kで86.2%/87.8%、Mask-RCNNで1xのトレーニングスケジュールでCOCOオブジェクト検出で53.2%/55.6%、UPerHeadでADE20Kセマンティックセグメンテーションで54.7%/57.7% mIoUを達成した。 私たちの作業は、上流の事前トレーニングと下流の微調整タスクの統合に取り組むコミュニティに刺激を与えます。 コードと事前トレーニングされたモデルはhttps://github.com/sunsmarterjie/iTPNでリリースされる。

In this paper, we present an integral pre-training framework based on masked image modeling (MIM). We advocate for pre-training the backbone and neck jointly so that the transfer gap between MIM and downstream recognition tasks is minimal. We make two technical contributions. First, we unify the reconstruction and recognition necks by inserting a feature pyramid into the pre-training stage. Second, we complement mask image modeling (MIM) with masked feature modeling (MFM) that offers multi-stage supervision to the feature pyramid. The pre-trained models, termed integrally pre-trained transformer pyramid networks (iTPNs), serve as powerful foundation models for visual recognition. In particular, the base/large-level iTPN achieves an 86.2%/87.8% top-1 accuracy on ImageNet-1K, a 53.2%/55.6% box AP on COCO object detection with 1x training schedule using Mask-RCNN, and a 54.7%/57.7% mIoU on ADE20K semantic segmentation using UPerHead -- all these results set new records. Our work inspires the community to work on unifying upstream pre-training and downstream fine-tuning tasks. Code and the pre-trained models will be released at https://github.com/sunsmarterjie/iTPN.
翻訳日:2022-11-24 13:54:12 公開日:2022-11-23
# 自己教師型学習による文脈からの推論

Reason from Context with Self-supervised Learning ( http://arxiv.org/abs/2211.12817v1 )

ライセンス: Link先を確認
Xiao Liu, Ankur Sikarwar, Joo Hwee Lim, Gabriel Kreiman, Zenglin Shi, Mengmi Zhang(参考訳) 空の小さな物体は象ではありません。 文脈推論は視覚認識において重要であり、現在の入力は以前の経験や知識から解釈する必要がある。 これまで,視覚認識における文脈推論の研究は,教師付き学習手法によって大きく進められてきた。 自己監督学習体制で文脈知識を捉えることができるかという疑問は未検討のままである。 ここでは,文脈認識型自己教師付き学習の方法論を確立した。 本研究では,SeCo への入力は,自然の場面に複数オブジェクトが存在するラベル付き画像のみである,SeCo の自己教師付き学習手法を提案する。 人間の視覚における焦点と周囲の区別と同様に、SeCoは自己提案対象領域とそのコンテキストを別々に処理し、学習可能な外部メモリを使用してコンテキスト関連対象情報の検索と更新を行う。 計算モデルを用いて学習した文脈関連性を評価するため、文脈推論における「何」と「どこで」の問題に対処するため、リフト・ザ・フラップとオブジェクトプライミングという2つの評価プロトコルを導入した。 どちらのタスクでも、SeCoは最先端(SOTA)の自己教師型学習手法を大きなマージンで上回りました。 ネットワーク分析の結果、SeCoの外部メモリは、事前のコンテキスト知識を記憶し、リフト・ザ・フラップタスクにおけるターゲットの同一性推論を容易にすることが判明した。 さらに,精神物理学実験を行い,対象プライミングデータセット(HOP)にHumanベンチマークを導入した。 定量的および定性的な結果から,SeCoは人間レベルの性能を近似し,人間的な行動を示すことが示された。 ソースコードとデータはすべて、ここで公開されています。

A tiny object in the sky cannot be an elephant. Context reasoning is critical in visual recognition, where current inputs need to be interpreted in the light of previous experience and knowledge. To date, research into contextual reasoning in visual recognition has largely proceeded with supervised learning methods. The question of whether contextual knowledge can be captured with self-supervised learning regimes remains under-explored. Here, we established a methodology for context-aware self-supervised learning. We proposed a novel Self-supervised Learning Method for Context Reasoning (SeCo), where the only inputs to SeCo are unlabeled images with multiple objects present in natural scenes. Similar to the distinction between fovea and periphery in human vision, SeCo processes self-proposed target object regions and their contexts separately, and then employs a learnable external memory for retrieving and updating context-relevant target information. To evaluate the contextual associations learned by the computational models, we introduced two evaluation protocols, lift-the-flap and object priming, addressing the problems of "what" and "where" in context reasoning. In both tasks, SeCo outperformed all state-of-the-art (SOTA) self-supervised learning methods by a significant margin. Our network analysis revealed that the external memory in SeCo learns to store prior contextual knowledge, facilitating target identity inference in lift-the-flap task. Moreover, we conducted psychophysics experiments and introduced a Human benchmark in Object Priming dataset (HOP). Our quantitative and qualitative results demonstrate that SeCo approximates human-level performance and exhibits human-like behavior. All our source code and data are publicly available here.
翻訳日:2022-11-24 13:53:46 公開日:2022-11-23
# FeTrIL: 初級クラス増分学習のための特徴翻訳

FeTrIL: Feature Translation for Exemplar-Free Class-Incremental Learning ( http://arxiv.org/abs/2211.13131v1 )

ライセンス: Link先を確認
Gr\'egoire Petit, Adrian Popescu, Hugo Schindler, David Picard, Bertrand Delezoide(参考訳) 難解なクラスインクリメンタル学習は、破滅的な放棄の悪影響のため、非常に困難である。 新しいクラスだけでなく過去の精度を高めるためには, 段階的プロセスの安定性と可塑性のバランスが必要である。 既存の非古典的クラス増分法は、モデルの連続的な微調整に焦点をあて、可塑性を優先するか、初期漸進状態後に固定された特徴抽出器を使用するか、安定性を優先する。 固定特徴抽出器と擬似特徴生成器を組み合わせて安定性・塑性バランスを改善する手法を提案する。 ジェネレータは、新しいクラス機能の単純かつ効果的な幾何学的変換を使用して、擬似機能で作られた過去のクラスの表現を生成する。 機能の翻訳は、擬似特徴を生成するために過去のクラスのセントロイド表現の保存のみを必要とする。 新しいクラスの実際の特徴と過去のクラスの擬似特徴を線形分類器に入力し、すべてのクラスを識別するために漸進的に訓練する。 深層モデル全体を更新する主流のプロセスに比べて,提案手法よりもインクリメンタルなプロセスの方がはるかに高速である。 実験は3つの挑戦的なデータセットと異なるインクリメンタル設定で実施される。 既存手法10例と比較したところ,本手法はほとんどの場合,他の手法よりも優れていた。

Exemplar-free class-incremental learning is very challenging due to the negative effect of catastrophic forgetting. A balance between stability and plasticity of the incremental process is needed in order to obtain good accuracy for past as well as new classes. Existing exemplar-free class-incremental methods focus either on successive fine tuning of the model, thus favoring plasticity, or on using a feature extractor fixed after the initial incremental state, thus favoring stability. We introduce a method which combines a fixed feature extractor and a pseudo-features generator to improve the stability-plasticity balance. The generator uses a simple yet effective geometric translation of new class features to create representations of past classes, made of pseudo-features. The translation of features only requires the storage of the centroid representations of past classes to produce their pseudo-features. Actual features of new classes and pseudo-features of past classes are fed into a linear classifier which is trained incrementally to discriminate between all classes. The incremental process is much faster with the proposed method compared to mainstream ones which update the entire deep model. Experiments are performed with three challenging datasets, and different incremental settings. A comparison with ten existing methods shows that our method outperforms the others in most cases.
翻訳日:2022-11-24 13:48:17 公開日:2022-11-23
# CODA-Prompt:リハーサルなし連続学習のための意図に基づく意識型プロンプト

CODA-Prompt: COntinual Decomposed Attention-based Prompting for Rehearsal-Free Continual Learning ( http://arxiv.org/abs/2211.13218v1 )

ライセンス: Link先を確認
James Seale Smith, Leonid Karlinsky, Vyshnavi Gutta, Paola Cascante-Bonilla, Donghyun Kim, Assaf Arbelle, Rameswar Panda, Rogerio Feris, Zsolt Kira(参考訳) コンピュータビジョンモデルは、連続的なトレーニングデータから新しい概念を学ぶとき、破滅的な忘れと呼ばれる現象に苦しむ。 この継続学習問題の典型的な解決策は、以前見られたデータの広範なリハーサルを必要とする。 近年,大規模な事前学習型視覚トランスフォーマーモデルの出現により,データリハーサルの代替として,プロンプトアプローチが実現されている。 これらのアプローチは、プロンプトを生成するキークエリ機構に依存しており、十分に確立されたリハーサルのない連続学習環境において、破滅的な忘れ方に非常に耐性があることが判明した。 しかし、これらのメソッドの重要なメカニズムは、タスクシーケンスでエンドツーエンドを訓練するものではない。 実験の結果,これによって可塑性が低下し,新たなタスク精度が犠牲になり,パラメータの容量が拡張できないことがわかった。 そこで我々は,入力条件付きプロンプトを生成するために,入力条件付き重みで組み立てられた一連のプロンプトコンポーネントを学習することを提案する。 実験の結果,既存のベンチマークにおけるSOTA法であるDualPromptを平均精度で5.4%上回っていることがわかった。 また,多くの実践的設定に対応するクラス単位とドメイン単位の両方のタスクシフトを含む連続学習ベンチマークにおいて,芸術の状態を最大6.6%の精度で上回っている。

Computer vision models suffer from a phenomenon known as catastrophic forgetting when learning novel concepts from continuously shifting training data. Typical solutions for this continual learning problem require extensive rehearsal of previously seen data, which increases memory costs and may violate data privacy. Recently, the emergence of large-scale pre-trained vision transformer models has enabled prompting approaches as an alternative to data-rehearsal. These approaches rely on a key-query mechanism to generate prompts and have been found to be highly resistant to catastrophic forgetting in the well-established rehearsal-free continual learning setting. However, the key mechanism of these methods is not trained end-to-end with the task sequence. Our experiments show that this leads to a reduction in their plasticity, hence sacrificing new task accuracy, and inability to benefit from expanded parameter capacity. We instead propose to learn a set of prompt components which are assembled with input-conditioned weights to produce input-conditioned prompts, resulting in a novel attention-based end-to-end key-query scheme. Our experiments show that we outperform the current SOTA method DualPrompt on established benchmarks by as much as 5.4% in average accuracy. We also outperform the state of art by as much as 6.6% accuracy on a continual learning benchmark which contains both class-incremental and domain-incremental task shifts, corresponding to many practical settings.
翻訳日:2022-11-24 13:47:59 公開日:2022-11-23
# 深層スパイクとニューラルネットワークのための塑性インスパイア適応プルーニングの開発

Developmental Plasticity-inspired Adaptive Pruning for Deep Spiking and Artificial Neural Networks ( http://arxiv.org/abs/2211.12714v1 )

ライセンス: Link先を確認
Bing Han, Feifei Zhao, Yi Zeng, Guobin Shen(参考訳) 発達的可塑性は、動的に変化する環境に反応して学習中の脳の構造を形成する上で重要な役割を担っている。 しかし、ディープ人工知能ニューラルネットワーク(ANN)とスパイクニューラルネットワーク(SNN)の既存のネットワーク圧縮手法は、脳の発達的可塑性機構からほとんどインスピレーションを受けず、効率的に、迅速に、正確に学習する能力を制限する。 本稿では, 樹状突起, シナプス, ニューロンの適応的発達的プルーニングから着想を得て, 塑性刺激による適応的プルーニング(DPAP)法を提案する。 提案するDPAPモデルでは,適応的プルーニング戦略を付加して,複数の生物学的に現実的な機構(樹状突起動的塑性,活動依存神経スパイキングトレース,局所シナプス可塑性など)を考察し,事前学習や再訓練をせずにネットワーク構造を動的に最適化することができる。 提案手法が深部ANNやSNNに適用され,重要な接続やニューロンのみを保持する効率的なネットワークアーキテクチャを学習できることを実証した。 大規模な比較実験は、様々なベンチマークタスク、特にSNNのニューロモーフィックデータセットにおいて、非常に圧縮されたネットワークにおいて、一貫したパフォーマンスとスピードの向上を示す。 この研究は、発達的可塑性によって複雑な深層ネットワークが徐々に脳のような効率的でコンパクトな構造へと進化し、最終的には生物学的に現実的なSNNのための最先端(SOTA)のパフォーマンスを達成する方法を探る。

Developmental plasticity plays a vital role in shaping the brain's structure during ongoing learning in response to the dynamically changing environments. However, the existing network compression methods for deep artificial neural networks (ANNs) and spiking neural networks (SNNs) draw little inspiration from the brain's developmental plasticity mechanisms, thus limiting their ability to learn efficiently, rapidly, and accurately. This paper proposed a developmental plasticity-inspired adaptive pruning (DPAP) method, with inspiration from the adaptive developmental pruning of dendritic spines, synapses, and neurons according to the "use it or lose it, gradually decay" principle. The proposed DPAP model considers multiple biologically realistic mechanisms (such as dendritic spine dynamic plasticity, activity-dependent neural spiking trace, local synaptic plasticity), with the addition of an adaptive pruning strategy, so that the network structure can be dynamically optimized during learning without any pre-training and retraining. We demonstrated that the proposed DPAP method applied to deep ANNs and SNNs could learn efficient network architectures that retain only relevant important connections and neurons. Extensive comparative experiments show consistent and remarkable performance and speed boost with the extremely compressed networks on a diverse set of benchmark tasks, especially neuromorphic datasets for SNNs. This work explores how developmental plasticity enables the complex deep networks to gradually evolve into brain-like efficient and compact structures, eventually achieving state-of-the-art (SOTA) performance for biologically realistic SNNs.
翻訳日:2022-11-24 13:46:40 公開日:2022-11-23
# NSGA-IIのランタイム分析:3つ以上の目的に対する非効率性の証明、定量化、説明

Runtime Analysis for the NSGA-II: Proving, Quantifying, and Explaining the Inefficiency For Three or More Objectives ( http://arxiv.org/abs/2211.13084v1 )

ライセンス: Link先を確認
Weijie Zheng, Benjamin Doerr(参考訳) NSGA-IIは多目的最適化問題を解く最も顕著なアルゴリズムの1つである。 多くの応用が成功し、また、非常に最近の競争力のある数学性能保証にもかかわらず、NSGA-IIはより大きな目的に対して効果が低いことがいくつかの研究で示されている。 本研究では,この現象の厳密な証明と定量化に数学的ランタイム解析を用いる。 単純なOneMinMaxベンチマークでは、全ての解がパレート最適である場合でも、NSGA-IIは大きな集団を持つため、全パレートフロント(全てのパレートオプティマのオブジェクトベクトル)を指数時間で計算することはできない。 我々の証明は、この予期せぬ行動の理由は、群集距離の計算において、異なる目的が独立して考慮されるという事実にあることを示唆している。 これは2つの目的に対する問題ではなく、一方の目的に沿ったペアワイズ非可換な解の任意のソートもまた、他方の目的(逆順序)に従ってそのようなソートである。

The NSGA-II is one of the most prominent algorithms to solve multi-objective optimization problems. Despite numerous successful applications and, very recently, also competitive mathematical performance guarantees, several studies have shown that the NSGA-II is less effective for larger numbers of objectives. In this work, we use mathematical runtime analyses to rigorously prove and quantify this phenomenon. We show that even on the simple OneMinMax benchmark, where every solution is Pareto optimal, the NSGA-II also with large population sizes cannot compute the full Pareto front (objective vectors of all Pareto optima) in sub-exponential time. Our proofs suggest that the reason for this unexpected behavior lies in the fact that in the computation of the crowding distance, the different objectives are regarded independently. This is not a problem for two objectives, where any sorting of a pair-wise incomparable set of solutions according to one objective is also such a sorting according to the other objective (in the inverse order).
翻訳日:2022-11-24 13:46:10 公開日:2022-11-23
# SoFiA, MTObjectsおよび教師付きディープラーニングを用いたHIエミッションライン立方体におけるソースフィニング技術の比較研究

A comparative study of source-finding techniques in HI emission line cubes using SoFiA, MTObjects, and supervised deep learning ( http://arxiv.org/abs/2211.12809v1 )

ライセンス: Link先を確認
J.A. Barkai, M.A.W. Verheijen, E.T. Mart\'inez, M.H.F. Wilkinson(参考訳) 21cmの中性子中性水素(HI)のスペクトル線放射は、電波天文学で観測される主要な波長の1つである。 しかし、信号は本質的に暗く、銀河のHI含量は宇宙環境に依存するため、HIユニバースの調査には大量の調査量と調査深度が必要である。 これらの調査から得られたデータ量が技術的改善とともに増加を続けるにつれ、完全性と純粋性のトレードオフを考慮しながら、hiソースを識別し特徴付ける自動技術が必要となる。 本研究の目的は,3次元中性水素立方体において,最高のマスク品質と最少のアーティファクトを有する多くのソースを探索し,マスキングするための最適なパイプラインを見出すことである。 3次元中性水素21cmスペクトルデータキューブのソースを最適に識別し、隠蔽するパイプラインを構築するために、既存の様々な手法が検討された。 従来の2つのソースフィニング手法であるSoFiAとMTObjectsがテストされ、新しい教師付きディープラーニングアプローチとして、V-Netとして知られる3D畳み込みニューラルネットワークアーキテクチャが使用された。 これらの3つのソースフィニング法は、従来の機械学習分類器を後処理ステップとして追加して、偽陽性検出を除去することでさらに改善された。 パイプラインは、ウェスターボルク合成電波望遠鏡のHIデータキューブに追加の模擬銀河を挿入して試験された。 SoFiAとランダムな森林分類器を組み合わせることで、V-Net-ランダムな森林の組み合わせが2秒間近かった。 これは、トレーニングセットに実際のソースよりも多くのモックソースがあるという事実によるものだと思います。 したがって、V-Netネットワークの品質を向上させる余地があるので、SoFiAより優れている可能性がある。

The 21 cm spectral line emission of atomic neutral hydrogen (HI) is one of the primary wavelengths observed in radio astronomy. However, the signal is intrinsically faint and the HI content of galaxies depends on the cosmic environment, requiring large survey volumes and survey depth to investigate the HI Universe. As the amount of data coming from these surveys continues to increase with technological improvements, so does the need for automatic techniques for identifying and characterising HI sources while considering the tradeoff between completeness and purity. This study aimed to find the optimal pipeline for finding and masking the most sources with the best mask quality and the fewest artefacts in 3D neutral hydrogen cubes. Various existing methods were explored in an attempt to create a pipeline to optimally identify and mask the sources in 3D neutral hydrogen 21 cm spectral line data cubes. Two traditional source-finding methods were tested, SoFiA and MTObjects, as well as a new supervised deep learning approach, in which a 3D convolutional neural network architecture, known as V-Net was used. These three source-finding methods were further improved by adding a classical machine learning classifier as a post-processing step to remove false positive detections. The pipelines were tested on HI data cubes from the Westerbork Synthesis Radio Telescope with additional inserted mock galaxies. SoFiA combined with a random forest classifier provided the best results, with the V-Net-random forest combination a close second. We suspect this is due to the fact that there are many more mock sources in the training set than real sources. There is, therefore, room to improve the quality of the V-Net network with better-labelled data such that it can potentially outperform SoFiA.
翻訳日:2022-11-24 13:45:51 公開日:2022-11-23
# 進化的一般化ゼロショット学習

Evolutionary Generalized Zero-Shot Learning ( http://arxiv.org/abs/2211.13174v1 )

ライセンス: Link先を確認
Dubing Chen, Haofeng Zhang, Yuming Shen, Yang Long, Ling Shao(参考訳) 人工知能への道の開けた問題は、既知のものから未知のものへの一般化であり、一般化ゼロショット学習(GZSL)タスクとしてインスタンス化される。 本研究では,新しい進化的一般化ゼロショット学習環境を提案する。 (i)帰納的GZSLにおける領域シフト問題を避け、 (ii) トランスダクティブGZSLよりも,現実的なデプロイメントの必要性に適合している。 提案手法では,初期性能に乏しいゼロショットモデルを用いて,アプリケーション間におけるオンライン進化を実現する。 この特別課題の3つの課題、すなわち破滅的な忘れ、最初の予測バイアス、進化的データクラスバイアスについて詳述する。 さらに,各課題に対する目標解を提案し,その初期IGZSLモデル上での進化を継続できる汎用的手法を提案する。 3つの人気のあるGZSLベンチマークデータセットの実験は、我々のモデルはテストデータストリームから学習でき、他のベースラインは失敗することを示している。

An open problem on the path to artificial intelligence is generalization from the known to the unknown, which is instantiated as Generalized Zero-Shot Learning (GZSL) task. In this work, we propose a novel Evolutionary Generalized Zero-Shot Learning setting, which (i) avoids the domain shift problem in inductive GZSL, and (ii) is more in line with the needs of real-world deployments than transductive GZSL. In the proposed setting, a zero-shot model with poor initial performance is able to achieve online evolution during application. We elaborate on three challenges of this special task, i.e., catastrophic forgetting, initial prediction bias, and evolutionary data class bias. Moreover, we propose targeted solutions for each challenge, resulting in a generic method capable of continuing to evolve on a given initial IGZSL model. Experiments on three popular GZSL benchmark datasets show that our model can learn from the test data stream while other baselines fail.
翻訳日:2022-11-24 13:39:08 公開日:2022-11-23
# VoP: クロスモーダル検索のためのテキストビデオ協調プロンプトチューニング

VoP: Text-Video Co-operative Prompt Tuning for Cross-Modal Retrieval ( http://arxiv.org/abs/2211.12764v1 )

ライセンス: Link先を確認
Siteng Huang, Biao Gong, Yulin Pan, Jianwen Jiang, Yiliang Lv, Yuyuan Li, Donglin Wang(参考訳) 近年,テキストビデオのクロスモーダル検索にプリトレーニングされたCLIPを付加的な重モジュールでチューニングすることで,大量のパラメータを伴って膨大な計算負担を発生させるだけでなく,上流モデルからの知識を忘れる要因となっている。本研究では,テキストビデオ検索タスクを効率的にチューニングするためのVoP: Text-Video Co-operative Prompt Tuningを提案する。 提案されたVoPはビデオとテキストの両方のプロンプトを備えたエンドツーエンドフレームワークであり、トレーニング可能なパラメータがわずか0.1%の強力なベースラインと見なすことができる。 さらに,ビデオの時空間特性に基づいて,トレーニング可能なパラメータの尺度の異なる性能向上のための3つの新しいビデオプロンプト機構を開発した。 VoP拡張の基本的な考え方は、それぞれ特定のトレーニング可能なプロンプトでフレーム位置、フレームコンテキスト、レイヤ関数をモデル化することである。 大規模な実験によると、拡張されたVoPは完全な微調整に比べて、パラメータのオーバーヘッドが6倍少ない5つのテキストビデオ検索ベンチマークで平均1.4%のR@1ゲインを達成した。 コードはhttps://github.com/bighuang624/vopで入手できる。

Many recent studies leverage the pre-trained CLIP for text-video cross-modal retrieval by tuning the backbone with additional heavy modules, which not only brings huge computational burdens with much more parameters, but also leads to the knowledge forgetting from upstream models.In this work, we propose the VoP: Text-Video Co-operative Prompt Tuning for efficient tuning on the text-video retrieval task. The proposed VoP is an end-to-end framework with both video & text prompts introducing, which can be regarded as a powerful baseline with only 0.1% trainable parameters. Further, based on the spatio-temporal characteristics of videos, we develop three novel video prompt mechanisms to improve the performance with different scales of trainable parameters. The basic idea of the VoP enhancement is to model the frame position, frame context, and layer function with specific trainable prompts, respectively. Extensive experiments show that compared to full fine-tuning, the enhanced VoP achieves a 1.4% average R@1 gain across five text-video retrieval benchmarks with 6x less parameter overhead. The code will be available at https://github.com/bighuang624/VoP.
翻訳日:2022-11-24 13:38:36 公開日:2022-11-23
# データ再キャストの活用による表的推論の強化

Leveraging Data Recasting to Enhance Tabular Reasoning ( http://arxiv.org/abs/2211.12641v1 )

ライセンス: Link先を確認
Aashna Jena, Vivek Gupta, Manish Shrivastava, Julian Martin Eisenschlos(参考訳) 複雑な推論を学ぶには、難しい表型推論データの作成が不可欠である。 これまでは主に2つのデータ生成戦略に頼っていた。 ひとつはヒューマンアノテーションで、言語的に多様なデータを生み出すが、スケールが難しい。 第2のカテゴリは合成生成であり、スケーラブルで費用対効果があるが、発明性に欠ける。 本研究では,両手法の利点を生かして,既存の表型データを半自動再キャストするフレームワークを提案する。 このフレームワークを使用して,テーブル2テキスト生成や表q/a,意味構文解析などのタスクを意図した5つのデータセットから,表型nliインスタンスを構築する。 我々は,再キャストしたデータを評価ベンチマークや拡張データとして使用して,表付きNLIタスクの性能を向上させることを実証した。 さらに,ゼロショットシナリオにおける再キャストデータにトレーニングされたモデルの有効性を検証し,再キャストされたデータセットタイプ間のパフォーマンス動向を分析した。

Creating challenging tabular inference data is essential for learning complex reasoning. Prior work has mostly relied on two data generation strategies. The first is human annotation, which yields linguistically diverse data but is difficult to scale. The second category for creation is synthetic generation, which is scalable and cost effective but lacks inventiveness. In this research, we present a framework for semi-automatically recasting existing tabular data to make use of the benefits of both approaches. We utilize our framework to build tabular NLI instances from five datasets that were initially intended for tasks like table2text creation, tabular Q/A, and semantic parsing. We demonstrate that recasted data could be used as evaluation benchmarks as well as augmentation data to enhance performance on tabular NLI tasks. Furthermore, we investigate the effectiveness of models trained on recasted data in the zero-shot scenario, and analyse trends in performance across different recasted datasets types.
翻訳日:2022-11-24 13:38:12 公開日:2022-11-23
# Peekaboo: テキストから画像への拡散モデルはゼロショットセグメンタ

Peekaboo: Text to Image Diffusion Models are Zero-Shot Segmentors ( http://arxiv.org/abs/2211.13224v1 )

ライセンス: Link先を確認
Ryan Burgert, Kanchana Ranasinghe, Xiang Li, Michael S. Ryoo(参考訳) 最近の拡散に基づく生成モデルと視覚言語モデルの組み合わせは、自然言語プロンプトから現実的な画像を生成することができる。 これらのモデルは大規模なインターネットスケールのデータセットでトレーニングされているが、そのような事前訓練されたモデルは、セマンティックなローカライゼーションやグラウンドリングに直接導入されない。 ローカライゼーションやグラウンド化の現在のアプローチは、バウンディングボックスやセグメンテーションマスクという形で、人間のアノテーションによるローカライズ情報に依存している。 例外は、ローカライズに特化したアーキテクチャや損失関数を利用する教師なしの方法がいくつかあるが、これらは個別にトレーニングする必要がある。 本研究では,そのような局所化情報の露出を伴わずに学習した市販の拡散モデルが,セグメンテーション固有の再学習を伴わずに様々な意味句を接地できる方法について検討する。 自然言語で条件付きセグメンテーションマスクを生成することができる推論時間最適化プロセスを導入する。 我々は,pascal vocデータセット上の教師なしセマンティクスセグメンテーションのためのpeekabooを提案する。 さらに,RefCOCOデータセットにおけるセグメンテーションの参照評価を行った。 本稿では,ゼロショット,オープンボキャブラリー,非教師なし(ローカライズ情報なし),拡散に基づく生成モデルを利用した意味的接地手法を提案する。 私たちのコードは公開されます。

Recent diffusion-based generative models combined with vision-language models are capable of creating realistic images from natural language prompts. While these models are trained on large internet-scale datasets, such pre-trained models are not directly introduced to any semantic localization or grounding. Most current approaches for localization or grounding rely on human-annotated localization information in the form of bounding boxes or segmentation masks. The exceptions are a few unsupervised methods that utilize architectures or loss functions geared towards localization, but they need to be trained separately. In this work, we explore how off-the-shelf diffusion models, trained with no exposure to such localization information, are capable of grounding various semantic phrases with no segmentation-specific re-training. An inference time optimization process is introduced, that is capable of generating segmentation masks conditioned on natural language. We evaluate our proposal Peekaboo for unsupervised semantic segmentation on the Pascal VOC dataset. In addition, we evaluate for referring segmentation on the RefCOCO dataset. In summary, we present a first zero-shot, open-vocabulary, unsupervised (no localization information), semantic grounding technique leveraging diffusion-based generative models with no re-training. Our code will be released publicly.
翻訳日:2022-11-24 13:37:09 公開日:2022-11-23
# NAS-LID:局所固有次元を用いた効率的なニューラルネットワーク探索

NAS-LID: Efficient Neural Architecture Search with Local Intrinsic Dimension ( http://arxiv.org/abs/2211.12759v1 )

ライセンス: Link先を確認
Xin He, Jiangchao Yao, Yuxin Wang, Zhenheng Tang, Ka Chu Cheung, Simon See, Bo Han, and Xiaowen Chu(参考訳) ワンショットニューラルアーキテクチャサーチ(NAS)は、1つのスーパーネットをトレーニングし、全ての子アーキテクチャ(サブネット)の性能を推定することで、探索効率を大幅に向上させる。 しかし、サブネット間の特性の不整合は、最適化に重大な干渉を引き起こし、サブネットの性能ランキングの相関が低くなる。 その後の探査では、特定の基準、例えば勾配マッチングによって超ネット重量を分解して干渉を減らすが、計算コストと空間分離性に悩まされる。 本研究では,軽量で効果的な局所固有次元(LID)に基づくNAS-LID法を提案する。 NAS-LIDは、低コストのLID特徴層を層単位で計算し、アーキテクチャの幾何学的性質を評価し、LIDの特徴となる類似性は勾配よりも分離性が良く、サブネット間の干渉を効果的に低減する。 nasbench-201の広範な実験は、nas-lidがより効率良く優れた性能を達成していることを示している。 特に、勾配駆動法と比較してNAS-LIDはNASBench-201を検索すると最大86%のGPUメモリオーバーヘッドを節約できる。 また,NAS-LID が ProxylessNAS および OFA 空間に与える影響を示す。 ソースコード:https://github.com/marsggbo/NAS-LID。

One-shot neural architecture search (NAS) substantially improves the search efficiency by training one supernet to estimate the performance of every possible child architecture (i.e., subnet). However, the inconsistency of characteristics among subnets incurs serious interference in the optimization, resulting in poor performance ranking correlation of subnets. Subsequent explorations decompose supernet weights via a particular criterion, e.g., gradient matching, to reduce the interference; yet they suffer from huge computational cost and low space separability. In this work, we propose a lightweight and effective local intrinsic dimension (LID)-based method NAS-LID. NAS-LID evaluates the geometrical properties of architectures by calculating the low-cost LID features layer-by-layer, and the similarity characterized by LID enjoys better separability compared with gradients, which thus effectively reduces the interference among subnets. Extensive experiments on NASBench-201 indicate that NAS-LID achieves superior performance with better efficiency. Specifically, compared to the gradient-driven method, NAS-LID can save up to 86% of GPU memory overhead when searching on NASBench-201. We also demonstrate the effectiveness of NAS-LID on ProxylessNAS and OFA spaces. Source code:https://github.com/marsggbo/NAS-LID.
翻訳日:2022-11-24 13:36:47 公開日:2022-11-23
# コントラスト・マルチビュー・テキスト・ビジュアルエンコーディング--100万規模のワンショット・ロゴ識別に向けて

Contrastive Multi-View Textual-Visual Encoding: Towards One Hundred Thousand-Scale One-Shot Logo Identification ( http://arxiv.org/abs/2211.12926v1 )

ライセンス: Link先を確認
Nakul Sharma, Abhirama S. Penamakuri, Anand Mishra(参考訳) 本稿では,オープンセットワンショット設定において,企業ブランドのロゴを自然シーンで識別する問題について検討する。 この問題の設定は、従来の「クローズドセット」や「カテゴリ毎の大規模トレーニングサンプル」のロゴ認識設定よりもはるかに難しい。 本稿では,ロゴに現れるテキストをエンコードする多視点テキスト視覚符号化フレームワークと,強健なコントラスト表現を学習するためのロゴのグラフィカルデザインを提案する。 これらの表現は、バッチ上で複数のロゴのビューのために共同で学習され、見当たらないロゴに対してうまく一般化される。 提案手法は,自然シーンタスクにおいて,カットロゴの検証,カットロゴの識別,エンド・ツー・エンドのロゴ識別の枠組みを評価し,最先端の手法と比較する。 さらに、文献には基準ロゴ画像の「非常に大規模な」コレクションが欠如しており、1百万のロゴ識別の研究が容易である。 文献のこのギャップを埋めるために,Wikidataから取得した100万のビジネスブランドのロゴを含むWikidata Reference Logo Dataset (WiRLD)を紹介した。 検証タスクのQMUL-OpenLogoデータセットでは,OC曲線の91.3%の領域を達成し,Toplogos-10とFlickrLogos32データセットでは,1ショットのロゴ識別タスクでは,最先端メソッドの9.1%,2.6%を上回った。 さらに,提案手法は,候補ロゴ数が100Kスケールであっても,他のベースラインよりも安定であることを示す。

In this paper, we study the problem of identifying logos of business brands in natural scenes in an open-set one-shot setting. This problem setup is significantly more challenging than traditionally-studied 'closed-set' and 'large-scale training samples per category' logo recognition settings. We propose a novel multi-view textual-visual encoding framework that encodes text appearing in the logos as well as the graphical design of the logos to learn robust contrastive representations. These representations are jointly learned for multiple views of logos over a batch and thereby they generalize well to unseen logos. We evaluate our proposed framework for cropped logo verification, cropped logo identification, and end-to-end logo identification in natural scene tasks; and compare it against state-of-the-art methods. Further, the literature lacks a 'very-large-scale' collection of reference logo images that can facilitate the study of one-hundred thousand-scale logo identification. To fill this gap in the literature, we introduce Wikidata Reference Logo Dataset (WiRLD), containing logos for 100K business brands harvested from Wikidata. Our proposed framework that achieves an area under the ROC curve of 91.3% on the QMUL-OpenLogo dataset for the verification task, outperforms state-of-the-art methods by 9.1% and 2.6% on the one-shot logo identification task on the Toplogos-10 and the FlickrLogos32 datasets, respectively. Further, we show that our method is more stable compared to other baselines even when the number of candidate logos is on a 100K scale.
翻訳日:2022-11-24 13:36:26 公開日:2022-11-23
# Crown-CAM:航空画像におけるツリークラウン検出のための信頼性の高いビジュアル説明

Crown-CAM: Reliable Visual Explanations for Tree Crown Detection in Aerial Images ( http://arxiv.org/abs/2211.13126v1 )

ライセンス: Link先を確認
Seyed Mojtaba Marvasti-Zadeh, Devin Goodsman, Nilanjan Ray, Nadir Erbilgin(参考訳) ブラックボックス」モデルの視覚的説明により、人工知能(AI)の専門家や研究者は、そのような手法の局所化能力をはるかに活用できるようになった。 単一対象の分類問題に適用された視覚的説明法の多くは開発されているが、これらの手法は検出タスクにおいて十分に探索されていない。 これは、検出器が様々な視点から異なるスケールの複数のオブジェクトに直面する場合や、関心のあるオブジェクトが存在しない場合、特に重要である。 本稿では,航空画像における樹冠検出の困難かつ動的な問題に対して,信頼性の高い視覚的説明を生成するクラウンCAMを提案する。 樹木の樹冠の微細な局所化と高密度の森林樹のシナリオに対する非テクスチュアルな背景抑制を効果的に提供し、樹木の樹冠のない潜在的な散逸者やシーンの存在下で実現している。 さらに,画像中の樹冠の有無にかかわらず,生成した視覚説明の正確性と不正確性を効果的に定量化できる,結合(iou)ベースの2つの指標が導入された。 実証的評価により,提案手法は平均iouマージン8.7,5.3,21.7 (および3.3,9.8,16.5) でスコアカム法,拡張スコアカム法,固有カム法を上回り,難解なネオンツリークラウンデータセットにおける視覚的説明の精度(精度)と不正確さを向上させた。

Visual explanation of "black-box" models has enabled researchers and experts in artificial intelligence (AI) to exploit the localization abilities of such methods to a much greater extent. Despite most of the developed visual explanation methods applied to single object classification problems, they are not well-explored in the detection task, where the challenges may go beyond simple coarse area-based discrimination. This is of particular importance when a detector should face several objects with different scales from various viewpoints or if the objects of interest are absent. In this paper, we propose CrownCAM to generate reliable visual explanations for the challenging and dynamic problem of tree crown detection in aerial images. It efficiently provides fine-grain localization of tree crowns and non-contextual background suppression for scenarios with highly dense forest trees in the presence of potential distractors or scenes without tree crowns. Additionally, two Intersection over Union (IoU)-based metrics are introduced that can effectively quantify both the accuracy and inaccuracy of generated visual explanations with respect to regions with or without tree crowns in the image. Empirical evaluations demonstrate that the proposed Crown-CAM outperforms the Score-CAM, Augmented ScoreCAM, and Eigen-CAM methods by an average IoU margin of 8.7, 5.3, and 21.7 (and 3.3, 9.8, and 16.5) respectively in improving the accuracy (and decreasing inaccuracy) of visual explanations on the challenging NEON tree crown dataset.
翻訳日:2022-11-24 13:35:54 公開日:2022-11-23
# 非加法的測度の輸送問題

The transport problem for non-additive measures ( http://arxiv.org/abs/2211.12150v2 )

ライセンス: Link先を確認
Vicen\c{c} Torra(参考訳) ファジィ測度、キャパシティ、モノトニックゲームとして知られる非加法的測度は、異なる分野においてますます使われている。 コンピュータサイエンスや人工知能において、意思決定、画像処理、分類と回帰のための機械学習といった応用が構築されている。 測定のためのツールが構築されている。 つまり、非加法的測度は加法的測度よりも一般的なので(確率よりも)、後者ではモデル化できない状況や問題をモデル化できるより良いモデリング能力を持つ。 例えば、エルスバーグ・パラドックスとアリス・パラドックスの両方をモデル化するための非加法測度とチョケ積分の応用を参照。 そのため、非付加的措置の分析の必要性が高まっている。 距離とそれらを比較するための類似性も例外ではない。 それらのために$f$-divergenceを定義する作業がいくつか行われている。 本研究は, 今までの知識に照らされてはいなかった非付加的措置の輸送問題を解消する問題に対処するものである。 最適輸送に基づく確率分布の対の距離は、実用的応用において非常によく使われており、数学的性質について広く研究されている。 同様のフレーバーで適切な定義を与える必要があり、非加法測度に対して標準的な定義を一般化する必要があると考える。 我々は m\"obius 変換に基づく定義を提供するが、いくつかの利点があると考えられる $(\max, +)$-transform にも基づいている。 本稿では,非加法的措置の輸送問題を定義する上で生じる問題点について論じ,その解決方法について論じる。 本稿では、最適輸送問題の定義を提供し、いくつかの特性を証明する。

Non-additive measures, also known as fuzzy measures, capacities, and monotonic games, are increasingly used in different fields. Applications have been built within computer science and artificial intelligence related to e.g. decision making, image processing, machine learning for both classification, and regression. Tools for measure identification have been built. In short, as non-additive measures are more general than additive ones (i.e., than probabilities), they have better modeling capabilities allowing to model situations and problems that cannot be modelled by the latter. See e.g. the application of non-additive measures and the Choquet integral to model both Ellsberg paradox and Allais paradox. Because of that, there is an increasing need to analyze non-additive measures. The need for distances and similarities to compare them is no exception. Some work has been done for definining $f$-divergence for them. In this work we tackle the problem of definining the transport problem for non-additive measures, which has not been considered up to our knowledge up to now. Distances for pairs of probability distributions based on the optimal transport are extremely used in practical applications, and they are being studied extensively for the mathematical properties. We consider that it is necessary to provide appropriate definitions with a similar flavour, and that generalize the standard ones, for non-additive measures. We provide definitions based on the M\"obius transform, but also based on the $(\max, +)$-transform that we consider that has some advantages. We will discuss in this paper the problems that arise to define the transport problem for non-additive measures, and discuss ways to solve them. In this paper we provide the definitions of the optimal transport problem, and prove some properties.
翻訳日:2022-11-24 13:30:28 公開日:2022-11-23
# FE-Fusion-VPR:フレームとイベントの融合による視覚的位置認識のための注意型マルチスケールネットワークアーキテクチャ

FE-Fusion-VPR: Attention-based Multi-Scale Network Architecture for Visual Place Recognition by Fusing Frames and Events ( http://arxiv.org/abs/2211.12244v2 )

ライセンス: Link先を確認
Kuanxu Hou, Delei Kong, Junjie Jiang, Hao Zhuang, Xinjie Huang and Zheng Fang(参考訳) 従来の視覚位置認識(vpr)は、通常標準カメラを使用しており、暗い動きや高速動きのために簡単に失敗する。 対照的に、イベントカメラは低レイテンシ、高時間分解能、高ダイナミックレンジの利点があり、上記の問題に対処できる。 それでも、イベントカメラは、弱いテクスチャや動きのないシーンでは失敗しがちだが、標準的なカメラは、この場合の外観情報を提供することができる。 したがって、標準カメラとイベントカメラの相補性を活用すれば、VPRアルゴリズムの性能を効果的に向上させることができる。 本稿では,フレームとイベントを融合させてVPRのマルチスケールネットワークアーキテクチャであるFE-Fusion-VPRを提案する。 まず、浅部特徴融合のために、インテンシティフレームとイベントボリュームを2ストリーム特徴抽出ネットワークに供給する。 次に,VLAD層を用いて3つのサブディスクリプタに集約し,マルチスケール核融合ネットワークを用いて3つの特徴量を求める。 最後に、各サブディスクリプタの重みをディスクリプタ再重み付けネットワークを介して学習し、最終精細化ディスクリプタを得る。 Brisbane-Event-VPRとDDD20データセットでは、FE-Fusion-VPRのRecall@1は、Event-VPRとEnsemble-EventVPRよりも29.26%高く、33.59%高く、MultiRes-NetVLADとNetVLADよりも7.00%、14.15%高い。 我々の知る限り、これはVPRのためにフレームとイベントを直接フューズする既存のイベントベースおよびフレームベースのSOTAメソッドを超える最初のエンドツーエンドネットワークです。

Traditional visual place recognition (VPR), usually using standard cameras, is easy to fail due to glare or high-speed motion. By contrast, event cameras have the advantages of low latency, high temporal resolution, and high dynamic range, which can deal with the above issues. Nevertheless, event cameras are prone to failure in weakly textured or motionless scenes, while standard cameras can still provide appearance information in this case. Thus, exploiting the complementarity of standard cameras and event cameras can effectively improve the performance of VPR algorithms. In the paper, we propose FE-Fusion-VPR, an attention-based multi-scale network architecture for VPR by fusing frames and events. First, the intensity frame and event volume are fed into the two-stream feature extraction network for shallow feature fusion. Next, the three-scale features are obtained through the multi-scale fusion network and aggregated into three sub-descriptors using the VLAD layer. Finally, the weight of each sub-descriptor is learned through the descriptor re-weighting network to obtain the final refined descriptor. Experimental results show that on the Brisbane-Event-VPR and DDD20 datasets, the Recall@1 of our FE-Fusion-VPR is 29.26% and 33.59% higher than Event-VPR and Ensemble-EventVPR, and is 7.00% and 14.15% higher than MultiRes-NetVLAD and NetVLAD. To our knowledge, this is the first end-to-end network that goes beyond the existing event-based and frame-based SOTA methods to fuse frame and events directly for VPR.
翻訳日:2022-11-24 13:29:42 公開日:2022-11-23
# GlowGAN:野生のLDR画像からのHDR画像の教師なし学習

GlowGAN: Unsupervised Learning of HDR Images from LDR Images in the Wild ( http://arxiv.org/abs/2211.12352v2 )

ライセンス: Link先を確認
Chao Wang, Ana Serrano, Xingang Pan, Bin Chen, Hans-Peter Seidel, Christian Theobalt, Karol Myszkowski, Thomas Leimkuehler(参考訳) ほとんどの画像は低ダイナミックレンジ(LDR)形式で保存されており、高ダイナミックレンジ(HDR)視覚世界を部分的に観察する役割を果たしている。 ダイナミックレンジは限られているが、これらのLDR画像は、しばしば異なる露出で撮影され、基盤となるHDR画像の分布に関する情報を暗黙的に含んでいる。 この直観に触発されて、本研究では、我々の知識を最大限に活用し、野生のldr画像コレクションからhdr画像の生成モデルを完全に教師なしで学習する最初の方法を紹介します。 鍵となる考え方は、GAN(Generative Adversarial Network)を訓練して、様々な露光下でLDRに投影された場合、実際のLDR画像と区別できないHDR画像を生成することである。 HDRからLDRへの投影は、露出の確率性とカメラ応答関数をキャプチャするカメラモデルによって達成される。 実験により,従来の教師付き生成モデルが過剰に露出した画像を生成する風景,雷,窓など,多くの課題において,glowganがフォトリアリスティックなhdr画像を合成できることが判明した。 さらに,GlowGANによって実現された教師なし逆トーンマッピング(ITM)の新たな応用を実証する。 ITM法では,HDR画像やマルチ露光画像は必要としないが,これらのデータに基づいて訓練された最先端の教師あり学習モデルよりも,過剰に露光した領域の情報を再構成する。

Most in-the-wild images are stored in Low Dynamic Range (LDR) form, serving as a partial observation of the High Dynamic Range (HDR) visual world. Despite limited dynamic range, these LDR images are often captured with different exposures, implicitly containing information about the underlying HDR image distribution. Inspired by this intuition, in this work we present, to the best of our knowledge, the first method for learning a generative model of HDR images from in-the-wild LDR image collections in a fully unsupervised manner. The key idea is to train a generative adversarial network (GAN) to generate HDR images which, when projected to LDR under various exposures, are indistinguishable from real LDR images. The projection from HDR to LDR is achieved via a camera model that captures the stochasticity in exposure and camera response function. Experiments show that our method GlowGAN can synthesize photorealistic HDR images in many challenging cases such as landscapes, lightning, or windows, where previous supervised generative models produce overexposed images. We further demonstrate the new application of unsupervised inverse tone mapping (ITM) enabled by GlowGAN. Our ITM method does not need HDR images or paired multi-exposure images for training, yet it reconstructs more plausible information for overexposed regions than state-of-the-art supervised learning models trained on such data.
翻訳日:2022-11-24 13:29:08 公開日:2022-11-23
# ラベルなしデータによるバックドアクリーニング

Backdoor Cleansing with Unlabeled Data ( http://arxiv.org/abs/2211.12044v2 )

ライセンス: Link先を確認
Lu Pang, Tao Sun, Haibin Ling, Chao Chen(参考訳) ディープニューラルネットワーク(DNN)の計算需要が増大しているため、企業や組織はトレーニングプロセスをアウトソースし始めている。 しかし、外部で訓練されたDNNはバックドア攻撃を受ける可能性がある。 このような攻撃、すなわち不審なモデルを後処理してバックドアの動作を緩和し、クリーン入力に対する通常の予測能力は妥協されないようにすることが重要である。 バックドアの異常な挙動を取り除くために、既存の手法は主にラベル付きクリーンサンプルに頼っている。 しかし、トレーニングデータはエンドユーザーには利用できないことが多いため、このような要件は非現実的かもしれない。 本稿では,そのような障壁を回避する可能性を検討する。 トレーニングラベルを必要とせず,新たな防御手法を提案する。 本手法は, 層単位の重み付け再初期化と知識蒸留を慎重に設計することにより, 正常な動作において, 疑わしいネットワークのバックドア挙動を効果的に浄化することができる。 実験では,ラベルを使わずにトレーニングした手法が,ラベルを用いた最新の防御手法とほぼ同等であることを示す。 また, 分配外データにおいても, 有望な防御結果が得られている。 この方法はとても実用的です。

Due to the increasing computational demand of Deep Neural Networks (DNNs), companies and organizations have begun to outsource the training process. However, the externally trained DNNs can potentially be backdoor attacked. It is crucial to defend against such attacks, i.e., to postprocess a suspicious model so that its backdoor behavior is mitigated while its normal prediction power on clean inputs remain uncompromised. To remove the abnormal backdoor behavior, existing methods mostly rely on additional labeled clean samples. However, such requirement may be unrealistic as the training data are often unavailable to end users. In this paper, we investigate the possibility of circumventing such barrier. We propose a novel defense method that does not require training labels. Through a carefully designed layer-wise weight re-initialization and knowledge distillation, our method can effectively cleanse backdoor behaviors of a suspicious network with negligible compromise in its normal behavior. In experiments, we show that our method, trained without labels, is on-par with state-of-the-art defense methods trained using labels. We also observe promising defense results even on out-of-distribution data. This makes our method very practical.
翻訳日:2022-11-24 13:28:41 公開日:2022-11-23
# 生成逆数ネットワークを用いた連成位相場問題の高速化

Accelerated Solutions of Coupled Phase-Field Problems using Generative Adversarial Networks ( http://arxiv.org/abs/2211.12084v2 )

ライセンス: Link先を確認
Vir Karan, A. Maruthi Indresh, Saswata Bhattacharyya(参考訳) 多成分拡散、多相系における相変態、合金凝固などの多物理問題は、非線形偏微分方程式(PDE)の結合系の数値解を含む。 メッシュに基づく手法によるpdesの数値解は、これらの方程式の時空間的離散化を必要とする。 したがって、数値解はしばしば離散化パラメータに敏感であり、不正確な(格子ベースの近似から推測される)ことがある。 さらに、より高精度なメッシュを選択することで、計算コストが高くなる。 ニューラルネットワークベースのPDEソルバは、グリッド非依存で高速かつ正確である機械学習可能な構造を使用するため、従来の数値手法に代わる堅牢な代替手段として出現している。 しかし、ニューラルネットワークベースのソルバは大量のトレーニングデータを必要とするため、その汎用性とスケーラビリティに影響を及ぼす。 これらの懸念は、時間依存PDEの結合系ではより深刻になる。 これらの問題に対処するために,エンコーダ・デコーダをベースとした条件付き生成適応ネットワークとConvLSTM層を用いたニューラルネットワークベースの新しいフレームワークを開発し,Cahn-Hilliard方程式のシステムを解く。 これらの方程式は、スピノダル分解を受ける三元合金の三相相相相間隙内における組織変化を制御する。 訓練されたモデルがメッシュとスケール非依存であることを示し,効果的なニューラルオペレータとしての利用を保証した。

Multiphysics problems such as multicomponent diffusion, phase transformations in multiphase systems and alloy solidification involve numerical solution of a coupled system of nonlinear partial differential equations (PDEs). Numerical solutions of these PDEs using mesh-based methods require spatiotemporal discretization of these equations. Hence, the numerical solutions are often sensitive to discretization parameters and may have inaccuracies (resulting from grid-based approximations). Moreover, choice of finer mesh for higher accuracy make these methods computationally expensive. Neural network-based PDE solvers are emerging as robust alternatives to conventional numerical methods because these use machine learnable structures that are grid-independent, fast and accurate. However, neural network based solvers require large amount of training data, thus affecting their generalizabilty and scalability. These concerns become more acute for coupled systems of time-dependent PDEs. To address these issues, we develop a new neural network based framework that uses encoder-decoder based conditional Generative Adversarial Networks with ConvLSTM layers to solve a system of Cahn-Hilliard equations. These equations govern microstructural evolution of a ternary alloy undergoing spinodal decomposition when quenched inside a three-phase miscibility gap. We show that the trained models are mesh and scale-independent, thereby warranting application as effective neural operators.
翻訳日:2022-11-24 13:28:22 公開日:2022-11-23
# 自然言語処理課題の継続的な学習 : 調査

Continual Learning of Natural Language Processing Tasks: A Survey ( http://arxiv.org/abs/2211.12701v1 )

ライセンス: Link先を確認
Zixuan Ke, Bing Liu(参考訳) CL(Continuous Learning)は、学習した知識を忘れることなく、学習と知識を継続的に蓄積する人間の能力をエミュレートすることを目的とした、新たな学習パラダイムである。 本調査では,最近のNLP分野におけるCLの進歩を概観する。 1)すべてのCL設定を既存のテクニックの分類でカバーしている。 忘れの扱いに加えて、NLPにとって特に重要な(2)知識の伝達にも焦点をあてている。 1) と (2) の両方が既存の調査には言及されていない。 最後に,今後の方向性についても述べる。

Continual learning (CL) is an emerging learning paradigm that aims to emulate the human capability of learning and accumulating knowledge continually without forgetting the previously learned knowledge and also transferring the knowledge to new tasks to learn them better. This survey presents a comprehensive review of the recent progress of CL in the NLP field. It covers (1) all CL settings with a taxonomy of existing techniques. Besides dealing with forgetting, it also focuses on (2) knowledge transfer, which is of particular importance to NLP. Both (1) and (2) are not mentioned in the existing survey. Finally, a list of future directions is also discussed.
翻訳日:2022-11-24 13:28:01 公開日:2022-11-23
# RoentGen:胸部X線生成のためのビジョン言語基礎モデル

RoentGen: Vision-Language Foundation Model for Chest X-ray Generation ( http://arxiv.org/abs/2211.12737v1 )

ライセンス: Link先を確認
Pierre Chambon, Christian Bluethgen, Jean-Benoit Delbrouck, Rogier Van der Sluijs, Ma{\l}gorzata Po{\l}acin, Juan Manuel Zambrano Chaves, Tanishq Mathew Abraham, Shivanshu Purohit, Curtis P. Langlotz, Akshay Chaudhari(参考訳) 大規模な自然画像とテキストのペアデータセットでトレーニングされたマルチモーダルモデルは、高品質な画像を生成する驚くべき能力を示している。 医学画像データは自然画像と根本的に異なり、医学データ内の関連する詳細を簡潔に捉えるために使用される言語は、異なる、狭く、意味的にリッチなドメイン固有語彙を使用する。 当然のことながら、自然画像とテキストのペアで訓練されたマルチモーダルモデルは、医学領域にうまく一般化しない傾向がある。 合成多様性を提供しながら医療概念を忠実に表現する生成イメージングモデルを開発することで、高品質な注釈付医用画像データセットの既存の質を軽減できる。 本研究では,胸部X線(CXR)とそれに対応する放射線学(テキスト)レポートのコーパスに,事前訓練した潜伏拡散モデルを適用することで,大きな自然医学的分布変化を克服する戦略を開発する。 テキストプロンプトに条件付された高忠実で多様な合成CXRを生成するモデルの能力について検討する。 画像品質指標を用いて定量的にモデル出力を評価し,人間の領域の専門家による画像品質とテキスト画像のアライメントを評価する。 得られたモデル(ローエントゲン)が視覚的に説得力のある多彩な合成cxr画像を作成することができ、放射線特異的言語を含むフリーフォームテキストプロンプトを用いて出力を新たな範囲で制御できることを示す。 このモデルを固定トレーニングセットに微調整し,データ拡張法として用いることで,合成画像と実画像で共同で訓練した分類器の5%改善と,大規模で純粋に合成されたトレーニングセットでトレーニングした場合の3%改善を計測した。 最後に, この微調整は, テキストエンコーダのドメイン内知識を抽出し, 気胸などの特定の疾患の表現能力を25%向上させる。

Multimodal models trained on large natural image-text pair datasets have exhibited astounding abilities in generating high-quality images. Medical imaging data is fundamentally different to natural images, and the language used to succinctly capture relevant details in medical data uses a different, narrow but semantically rich, domain-specific vocabulary. Not surprisingly, multi-modal models trained on natural image-text pairs do not tend to generalize well to the medical domain. Developing generative imaging models faithfully representing medical concepts while providing compositional diversity could mitigate the existing paucity of high-quality, annotated medical imaging datasets. In this work, we develop a strategy to overcome the large natural-medical distributional shift by adapting a pre-trained latent diffusion model on a corpus of publicly available chest x-rays (CXR) and their corresponding radiology (text) reports. We investigate the model's ability to generate high-fidelity, diverse synthetic CXR conditioned on text prompts. We assess the model outputs quantitatively using image quality metrics, and evaluate image quality and text-image alignment by human domain experts. We present evidence that the resulting model (RoentGen) is able to create visually convincing, diverse synthetic CXR images, and that the output can be controlled to a new extent by using free-form text prompts including radiology-specific language. Fine-tuning this model on a fixed training set and using it as a data augmentation method, we measure a 5% improvement of a classifier trained jointly on synthetic and real images, and a 3% improvement when trained on a larger but purely synthetic training set. Finally, we observe that this fine-tuning distills in-domain knowledge in the text-encoder and can improve its representation capabilities of certain diseases like pneumothorax by 25%.
翻訳日:2022-11-24 13:27:51 公開日:2022-11-23
# 糖尿病網膜症検出タスクにおけるベイズ深層学習のベンチマーク

Benchmarking Bayesian Deep Learning on Diabetic Retinopathy Detection Tasks ( http://arxiv.org/abs/2211.12717v1 )

ライセンス: Link先を確認
Neil Band, Tim G. J. Rudner, Qixuan Feng, Angelos Filos, Zachary Nado, Michael W. Dusenberry, Ghassen Jerfel, Dustin Tran, Yarin Gal(参考訳) Bayesianのディープラーニングは、彼らの予測の不確実性を正確に定量化する能力を備えたディープニューラルネットワークの装備を目指している。 新しい方法は、信頼性の高い不確実性定量化の恩恵を受ける下流の現実世界のタスクの複雑さを反映しない非現実的なテストベッドで評価され続けている。 本稿では,そのような複雑さを正確に反映した実世界のタスクのセットであるRETINA Benchmarkを提案し,安全クリティカルなシナリオにおける予測モデルの信頼性を評価する。 具体的には,様々な糖尿病網膜症を呈する高分解能ヒト網膜画像の2つの公開データセットを収集し,それを用いて信頼性の高い予測的不確実性定量化を必要とする一連の自動診断タスクを設計する。 我々はこれらのタスクを用いて、タスク固有の評価指標に基づいて、確立された最先端のベイズ深層学習手法をベンチマークする。 再現性とソフトウェア設計の原則に従って,高速で簡単なベンチマークを行うための,使いやすいコードベースを提供しています。 ベンチマークに含まれるすべてのメソッドの実装と、100 TPU日、20 GPU日、400のハイパーパラメータ構成を計算し、それぞれ6つのランダムシードの評価を行う。

Bayesian deep learning seeks to equip deep neural networks with the ability to precisely quantify their predictive uncertainty, and has promised to make deep learning more reliable for safety-critical real-world applications. Yet, existing Bayesian deep learning methods fall short of this promise; new methods continue to be evaluated on unrealistic test beds that do not reflect the complexities of downstream real-world tasks that would benefit most from reliable uncertainty quantification. We propose the RETINA Benchmark, a set of real-world tasks that accurately reflect such complexities and are designed to assess the reliability of predictive models in safety-critical scenarios. Specifically, we curate two publicly available datasets of high-resolution human retina images exhibiting varying degrees of diabetic retinopathy, a medical condition that can lead to blindness, and use them to design a suite of automated diagnosis tasks that require reliable predictive uncertainty quantification. We use these tasks to benchmark well-established and state-of-the-art Bayesian deep learning methods on task-specific evaluation metrics. We provide an easy-to-use codebase for fast and easy benchmarking following reproducibility and software design principles. We provide implementations of all methods included in the benchmark as well as results computed over 100 TPU days, 20 GPU days, 400 hyperparameter configurations, and evaluation on at least 6 random seeds each.
翻訳日:2022-11-24 13:27:16 公開日:2022-11-23
# DeepSolo: テキストスポッティングのための明示的なポイントソロ付きトランスフォーマーデコーダ

DeepSolo: Let Transformer Decoder with Explicit Points Solo for Text Spotting ( http://arxiv.org/abs/2211.10772v2 )

ライセンス: Link先を確認
Maoyuan Ye, Jing Zhang, Shanshan Zhao, Juhua Liu, Tongliang Liu, Bo Du, Dacheng Tao(参考訳) エンドツーエンドテキストスポッティングは、シーンテキストの検出と認識を統一されたフレームワークに統合することを目的としている。 2つのサブタスク間の関係を扱うことは、効果的なスポッターを設計する上で重要な役割を果たす。 トランスフォーマーベースの手法ではヒューリスティックなポストプロセッシングは排除されるが、サブタスクと低トレーニング効率の相乗効果の問題に苦しむ。 本稿では,テキスト検出と認識を同時に行うために,Explicit Points Soloを持つ1つのデコーダを同時に使用可能な,単純な検出トランスフォーマベースラインであるDeepSoloを提案する。 技術的には、各テキストインスタンスでは、文字列を順序付けポイントとして表現し、学習可能な明示的なポイントクエリでモデル化します。 単一のデコーダを渡すと、ポイントクエリは必要なテキストセマンティクスと場所を符号化するので、非常に単純な予測ヘッドを通じてテキストの中央線、境界線、スクリプト、信頼性にさらにデコードでき、統一されたフレームワークでテキストスポッティングのサブタスクを解決できる。 さらに,より正確な監視信号を提供するためのテキストマッチング基準を導入し,より効率的なトレーニングを可能にした。 公開ベンチマークの定量的実験によると、DeepSoloは従来の最先端の手法より優れ、訓練効率が向上している。 さらに、deepsoloは行アノテーションとも互換性があり、ポリゴンよりもはるかに少ないアノテーションコストを必要とする。 コードはリリースされます。

End-to-end text spotting aims to integrate scene text detection and recognition into a unified framework. Dealing with the relationship between the two sub-tasks plays a pivotal role in designing effective spotters. Although transformer-based methods eliminate the heuristic post-processing, they still suffer from the synergy issue between the sub-tasks and low training efficiency. In this paper, we present DeepSolo, a simple detection transformer baseline that lets a single Decoder with Explicit Points Solo for text detection and recognition simultaneously. Technically, for each text instance, we represent the character sequence as ordered points and model them with learnable explicit point queries. After passing a single decoder, the point queries have encoded requisite text semantics and locations and thus can be further decoded to the center line, boundary, script, and confidence of text via very simple prediction heads in parallel, solving the sub-tasks in text spotting in a unified framework. Besides, we also introduce a text-matching criterion to deliver more accurate supervisory signals, thus enabling more efficient training. Quantitative experiments on public benchmarks demonstrate that DeepSolo outperforms previous state-of-the-art methods and achieves better training efficiency. In addition, DeepSolo is also compatible with line annotations, which require much less annotation cost than polygons. The code will be released.
翻訳日:2022-11-24 13:20:36 公開日:2022-11-23
# RobustLoc:運転環境におけるロバストカメラポッドの回帰

RobustLoc: Robust Camera Pose Regression in Challenging Driving Environments ( http://arxiv.org/abs/2211.11238v2 )

ライセンス: Link先を確認
Sijie Wang, Qiyu Kang, Rui She, Wee Peng Tay, Andreas Hartmannsgruber, Diego Navarro Navarro(参考訳) カメラのリローカライゼーションは自動運転に様々な応用がある。 従来のカメラポーズ回帰モデルは、環境摂動がほとんどない理想的なシナリオのみを考える。 季節, 天気, 照明, 不安定な物体の存在に変化をもたらす可能性のある運転環境に対処するため, ニューラル微分方程式からの摂動に対する頑健さを導出するRobostLocを提案する。 本モデルでは,多視点画像から特徴地図を抽出する畳み込みニューラルネットワーク,インタラクティブに情報を拡散するロバストなニューラルネットワーク方程式拡散ブロックモジュール,多層トレーニングによる分岐ポーズデコーダを用いて車両のポーズ推定を行う。 実験により、ロバストロックは現在の最先端カメラの回帰モデルを超え、様々な環境で堅牢な性能を達成することが示された。 私たちのコードは、https://github.com/sijieaaa/RobustLocでリリースされています。

Camera relocalization has various applications in autonomous driving. Previous camera pose regression models consider only ideal scenarios where there is little environmental perturbation. To deal with challenging driving environments that may have changing seasons, weather, illumination, and the presence of unstable objects, we propose RobustLoc, which derives its robustness against perturbations from neural differential equations. Our model uses a convolutional neural network to extract feature maps from multi-view images, a robust neural differential equation diffusion block module to diffuse information interactively, and a branched pose decoder with multi-layer training to estimate the vehicle poses. Experiments demonstrate that RobustLoc surpasses current state-of-the-art camera pose regression models and achieves robust performance in various environments. Our code is released at: https://github.com/sijieaaa/RobustLoc
翻訳日:2022-11-24 13:19:53 公開日:2022-11-23
# ツリーアーキテクチャの学習は、畳み込みフィードフォワードネットワークより優れている

Learning on tree architectures outperforms a convolutional feedforward network ( http://arxiv.org/abs/2211.11378v2 )

ライセンス: Link先を確認
Yuval Meir, Itamar Ben-Noam, Yarden Tzach, Shiri Hodassman and Ido Kanter(参考訳) 高度なディープラーニングアーキテクチャは、数百に拡張され、生物学的実現には程遠い、完全に接続された、畳み込み型の隠れた層を何万も含んでいる。 生物学的ダイナミクスは、出力ユニットと重量の間の経路の数が典型的には大きいため、非局所的な方法で重量を変更することに基づいている。 ここでは,3層木アーキテクチャを用いたオフラインおよびオンラインCIFAR-10データベース学習が,5層畳み込みLeNetの達成可能な成功率を上回っている。 単一の経路が出力単位と重みを接続する高い刈り込み木バックプロパゲーション手順は、効率的な樹状深層学習を表現している。

Advanced deep learning architectures consist of tens of fully connected and convolutional hidden layers, which are already extended to hundreds, and are far from their biological realization. Their implausible biological dynamics is based on changing a weight in a non-local manner, as the number of routes between an output unit and a weight is typically large, using the backpropagation technique. Here, offline and online CIFAR-10 database learning on 3-layer tree architectures, inspired by experimental-based dendritic tree adaptations, outperforms the achievable success rates of the 5-layer convolutional LeNet. Its highly pruning tree backpropagation procedure, where a single route connects an output unit and a weight, represents an efficient dendritic deep learning.
翻訳日:2022-11-24 13:19:37 公開日:2022-11-23
# Teach-DETR: 教師によるより良いトレーニング

Teach-DETR: Better Training DETR with Teachers ( http://arxiv.org/abs/2211.11953v2 )

ライセンス: Link先を確認
Linjiang Huang, Kaixin Lu, Guanglu Song, Liang Wang, Si Liu, Yu Liu, Hongsheng Li(参考訳) 本稿では,多用途の教師検出器からより優れたdetr型検出器を学習するための新しい学習手法である teach-detr を提案する。 教師検出器からの予測ボックスは,より正確で頑健なdetrモデルを訓練するために,rcnnまたはdetrに基づく検出器の知識を伝達する効果的な媒体であることを示す。 この新たなトレーニングスキームは、複数の教師検出器から予測されたボックスを容易に組み込むことができ、それぞれが生徒のDETRに並列監視を提供する。 提案手法では,追加パラメータは導入せず,トレーニング中に元の検出器に無視できない計算コストを付加する。 推論中、Teach-DETRはオーバーヘッドをゼロにし、非最大抑制を必要としないメリットを維持する。 広範な実験により,detr系検出器の一貫性が向上した。 具体的には,Swin-Largeバックボーン,4スケールの機能マップ,36エポックトレーニングスケジュールを備えた最先端検出器DINOを,MSCOCO 2017検証セットの平均精度で57.8%から58.9%に改善する。 コードはhttps://github.com/LeonHLJ/Teach-DETRで入手できる。

In this paper, we present a novel training scheme, namely Teach-DETR, to learn better DETR-based detectors from versatile teacher detectors. We show that the predicted boxes from teacher detectors are effective medium to transfer knowledge of teacher detectors, which could be either RCNN-based or DETR-based detectors, to train a more accurate and robust DETR model. This new training scheme can easily incorporate the predicted boxes from multiple teacher detectors, each of which provides parallel supervisions to the student DETR. Our strategy introduces no additional parameters and adds negligible computational cost to the original detector during training. During inference, Teach-DETR brings zero additional overhead and maintains the merit of requiring no non-maximum suppression. Extensive experiments show that our method leads to consistent improvement for various DETR-based detectors. Specifically, we improve the state-of-the-art detector DINO with Swin-Large backbone, 4 scales of feature maps and 36-epoch training schedule, from 57.8% to 58.9% in terms of mean average precision on MSCOCO 2017 validation set. Code will be available at https://github.com/LeonHLJ/Teach-DETR.
翻訳日:2022-11-24 13:19:22 公開日:2022-11-23
# 変態同変3次元物体検出による自律走行

Transformation-Equivariant 3D Object Detection for Autonomous Driving ( http://arxiv.org/abs/2211.11962v2 )

ライセンス: Link先を確認
Hai Wu and Chenglu Wen and Wei Li and Xin Li and Ruigang Yang and Cheng Wang(参考訳) 3次元物体検出は、最近自動運転に注目が集まっている。 3dシーンのオブジェクトは、さまざまな方向で配布される。 通常の検出器は回転と反射変換のバリエーションを明示的にモデル化しない。 そのため、堅牢な検出には大規模ネットワークと広範なデータ拡張が必要である。 最近の同変ネットワークは、複数の変換点雲に共有ネットワークを適用することで、変換変動を明示的にモデル化し、オブジェクト幾何学モデリングに大きな可能性を示している。 しかし、計算コストが大きく、推論速度も遅いため、自動運転における3次元物体検出にそのようなネットワークを適用することは困難である。 本研究では,計算コストと速度問題を克服する効率的な変換同変3次元検出器tedを提案する。 TEDはまずスパース・コンボリューション・バックボーンを適用し、マルチチャネル変換等価なボクセル特徴を抽出し、その後、これらの同変特徴を高速な3Dオブジェクト検出のための軽量でコンパクトな表現に整列し集約する。 高度に競争力のあるKITTIの3D車検出リーダーボードでは、TEDは競争効率の高い全ての応募品の1位にランクインした。

3D object detection received increasing attention in autonomous driving recently. Objects in 3D scenes are distributed with diverse orientations. Ordinary detectors do not explicitly model the variations of rotation and reflection transformations. Consequently, large networks and extensive data augmentation are required for robust detection. Recent equivariant networks explicitly model the transformation variations by applying shared networks on multiple transformed point clouds, showing great potential in object geometry modeling. However, it is difficult to apply such networks to 3D object detection in autonomous driving due to its large computation cost and slow reasoning speed. In this work, we present TED, an efficient Transformation-Equivariant 3D Detector to overcome the computation cost and speed issues. TED first applies a sparse convolution backbone to extract multi-channel transformation-equivariant voxel features; and then aligns and aggregates these equivariant features into lightweight and compact representations for high-performance 3D object detection. On the highly competitive KITTI 3D car detection leaderboard, TED ranked 1st among all submissions with competitive efficiency.
翻訳日:2022-11-24 13:19:02 公開日:2022-11-23
# PointCMC: ポイントクラウド理解のためのクロスモーダルマルチスケール対応学習

PointCMC: Cross-Modal Multi-Scale Correspondences Learning for Point Cloud Understanding ( http://arxiv.org/abs/2211.12032v2 )

ライセンス: Link先を確認
Honggu Zhou, Xiaogang Peng, Jiawei Mao, Zizhao Wu, Ming Zeng(参考訳) いくつかの自己教師型クロスモーダル学習アプローチは、最近、ポイントクラウド表現を強化するための画像信号の可能性を実証している。 しかし、自己監督的な方法で、モーダルな局所的およびグローバルな通信を直接モデル化する方法については疑問が残る。 そこで本研究では,自己教師付きポイントクラウド表現学習のためのマルチスケール対応をモデル化する新しいクロスモーダル手法であるpointcmcを提案する。 特にポイントCMCは,(1) 局所的局所幾何学的特徴を最適化して局所的対応を学習する局所的-局所的(L2L)モジュール,(2) 局所的-グローバル的(L2G)モジュール,(3) 局所的-グローバル的(G2G)モジュールによって局所的特徴とグローバル的特徴の対応を学習する局所的-グローバル的(L2G)モジュールから構成される。 広範な実験結果から,3dオブジェクトの分類やセグメンテーションといった下流タスクにおいて,既存の最先端手法よりも優れた手法が得られた。 コードは受理次第公開される予定だ。

Some self-supervised cross-modal learning approaches have recently demonstrated the potential of image signals for enhancing point cloud representation. However, it remains a question on how to directly model cross-modal local and global correspondences in a self-supervised fashion. To solve it, we proposed PointCMC, a novel cross-modal method to model multi-scale correspondences across modalities for self-supervised point cloud representation learning. In particular, PointCMC is composed of: (1) a local-to-local (L2L) module that learns local correspondences through optimized cross-modal local geometric features, (2) a local-to-global (L2G) module that aims to learn the correspondences between local and global features across modalities via local-global discrimination, and (3) a global-to-global (G2G) module, which leverages auxiliary global contrastive loss between the point cloud and image to learn high-level semantic correspondences. Extensive experiment results show that our approach outperforms existing state-of-the-art methods in various downstream tasks such as 3D object classification and segmentation. Code will be made publicly available upon acceptance.
翻訳日:2022-11-24 13:18:46 公開日:2022-11-23
# 視覚学習者のための暗黙的神経表現の再考

Rethinking Implicit Neural Representations for Vision Learners ( http://arxiv.org/abs/2211.12040v2 )

ライセンス: Link先を確認
Yiran Song, Qianyu Zhou, Lizhuang Ma(参考訳) Inlicit Neural Representation (INR) はコンピュータビジョンにおける連続信号のパラメータ化に有効である。 しかし、ほとんどのINRメソッドは、画像/ビデオ圧縮、超解像度、画像生成などの低レベルなタスクに限定されている。 ハイレベルなタスクやディープネットワークへのINRの探索方法に関する質問はまだ未調査である。 既存のINRメソッドには2つの問題がある。 1)INRの狭い理論的定義は、ハイレベルなタスクには適用できない。 2)ディープネットワークにおける表現能力の欠如。 以上の事実に動機づけられたinrsの定義を,新しい視点から再構成し,低レベルと高レベルの両方の課題に取り組むinrsの最初の研究である革新的暗黙的ニューラルネットワーク(inrn)を提案する。 具体的には、2つの異なる積み重ね方と対応する損失関数とともに、inrnにおける基本ブロックの3つの重要な設計を示す。 低レベルタスク (画像適合) と高レベル視覚タスク (画像分類, オブジェクト検出, インスタンスセグメント化) の両方について解析を行い, 提案手法の有効性を実証した。

Implicit Neural Representations (INRs) are powerful to parameterize continuous signals in computer vision. However, almost all INRs methods are limited to low-level tasks, e.g., image/video compression, super-resolution, and image generation. The questions on how to explore INRs to high-level tasks and deep networks are still under-explored. Existing INRs methods suffer from two problems: 1) narrow theoretical definitions of INRs are inapplicable to high-level tasks; 2) lack of representation capabilities to deep networks. Motivated by the above facts, we reformulate the definitions of INRs from a novel perspective and propose an innovative Implicit Neural Representation Network (INRN), which is the first study of INRs to tackle both low-level and high-level tasks. Specifically, we present three key designs for basic blocks in INRN along with two different stacking ways and corresponding loss functions. Extensive experiments with analysis on both low-level tasks (image fitting) and high-level vision tasks (image classification, object detection, instance segmentation) demonstrate the effectiveness of the proposed method.
翻訳日:2022-11-24 13:18:18 公開日:2022-11-23
# ISIM:弱修正セグメンテーションのための反復自己改善モデル

ISIM: Iterative Self-Improved Model for Weakly Supervised Segmentation ( http://arxiv.org/abs/2211.12455v2 )

ライセンス: Link先を確認
Cenk Bircanoglu, Nafiz Arica(参考訳) Weakly Supervised Semantic Segmentation (WSSS)は,クラスレベルのラベルからセグメンテーションラベルを学習するための課題である。 文献では、クラス活性化マップ(CAM)から得られる情報を活用することがWSSS研究に広く利用されている。 しかし、CAMは分類ネットワークから得られるため、オブジェクトの最も識別性の高い部分に興味を持ち、セグメンテーションタスクの非完全事前情報を生成する。 本研究では,セグメンテーションラベルとよりコヒーレントなCAMを得るために,修正エンコーダ-デコーダ-ベースセグメンテーションモデルに反復的アプローチを用いたフレームワークを提案し,同時に分類とセグメンテーションタスクをサポートする。 基底トラストのセグメンテーションラベルは付与されないため、同じモデルが密度条件ランダムフィールド(dCRF)の助けを借りて擬似セグメンテーションラベルを生成する。 その結果,提案手法は反復的な自己改善モデルとなった。 DeepLabv3とUNetモデルで実施された実験では、Pascal VOC12データセットが大幅に向上し、DeepLabv3アプリケーションは現在の最先端メトリックを2.5%向上させた。 実験に関連する実装は、https://github.com/cenkbircanoglu/isimである。

Weakly Supervised Semantic Segmentation (WSSS) is a challenging task aiming to learn the segmentation labels from class-level labels. In the literature, exploiting the information obtained from Class Activation Maps (CAMs) is widely used for WSSS studies. However, as CAMs are obtained from a classification network, they are interested in the most discriminative parts of the objects, producing non-complete prior information for segmentation tasks. In this study, to obtain more coherent CAMs with segmentation labels, we propose a framework that employs an iterative approach in a modified encoder-decoder-based segmentation model, which simultaneously supports classification and segmentation tasks. As no ground-truth segmentation labels are given, the same model also generates the pseudo-segmentation labels with the help of dense Conditional Random Fields (dCRF). As a result, the proposed framework becomes an iterative self-improved model. The experiments performed with DeepLabv3 and UNet models show a significant gain on the Pascal VOC12 dataset, and the DeepLabv3 application increases the current state-of-the-art metric by %2.5. The implementation associated with the experiments can be found: https://github.com/cenkbircanoglu/isim.
翻訳日:2022-11-24 13:18:01 公開日:2022-11-23
# 報酬は必要ない:生涯学習のための構成的自己保存エージェントの作り方

Reward is not Necessary: How to Create a Compositional Self-Preserving Agent for Life-Long Learning ( http://arxiv.org/abs/2211.10851v2 )

ライセンス: Link先を確認
Thomas J. Ringstrom(参考訳) 本稿では, 報酬信号や報酬の最大化を目的としない, フレキシブルな自己保存システムを定義することが可能であることの証明として, 生理モデルに基づくエージェントを紹介した。 我々は,エージェントが解決しなければ,システムが吸収状態に閉じ込められ,目標指向の警察を実施できる生理学的構造を備えた自己保存エージェント(SPA)を導入することにより,これを実現した。 我々のエージェントは、テンポラルゴールマルコフ決定過程 (TGMDP) として形式化された非定常非マルコフタスクを符号化するために、演算子ベルマン方程式 (OBEs) と呼ばれるベルマン方程式の新しいクラスを用いて定義される。 OBEは、目標を達成するために使われるポリシーの最終状態時間に初期状態時刻をマッピングする最適な目標条件付き時空間遷移演算子を作成し、また、複数の動的生理的状態空間における将来の状態を予測するためにも使用できる。 spaは、ポリシーに従う後のエンパワーメント(トランジッション演算子のチャネル容量)の変化を定量化するvalence関数と呼ばれる本質的な動機付け関数を備えている。 エンパワーメントは遷移作用素の関数であるため、エンパワーメントとOBEの間には自然なシナジズムが存在する: OBEは階層的遷移作用素を作成し、価関数はこれらの作用素で定義される階層的エンパワーメント変化を評価することができる。 次に、valence関数はゴール選択に使用され、エージェントは最大エンパワーメントゲインを生成するゴール状態を実現するポリシーシーケンスを選択する。 そうすることで、エージェントは、将来、外部状態と内部状態の両方を制御する能力を損なう内部死状態を避け、予測的および予測的自己保存能力を発揮する。 また,SPAと多目的RLを比較し,シンボリック推論と生涯学習の能力について議論した。

We introduce a physiological model-based agent as proof-of-principle that it is possible to define a flexible self-preserving system that does not use a reward signal or reward-maximization as an objective. We achieve this by introducing the Self-Preserving Agent (SPA) with a physiological structure where the system can get trapped in an absorbing state if the agent does not solve and execute goal-directed polices. Our agent is defined using new class of Bellman equations called Operator Bellman Equations (OBEs), for encoding jointly non-stationary non-Markovian tasks formalized as a Temporal Goal Markov Decision Process (TGMDP). OBEs produce optimal goal-conditioned spatiotemporal transition operators that map an initial state-time to the final state-times of a policy used to complete a goal, and can also be used to forecast future states in multiple dynamic physiological state-spaces. SPA is equipped with an intrinsic motivation function called the valence function, which quantifies the changes in empowerment (the channel capacity of a transition operator) after following a policy. Because empowerment is a function of a transition operator, there is a natural synergism between empowerment and OBEs: the OBEs create hierarchical transition operators, and the valence function can evaluate hierarchical empowerment change defined on these operators. The valence function can then be used for goal selection, wherein the agent chooses a policy sequence that realizes goal states which produce maximum empowerment gain. In doing so, the agent will seek freedom and avoid internal death-states that undermine its ability to control both external and internal states in the future, thereby exhibiting the capacity of predictive and anticipatory self-preservation. We also compare SPA to Multi-objective RL, and discuss its capacity for symbolic reasoning and life-long learning.
翻訳日:2022-11-24 13:11:40 公開日:2022-11-23
# シーケンス内のベクトルをルーティングするアルゴリズム

An Algorithm for Routing Vectors in Sequences ( http://arxiv.org/abs/2211.11754v2 )

ライセンス: Link先を確認
Franz A. Heinsen(参考訳) 本研究では,ベクトル列を取り込んで,長さとベクトルサイズが指定された新しいシーケンスを計算するルーティングアルゴリズムを提案する。 それぞれの出力ベクトルは「bang per bit」を最大化し、入力ベクトルをより良く予測することで、使い勝手とデータ無視のネットコストの差を最大化する。 我々は、出力ベクトルを幾何学的対象、信用を割り当てる潜在変数、連想記憶のモデルにおける問合せ状態、心の社会のモデルにおけるエージェントとして記述する。 我々は,パラメータ数,計算量,メモリ使用量を桁違いに削減し,従来よりも長い列をルーティングするアルゴリズムを実装した。 我々は,自然言語および視覚的分類タスクの実装を評価し,解釈可能な競争的あるいは最先端の精度とエンドツーエンドの信用代入を得る。

We propose a routing algorithm that takes a sequence of vectors and computes a new sequence with specified length and vector size. Each output vector maximizes "bang per bit," the difference between a net benefit to use and net cost to ignore data, by better predicting the input vectors. We describe output vectors as geometric objects, as latent variables that assign credit, as query states in a model of associative memory, and as agents in a model of a Society of Mind. We implement the algorithm with optimizations that reduce parameter count, computation, and memory use by orders of magnitude, enabling us to route sequences of greater length than previously possible. We evaluate our implementation on natural language and visual classification tasks, obtaining competitive or state-of-the-art accuracy and end-to-end credit assignments that are interpretable.
翻訳日:2022-11-24 13:11:07 公開日:2022-11-23
# ニューラルネットワークのためのベイズ学習:アルゴリズムによる調査

Bayesian Learning for Neural Networks: an algorithmic survey ( http://arxiv.org/abs/2211.11865v2 )

ライセンス: Link先を確認
Martin Magris, Alexandros Iosifidis(参考訳) 過去10年間、ベイズ学習への関心が高まった。 しかし、このトピックの技術的な性質とそれに関連する多くの要素は、理論を実践的な実装に変換する複雑さに加えて、ベイズ学習パラダイムの使用を制限することや、様々な分野や応用で広く採用されるのを妨げている。 この自己完結型調査は、ベイズ学習ニューラルネットワークの原理とアルゴリズムを読者に紹介する。 アクセス可能で実践的な視点からトピックを紹介します。 ベイズニューラルネットワークの一般導入について、変分推論と自然勾配の利用に依存する解に重点を置いて、ベイズ推論の標準的および最近のアプローチを論じ、提示する。 また,ベイズ学習の最先端手法としての多様体最適化についても論じる。 提案手法の特徴について検討し,その実装に擬似コードを提供し,勾配の計算などの実践的側面に注目した。

The last decade witnessed a growing interest in Bayesian learning. Yet, the technicality of the topic and the multitude of ingredients involved therein, besides the complexity of turning theory into practical implementations, limit the use of the Bayesian learning paradigm, preventing its widespread adoption across different fields and applications. This self-contained survey engages and introduces readers to the principles and algorithms of Bayesian Learning for Neural Networks. It provides an introduction to the topic from an accessible, practical-algorithmic perspective. Upon providing a general introduction to Bayesian Neural Networks, we discuss and present both standard and recent approaches for Bayesian inference, with an emphasis on solutions relying on Variational Inference and the use of Natural gradients. We also discuss the use of manifold optimization as a state-of-the-art approach to Bayesian learning. We examine the characteristic properties of all the discussed methods, and provide pseudo-codes for their implementation, paying attention to practical aspects, such as the computation of the gradients
翻訳日:2022-11-24 13:10:52 公開日:2022-11-23
# 自己監督型ビデオハッシュのためのコントラストマスクオートエンコーダ

Contrastive Masked Autoencoders for Self-Supervised Video Hashing ( http://arxiv.org/abs/2211.11210v2 )

ライセンス: Link先を確認
Yuting Wang, Jinpeng Wang, Bin Chen, Ziyun Zeng, Shutao Xia(参考訳) SSVH(Self-Supervised Video Hashing)モデルでは,映像の短いバイナリ表現を地道な監督なしに生成し,大規模ビデオ検索の効率化と研究の注目を集める。 SSVHの成功は、ビデオコンテンツを理解することと、ラベルのないビデオ間のセマンティックな関係を捉える能力にある。 通常、最先端のssvh法はこれら2つのポイントを2段階のトレーニングパイプラインで考慮し、まず、インスタンス毎にマスク・アンド・予測タスクで補助ネットワークを訓練し、次に、補助ネットワークから転送される疑似neighborhood構造を保存するためにハッシュモデルを訓練する。 この連続的なトレーニング戦略は柔軟性がなく、不要である。 本論文では,映像意味情報と映像類似性関係理解を1段階に組み込んだ,シンプルで効果的なワンステージSSVH手法であるConMHを提案する。 ハッシュ学習を改善するためにビデオ意味情報をキャプチャするため,エンコーダ・デコーダ構造を採用し,時間マッシュフレームから映像を再構成する。 特に、より高いマスキング比はビデオの理解に役立ちます。 さらに、ビデオの2つの拡張ビュー間の合意を最大化することで、ビデオ間の類似性を十分に活用し、より識別的で堅牢なハッシュコードに寄与します。 大規模ビデオデータセット(FCVID、ActivityNet、YFCC)の大規模な実験は、ConMHが最先端の結果を達成することを示している。 コードはhttps://github.com/huangmozhi9527/conmhで入手できる。

Self-Supervised Video Hashing (SSVH) models learn to generate short binary representations for videos without ground-truth supervision, facilitating large-scale video retrieval efficiency and attracting increasing research attention. The success of SSVH lies in the understanding of video content and the ability to capture the semantic relation among unlabeled videos. Typically, state-of-the-art SSVH methods consider these two points in a two-stage training pipeline, where they firstly train an auxiliary network by instance-wise mask-and-predict tasks and secondly train a hashing model to preserve the pseudo-neighborhood structure transferred from the auxiliary network. This consecutive training strategy is inflexible and also unnecessary. In this paper, we propose a simple yet effective one-stage SSVH method called ConMH, which incorporates video semantic information and video similarity relationship understanding in a single stage. To capture video semantic information for better hashing learning, we adopt an encoder-decoder structure to reconstruct the video from its temporal-masked frames. Particularly, we find that a higher masking ratio helps video understanding. Besides, we fully exploit the similarity relationship between videos by maximizing agreement between two augmented views of a video, which contributes to more discriminative and robust hash codes. Extensive experiments on three large-scale video datasets (i.e., FCVID, ActivityNet and YFCC) indicate that ConMH achieves state-of-the-art results. Code is available at https://github.com/huangmozhi9527/ConMH.
翻訳日:2022-11-24 13:10:37 公開日:2022-11-23
# 深部RLの雑音的記号的抽象化 : Reward Machine を用いた検討

Noisy Symbolic Abstractions for Deep RL: A case study with Reward Machines ( http://arxiv.org/abs/2211.10902v2 )

ライセンス: Link先を確認
Andrew C. Li, Zizhao Chen, Pashootan Vaezipoor, Toryn Q. Klassen, Rodrigo Toro Icarte, Sheila A. McIlraith(参考訳) 自然言語と形式言語は、人間が指示や報酬関数を指定する効果的なメカニズムを提供する。 本稿では,Reward Machinesが取得したシンボル言語で報酬関数が指定された場合,RLによるポリシー生成について検討する。 我々は、エージェントの観点から、環境状態のシンボル(ここでは報酬機械)語彙へのマッピングが不確実である場合に関心を持っている。 我々は,PMDP最適化問題の特別なクラスとして,ノイズの多いシンボル抽象化を用いたリワードマシンにおけるポリシー学習の問題を定式化し,既存の手法と新しい手法に基づいて,個別のシンボルの基底ではなく,リワードマシンの状態を予測することに焦点を当てたいくつかの手法について検討する。 これらの手法を解析し,記号語彙の正しい解釈における不確かさの程度を実験的に評価する。 本手法の強みと既存手法の限界を, 図示的, 玩具的, 部分的観察可能な深層rl領域の両方について実証的に検証した。

Natural and formal languages provide an effective mechanism for humans to specify instructions and reward functions. We investigate how to generate policies via RL when reward functions are specified in a symbolic language captured by Reward Machines, an increasingly popular automaton-inspired structure. We are interested in the case where the mapping of environment state to a symbolic (here, Reward Machine) vocabulary -- commonly known as the labelling function -- is uncertain from the perspective of the agent. We formulate the problem of policy learning in Reward Machines with noisy symbolic abstractions as a special class of POMDP optimization problem, and investigate several methods to address the problem, building on existing and new techniques, the latter focused on predicting Reward Machine state, rather than on grounding of individual symbols. We analyze these methods and evaluate them experimentally under varying degrees of uncertainty in the correct interpretation of the symbolic vocabulary. We verify the strength of our approach and the limitation of existing methods via an empirical investigation on both illustrative, toy domains and partially observable, deep RL domains.
翻訳日:2022-11-24 13:10:09 公開日:2022-11-23
# フェアネスは敵の脆弱性を増す

Fairness Increases Adversarial Vulnerability ( http://arxiv.org/abs/2211.11835v2 )

ライセンス: Link先を確認
Cuong Tran, Keyu Zhu, Ferdinando Fioretto, Pascal Van Hentenryck(参考訳) ディープラーニングモデルの顕著なパフォーマンスとその連続したドメイン(例えば顔認識)への応用は、エクイティとセキュリティの交差において重要な課題をもたらす。 公平性と堅牢性は、学習モデルにおいてしばしば必要とされる2つの望ましい概念である。 公正さは、モデルを不均等に他のグループに害を与えない(または利益を与える)ことを保証する一方、ロバスト性は小さな入力摂動に対してモデルの弾力性を測定する。 本稿では,フェアネスとロバストネスの2分法が存在することを示し,フェアネスを達成すると,モデルのロバスト性が逆試料に低下することを示す。 報告された分析は、そのような対照的な行動を引き起こす要因に光を当て、この行動の鍵となる説明として、グループ間の決定境界までの距離が示唆されている。 非線形モデルと異なるアーキテクチャに関する広範な実験は、複数の視覚領域における理論的知見を検証する。 最後に,公平性とロバスト性の間の良好なトレードオフを実現するモデルを構築するための,単純かつ効果的なソリューションを提案する。

The remarkable performance of deep learning models and their applications in consequential domains (e.g., facial recognition) introduces important challenges at the intersection of equity and security. Fairness and robustness are two desired notions often required in learning models. Fairness ensures that models do not disproportionately harm (or benefit) some groups over others, while robustness measures the models' resilience against small input perturbations. This paper shows the existence of a dichotomy between fairness and robustness, and analyzes when achieving fairness decreases the model robustness to adversarial samples. The reported analysis sheds light on the factors causing such contrasting behavior, suggesting that distance to the decision boundary across groups as a key explainer for this behavior. Extensive experiments on non-linear models and different architectures validate the theoretical findings in multiple vision domains. Finally, the paper proposes a simple, yet effective, solution to construct models achieving good tradeoffs between fairness and robustness.
翻訳日:2022-11-24 13:09:51 公開日:2022-11-23
# ロバストな高次元チューニングフリー多重テスト

Robust High-dimensional Tuning Free Multiple Testing ( http://arxiv.org/abs/2211.11959v2 )

ライセンス: Link先を確認
Jianqing Fan, Zhipeng Lou, Mengxin Yu(参考訳) 高次元データのスタイリングの特徴は、多くの変数が重い尾を持ち、ロバストな統計的推論が大規模な統計的推論の有効性にとって重要であることである。 しかし、Winsorization、Huberization、Central of meansといった既存の開発では、境界付けられた第2モーメントが必要であり、変数依存のチューニングパラメータが伴うため、大規模な問題への応用が困難になる。 これらの制約を解放するために,本論文では,非漸近的な視点から,一点と二点の両問題における位置パラメータを推定するための有名なHodges-Lehmann (HL) 推定器を再検討する。 本研究では,新たに開発した非漸近的バハドゥル表現に基づくhl推定器に対するberry-esseen不等式と cram\'{e}r型不等式を開発し,重み付きブートストラップアプローチによるデータ駆動信頼区間を構築する。 これらの結果から、HL推定器を大規模研究に拡張し、グローバルヌルのテストや偽発見比例制御による大規模多重検定のための \emph{tuning-free} と \emph{moment-free} の高次元推論手順を提案する。 結果として得られるチューニングフリーおよびモーメントフリーの方法は、所定のレベルで偽発見比率を制御することが説得力強く示される。 シミュレーション研究は、我々の進歩した理論をさらに支持する。

A stylized feature of high-dimensional data is that many variables have heavy tails, and robust statistical inference is critical for valid large-scale statistical inference. Yet, the existing developments such as Winsorization, Huberization and median of means require the bounded second moments and involve variable-dependent tuning parameters, which hamper their fidelity in applications to large-scale problems. To liberate these constraints, this paper revisits the celebrated Hodges-Lehmann (HL) estimator for estimating location parameters in both the one- and two-sample problems, from a non-asymptotic perspective. Our study develops Berry-Esseen inequality and Cram\'{e}r type moderate deviation for the HL estimator based on newly developed non-asymptotic Bahadur representation, and builds data-driven confidence intervals via a weighted bootstrap approach. These results allow us to extend the HL estimator to large-scale studies and propose \emph{tuning-free} and \emph{moment-free} high-dimensional inference procedures for testing global null and for large-scale multiple testing with false discovery proportion control. It is convincingly shown that the resulting tuning-free and moment-free methods control false discovery proportion at a prescribed level. The simulation studies lend further support to our developed theory.
翻訳日:2022-11-24 13:09:36 公開日:2022-11-23
# tore: トランスフォーマーによる効率的なメッシュリカバリのためのトークン削減

TORE: Token Reduction for Efficient Human Mesh Recovery with Transformer ( http://arxiv.org/abs/2211.10705v2 )

ライセンス: Link先を確認
Zhiyang Dou, Qingxuan Wu, Cheng Lin, Zeyu Cao, Qiangqiang Wu, Weilin Wan, Taku Komura, Wenping Wang(参考訳) 本稿では,モノクロ画像からトランスフォーマーをベースとしたヒューマンメッシュ回復のための効果的なToken Reduction(TORE)戦略を提案する。 現在のSOTA性能はTransformerベースの構造によって達成されている。 しかし、冗長なトークンによって引き起こされる高いモデルの複雑さと計算コストに苦しむ。 本稿では,2つの重要な側面,すなわち3次元形状構造と2次元画像特徴に基づくトークン削減戦略を提案する。 その結果,トランスフォーマーにおける高複雑さ相互作用に関与するトークンの数を大幅に削減し,計算コストを大幅に削減した形状回復の競合精度を実現した。 提案手法の有効性を検証し,手メッシュ回収における本手法の一般化可能性を示すため,幅広いベンチマーク実験を行った。 論文が公開されたら、私たちのコードは公開されます。

In this paper, we introduce a set of effective TOken REduction (TORE) strategies for Transformer-based Human Mesh Recovery from monocular images. Current SOTA performance is achieved by Transformer-based structures. However, they suffer from high model complexity and computation cost caused by redundant tokens. We propose token reduction strategies based on two important aspects, i.e., the 3D geometry structure and 2D image feature, where we hierarchically recover the mesh geometry with priors from body structure and conduct token clustering to pass fewer but more discriminative image feature tokens to the Transformer. As a result, our method vastly reduces the number of tokens involved in high-complexity interactions in the Transformer, achieving competitive accuracy of shape recovery at a significantly reduced computational cost. We conduct extensive experiments across a wide range of benchmarks to validate the proposed method and further demonstrate the generalizability of our method on hand mesh recovery. Our code will be publicly available once the paper is published.
翻訳日:2022-11-24 13:09:08 公開日:2022-11-23