このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221020となっている論文です。

PDF登録状況(公開日: 20221020)

TitleAuthorsAbstract論文公表日・翻訳日
# 責任あるAIのための行動利用ライセンス

Behavioral Use Licensing for Responsible AI ( http://arxiv.org/abs/2011.03116v2 )

ライセンス: Link先を確認
Danish Contractor and Daniel McDuff and Julia Haines and Jenny Lee and Christopher Hines and Brent Hecht and Nicholas Vincent and Hanlin Li(参考訳) 多くの異なるアプリケーションに対する人工知能(AI)への依存が高まる中、コード、データ、モデルの共有は、科学的知識の複製性と民主化を保証するために重要である。 多くの著名な学術出版機関は、コードとモデルを提出し、論文とともに公開することを期待している。 さらに開発者は、フレームワークやサービスを活用するテクノロジの開発を促進するために、これらの資産をリリースすることが多い。 多くの組織は、AIの不適切または無責任な使用に対する懸念を表明し、そのようなシステムの適用に関する倫理的ガイドラインを提案している。 このようなガイドラインは規範の設定や方針形成に役立つが、簡単には強制できない。 本稿では,ソフトウェアおよびコード上で法的に強制可能な行動利用条件を実現するためのライセンスの使用を提唱し,行動利用ライセンスの実現可能性を示すいくつかのケーススタディを提供する。 我々は、既存の責任あるAIガイドラインに従って、ライセンスがどのように実装されるかを考えます。

With the growing reliance on artificial intelligence (AI) for many different applications, the sharing of code, data, and models is important to ensure the replicability and democratization of scientific knowledge. Many high-profile academic publishing venues expect code and models to be submitted and released with papers. Furthermore, developers often want to release these assets to encourage development of technology that leverages their frameworks and services. A number of organizations have expressed concerns about the inappropriate or irresponsible use of AI and have proposed ethical guidelines around the application of such systems. While such guidelines can help set norms and shape policy, they are not easily enforceable. In this paper, we advocate the use of licensing to enable legally enforceable behavioral use conditions on software and code and provide several case studies that demonstrate the feasibility of behavioral use licensing. We envision how licensing may be implemented in accordance with existing responsible AI guidelines.
翻訳日:2023-04-25 07:24:33 公開日:2022-10-20
# 選択・平衡・宇宙論

Einselection, Equilibrium and Cosmology ( http://arxiv.org/abs/2105.14017v2 )

ライセンス: Link先を確認
Andreas Albrecht, Rose Baunach, Andrew Arrasmith(参考訳) 観測された宇宙は、その低エントロピー開始点に根付いた非常に強い時間の矢を持つ。 この低いエントロピーの始まりは、宇宙の初期状態に関する様々な「チューニングパズル」に関連している。 ここでは、時間の矢印と量子からの古典の出現との関係を究極的に宇宙論的初期条件への洞察を得ることを願って探る。 量子システムにおいて,環境との相互作用が望ましい状態を選択するプロセスであるeinselectionに注目した。 この過程は古典の量子からの出現において重要な役割を果たす。 einselectionの研究は、これまでのところ、矢印を示す場合に限られている。 ここでは, 古典性に時間的矢印が必要であるかどうかという問題から, 均衡システムの固有選択を示す能力について検討し, 詳細なバランスがこれを妨げているかどうかを考察する。 適応カルデイラ・レゲットモデルを用いて, 平衡系において, アインシュタイン選択が実際に起こりうることを示す計算を行い, この現象が, 地球平衡にもかかわらず, 時間的矢印を表す歴史とどのように結びついているかを示す。 本稿では,宇宙論および宇宙論初期条件に対する結果の興味深い影響について論じる。 私たちは興味深く、一貫性のある歴史の形式主義が私たちの分析で果たした役割に少し驚きました。

Our observed Universe has a very strong arrow of time rooted in its low entropy starting point. This low entropy start can be related to various "tuning puzzles" about the early state of the Universe. Here we explore the relationship between the arrow of time and the emergence of classical from quantum in the hopes of ultimately gaining insights into cosmological initial conditions. Our focus is on einselection, the process whereby interactions with an environment select preferred states for a quantum system. This process plays an essential role in the emergence of classical from quantum. Studies of einselection have so far been limited to cases that exhibit an arrow of time. Here we study the ability of equilibrium systems to exhibit einselection -- and investigate whether detailed balance prevents this -- motivated by the question of whether classicality requires an arrow of time. We present calculations in the adapted Caldeira-Leggett model which demonstrate that einselection can indeed take place in equilibrium systems, and show how this phenomenon is tied to histories which express an arrow of time, despite the global equilibrium. We discuss some interesting implications of our results for cosmology and cosmological initial conditions. We are intrigued and a bit surprised by the role the consistent histories formalism has ended up playing in our analysis.
翻訳日:2023-03-29 04:17:14 公開日:2022-10-20
# 1次元$XX$モデルにおけるスピンヘリスのダイナミクス

Dynamics of Spin Helices in the One-Dimensional $XX$ Model ( http://arxiv.org/abs/2110.05972v3 )

ライセンス: Link先を確認
Darren Pereira and Erich J. Mueller(参考訳) 低温原子実験と遠方からの量子輸送の理解を動機とし, 1次元$XX$モデルのスピンヘリックスのダイナミクスを解析的に研究した。 我々はジョルダン・ウィグナー変換を用いてスピン鎖を単純な運動方程式で相互作用しないフェルミ気体にマッピングする。 しかし、スピンヘリックスの初期条件はフェルミオンの高度非平衡分布に対応するため、結果として生じるダイナミクスは非自明である。 我々は、平面内スピンダイナミクスと平面外スピンダイナミクスの間の時間スケールの分離を見つける。 一様スピンチェーンの場合と半古典的モデルの分析から洞察を得る。 我々の重要な発見の1つは、スピン相関関数が実験的に観察された指数減衰とは対照的に、長い時間で$t^{-1/2}$として崩壊することである。

Motivated by cold-atom experiments and a desire to understand far-from-equilibrium quantum transport, we analytically study the dynamics of spin helices in the one-dimensional $XX$ model. We use a Jordan-Wigner transformation to map the spin chain onto a non-interacting Fermi gas with simple equations of motion. The resulting dynamics are nontrivial, however, as the spin-helix initial condition corresponds to a highly nonequilibrium distribution of the fermions. We find a separation of timescales between the in-plane and out-of-plane spin dynamics. We gain insights from analyzing the case of a uniform spin chain and from a semiclassical model. One of our key findings is that the spin correlation functions decay as $t^{-1/2}$ at long time, in contrast to the experimentally observed exponential decay.
翻訳日:2023-03-11 16:51:46 公開日:2022-10-20
# マルチモーダル多目的最適化のための簡易進化アルゴリズム

A Simple Evolutionary Algorithm for Multi-modal Multi-objective Optimization ( http://arxiv.org/abs/2201.06718v2 )

ライセンス: Link先を確認
Tapabrata Ray, Mohammad Mohiuddin Mamun and Hemant Kumar Singh(参考訳) multi-modal, multi-objective optimization problem (mmops) の解法では、目的空間におけるpareto-optimal front (pf) のよい表現を見つけるだけでなく、変数空間内のすべての等価pareto-optimal subset (pss) を見つけることが目的である。 このような問題は、意思決定者(DM)が類似した性能を持つ代替設計を識別することに興味がある場合、実際に関係している。 近年,MMOPを扱う効率的なアルゴリズムを開発する研究が盛んに行われている。 しかし、既存のアルゴリズムでは、2つの目的と2つの変数の低い問題に対処するために、関数評価の禁止的な数(しばしば数千)を必要とする。 アルゴリズムは通常、変数と目的空間の多様性と収束を管理するために追加のパラメータを必要とする洗練されたメカニズムが組み込まれている。 このレターでは、単純な設計と、標準のeaと比較してチューニングを必要とするユーザ定義パラメータを追加することなく、mmopsを解決するための定常的進化アルゴリズムを紹介します。 我々は,1000関数評価の少ない計算予算を用いて,ベンチマークに広く利用されている各種テストスイートから,21mmopsの性能を報告した。 提案アルゴリズムの性能を6つの最先端アルゴリズム(MO Ring PSO SCD, DN-NSGAII, TriMOEA-TA&R, CPDEA, MMOEA/DC, MMEA-WI)と比較した。 提案アルゴリズムは,igdx,psp,igdなどの確立した指標に基づいて,上記のアルゴリズムよりもかなり優れた性能を示す。 本研究は,本研究の実用化に向けて,単純で効率的で一般化されたアルゴリズムの設計を奨励するものである。

In solving multi-modal, multi-objective optimization problems (MMOPs), the objective is not only to find a good representation of the Pareto-optimal front (PF) in the objective space but also to find all equivalent Pareto-optimal subsets (PSS) in the variable space. Such problems are practically relevant when a decision maker (DM) is interested in identifying alternative designs with similar performance. There has been significant research interest in recent years to develop efficient algorithms to deal with MMOPs. However, the existing algorithms still require prohibitive number of function evaluations (often in several thousands) to deal with problems involving as low as two objectives and two variables. The algorithms are typically embedded with sophisticated, customized mechanisms that require additional parameters to manage the diversity and convergence in the variable and the objective spaces. In this letter, we introduce a steady-state evolutionary algorithm for solving MMOPs, with a simple design and no additional userdefined parameters that need tuning compared to a standard EA. We report its performance on 21 MMOPs from various test suites that are widely used for benchmarking using a low computational budget of 1000 function evaluations. The performance of the proposed algorithm is compared with six state-of-the-art algorithms (MO Ring PSO SCD, DN-NSGAII, TriMOEA-TA&R, CPDEA, MMOEA/DC and MMEA-WI). The proposed algorithm exhibits significantly better performance than the above algorithms based on the established metrics including IGDX, PSP and IGD. We hope this study would encourage design of simple, efficient and generalized algorithms to improve its uptake for practical applications.
翻訳日:2023-02-28 20:55:16 公開日:2022-10-20
# 地域性のための取引因果順序

Trading causal order for locality ( http://arxiv.org/abs/2202.00440v3 )

ライセンス: Link先を確認
Ravi Kunjwal, \"Amin Baumeler(参考訳) 量子論は、絡み合いのない量子非局所性のアンサンブル(QNLWE)を認める。 これらのアンサンブルは、ローカル操作と古典通信(LOCC)と完全に区別できない古典的な状態(それらは完全に区別可能で非絡み合いである)で構成されている。 本稿では、因果的観点からQNLWEを分析し、因果的順序を定めることなく、局所的な操作や古典的なコミュニケーションを用いて、これらのアンサンブルの完全な識別方法を示す。 具体的には、不定因果順序のインスタンスにアクセスする3つのパーティ — af/bwプロセス — は、シフトアンサンブルであるqnlweアンサンブルをローカル操作で完全に識別することができる。 したがって、このタイプの量子非局所性は、明確な因果順序を犠牲にして消滅する。 さらに, AF/BWプロセスのマルチパーティタイト一般化がQNLWEを示すマルチキュービットアンサンブルにどのように変換されるかを示す。 このようなアンサンブルは、暗号プロトコルやLOCCで達成できない分離可能な量子演算の研究には独立した関心がある。

Quantum theory admits ensembles of quantum nonlocality without entanglement (QNLWE). These ensembles consist of seemingly classical states (they are perfectly distinguishable and non-entangled) that cannot be perfectly discriminated with local operations and classical communication (LOCC). Here, we analyze QNLWE from a causal perspective, and show how to perfectly discriminate some of these ensembles using local operations and classical communication without definite causal order. Specifically, three parties with access to an instance of indefinite causal order -- the AF/BW process -- can perfectly discriminate the states in a QNLWE ensemble -- the SHIFT ensemble -- with local operations. Hence, this type of quantum nonlocality disappears at the expense of definite causal order. Moreover, we show how multipartite generalizations of the AF/BW process are transformed into multiqubit ensembles that exhibit QNLWE. Such ensembles are of independent interest for cryptographic protocols and for the study of separable quantum operations unachievable with LOCC.
翻訳日:2023-02-27 03:17:40 公開日:2022-10-20
# 相互作用するボース気体に対する位相空間確率量子力学

Phase-space stochastic quantum hydrodynamics for interacting Bose gases ( http://arxiv.org/abs/2202.10609v3 )

ライセンス: Link先を確認
S. A. Simmons, J. C. Pillay, and K. V. Kheruntsyan(参考訳) 流体力学理論は、量子多体系の計算の難しいダイナミクスをシミュレートすることに成功したアプローチを提供する。 この研究は、正-P相空間形式論において、相互作用するボース気体を記述するための新しい確率的流体力学法を導出する。 超流動流体力学(superfluid hydrodynamics)や一般化された流体力学(generalized hydrodynamics)のような既存の流体力学アプローチを超えて、これらのシステムの完全な量子力学をシミュレートする能力を持っている。 この記述を用いて, 量子揺らぎの処理の近似を犠牲にして, 完全正の正のp法よりも長時間, このような非平衡条件をシミュレートできる線形化確率流体力学スキームを導出し, この線形化スキームが既存のボゴリューボフ法と直接接続できることを示す。 さらに,量子衝撃波シナリオで発生する相関を探索し,その予測を他の確立された量子多体アプローチと比較することにより,この形式化の有用性と利点を実証する。

Hydrodynamic theories offer successful approaches that are capable of simulating the otherwise difficult-to-compute dynamics of quantum many-body systems. In this work we derive, within the positive-P phase-space formalism, a new stochastic hydrodynamic method for the description of interacting Bose gases. It goes beyond existing hydrodynamic approaches, such as superfluid hydrodynamics or generalized hydrodynamics, in its capacity to simulate the full quantum dynamics of these systems: it possesses the ability to compute non-equilibrium quantum correlations, even for short-wavelength phenomena. Using this description, we derive a linearized stochastic hydrodynamic scheme which is able to simulate such non-equilibrium situations for longer times than the full positive-P approach, at the expense of approximating the treatment of quantum fluctuations, and show that this linearized scheme can be directly connected with existing Bogoliubov approaches. Furthermore, we go on to demonstrate the usefulness and advantages of this formalism by exploring the correlations that arise in a quantum shock wave scenario and comparing its predictions to other established quantum many-body approaches.
翻訳日:2023-02-24 06:13:39 公開日:2022-10-20
# 最低ランダウ層におけるボソニック超流動渦結晶の表面波とバルクラダーマンモード

Surface waves and bulk Ruderman mode of a bosonic superfluid vortex crystal in the lowest Landau level ( http://arxiv.org/abs/2202.10924v2 )

ライセンス: Link先を確認
Bhilahari Jeevanesan, Claudio Benzoni, Sergej Moroz(参考訳) 有限円板状2次元渦結晶を人工磁場中で圧縮性ボソニック超流動に形成した集合正規モードを決定・解析する。 最小ランダウ準位近似における微視的グロス・ピタエフスキー理論を用いて、渦結晶基底状態を生成し、小さな振幅集団振動に対するボゴリューボフ・ド・ゲンヌ方程式を解く。 バルクトカチェンコモードよりも大きい周波数で伝播するキラル表面波が観測された。 さらに、低周波バルク励起の研究を行い、前述した低エネルギー実効場理論によってよく説明されているねじれルダーマンモードを同定する。

We determine and analyze collective normal modes of a finite disk-shaped two-dimensional vortex crystal formed in a compressible bosonic superfluid in an artificial magnetic field. Using the microscopic Gross-Pitaevskii theory in the lowest Landau level approximation, we generate vortex crystal ground states and solve the Bogoliubov-de Gennes equations for small amplitude collective oscillations. We find chiral surface waves that propagate at frequencies larger than those of the bulk Tkachenko modes. Furthermore, we study low frequency bulk excitations and identify a torsional Ruderman mode, which we find is well-described by a previously developed low-energy effective field theory.
翻訳日:2023-02-24 06:01:26 公開日:2022-10-20
# 量子ネットワークにおける安定化状態の変換

Transformations of Stabilizer States in Quantum Networks ( http://arxiv.org/abs/2203.04202v2 )

ライセンス: Link先を確認
Matthias Englbrecht, Tristan Kraft, and Barbara Kraus(参考訳) 安定化器の状態とグラフ状態は、量子エラー補正、測定に基づく量子計算、および量子情報理論における様々な概念に応用できる。 本研究では,安定化状態間のパーティローカルクリフォード(PLC)変換について検討する。 これらの変換は、量子ネットワークにおける局所演算の物理的動機付けによる拡張として生じ、ネットワークのいくつかのノード間の2部的な絡み合いにアクセスする。 まず、グラフ状態間のPLC変換は、グラフ状態間の局所クリフォード変換を記述するよく知られた局所補完の一般化と同値であることを示す。 次に、安定化状態のPLC同値性を研究する数学的枠組みを導入し、双線型形式のタプルの分類に関連づける。 この枠組みにより、安定状態の分解を非可逆状態のテンソル積、すなわち、エンタングルメント生成集合(egs)から状態への分解に研究することができる。 EGSは最大で3ドル(約3万3000円)の政党だ(Bravyiら、J. Math)。 Phys bf 47}, 062106~(2006)] は、 4$ 以上のパーティーに対しては、パーティー局所ユニタリ変換を考えるときでさえ無限集合であることを示す。 さらに、ESGを4ドルパーティーで最大10ドルキュービットまで明示的に計算します。 最後に、このフレームワークを、素次元で2ドルに満たないキュディット安定化状態に一般化することにより、キュディット安定化状態のESGからの状態への分解が一意であることを示す。

Stabilizer states and graph states find application in quantum error correction, measurement-based quantum computation and various other concepts in quantum information theory. In this work, we study party-local Clifford (PLC) transformations among stabilizer states. These transformations arise as a physically motivated extension of local operations in quantum networks with access to bipartite entanglement between some of the nodes of the network. First, we show that PLC transformations among graph states are equivalent to a generalization of the well-known local complementation, which describes local Clifford transformations among graph states. Then, we introduce a mathematical framework to study PLC equivalence of stabilizer states, relating it to the classification of tuples of bilinear forms. This framework allows us to study decompositions of stabilizer states into tensor products of indecomposable ones, that is, decompositions into states from the entanglement generating set (EGS). While the EGS is finite up to $3$ parties [Bravyi et al., J. Math. Phys. {\bf 47}, 062106~(2006)], we show that for $4$ and more parties it is an infinite set, even when considering party-local unitary transformations. Moreover, we explicitly compute the EGS for $4$ parties up to $10$ qubits. Finally, we generalize the framework to qudit stabilizer states in prime dimensions not equal to $2$, which allows us to show that the decomposition of qudit stabilizer states into states from the EGS is unique.
翻訳日:2023-02-22 19:54:24 公開日:2022-10-20
# 医療現場における離散事象シミュレーション

Discrete-Event Simulation in Healthcare Settings: a Review ( http://arxiv.org/abs/2211.00061v1 )

ライセンス: Link先を確認
John J. Forbus and Daniel Berleant(参考訳) 我々は,医療関連システムにおける個別イベントシミュレーションに関する技術の現状をレビューし,定義する。 過去5年間(2017年~2021年)の出版文献のレビューが行われ、その内容は以前に出版された作品に基づいている。 PubMedとEBSCOhostは、医療における離散イベントシミュレーションに関するジャーナル記事を探し、933のユニークな記事が特定された。 そのうち約半数はタイトル/抽象レベルで除外され、154は全文レベルで除外され、311の論文が分析された。 これらは分類され、カテゴリー別に分析され、まとめて出版量、病的焦点、コウントによる活動レベル、使用されるソフトウェアシステム、研究中の医療ユニットのサイズを識別した。 当初は1196件が特定されていた。 このリストは体系的なレビューのために311に絞り込まれた。 以前の体系的レビューから得られたスキーマに従って、記事は4つの幅広いカテゴリに分類された: 医療sys-tems operations(hcso)、疾患進行モデリング(dpm)、スクリーニングモデリング(sm)、健康行動モデリング(hbm)。 医療における離散的なイベントシミュレーションは、年々増加し、医療システムの多様な領域に拡大していることがわかった。 さらに、本研究では、医療でシミュレーションがどのように使われているかの詳細とニュアンスを知るために、追加の書誌寸法を追加する。

We review and define the current state of the art as relating to discrete event simulation in healthcare-related systems. A review of published literature over the past five years (2017 - 2021) was conducted, building upon previously published work. PubMed and EBSCOhost were searched for journal articles on discrete event simulation in healthcare resulting in identification of 933 unique articles. Of these about half were excluded at the title/abstract level and 154 at the full text level, leaving 311 papers to analyze. These were categorized, then analyzed by category and collectively to identify publication volume over time, disease focus, activity levels by coun-try, software systems used, and sizes of healthcare unit under study. A total of 1196 articles were initially identified. This list was narrowed down to 311 for systematic review. Following the schema from prior systematic reviews, the articles fell into four broad categories: health care sys-tems operations (HCSO), disease progression modeling (DPM), screening modeling (SM), and health behavior modeling (HBM). We found that discrete event simulation in healthcare has con-tinued to increase year-over-year, as well as expand into diverse areas of the healthcare system. In addition, this study adds extra bibliometric dimensions to gain more insight into the details and nuances of how and where simulation is being used in healthcare.
翻訳日:2023-02-19 12:09:27 公開日:2022-10-20
# 都市内および都市間健康格差の要因を明らかにするグラフ注意ネットワーク

Graph Attention Networks Unveil Determinants of Intra- and Inter-city Health Disparity ( http://arxiv.org/abs/2210.10142v2 )

ライセンス: Link先を確認
Chenyue Liu (1), Chao Fan (2), Ali Mostafavi (1) ((1) Urban Resilience.AI Lab, Zachry Department of Civil and Environmental Engineering, Texas A&M University, College Station, United States, (2) Glenn Department of Civil Engineering, Clemson University, Clemson, South Carolina, United States)(参考訳) 都市における健康状態の変化に根ざした決定要因を理解することは、都市デザインと計画、および公衆衛生政策を伝える上で重要である。 複数の異質な都市の特徴は、都市や異なる都市の様々な地区で病気の流行を調節することができる。 本研究は, 肥満, 糖尿病, 癌, 心臓病の4つの疾患の頻度において, 社会デモグラフィー, 人口活動, モビリティ, 構築環境, およびその非非線形相互作用に関連する異種性の特徴について検討した。 大規模匿名モビリティデータから,人口活動,移動度,施設密度に関する特徴を得る。 これらの特徴はグラフアテンションネットワーク(GAT)モデルのトレーニングやテストに使われ、非線形特徴相互作用と近隣地域の空間的相互依存性をキャプチャする。 モデルは4つの病型にわたる5つの米国都市でテストしました。 その結果,GATモデルでは,地域住民の健康状態を上位5つの要因に基づいて予測できることがわかった。 以上の結果から, 人口活動と環境機能, 社会デポグラフィの特徴は, gatモデルが高精度でこれらの特徴を用いて健康状態を予測できる程度に, 近隣の健康状態を区別できることが判明した。 また, ある都市で訓練したモデルでは, 都市間の類似性や健康状態の相違を定量的に把握し, 高い精度で健康状態を予測できることを示した。 このモデルと調査結果は、都市設計者、プランナー、公衆衛生担当者にとって、重要な決定的特徴とその相互作用を考慮して、都市の健康格差をよりよく理解し改善するための新しいアプローチと洞察を提供する。

Understanding the determinants underlying variations in urban health status is important for informing urban design and planning, as well as public health policies. Multiple heterogeneous urban features could modulate the prevalence of diseases across different neighborhoods in cities and across different cities. This study examines heterogeneous features related to socio-demographics, population activity, mobility, and the built environment and their non-linear interactions to examine intra- and inter-city disparity in prevalence of four disease types: obesity, diabetes, cancer, and heart disease. Features related to population activity, mobility, and facility density are obtained from large-scale anonymized mobility data. These features are used in training and testing graph attention network (GAT) models to capture non-linear feature interactions as well as spatial interdependence among neighborhoods. We tested the models in five U.S. cities across the four disease types. The results show that the GAT model can predict the health status of people in neighborhoods based on the top five determinant features. The findings unveil that population activity and built-environment features along with socio-demographic features differentiate the health status of neighborhoods to such a great extent that a GAT model could predict the health status using these features with high accuracy. The results also show that the model trained on one city can predict health status in another city with high accuracy, allowing us to quantify the inter-city similarity and discrepancy in health status. The model and findings provide novel approaches and insights for urban designers, planners, and public health officials to better understand and improve health disparities in cities by considering the significant determinant features and their interactions.
翻訳日:2023-02-19 11:53:22 公開日:2022-10-20
# プライバシーの説明 - エンドユーザー信頼の意味

Privacy Explanations - A Means to End-User Trust ( http://arxiv.org/abs/2210.09706v2 )

ライセンス: Link先を確認
Wasja Brunotte, Alexander Specht, Larissa Chazette, Kurt Schneider(参考訳) ソフトウェアシステムはユビキタスであり、その利用は私たちの日常生活に浸透している。 それによって、素早く簡単に人々と連絡を取り、情報収集を支援し、日々の作業を支援することができます。 その代わり、私たちはこれらのシステムに大量の個人情報を提供し、これが私たちのプライバシーを危険にさらしていることに気づかないことが多い。 エンドユーザは通常、収集されたデータ、目的、アクセスした人、どこに、どのように保存されているのかを知らない。 この問題に対処するため、我々は説明責任がこの問題にどのように取り組むかを検討した。 プライバシーの説明を作成して、エンドユーザの理由と目的を特定するために役立ちました。 調査でエンドユーザにプライバシの説明について質問したところ、回答者の大多数(91.6%)が一般的にプライバシの説明を受けることに関心を持っていることがわかった。 その結果,プライバシーの説明はソフトウェアシステムの信頼性を高めるための重要なステップであり,エンドユーザのプライバシー意識を高めることができることがわかった。 これらの発見は、プライバシを認識したシステムを開発し、使用可能なプライバシ機能を組み込むことで、ユーザのプライバシ保護を支援します。

Software systems are ubiquitous, and their use is ingrained in our everyday lives. They enable us to get in touch with people quickly and easily, support us in gathering information, and help us perform our daily tasks. In return, we provide these systems with a large amount of personal information, often unaware that this is jeopardizing our privacy. End users are typically unaware of what data is collected, for what purpose, who has access to it, and where and how it is stored. To address this issue, we looked into how explainability might help to tackle this problem. We created privacy explanations that aim to help to clarify to end users why and for what purposes specific data is required. We asked end users about privacy explanations in a survey and found that the majority of respondents (91.6 \%) are generally interested in receiving privacy explanations. Our findings reveal that privacy explanations can be an important step towards increasing trust in software systems and can increase the privacy awareness of end users. These findings are a significant step in developing privacy-aware systems and incorporating usable privacy features into them, assisting users in protecting their privacy.
翻訳日:2023-02-19 11:51:10 公開日:2022-10-20
# 長距離相互作用量子スピン鎖における動的ハドロン生成

Dynamical hadron formation in long-range interacting quantum spin chains ( http://arxiv.org/abs/2204.05641v2 )

ライセンス: Link先を確認
Joseph Vovrosh, Rick Mukherjee, Alvise Bastianello and Johannes Knolle(参考訳) 量子スピンチェーンにおける閉じ込めの研究は近年、大きな関心を集めている。 有効一次元凝縮物質実現の領域を理解することは重要であるだけでなく、量子色力学(QCD)と非摂動物理学の一部を共有しており、現在の量子シミュレーションの取り組みの主ターゲットとなっている。 QCDと類似して、これらのモデルに現れる閉じ込め誘起二粒子境界状態は中間子と呼ばれる。 本研究では,2つの中間子が拡張相互作用を持つような長距離相互作用を持つ量子スピンチェーンにおける中間子衝突による散乱現象を研究する。 テトラクォークに似た4つの成分を持つ新規なハドロン境界状態が核融合時に動的に形成されることを示す。 自然衝突では、弾性中間子散乱が支配的な信号が弱い。 しかし,我々は動的ハドロン形成の明確な観察を可能にする2つの制御可能なプロトコルを提案する。 我々は、この物理を閉じ込められたイオンやリドバーグ原子のセットアップでシミュレートする方法について議論する。

The study of confinement in quantum spin chains has seen a large surge of interest in recent years. It is not only important for understanding a range of effective one-dimensional condensed matter realizations, but also shares some of the non-perturbative physics with quantum chromodynamics (QCD) which makes it a prime target for current quantum simulation efforts. In analogy with QCD, the confinement-induced two-particle boundstates that appear in these models are dubbed mesons. Here, we study scattering events due to meson collisions in a quantum spin chain with long-range interactions such that two mesons have an extended interaction. We show how novel hadronic boundstates, e.g. with four constituent particles akin to tetraquarks, may form dynamically in fusion events. In a natural collision their signal is weak as elastic meson scattering dominates. However, we propose two controllable protocols which allow for a clear observation of dynamical hadron formation. We discuss how this physics can be simulated in trapped ion or Rydberg atom set-ups.
翻訳日:2023-02-17 05:43:21 公開日:2022-10-20
# 分極量子トンネルの理論

Theory for polaritonic quantum tunneling ( http://arxiv.org/abs/2204.13490v2 )

ライセンス: Link先を確認
Kalle S. U. Kansanen(参考訳) 真空キャビティモードと$N$準安定系の強い結合によって形成される分極性系のトンネル崩壊速度について検討する。 簡単なモデルポテンシャルを用いて、低温トンネル速度を制御するインスタントン解を求める。 キャビティによる結果として生じる速度変化は、光物質結合の第二のパワーの平均に比例する。 速度を$\sqrt{n}$で増やす集団効果は存在しないが、これは熱活性化反応の結果と一致している。

I investigate the tunneling decay rate of a polaritonic system formed by a strong coupling between a vacuum cavity mode and $N$ metastable systems. Using a simple model potential, I find the instanton solutions controlling the low-temperature tunneling rate. The resulting rate modification due to the cavity is proportional to the mean of the second power of the light-matter coupling. No collective effect that would enhance the rates by a factor of $\sqrt{N}$ is present, which is in line with the results in the thermal activation regime.
翻訳日:2023-02-15 06:41:34 公開日:2022-10-20
# IBM量子コンピュータを用いた量子力学における複素数の必要性の検証

Testing the necessity of complex numbers in quantum mechanics with IBM quantum computers ( http://arxiv.org/abs/2205.01262v2 )

ライセンス: Link先を確認
Jarrett L. Lancaster and Nicholas M. Palladino(参考訳) IBMの量子コンピュータは、量子力学の標準的な定式化における複素数の必要性をテストするために最近提案された実験に使用されている。 ノイズの多いデバイスは決定的な結果が得られないが、量子現象の忠実な記述が複素数を含む必要があるという証拠を得るのに十分な誤差率を持っていることが示されている。 結果は,過去の実験と一致し,いくつかの自由利用機器の日々のキャリブレーションに対して頑健である。 この研究は、クラウドベースの、ノイズの多い、中間スケールの量子デバイスを使用して、量子力学の特定の基礎的特徴をテストする可能性を示す。

IBM quantum computers are used to perform a recently-proposed experiment testing the necessity of complex numbers in the standard formulation of quantum mechanics. While the noisier devices are incapable of delivering definitive results, it is shown that certain devices possess sufficiently small error rates to yield convincing evidence that a faithful description of quantum phenomena must involve complex numbers. The results are consistent with previous experiments and robust against daily calibration for several freely-available devices. This work demonstrates the feasibility of using cloud-based, noisy, intermediate-scale quantum devices to test certain foundational features of quantum mechanics.
翻訳日:2023-02-14 12:03:24 公開日:2022-10-20
# 絡み合い力学:一様加速二段階系に対する一般化マスター方程式

Entanglement dynamics: Generalized master equation for uniformly accelerated two-level systems ( http://arxiv.org/abs/2205.11628v2 )

ライセンス: Link先を確認
M. S. Soares, G. Menezes and N. F. Svaiter(参考訳) オープン量子システムの理論において、量子マスター方程式の新しい形式を提案する。 この新しい形式化により、異なる双曲的軌道に沿って動く2段階の系のダイナミクスを、異なる固有時間で記述することができる。 ボルン・マルコフ近似では、量子質量を持たないスカラー場と2レベルの系を考える。 分離可能な状態から始めて、エンタングルメント収穫の出現を示す。 異なる適切な加速度に対して、突然死の絡み合いも検証する。

We propose a new form for the quantum master equation in the theory of open quantum systems. This new formalism allows one to describe the dynamics of two-level systems moving along different hyperbolic trajectories with distinct proper times. In the Born-Markov approximation, we consider a quantum massless scalar field coupled with two-level systems. Starting from a separable state we show the emergence of entanglement harvesting. For different proper accelerations we verify also the entanglement sudden death.
翻訳日:2023-02-12 00:32:50 公開日:2022-10-20
# 不安定粒子の押し上げ

Boosting unstable particles ( http://arxiv.org/abs/2206.05125v2 )

ライセンス: Link先を確認
L. Gavassino and F. Giacosa(参考訳) 相対性理論では、異なる場所にある2つの時計は常にローレンツブーストによって非同期化されるため、シンマルタニティの絶対的な概念は存在しない。 ここでは、不安定粒子の量子論におけるこの効果の意義を考察する。 波動関数が上昇すると、その尾は1つずつ過去へ、もう1つが未来へと移動することを示す。 結果として、新しい参照のフレームでは、粒子は量子的重ね合わせ(decayed + non decayed)にあり、「decayed-ness」という性質は位置と絡み合っている。 粒子はコンプトン波長より小さい領域に局在化できないため、この効果にはゼロ以下の境界があり、これは自然界において基本である。 驚くべきことに、量子の世界では、崩壊確率はローレンツ不変ではない。 この知見が、相対論的量子力学と量子場理論における時間拡張に関する一見矛盾する見解を解明するための欠落した要素であることを示す。

In relativity, there is no absolute notion of simultaneity, because two clocks that are in different places can always be desynchronized by a Lorentz boost. Here, we explore the implications of this effect for the quantum theory of unstable particles. We show that, when a wavefunction is boosted, its tails travel one to the past and the other to the future. As a consequence, in the new frame of reference, the particle is in a quantum superposition "decayed + non decayed", where the property "decayed-ness" is entangled with the position. Since a particle cannot be localised in a region smaller than the Compton wavelength, there is a non-zero lower bound on this effect, which is fundamental in nature. The surprising implication is that, in a quantum world, decay probabilities can never be Lorentz-invariant. We show that this insight was the missing ingredient to reconcile the seemingly conflicting views about time dilation in relativistic quantum mechanics and quantum field theory.
翻訳日:2023-02-10 06:38:30 公開日:2022-10-20
# IBISCape:大規模動的環境におけるマルチモーダルSLAMシステム評価のためのシミュレーションベンチマーク

IBISCape: A Simulated Benchmark for multi-modal SLAM Systems Evaluation in Large-scale Dynamic Environments ( http://arxiv.org/abs/2206.13455v2 )

ライセンス: Link先を確認
Abanob Soliman, Fabien Bonardi, D\'esir\'e Sidib\'e and Samia Bouchafa(参考訳) 高忠実度SLAMシステムの開発プロセスは、信頼性のあるデータセットに対する検証に依存する。 この目的に向けて,同種センサ(ステレオRGB/DVS,Depth,IMU,GPS)からのテレメトリのためのデータ同期と取得APIと,地上の真実シーンのセグメンテーションと車両のエゴモーションを含むシミュレーションベンチマークであるIBISCapeを提案する。 我々のベンチマークはCARLAシミュレータ上に構築されており、そのバックエンドはUnreal Engineであり、現実世界をシミュレートする高ダイナミックなシーンをレンダリングする。 さらに,自動走行車ナビゲーションに適した34のマルチモーダルデータセットを提供し,事故などのシーン理解評価のシナリオと,我々のAPIと統合した動的気象シミュレーションクラスに基づく幅広いフレーム品質を提供する。 また、CARLAシミュレーションDVSおよびRGBカメラの未知の歪みパラメータ問題を解決するために、CARLAマップに最初のキャリブレーションターゲットを導入する。 最後に, IBISCape シーケンスを用いて, シミュレーションされた大規模動的環境において収集された4つのORB-SLAM3システム(モノクロRGB, ステレオRGB, ステレオSVI, ステレオRGB-D)と BASALT Visual-Inertial Odometry (VIO) システムの評価を行った。 キーワード:ベンチマーク、マルチモーダル、データセット、Odometry、Calibration、DVS、SLAM

The development process of high-fidelity SLAM systems depends on their validation upon reliable datasets. Towards this goal, we propose IBISCape, a simulated benchmark that includes data synchronization and acquisition APIs for telemetry from heterogeneous sensors: stereo-RGB/DVS, Depth, IMU, and GPS, along with the ground truth scene segmentation and vehicle ego-motion. Our benchmark is built upon the CARLA simulator, whose back-end is the Unreal Engine rendering a high dynamic scenery simulating the real world. Moreover, we offer 34 multi-modal datasets suitable for autonomous vehicles navigation, including scenarios for scene understanding evaluation like accidents, along with a wide range of frame quality based on a dynamic weather simulation class integrated with our APIs. We also introduce the first calibration targets to CARLA maps to solve the unknown distortion parameters problem of CARLA simulated DVS and RGB cameras. Finally, using IBISCape sequences, we evaluate four ORB-SLAM3 systems (monocular RGB, stereo RGB, Stereo Visual Inertial (SVI), and RGB-D) performance and BASALT Visual-Inertial Odometry (VIO) system on various sequences collected in simulated large-scale dynamic environments. Keywords: benchmark, multi-modal, datasets, Odometry, Calibration, DVS, SLAM
翻訳日:2023-02-07 21:17:54 公開日:2022-10-20
# 重ね合わせスピンネットワークのホログラフィー特性

Holographic properties of superposed spin networks ( http://arxiv.org/abs/2207.07625v2 )

ライセンス: Link先を確認
Eugenia Colafranceschi, Simon Langenscheidt and Daniele Oriti(参考訳) テンソルネットワークに類似して定義されるスピンネットワーク状態のクラスにおける境界-境界ホログラフィーの基準と性質について検討する。 特に、離散量子幾何学上の真の和を実現する状態の重ね合わせを考える。 ランダムテンソル法を適用することで、エントロピー計算を基礎となるグラフ上のランダムイジングモデルにマッピングし、関連するジオメトリの相対サイズによって決定されるカップリングの分布を求める。 各幾何学が境界領域からその補集合への等尺写像を生成するとき、それらの重ね合わせが同じであることと、各幾何学の相対的重みがその大きさに逆比例していることは同値である。 さらに,入力境界領域の平均値とばらつきを計算し,各ジオメトリの面積の平均と和によって,第1値がそれぞれ下方および上方から区切られていることを示す。 最後に,プログラムの拡張の可能性を説明し,それらを支える概念的課題を強調する。

We study criteria for and properties of boundary-to-boundary holography in a class of spin network states defined by analogy to tensor networks. In particular, we consider superposition of states realising a genuine sum over discrete quantum geometries. By applying random tensor techniques we map entropy calculations to a random Ising model on the underlying graph, with distribution of couplings determined by the relative sizes of the involved geometries. We find that, whenever each individual geometry produces an isometric mapping from a boundary region to its complement, the superposition of them does the same if and only if the relative weight of each geometry is inversely proportional to its size. Additionally, we compute average value and variance of the input boundary region and show that the first is bounded from below and above by, respectively, the mean and sum of the areas of the individual-geometries. We finally describe possible extensions to our program and highlight the conceptual issues underpinning them.
翻訳日:2023-02-04 22:51:43 公開日:2022-10-20
# バスエンジニアリングによる量子臨界エンジン

Bath engineering enhanced quantum critical engines ( http://arxiv.org/abs/2208.06578v2 )

ライセンス: Link先を確認
Revathy B. S., Victor Mukherjee and Uma Divakaran(参考訳) 量子臨界点を越えて量子システムを駆動することは、システム内の非断熱励起につながる。 これは、量子臨界物質を加工媒体として使用する量子機械の機能に悪影響を及ぼす可能性がある。 本稿では,Kybble-Zurek機構と臨界スケーリング法則を用いて,量子相転移に近い有限時間量子エンジンの性能向上のためのプロトコルを定式化する浴槽式量子エンジン(BEQE)を提案する。 自由フェルミオン系の場合、beqeは、有限時間エンジンが、断熱性への近道、さらには適切な条件下での無限時間エンジンの存在下で作動するエンジンよりも優れており、この技術によって得られる顕著な利点を示している。 非可積分モデルに基づくBEQEの使用に関するオープンな疑問が残る。

Driving a quantum system across quantum critical points leads to non-adiabatic excitations in the system. This in turn may adversely affect the functioning of a quantum machine which uses a quantum critical substance as its working medium. Here we propose a bath-engineered quantum engine (BEQE), in which we use the Kibble--Zurek mechanism and critical scaling laws to formulate a protocol for enhancing the performance of finite-time quantum engines operating close to quantum phase transitions. In the case of free fermionic systems, BEQE enables finite-time engines to outperform engines operating in the presence of shortcuts to adiabaticity, and even infinite-time engines under suitable conditions, thus showing the remarkable advantages offered by this technique. Open questions remain regarding the use of BEQE based on non-integrable models.
翻訳日:2023-01-31 06:10:38 公開日:2022-10-20
# アシュテカール変数の4次元位相空間と球対称ループ量子ブラックホールにおけるディラック観測性

Dirac observables in the 4-dimensional phase space of Ashtekar's variables and spherically symmetric loop quantum black holes ( http://arxiv.org/abs/2208.10562v2 )

ライセンス: Link先を確認
Geeth Ongole, Hongchao Zhang, Tao Zhu, Anzhong Wang and Bin Wang(参考訳) 本稿では, ボーデンドルフ, ミール, M\"unch and Garc\'\i{}a-Quismondo and Marug\'an が最近提唱した, 球対称ブラックホール時空の2つの重合パラメータが, 四次元アシュテカール変数のディラック観測値となる提案について検討する。 このモデルでは、一般に黒と白の穴の地平線が存在し、時空を外部領域と内部領域に自然に分割する。 外部領域では、アシュテカール変数に対する2つの重合パラメータの依存性を適切に選択することにより、時空を漸近的に平坦にすることができる。 すると、時空の漸近的挙動は普遍であることが分かり、先頭の順に、曲率不変量は質量パラメータ$m$とは独立である。 例えば Kretschmann scalar は 0 に $K \simeq A_0r^{-4}$ asymptotically として近づき、A_0$ は一般に 0 でない定数であり、2つの球の幾何半径は $m$ と $r$ と独立である。 内部領域では、全ての物理量は有限であり、シュワルツシルトブラックホール特異性は、半径が常に有限かつ非零である遷移曲面に置き換えられる。 量子重力効果は非常に巨大なブラックホールのブラックホールの地平線付近では無視できる。 しかし、遷移面を横切る時空の挙動は、これまで研究された全てのループ量子ブラックホールとは大きく異なる。 特に、曲率スカラーの最大振幅の位置は遷移面からずれ、$m$に依存する。 さらに、ブラックホールの半径はブラックホールの半径よりもはるかに小さく、その正確な値は$m$にも依存する。

In this paper, we study a proposal put forward recently by Bodendorfer, Mele and M\"unch and Garc\'\i{}a-Quismondo and Marug\'an, in which the two polymerization parameters of spherically symmetric black hole spacetimes are the Dirac observables of the four-dimensional Ashtekar's variables. In this model, black and white hole horizons in general exist and naturally divide the spacetime into the external and internal regions. In the external region, the spacetime can be made asymptotically flat by properly choosing the dependence of the two polymerization parameters on the Ashtekar variables. Then, we find that the asymptotical behavior of the spacetime is universal, and, to the leading order, the curvature invariants are independent of the mass parameter $m$. For example, the Kretschmann scalar approaches zero as $K \simeq A_0r^{-4}$ asymptotically, where $A_0$ is generally a non-zero constant and independent of $m$, and $r$ the geometric radius of the two-spheres. In the internal region, all the physical quantities are finite, and the Schwarzschild black hole singularity is replaced by a transition surface whose radius is always finite and non-zero. The quantum gravitational effects are negligible near the black hole horizon for very massive black holes. However, the behavior of the spacetime across the transition surface is significantly different from all loop quantum black holes studied so far. In particular, the location of the maximum amplitude of the curvature scalars is displaced from the transition surface and depends on $m$, so does the maximum amplitude. In addition, the radius of the white hole is much smaller than that of the black hole, and its exact value sensitively depends on $m$, too.
翻訳日:2023-01-30 04:42:50 公開日:2022-10-20
# a^2項を持つ量子rabiモデルは自発的susy分解に対するno-go定理を回避できるか?

Can quantum Rabi model with A^2-term avoid no-go theorem for spontaneous SUSY breaking? ( http://arxiv.org/abs/2209.04546v3 )

ライセンス: Link先を確認
Masao Hirokawa(参考訳) 階層問題は、なぜヒッグス粒子の質量がプランクスケール質量よりもはるかに軽いのかを問う。 ヒッグス粒子とプランクスケールの素粒子の相互作用を考えると、従来の計算では、対称性のような物理原理に従わずに、任意の過大な微調整、すなわち裸質量項と量子補正の間の巨大なキャンセルの助けが必要となる。 そのため、しばしば不自然とされる。 一方、超対称性の理論(SUSY)は階層問題を自然に解くための強い候補である。 しかし、量子力学 (qm) 版でさえ、susy の兆候は、caiらによって、susy qm のプロトタイプモデルのための閉じ込められたイオン量子シミュレータで n=2 susy の観測とその自発的破壊が報告されるまで、物理的現実で直接観測されなかった。 この議論では、A^2項の量子ラビモデルの強い結合限界を突破する自発SUSYのノーゴー定理を導出し、同時に、Caiらによって提案された他の極限は、ノーゴー定理を回避し、N=2 SUSYからその自発破壊へと導出することができる。 自発的susy破壊におけるa^2項の効果を理論的に観察する方法を提案する。

The hierarchy problem asks why the mass of the Higgs particle is so much lighter than the Planck-scale mass. Considering the interaction of the Higgs particle and an elementary particle in the Planck-scale, to cope with that big difference, the conventional calculation needs the help of an arbitrary, excessive fine-tuning, that is, the huge cancellation between the bare mass term and the quantum correction, without obeying a physical principle such as symmetry. Thus, it is often said to be unnatural. On the other hand, the theory of supersymmetry (SUSY) is a strong candidate naturally to solve the hierarchy problem. However, any sign of SUSY even for the quantum mechanics (QM) version had not been firmly, directly observed in the physical reality until Cai et al. reported the observation of N=2 SUSY and its spontaneous breaking in a trapped ion quantum simulator for the prototype model for SUSY QM. In this discussion, I derive a no-go theorem for the spontaneous SUSY breaking in the strong coupling limit for the quantum Rabi model with the A^2-term, and at the same time, I show another limit proposed in the scheme by Cai et al. can avoid the no-go theorem and take that model from the N=2 SUSY to its spontaneous breaking. I propose a theoretical method to observe how the effect of A^2-term appears in the spontaneous SUSY breaking.
翻訳日:2023-01-27 05:11:25 公開日:2022-10-20
# 光パルス原子干渉法による連続自発位置測定

Light-Pulse Atom Interferometric Test of Continuous Spontaneous Localization ( http://arxiv.org/abs/2209.08818v2 )

ライセンス: Link先を確認
Sascha Vowe, Sandro Donadi, Vladimir Schkolnik, Achim Peters, Bastian Leykauf, Markus Krutzik(参考訳) 光パルス原子干渉計における連続自発局在(CSL)モデルの効果を検討した。 CSLの確率ポテンシャルを付加した経路積分法を用いて、両干渉計アームが空間的に分離された場合、干渉計時間$T$と線形にスケールするコントラストの指数的損失を導出する。 パルス分離時間を最大260msとする反伝搬二光子遷移に基づく冷ルビジウム原子干渉計を用いて測定し,CSLパラメータの対応する境界値を求める。

We investigate the effect of the Continuous Spontaneous Localization (CSL) model on light-pulse atom interferometry. Using a path-integral approach with an additional stochastic potential accounting for CSL, we derive an exponential loss of the contrast that scales linearly with the interferometer time $T$ if both interferometer arms are spatially separated. We compare our theoretical results with measurements from a cold rubidium atom interferometer based on counter-propagating two-photon transitions with pulse separation times up to $T$ = 260 ms and obtain the corresponding bounds on the CSL parameters.
翻訳日:2023-01-26 02:22:15 公開日:2022-10-20
# 電子対密度に対する相対論的効果 : 星間圏内密度と外圏確率密度から

Relativistic effects on electronic pair densities: a perspective from the radial intracule and extracule probability densities ( http://arxiv.org/abs/2209.09542v2 )

ライセンス: Link先を確認
Mauricio Rodr\'iguez-Mayorga, Dani\"el Keizer, Klaas J.H. Giesbertz, and Luuk Visscher(参考訳) 電子密度における相対性理論の影響は広く研究されているが, 対の確率, 分子内密度, 分子外密度への影響は研究されていない。 そこで本研究では,相対論的効果による電子構造の変化に関する新たな知見を提示する。 その結果,スカラー相対論的効果により平均電子間距離が減少することが示唆された。 その結果、電子-電子反発エネルギーの増加が観測された。 予備的な結果は、電子相関効果を考慮した場合、この観測も有効であることを示している。

While the effect of relativity in the electronic density has been widely studied, the effect on the pair probability, intracule, and extracule densities has not been studied before. Thus, in this work, we unveil new insights related to changes on the electronic structure caused by relativistic effects. Our numerical results suggest that the mean inter-electronic distance is reduced (mostly) due to scalar-relativistic effects. As a consequence, an increase of the electron-electron repulsion energy is observed. Preliminary results suggest that this observation is also valid when electronic correlation effects are considered.
翻訳日:2023-01-25 23:40:13 公開日:2022-10-20
# 量子接触過程モデルにおける非ヘルミティシティによる連続相転移

Continuous phase transition induced by non-Hermiticity in the quantum contact process model ( http://arxiv.org/abs/2209.10718v2 )

ライセンス: Link先を確認
Wen-Bin He, Jiasen Jin, Fernando Iemini, and Hai-Qing Lin(参考訳) 非エルミート量子システムは最近、理論的および実験的に多くの注目を集めている。 しかし、単粒子画像に基づく結果は、非エルミート多体系の性質を理解するには適用できない。 量子多体系、特に位相遷移が非ヘルミティシティにどのように影響されるかは、まだ明らかでない。 ここでは、実効ハミルトニアンがリンドブラディアンのマスター方程式から導出される非エルミート量子接触過程(QCP)モデルについて検討する。 qcpの非ヘルミティシティによって誘起される連続相転移が存在することを示す。 また, 臨界指数 $\beta$ of orderパラメータ, $\gamma$ of susceptibility を定式化し, 相転移近傍の相関および絡み合いについて検討した。 古典相転移と異なる特異挙動を持つ多体系を非ヘルミティック性が有するため,有限サイズ系においても順序パラメータと感受性は無限特異性を示す。 さらに、この結果から、相転移はエルミート的な場合と全く異なる普遍性クラスに属するものではないことが示される。

Non-Hermitian quantum system recently have attracted a lots of attentions theoretically and experimentally. However, the results based on the single-particle picture may not apply to understand the property of non-Hermitian many-body system. How the property of quantum many-body system especially the phase transition will be affected by the non-hermiticity remains unclear. Here we study non-Hermitian quantum contact process (QCP) model, whose effective Hamiltonian is derived from Lindbladian master equation. We show that there is a continuous phase transition induced by the non-hermiticity in QCP. We also determine the critical exponents $\beta$ of order parameter, $\gamma$ of susceptibility and study the correlation and entanglement near phase transition. We observe that the order parameter and susceptibility display infinitely singularity even for finite size system, since non-hermiticity endow many-body system with different singular behaviour from classical phase transition. Moreover our results show that the phase transition have no counterpart in Hermitian case and belongs to completely different universality class.
翻訳日:2023-01-25 18:14:39 公開日:2022-10-20
# 傾斜Bose-Hubbard鎖における双極子凝縮

Dipole condensates in tilted Bose-Hubbard chains ( http://arxiv.org/abs/2210.02470v2 )

ライセンス: Link先を確認
Ethan Lake, Hyun-Yong Lee, Jung Hoon Han, and T. Senthil(参考訳) ボソン数とボソン双極子モーメントの両方を動的に保存するボース・ハバード鎖の量子位相図について検討した。 双極子モーメントの保存は位相図に劇的な影響を与え、フィールド理論解析とdmrgシミュレーションを組み合わせることで解析する。 従来のボース・ハッバードモデルとは異なり、位相図は圧縮可能な位相を含まず、代わりに様々なタイプの異方性双極子凝縮が支配される。 これらの凝縮物を短期の寒冷原子実験で同定する方法を提案する。

We study the quantum phase diagram of a Bose-Hubbard chain whose dynamics conserves both boson number and boson dipole moment, a situation which can arise in strongly tilted optical lattices. The conservation of dipole moment has a dramatic effect on the phase diagram, which we analyze by combining a field theory analysis with DMRG simulations. Unlike the conventional Bose-Hubbard model, the phase diagram contains no compressible phases, and is instead dominated by various types of exotic dipolar condensates. We suggest ways by which these condensates can be identified in near-term cold atom experiments.
翻訳日:2023-01-23 17:26:51 公開日:2022-10-20
# E.C.G.スダルシャンと量子光学における対角表現

E.C.G.Sudarshan and his Diagonal Representation in Quantum Optics ( http://arxiv.org/abs/2210.06224v2 )

ライセンス: Link先を確認
S. K. Sounda, K. Mandal(参考訳) このモノグラフの本質は、1963年に出版された統計光線の半古典的および量子力学的記述のsudarshansの論文等価性の結果を再現することである。 この方向に進むために、線形調和振動子とその代数的等価性を光の単一モード量子化ビームで記述する。 密度行列の対角表現を伴うコヒーレント状態とその過剰完全性は、その結果を再現する前提条件として不可欠である。 大学院生向けの教科書の多くは線形調和振動子を詳細に記述しているが、それらは秘密裏にコヒーレント状態とその関連する性質について言及している。 したがって,7つの方程式を含むsudarshans論文の本質を理解することは困難である。 このモノグラフは、専門家の助けがなければ理解できるような、巧妙な方法で書かれています。

The essential of this monograph is to reproduce the results of Sudarshans paper Equivalence of semiclassical and quantum mechanical descriptions of statistical light beams published in 1963. To go in that direction we also describe the linear harmonic oscillator and its algebraic equivalence with a single-mode quantized beam of light. Coherent states and their overcompleteness properties along with the diagonal representation of the density matrix are essential as a prerequisite to reproduce the result. Most of the textbooks meant for graduate students describe linear harmonic oscillators in great detail but they cryptically mention coherent states and their associated properties. So it is difficult for the students to understand the essence of Sudarshans paper which contains only seven equations. This monograph is written in such a lucid manner that without the help of experts one can understand it.
翻訳日:2023-01-22 19:33:27 公開日:2022-10-20
# 逐次量子チャネル識別

Sequential Quantum Channel Discrimination ( http://arxiv.org/abs/2210.11079v1 )

ライセンス: Link先を確認
Yonglong Li, Christoph Hirche, and Marco Tomamichel(参考訳) 適応的および非適応的戦略を用いた逐次量子チャネル識別問題を考える。 この設定では、基礎となる量子チャネルの利用数は固定ではなく、期待値または高い確率で境界付けられた確率変数である。 両タイプの誤差確率は指数関数的にゼロに減少し,適応戦略を用いると,2つの量子チャネル間の相対エントロピーが測定され,非適応戦略により達成可能な領域よりも大きくなる。 量子記憶を可能にするため、最適な速度は正規化チャネル相対エントロピーによって与えられる。 最後に,量子楽器による繰り返し測定を許す場合の達成率を議論し,量子チャネル stein の補題に対する強い逆数と結果を結びつけることにより,達成率領域が povm で達成可能な値よりも大きいものではないと推測する。

We consider the sequential quantum channel discrimination problem using adaptive and non-adaptive strategies. In this setting the number of uses of the underlying quantum channel is not fixed but a random variable that is either bounded in expectation or with high probability. We show that both types of error probabilities decrease to zero exponentially fast and, when using adaptive strategies, the rates are characterized by the measured relative entropy between two quantum channels, yielding a strictly larger region than that achievable by non-adaptive strategies. Allowing for quantum memory, we see that the optimal rates are given by the regularized channel relative entropy. Finally, we discuss achievable rates when allowing for repeated measurements via quantum instruments and conjecture that the achievable rate region is not larger than that achievable with POVMs by connecting the result to the strong converse for the quantum channel Stein's Lemma.
翻訳日:2023-01-18 20:28:40 公開日:2022-10-20
# 拘束ボース-ハバードモデルにおけるフラクトニックルッティンガー液体と超固体

Fractonic Luttinger Liquids and Supersolids in a Constrained Bose-Hubbard Model ( http://arxiv.org/abs/2210.11072v1 )

ライセンス: Link先を確認
Philip Zechmann, Ehud Altman, Michael Knap, Johannes Feldmeier(参考訳) フラクトン制約を持つ量子多体系は、非慣習的な物質の低エネルギー位相を示すと広く予想されている。 本研究では,Bose-Hubbardモデルを一次元に保存する双極子モーメント基底状態における,このような異方性量子相の存在を実証する。 整数ボソン充填では,フラクトンの複合体である微視的局所双極子モデルへのシステムのマッピングを行う。 低エネルギー場理論と大規模テンソルネットワークシミュレーションを組み合わせることで、新しい双極子ルッティンガー液相の出現を実証する。 非整数補充では、量子リフシッツモデルによって説明される興味深い圧縮可能な状態が示され、電荷密度波秩序と双極子長距離秩序と超流動性(英語版)が共存する。 この超固体状態は最終的に熱力学的極限の格子効果に対して不安定になるかもしれないが、その数値的ロバスト性は顕著である。 我々は実験結果の潜在的意義について議論する。

Quantum many-body systems with fracton constraints are widely conjectured to exhibit unconventional low-energy phases of matter. In this work, we demonstrate the existence of a variety of such exotic quantum phases in the ground states of a dipole-moment conserving Bose-Hubbard model in one dimension. For integer boson fillings, we perform a mapping of the system to a model of microscopic local dipoles, which are composites of fractons. We apply a combination of low-energy field theory and large-scale tensor network simulations to demonstrate the emergence of a novel dipole Luttinger liquid phase. At non-integer fillings our numerical approach shows an intriguing compressible state described by a quantum Lifshitz model in which charge density-wave order coexists with dipole long-range order and superfluidity - a `dipole supersolid'. While this supersolid state may eventually be unstable against lattice effects in the thermodynamic limit, its numerical robustness is remarkable. We discuss potential experimental implications of our results.
翻訳日:2023-01-18 20:28:23 公開日:2022-10-20
# 擬似パウリ演算子による単一論理量子上のベルの不等式

Bell Inequalities Induced by Pseudo Pauli Operators on Single Logical Qubits ( http://arxiv.org/abs/2210.10977v1 )

ライセンス: Link先を確認
Weidong Tang(参考訳) ほとんどのベル試験では、ベルの不等式の最大量子違反を検出するために測定設定が特別に選択されるか、少なくともその違反が観測できるほど強い。 そのような選択は通常、対応するベル作用素を擬パウリ作用素と呼ばれるある種の有効観測変数に関連付けることができ、ある意味でベル非局所性をより直感的に理解することができる。 これに基づいて、ベルの不等式の構成に対するより一般的な量子-古典的アプローチが開発されている。 このアプローチを使用することで、いくつかの既知のベルの不等式を導出できるだけでなく、多くの新しいものを探すことができる。 さらに、擬パウリ作用素の不確かさ関係から二次ベルの不等式が引き起こされることを示し、これはいくつかの非局所可観測体の不確かさ関係の研究に新たな光を当てる可能性がある。

In most Bell tests, the measurement settings are specially chosen so that the maximal quantum violations of the Bell inequalities can be detected, or at least, the violations are strong enough to be observed. Such choices can usually associate the corresponding Bell operators to a kind of effective observables, called pseudo Pauli operators, providing us a more intuitive understanding of Bell nonlocality in some sense. Based on that, a more general quantum-to-classical approach for the constructions of Bell inequalities is developed. Using this approach, one can not only derive several kinds of well-known Bell inequalities, but also explore many new ones. Besides, we show that some quadratic Bell inequalities can be induced from the uncertainty relations of pseudo Pauli operators as well, which may shed new light on the study of uncertainty relations of some nonlocal observables.
翻訳日:2023-01-18 20:27:50 公開日:2022-10-20
# $p-adic$ Hermite作用素のスペクトル理論

Spectral theory of $p-adic$ Hermite operator ( http://arxiv.org/abs/2210.10941v1 )

ライセンス: Link先を確認
Tianhong Zhao(参考訳) 我々は、$p-adic$ Hermite演算子の定義を与え、$p-adic$スペクトル測度を設定する。 アルキメデスの場合と非アルキメデスの場合を比較する。 C^{*}$-アルゲブラのエルミート共役構造は、$p-adic$ Ultrametric Banach環の3つの標準構造に対応している。 1. mod $p$ reduce 2.フロベニウス地図 3.teichm\"ullerリフト。 ガロア理論とエルミート作用素のスペクトル分解の間には性質的な関係がある。 ガロア群 $\mathrm{Gal}(\bar{\mathbb{F}}_p|\mathbb{F}_p)$ は $p-進$スペクトル測度を生成する。 我々は、$p-adic$量子力学との関係を指摘している。 1.生成演算子と消滅演算子 2.$p-adic$不確実性原理

We give the definition of $p-adic$ Hermite operator and set up the $p-adic$ spectral measure. We compare the Archimedean case with non-Archimedean case. The structure of Hermite conjugate in $C^{*}$-Algebra corresponds to three canonical structures of $p-adic$ ultrametric Banach algebra: 1. mod $p$ reduction 2. Frobenius map 3. Teichm\"uller lift. There is a nature connection between Galois theory and Hermite operator spectral decomposition. The Galois group $\mathrm{Gal}(\bar{\mathbb{F}}_p|\mathbb{F}_p)$ generate the $p-adic$ spectral measure. We point out some relationships with $p-adic$ quantum mechanics: 1. creation operator and annihilation operator 2. $p-adic$ uncertainty principle.
翻訳日:2023-01-18 20:27:26 公開日:2022-10-20
# ランダム化積公式による近似の順序の倍数化

Doubling the order of approximation via the randomized product formula ( http://arxiv.org/abs/2210.11281v1 )

ライセンス: Link先を確認
Chien Hung Cho and Dominic W. Berry and Min-Hsiu Hsieh(参考訳) 確率化は、製品公式の精度や効率を改善するために、様々な方法でハミルトンシミュレーションに応用されている。 決定論的積公式はしばしば、偶数 2k の精度を提供する対称的な方法で構成される。 ランダム化補正を適用することで、4k + 1 の順序を2倍以上にすることができる(誤差の順序の倍数に対応する)。 実際には、量子アルゴリズムに補正を適用するには、例えば量子化学のシミュレーションで用いられるパウリ弦のようなハミルトニアンに何らかの構造を必要とする。

Randomization has been applied to Hamiltonian simulation in a number of ways to improve the accuracy or efficiency of product formulas. Deterministic product formulas are often constructed in a symmetric way to provide accuracy of even order 2k. We show that by applying randomized corrections, it is possible to more than double the order to 4k + 1 (corresponding to a doubling of the order of the error). In practice, applying the corrections in a quantum algorithm requires some structure to the Hamiltonian, for example the Pauli strings as are used in the simulation of quantum chemistry.
翻訳日:2023-01-18 20:23:21 公開日:2022-10-20
# ノイズの多い木データ構造と量子応用

Noisy Tree Data Structures and Quantum Applications ( http://arxiv.org/abs/2210.11197v1 )

ライセンス: Link先を確認
Kamil Khadiev, Nikita Savelyev and Mansur Ziatdinov(参考訳) 本稿では,歩行木と呼ばれるノイズの多いデータ構造を構築する手法を提案する。 赤黒木(Self-Balanced Binary Search Treeの実装)とセグメントツリーに適用する。 これらのデータ構造の操作は、ノイズのない場合(漸近的に)と同等に複雑である。 量子アルゴリズムでは,エクサム問題と最大ファイル問題という2つの問題にこれらのデータ構造を用いる。 最後に,文字列ソート問題に対する新しい量子解を提案し,下限を示す。 問題に対する上限と下限は、ログファクタまで同じである。 同時に、古典的なものよりも効果的である。

The paper presents a technique for constructing noisy data structures called a walking tree. We apply it for a Red-Black tree (an implementation of a Self-Balanced Binary Search Tree) and a segment tree. We obtain the same complexity of the main operations for these data structures as in the case without noise (asymptotically). We use these data structures in quantum algorithms for two problems: the Exam Problem and the Largest File Problem. Finally, we suggest new quantum solution for strings sorting problem and show the lower bound. The upper bound and lower bound for the problem are the same up to log factor. At the same time, it is more effective than classical counterparts.
翻訳日:2023-01-18 20:22:45 公開日:2022-10-20
# オラクルを用いた壊れた対称性の復元

Restoring broken symmetries using oracles ( http://arxiv.org/abs/2210.11181v1 )

ライセンス: Link先を確認
Edgar Andres Ruiz Guzman and Denis Lacroix(参考訳) 本稿では,明示的な投影を必要としない量子コンピュータ上の多体システムにおいて,投射後の変動を行う新しい手法を提案する。 この手法は、一般に量子検索アルゴリズムで使われる ``oracle'' という概念を用いる。 我々は、オラクルと対称性演算子に関連するプロジェクタをどのように構築するかを示す。 この手順はパリティ、粒子数、全スピン対称性について説明される。 このオラクルは、単一の補助量子ビットを用いて間接的な測定によって対称性を復元するために用いられる。 この手法のイラストレーションを行い、ペアリングモデルハミルトンの近似基底状態エネルギーを得る。

We present a new method to perform variation after projection in many-body systems on quantum computers that does not require performing explicit projection. The technique employs the notion of ``oracle'', generally used in quantum search algorithms. We show how to construct the oracle and the projector associated with a symmetry operator. The procedure is illustrated for the parity, particle number, and total spin symmetries. The oracle is used to restore symmetry by indirect measurements using a single ancillary qubit. An Illustration of the technique is made to obtain the approximate ground state energy for the pairing model Hamiltonian.
翻訳日:2023-01-18 20:22:30 公開日:2022-10-20
# テンソルネットワーク、機械学習、量子コンピュータを用いた量子多体系の研究

Investigating Quantum Many-Body Systems with Tensor Networks, Machine Learning and Quantum Computers ( http://arxiv.org/abs/2210.11130v1 )

ライセンス: Link先を確認
Korbinian Kottmann(参考訳) 我々は、古典的および量子コンピュータ上で量子シミュレーションを行い、未知の量子多体系の位相図を教師なしの方法でマップアウトできる機械学習フレームワークを構築した。 古典シミュレーションは1次元と2次元の最先端テンソルネットワーク法を用いて行われる。 1次元システムでは,効率的な密度行列再正規化群 (dmrg) アルゴリズムを用いて,実用上有利な行列積状態 (mps) を最適化する。 2次元システムのデータは、仮想時間進化によって最適化された絡み合った対状態(PEPS)から得られる。 これらのシミュレーションから観測可能なデータ、絡み合いスペクトル、あるいは状態ベクトルの一部のデータをディープラーニング(DL)パイプラインに入力し、異常検出を行い、フェーズ図をマップアウトする。 この概念を量子コンピュータに拡張し、量子変動異常検出を導入する。 ここで、まず基底状態をシミュレートし、次に量子機械学習(qml)方式で処理する。 シミュレーションとQMLのルーチンは同じデバイス上で実行され、古典的シミュレーションとIBMがホストする物理量子コンピュータの両方で実演する。

We perform quantum simulation on classical and quantum computers and set up a machine learning framework in which we can map out phase diagrams of known and unknown quantum many-body systems in an unsupervised fashion. The classical simulations are done with state-of-the-art tensor network methods in one and two spatial dimensions. For one dimensional systems, we utilize matrix product states (MPS) that have many practical advantages and can be optimized using the efficient density matrix renormalization group (DMRG) algorithm. The data for two dimensional systems is obtained from entangled projected pair states (PEPS) optimized via imaginary time evolution. Data in form of observables, entanglement spectra, or parts of the state vectors from these simulations, is then fed into a deep learning (DL) pipeline where we perform anomaly detection to map out the phase diagram. We extend this notion to quantum computers and introduce quantum variational anomaly detection. Here, we first simulate the ground state and then process it in a quantum machine learning (QML) manner. Both simulation and QML routines are performed on the same device, which we demonstrate both in classical simulation and on a physical quantum computer hosted by IBM.
翻訳日:2023-01-18 20:22:17 公開日:2022-10-20
# 雑音量子コンピュータ上でのイジングのジョーンズ多項式の推定

Estimating the Jones polynomial for Ising anyons on noisy quantum computers ( http://arxiv.org/abs/2210.11127v1 )

ライセンス: Link先を確認
Chris N. Self, Sofyan Iblisdir, Gavin K. Brennen, Konstantinos Meichanetzidis(参考訳) ユニティの根元におけるジョーンズ多項式の評価は、量子コンピュータのパラダイム問題である。 本研究では,既存の雑音量子コンピュータから得られた実験結果について,古典的に抽出可能な問題について述べる。 本手法は, 古典的に効率的にシミュラブルなqudit stabiliser回路の量子振幅計算問題に対して, 格子根における結び目のジョーンズ多項式を評価する問題を低減することに依存している。 より具体的には、unityの格子根であるunityの4番目のルートでの評価に焦点をあて、qubit stabiliser回路の振幅を評価することで問題を減少させる。 振幅の実部と虚部を加法誤差まで推定するには、アダマールテストを用いる。 さらに、この設定は、近時雑音量子プロセッサの標準ベンチマークを定義する。 さらに,ゼロノイズ補間法を用いて量子誤差軽減の利点について検討した。

The evaluation of the Jones polynomial at roots of unity is a paradigmatic problem for quantum computers. In this work we present experimental results obtained from existing noisy quantum computers for special cases of this problem, where it is classically tractable. Our approach relies on the reduction of the problem of evaluating the Jones polynomial of a knot at lattice roots of unity to the problem of computing quantum amplitudes of qudit stabiliser circuits, which are classically efficiently simulatable. More specifically, we focus on evaluation at the fourth root of unity, which is a lattice root of unity, where the problem reduces to evaluating amplitudes of qubit stabiliser circuits. To estimate the real and imaginary parts of the amplitudes up to additive error we use the Hadamard test. We further argue that this setup defines a standard benchmark for near-term noisy quantum processors. Furthermore, we study the benefit of performing quantum error mitigation with the method of zero noise extrapolation.
翻訳日:2023-01-18 20:21:50 公開日:2022-10-20
# 双極性単分子エレクトロルミネッセンスとエレクトロフルオロクロミズム

Bipolar single-molecule electroluminescence and electrofluorochromism ( http://arxiv.org/abs/2210.11118v1 )

ライセンス: Link先を確認
Tzu-Chao Hung, Roberto Robles, Brian Kiraly, Julian H. Strik, Bram A. Rutten, Alexander A. Khajetoorians, Nicolas Lorente and Daniel Wegner(参考訳) 走査型トンネル顕微鏡(STM)と分光法(STS)とSTM誘起発光(STML)を組み合わせることで、単一分子レベルでの光電子励起と緩和経路の基本的なメカニズムを理解することが最近始まった。 本稿では,Ag(111)上の極薄NaCl膜上に吸着した個々の亜鉛フタロシアニン(ZnPc)分子のカチオンおよびアニオン蛍光をSTMLを用いて検討する。 それらは先端サンプルバイアスの極性に依存し、STSで特定された特定の分子軌道の開始エネルギーと相関する閾値電圧に現れる。 また、蛍光は単一の電子トンネル過程によって引き起こされることも判明した。 密度汎関数計算の結果と比較し,帯電とエレクトロルミネッセンス機構を記述するための代替多体画像を提案する。 本研究は,両極性エレクトロクロミズムの電圧選択性,および有機EL素子におけるエミッタ分子の過渡帯電状態の役割に関する基本的な知見について述べる。

Understanding the fundamental mechanisms of optoelectronic excitation and relaxation pathways on the single-molecule level has only recently been started by combining scanning tunneling microscopy (STM) and spectroscopy (STS) with STM-induced luminescence (STML). In this paper, we investigate cationic and anionic fluorescence of individual zinc phthalocyanine (ZnPc) molecules adsorbed on ultrathin NaCl films on Ag(111) by using STML. They depend on the tip-sample bias polarity and appear at threshold voltages that are correlated with the onset energies of particular molecular orbitals, as identified by STS. We also find that the fluorescence is caused by a single electron tunneling process. Comparing with results from density functional theory calculations, we propose an alternative many-body picture to describe the charging and electroluminescence mechanism. Our study provides aspects toward well-defined voltage selectivity of bipolar electrofluorochromism, as well as fundamental insights regarding the role of transiently charged states of emitter molecules within OLED devices.
翻訳日:2023-01-18 20:21:34 公開日:2022-10-20
# 光学格子中のボース・アインシュタイン凝縮体の位相空間分布:最適形状と再構成

Phase-space distributions of Bose-Einstein condensates in an optical lattice: Optimal shaping and reconstruction ( http://arxiv.org/abs/2210.11112v1 )

ライセンス: Link先を確認
N. Dupont, F. Arrouas, L. Gabardos, N. Ombredane, J. Billy, B. Peaudecerf, D. Sugny, D. Gu\'ery-Odelin(参考訳) 量子最適制御を1次元光学格子内のボース・アインシュタイン凝縮体の位相空間分布に応用する。 最適制御理論から決定される格子位置の時間依存変調により、各格子点の位相空間、翻訳・圧縮されたガウス状態、およびガウス状態の重ね合わせを作成する。 これらの非自明な状態の完全な再構築は、最大帰属状態トモグラフィによって行われる。 量子シミュレーションへの本手法の実践的応用として,Floquet-state重ね合わせの原子波関数を初期化して動的トンネル信号を強化する。

We apply quantum optimal control to shape the phase-space distribution of Bose-Einstein condensates in a one-dimensional optical lattice. By a time-dependent modulation of the lattice position, determined from optimal control theory, we prepare, in the phase space of each lattice site, translated and squeezed Gaussian states, and superpositions of Gaussian states. Complete reconstruction of these non-trivial states is performed through a maximum likelihood state tomography. As a practical application of our method to quantum simulations, we initialize the atomic wavefunction in an optimal Floquet-state superposition to enhance dynamical tunneling signals.
翻訳日:2023-01-18 20:21:15 公開日:2022-10-20
# ナノフォトニックプラットフォームとの統合に適した六方晶窒化ホウ素中の量子エミッタの特性

Characteristics of quantum emitters in hexagonal boron nitride suitable for integration with nanophotonic platforms ( http://arxiv.org/abs/2210.11099v1 )

ライセンス: Link先を確認
Hardy Schauffert, James C. Stewart, Sajid Ali, Stefan Walser, Helmut H\"orner, Adarsh S. Prasad, Vitaly Babenko, Ye Fan, Dominik Eder, Kristian S. Thygesen, Stephan Hofmann, Bernhard C. Bayer, Sarah M. Skoff(参考訳) 2次元(2次元)ヘキサゴナル窒化ホウ素(hBN)の単一光子エミッタは、フォトニックアプリケーションや量子ネットワークのための固体量子エミッタを約束している。 その良好な性質にもかかわらず、これまでもこれらの放出物質の起源を決定づける研究は続けられてきた。 我々は,特にナノフォトニックデバイスとの統合に寄与する2種類のhBN試料,液相剥離(LPE)により生成する多層ナノフレーク,および化学気相沈着(CVD)により成長したhBNの層状試料に焦点を当てた。 本研究は,その固有欠陥を調査し,その発光特性を,炭素関連欠陥の計算シミュレーションによる光学特性に適合させる。 これにより、これらのサンプルから得られたエミッタの起源を絞り込み、C2CB欠陥が我々のスペクトルデータに最も適合していることを見つけることができる。 さらに,光ファイバーに直接接続する光ナノファイバーにLPEhBNを結合するスケーラブルな方法を示す。 我々の研究は、hBNの有望な量子エミッタの起源を特定するための一歩を踏み出し、特にナノフォトニクスとの統合に適している試料中のエミッタの特性により多くの光を放ちます。 この知識は、新しいナノフォトニックプラットフォームにとって重要なものであり、将来の量子技術におけるhBNの利用に寄与する可能性がある。

Single photon emitters in two-dimensional (2D) hexagonal boron nitride (hBN) are promising solid-state quantum emitters for photonic applications and quantum networks. Despite their favorable properties, it has so far remained elusive to determine the origin of these emitters. We focus on two different kinds of hBN samples that particularly lend themselves for integration with nanophotonic devices, multilayer nanoflakes produced by liquid phase exfoliation (LPE) and a layer engineered sample from hBN grown by chemical vapour deposition (CVD). We investigate their inherent defects and fit their emission properties to computationally simulated optical properties of likely carbon-related defects. Thereby we are able to narrow down the origin of emitters found in these samples and find that the C2CB defect fits our spectral data best. In addition, we demonstrate a scalable way of coupling LPE hBN to optical nanofibers that are directly connected to optical fibers. Our work brings us one step closer to specifying the origin of hBN's promising quantum emitters and sheds more light onto the characteristics of emitters in samples that are particularly suited for integration with nanophotonics. This knowledge will prove invaluable for novel nanophotonic platforms and may contribute towards the employment of hBN for future quantum technologies.
翻訳日:2023-01-18 20:20:33 公開日:2022-10-20
# マルチパラメータ永続ホモロジー-ジェネリック構造と量子コンピューティング

Multiparameter Persistent Homology-Generic Structures and Quantum Computing ( http://arxiv.org/abs/2210.11433v1 )

ライセンス: Link先を確認
Amelie Schreiber(参考訳) 以下は、位相データ解析における多パラメータ持続ホモロジーの研究における可換代数の応用である。 特に、多項式環上の加群の有限自由分解の理論は、マルチパラメータ永続加群に適用される。 このような分解能の一般構造と関連する分類空間は、buchsbaum と eisenbud によって一般化された自由分解能の一般構造的性質の研究から始まり、可換代数における数十年にわたる研究結果を用いて研究されている。 多くの明示的な計算は計算機代数パッケージのMacaulay2と計算に使われるコードを使って表現される。 本稿では、可換代数からの理論的結果の集合として、gr\"obner bases, standard monomial theory, young tableaux, schur functors and schur polynomials, and the classical representation theory and invariant theory involved in linear algebraic group actions(英語版)を用いた計算手法の今後の使用の基盤として必要となる。 使用される手法は一般に特性自由であり、データ科学の応用や計算に役立てるために整数環上で動くように設計されている。 応用として、イジングモデルやキタエフのトーラス符号などの二次ハミルトニアンに関連する時間変化相互作用グラフの研究に、2パラメータ持続ホモロジーを適用する方法を説明する。

The following article is an application of commutative algebra to the study of multiparameter persistent homology in topological data analysis. In particular, the theory of finite free resolutions of modules over polynomial rings is applied to multiparameter persistent modules. The generic structure of such resolutions and the classifying spaces involved are studied using results spanning several decades of research in commutative algebra, beginning with the study of generic structural properties of free resolutions popularized by Buchsbaum and Eisenbud. Many explicit computations are presented using the computer algebra package Macaulay2, along with the code used for computations. This paper serves as a collection of theoretical results from commutative algebra which will be necessary as a foundation in the future use of computational methods using Gr\"obner bases, standard monomial theories, Young tableaux, Schur functors and Schur polynomials, and the classical representation theory and invariant theory involved in linear algebraic group actions. The methods used are in general characteristic free and are designed to work over the ring of integers in order to be useful for applications and computations in data science. As an applications we explain how one could apply 2-parameter persistent homology to study time-varying interactions graphs associated to quadratic Hamiltonians such as those in the Ising model or Kitaev's torus code and other surface codes.
翻訳日:2023-01-18 20:14:41 公開日:2022-10-20
# 量子メソロジーにおけるノイズ測定のための前処理量子状態

Preprocessing quantum states for noisy measurements in quantum metrology ( http://arxiv.org/abs/2210.11393v1 )

ライセンス: Link先を確認
Sisi Zhou, Tuvia Gefen(参考訳) 量子フィッシャー情報(quantum fisher information, qfi)は、量子状態が未知のパラメータに持つ情報量を特徴付け、任意の量子測定を量子状態に適用できると仮定する。 しかし、実際には、量子測定は通常ノイズが多く、与えられた量子状態のQFIを達成できない。 ここでは,量子状態の事前処理を量子制御を用いて行うメトロロジープロトコルについて検討する。 ノイズ測定統計の古典的フィッシャー情報(FI)を二凸最適化として最大化する量子状態に適用すべき最適量子チャネルを、誤差観測可能の概念を導入して同定する問題を定式化する。 この定式化に基づき、純状態に対しては、ユニタリチャネルが最適であることを証明するとともに、いくつかの実用的なケースにおいて最適制御に対する解析解を導出する。 古典的混合状態(すなわち、未知のパラメータが固有値にエンコードされる状態)と可換な測定演算子に対して、粗粒度チャネルが最適であることを証明し、ユニタリ制御が最適でない対例を示す。 一般的な量子状態と測定では、前処理制御に最適化されたfi上の上下界と下界を提供する。 最後に、各サブシステムに独立に作用する局所雑音測定を持つマルチパーティシステムにおける量子状態について考察し、漸近的極限において、QFIは一般的な量子状態のクラスに対する大域的最適制御を用いて達成可能であることを示す。

Quantum Fisher information (QFI) characterizes the amount of information a quantum state carries about an unknown parameter, assuming arbitrary quantum measurements can be applied on the quantum state. However, in practice, quantum measurements are usually noisy and cannot attain the QFI of a given quantum state. Here we study the metrological protocol where quantum states can be preprocessed using quantum controls before noisy measurements. We formulate the problem of identifying the optimal quantum channels to be applied on a quantum state that maximize the classical Fisher information (FI) of the noisy measurement statistics as a biconvex optimization by introducing the concept of error observables. Based on this formulation, for pure states, we prove unitary channels are optimal and also derive analytical solutions to the optimal controls in a few practically relevant cases. For classically mixed states (i.e., states of which the unknown parameter is encoded in the eigenvalues) with commuting measurement operators, we prove that coarse graining channels are optimal and provide a counter example where unitary controls are not optimal. For general quantum states and measurements, we provide useful upper and lower bounds on the FI optimized over preprocessing controls. Finally, we consider quantum states in a multi-partite system with local noisy measurements acting independently on each subsystem and prove that in the asymptotic limit, the QFI is attainable using global optimal controls for a generic class of quantum states.
翻訳日:2023-01-18 20:13:51 公開日:2022-10-20
# 静的有効リンドブラディアンによるノイズ量子コンピュータの時間進化記述

Describing Trotterized Time Evolutions on Noisy Quantum Computers via Static Effective Lindbladians ( http://arxiv.org/abs/2210.11371v1 )

ライセンス: Link先を確認
Keith R. Fratus, Kirsten Bark, Nicolas Vogt, Juha Lepp\"akangas, Sebastian Zanker, Michael Marthaler, Jan-Michael Reiner(参考訳) 我々は、ノイズの多い量子コンピュータが量子スピンシステムの時間的進化を忠実にシミュレートできる範囲について考察する。 このような装置にノイズが作用する方法についての一般的な仮定を考慮し、シミュレーションされた元のシステムの力学の修正として、ノイズの効果がどのように解釈されるかを示す。 特に、この修正は、元のユニタリ力学に加えて作用する静的リンドブラッドノイズ項の導入に対応している。 これらのノイズ項の形式は、デバイス上で発生する基礎となるノイズプロセスだけでなく、元のユニタリダイナミクスにも依存し、デバイス上でこれらのダイナミクスがシミュレーションされる方法、すなわち量子アルゴリズムの選択にも依存する。 これを効果的にシミュレートしたオープン量子系をノイズアルゴリズムモデルと呼ぶ。 結果は数値解析により確認した。

We consider the extent to which a noisy quantum computer is able to simulate the time evolution of a quantum spin system in a faithful manner. Given a common set of assumptions regarding the manner in which noise acts on such a device, we show how the effects of noise can be reinterpreted as a modification to the dynamics of the original system being simulated. In particular, we find that this modification corresponds to the introduction of static Lindblad noise terms, which act in addition to the original unitary dynamics. The form of these noise terms depends not only on the underlying noise processes occurring on the device, but also on the original unitary dynamics, as well as the manner in which these dynamics are simulated on the device, i.e., the choice of quantum algorithm. We call this effectively simulated open quantum system the noisy algorithm model. Our results are confirmed through numerical analysis.
翻訳日:2023-01-18 20:12:57 公開日:2022-10-20
# 完全擬ボソニックスワンソン模型

A fully pseudo-bosonic Swanson model ( http://arxiv.org/abs/2210.11326v1 )

ライセンス: Link先を確認
Fabio Bagarello(参考訳) 完全に擬ボソニックなスワンソンモデルを考えると、そのハミルトニアンの$h$ が対角化できることを示す。 H^\dagger$ の固有系も、一般的なフレームワークと擬ボソンの文脈で導出される結果を用いて導出する。 また、異なるアプローチを用いて、モデルに対する二コヒーレントな状態を構築し、それらの性質について研究し、様々な構成を比較する。

We consider a fully pseudo-bosonic Swanson model and we show how its Hamiltonian $H$ can be diagonalized. We also deduce the eigensystem of $H^\dagger$, using the general framework and results deduced in the context of pseudo-bosons. We also construct, using different approaches, the bi-coherent states for the model, study some of their properties, and compare the various constructions.
翻訳日:2023-01-18 20:12:44 公開日:2022-10-20
# 光子相互作用をもつ2成分格子模型における位相、不安定性、励起

Phases, instabilities and excitations in a two-component lattice model with photon-mediated interactions ( http://arxiv.org/abs/2210.11313v1 )

ライセンス: Link先を確認
Leon Carl, Rodrigo Rosa-Medina, Sebastian D. Huber, Tilman Esslinger, Nishant Dogra, Tena Dubcek(参考訳) 工学的な長距離相互作用スピン系と超低温原子は、強相関のシナリオでエキゾチックな磁気秩序の位相を探索することができる。 光キャビティ内の量子ガスは、光子を媒介とする相互作用を更に設計し、キャビティ場を探索することで顕微鏡的プロセスにアクセスするための多用途な実験プラットフォームを提供する。 本稿では,空洞を介する相互作用を持つ2成分スピンBose-Hubbardシステムについて検討する。 我々は,その相図の包括的概要と,実験的に関連する状態における遷移について述べる。 異なるエネルギースケールの相互作用は、密度変調またはスピン秩序を示す超流動および絶縁相を持つリッチ相図を生成する。 特に、接触と大域的相互作用の複合効果は、スピン依存光-マター結合を任意に小さくするために反強磁性的に秩序づけられた位相を生じさせ、一方、長距離およびスピン間相互作用は相図における不安定性と相分離の領域を導入する。 さらに、反強磁性相上の低エネルギー励起について研究する。 粒子ホールの枝の他に、波長可変エネルギーギャップを持つスピン交換励起がある。 研究した格子モデルは、光学キャビティを用いたコールド原子実験で容易に実現できる。

Engineering long-range interacting spin systems with ultra cold atoms offers the possibility to explore exotic magnetically ordered phases in strongly-correlated scenarios. Quantum gases in optical cavities provide a versatile experimental platform to further engineer photon-mediated interactions and access the underlying microscopic processes by probing the cavity field. Here, we study a two-component spin Bose-Hubbard system with cavity-mediated interactions. We provide a comprehensive overview of its phase diagram and transitions in experimentally relevant regimes. The interplay of different energy scales yields a rich phase diagram with superfluid and insulating phases exhibiting density modulation or spin ordering. In particular, the combined effect of contact and global-range interactions gives rise to an antiferromagnetically ordered phase for arbitrarily small spin-dependent light-matter coupling, while long-range and inter-spin contact interactions introduce regions of instability and phase separation in the phase diagram. We further study the low energy excitations above the antiferrogmagnetic phase. Besides particle-hole branches, it hosts spin-exchange excitations with a tunable energy gap. The studied lattice model can be readily realized in cold-atom experiments with optical cavities.
翻訳日:2023-01-18 20:12:37 公開日:2022-10-20
# 一様重力場における量子粒子の自由落下に対する移動鏡の効果

Effect of a moving mirror on the free fall of a quantum particle in a homogeneous gravitational field ( http://arxiv.org/abs/2210.11306v1 )

ライセンス: Link先を確認
J. Allam and A. Matzkin(参考訳) 移動鏡上の均質な重力場に落下する粒子である量子バウンサーの動力学に及ぼす時間依存境界条件の影響について検討した。 特に, 移動鏡が落下粒子の波動関数全体の特性を修飾する方法について検討する。 移動ミラーに衝突する量子粒子が、ミラーが固定された時よりも著しく跳ね返る可能性があるという事実のようないくつかの効果は、古典的直観と一致している。 相対位相の変化や、鏡から任意に離れた空間領域の電流密度などの他の効果は特に量子的である。 さらに, 移動鏡が生み出す効果が, 現行の実験, 特に冷中性子と連動して観測される可能性についても検討した。

We investigate the effect of time-dependent boundary conditions on the dynamics of a quantum bouncer -- a particle falling in a homogeneous gravitational field on a moving mirror. We examine more particularly the way a moving mirror modifies the properties of the entire wavefunction of a falling particle. We find that some effects, such as the fact that a quantum particle hitting a moving mirror may bounce significantly higher than when the mirror is fixed, are in line with classical intuition. Other effects, such as the change in relative phases or in the current density in spatial regions arbitrarily far from the mirror are specifically quantum. We further discuss how the effects produced by a moving mirror could be observed in link with current experiments, in particular with cold neutrons.
翻訳日:2023-01-18 20:12:17 公開日:2022-10-20
# 生成的深層学習による量子アニーラを用いた平衡スピングラスシミュレーション

Accelerating equilibrium spin-glass simulations using quantum annealers via generative deep learning ( http://arxiv.org/abs/2210.11288v1 )

ライセンス: Link先を確認
Giuseppe Scriva, Emanuele Costa, Benjamin McNaughton, Sebastiano Pilati(参考訳) スピングラスの低温ボルツマン分布からのサンプリングは、物理学の研究や工学および金融における重要な最適化問題に関係した、難しい計算課題である。 断熱型量子コンピュータは、最低エネルギースピン構成を見つけるための最適化タスクに取り組むために使用されている。 本稿では,量子アニーラーを用いて,低温におけるスピングラスの平衡マルコフ連鎖モンテカルロシミュレーションを高速化する方法を示す。 生成ニューラルネットワークは、d波量子アニーラによって生成されるスピン配置に基づいて訓練される。 その後、Metropolis-Hastingsアルゴリズムのスマートな提案を生成するために使用される。 特に、単一スピンフリップとニューラルプロポーザル、D-Waveと古典モンテカルロのトレーニングデータを組み合わせたハイブリッドスキームについて検討する。 ハイブリッドアルゴリズムは1つのスピンフリップメトロポリス・ハスティングスアルゴリズムより優れている。 これは相関時間の観点からは平行テンパリングと競合しており、より高速に平衡する大きな利点がある。

Sampling from the low-temperature Boltzmann distribution of spin glasses is a hard computational task, relevant for physics research and important optimization problems in engineering and finance. Adiabatic quantum computers are being used to tackle the optimization task, corresponding to find the lowest energy spin configuration. In this article, we show how to exploit quantum annealers to accelerate equilibrium Markov chain Monte Carlo simulations of spin glasses at low temperature. Generative neural networks are trained on spin configurations produced by a D-Wave quantum annealer. They are then used to generate smart proposals for the Metropolis-Hastings algorithm. In particular, we explore hybrid schemes by combining single spin-flip and neural proposals, as well as D-Wave and classical Monte Carlo training data. The hybrid algorithm outperforms the single spin-flip Metropolis-Hastings algorithm. It is competitive with parallel tempering in terms of correlation times, with the significant benefit of a much faster equilibration.
翻訳日:2023-01-18 20:12:07 公開日:2022-10-20
# 鍵サービス(ROKS:Responsive Operations for Key Services) - モジュール型低SWaP量子通信ペイロード

Responsive Operations for Key Services (ROKS): A Modular, Low SWaP Quantum Communications Payload ( http://arxiv.org/abs/2210.11285v1 )

ライセンス: Link先を確認
Craig D. Colquhoun, Hazel Jeffrey, Steve Greenland, Sonali Mohapatra, Colin Aitken, Mikulas Cebecauer, Charlotte Crawshaw, Kenny Jeffrey, Toby Jeffreys, Philippos Karagiannakis, Ahren McTaggart, Caitlin Stark, Jack Wood, Siddarth K. Joshi, Jaya Sagar, Elliott Hastings, Peide Zhang, Milan Stefko, David Lowndes, John G. Rarity, Jasminder S. Sidhu, Thomas Brougham, Duncan McArthur, Robert G. Pousa, Daniel K. L. Oi, Matthew Warden, Eilidh Johnston, John Leck(参考訳) 量子鍵分散(QKD)は、理論上証明された将来的なセキュアな暗号化手法であり、そのセキュリティを基本的な物理原理から継承する。 多くの英国組織と協力しているCraft Prospectは、ナノサテライトを含む小さなプラットフォームで使用できるように、QKDを可能にする技術を小型化することに重点を置いている。 サイズが大幅に削減されるため、専用プラットフォームまたはより大きな光通信の一部としてホストされる量子通信技術を立ち上げるコストは、比較的短時間で量子暗号化への潜在的アクセスを改善する。 ROKSミッションは、キューブサットにQKDペイロードを低軌道に送り、新たに開発されたモジュラー量子技術の能力を実証する最初の試みである。 The ROKS payload comprises a quantum source module that supplies photons randomly in any of four linear polarisation states fed from a quantum random number generator; an acquisition, pointing, and tracking system to fine-tune alignment of the quantum source beam with an optical ground station; an imager that will detect cloud cover autonomously; and an onboard computer that controls and monitors the other modules, which manages the payload and assures the overall performance and security of the system. これらのモジュールはそれぞれ、キューブサット用の低SWaPで開発されているが、他の衛星形状因子との相互運用性を念頭に置いている。 6u cubesatプラットフォームシステムとの最初の統合の前に、テストベンチからの最初のテスト結果と、protoflightモデルのパフォーマンスと共に、リストされた各コンポーネントを紹介します。 ROKSのペイロードは2022年末に飛行する準備が整い、様々なモジュラーコンポーネントはすでに飛行のためにベースライン化されており、サードパーティの通信ミッションに統合されている。

Quantum key distribution (QKD) is a theoretically proven future-proof secure encryption method that inherits its security from fundamental physical principles. Craft Prospect, working with a number of UK organisations, has been focused on miniaturising the technologies that enable QKD so that they may be used in smaller platforms including nanosatellites. The significant reduction of size, and therefore the cost of launching quantum communication technologies either on a dedicated platform or hosted as part of a larger optical communications will improve potential access to quantum encryption on a relatively quick timescale. The ROKS mission seeks to be among the first to send a QKD payload on a CubeSat into low Earth orbit, demonstrating the capabilities of newly developed modular quantum technologies. The ROKS payload comprises a quantum source module that supplies photons randomly in any of four linear polarisation states fed from a quantum random number generator; an acquisition, pointing, and tracking system to fine-tune alignment of the quantum source beam with an optical ground station; an imager that will detect cloud cover autonomously; and an onboard computer that controls and monitors the other modules, which manages the payload and assures the overall performance and security of the system. Each of these modules have been developed with low SWaP for CubeSats, but with interoperability in mind for other satellite form factors. We present each of the listed components, together with the initial test results from our test bench and the performance of our protoflight models prior to initial integration with the 6U CubeSat platform systems. The completed ROKS payload will be ready for flight at the end of 2022, with various modular components already being baselined for flight and integrated into third party communication missions.
翻訳日:2023-01-18 20:11:52 公開日:2022-10-20
# プライマリパワーフィールドのための効率的な量子デコーダ

An Efficient Quantum Decoder for Prime-Power Fields ( http://arxiv.org/abs/2210.11552v1 )

ライセンス: Link先を確認
Lior Eldar(参考訳) 有限体 $\mathbb{F}_q$ 上の最寄り符号語問題のバージョンを、非二進アルファベットに対するハミング計量の類似であるマンハッタン距離を用いて検討する。 他の格子関連問題と同様に、この問題は定数係数近似までNPハードである。 しかし、$q = p^m$ の場合、$p$ はコードブロックサイズ $n$ と比較して小さいので、任意の$p$ に対して近似係数 $1/n$ に対して、時間で問題を解く量子アルゴリズムが存在することを示す。 一方、我々の知識を最大限に活用するために、古典的アルゴリズムはこの問題をはるかに小さな逆多項式因子に対してのみ効率的に解くことができる。 したがって、デコーダは古典的なアルゴリズムよりも指数関数的に改善され、classic mcelieceのようなコードベースの暗号システムの大きなalphabet拡張の暗号セキュリティに制限を課す。

We consider a version of the nearest-codeword problem on finite fields $\mathbb{F}_q$ using the Manhattan distance, an analog of the Hamming metric for non-binary alphabets. Similarly to other lattice related problems, this problem is NP-hard even up to constant factor approximation. We show, however, that for $q = p^m$ where $p$ is small relative to the code block-size $n$, there is a quantum algorithm that solves the problem in time ${\rm poly}(n)$, for approximation factor $1/n$, for any $p$. On the other hand, to the best of our knowledge, classical algorithms can efficiently solve the problem only for much smaller inverse polynomial factors. Hence, the decoder provides an exponential improvement over classical algorithms, and places limitations on the cryptographic security of large-alphabet extensions of code-based cryptosystems like Classic McEliece.
翻訳日:2023-01-18 20:05:34 公開日:2022-10-20
# ハイブリッド回路力学からの量子通信におけるコヒーレンス要件

Coherence requirements for quantum communication from hybrid circuit dynamics ( http://arxiv.org/abs/2210.11547v1 )

ライセンス: Link先を確認
Shane P. Kelly, Ulrich Poschinger, Ferdinand Schmidt-Kaler, Matthew P.A. Fisher, and Jamir Marino(参考訳) 量子状態のコヒーレントな重ね合わせは、量子力学と情報を従来のものと区別する量子情報処理の重要な資源である。 本稿では,実験ベッドとして,量子チャネル容量と古典チャネル容量の相転移を示すハイブリッドランダム回路のクラスを用いて,量子情報通信のコヒーレンス要件について検討する。 ハイブリッドランダム回路は、一定数の量子ビットにランダムユニタリと測定を適用して競う2人の対戦相手aliceとeveの量子情報ゲームによって生成される。 Aliceは量子チャネル容量を維持するためにユニタリを適用し、Eveはそれを破壊するために測定を適用している。 それぞれの相手に利用可能な操作を生成するか破壊するコヒーレンスを制限することにより、ゲームに勝つか緩めるかを制御し、絡み合いや量子チャネル容量の位相遷移を調整できる。 このような遷移により、量子通信のコヒーレンス要件を特定し、特に、任意の局所基底におけるコヒーレンスが任意の安定化器量子誤り訂正符号の量子符号距離の上限を与えることを証明できる。 そのような境界は、量子誤差補正のためのコヒーレンスリソース要件の厳密な定量化を提供する。

The coherent superposition of quantum states is an important resource for quantum information processing which distinguishes quantum dynamics and information from their classical counterparts. In this article we investigate the coherence requirements to communicate quantum information by using, as a test bed, a class of hybrid random circuits which show a phase transition in the quantum and classical channel capacities. The hybrid random circuits are generated by a quantum information game played between two opponents, Alice and Eve, who compete by applying random unitaries and measurements on a fixed number of qubits. Alice applies unitaries in an attempt to maintain quantum channel capacity, while Eve applies measurements in an attempt to destroy it. By limiting the coherence generating or destroying operations available to each opponent, we can control who wins or looses the game and tune a phase transitions in entanglement and quantum channel capacity. Such transitions allow us to identify the coherence requirements for quantum communication and, in particular, prove that the coherence in any local basis gives an upper bound for the quantum code distance of any stabilizer quantum error correction code. Such a bound provides a rigorous quantification of the coherence resource requirements for quantum error correction.
翻訳日:2023-01-18 20:05:17 公開日:2022-10-20
# 非線形光周波数変換の位相的側面

Topological aspects in nonlinear optical frequency conversion ( http://arxiv.org/abs/2210.11526v1 )

ライセンス: Link先を確認
Stefano Longhi(参考訳) 半世紀以上前に観測された非線形光学周波数変換は、非線形光学および量子光学の現代的応用におけるコーナーストーンである。 周波数変換プロセスは、効率的な変換のために位相整合条件を必要とする運動量保存のような保存法則によって制約されていることはよく知られている。 しかし、保存法則だけでは非線形周波数変換の特徴を完全に把握できなかった。 ここでは、トポロジーが非線形多周波変換過程にさらなる制約を与えることができることを示す。 保存法則とは異なり、位相的制約は連続的な変形の下で保存された性質に関係しており、多周波過程を記述するのに必要不可欠な新しい自由度と見なすことができる。 多周波ポンプ波の下での総周波発生を考慮し、トポロジカル絶縁体におけるトポロジカル位相、トポロジカル位相遷移が古典的・量子的両レベルでの周波数変換過程において観測可能であることを示す。

Nonlinear optical frequency conversion, observed more than half a century ago, is a corner stone in modern applications of nonlinear and quantum optics. It is well known that frequency conversion processes are constrained by conservation laws, such as momentum conservation that requires phase matching conditions for efficient conversion. However, conservation laws alone could not fully capture the features of nonlinear frequency conversion. Here it is shown that topology can provide additional constraints in nonlinear multi-frequency conversion processes. Unlike conservation laws, a topological constraint concerns with the conserved properties under continuous deformation, and can be regarded as a new indispensable degree of freedom to describe multi-frequency processes. We illustrate such a paradigm by considering sum frequency generation under a multi-frequency pump wave, showing that, akin topological phases in topological insulators, topological phase transitions can be observed in the frequency conversion process both at classical and quantum level.
翻訳日:2023-01-18 20:04:55 公開日:2022-10-20
# 量子誤差緩和の極限に関する指数的に厳密な境界

Exponentially tighter bounds on limitations of quantum error mitigation ( http://arxiv.org/abs/2210.11505v1 )

ライセンス: Link先を確認
Yihui Quek, Daniel Stilck Fran\c{c}a, Sumeet Khatri, Johannes Jakob Meyer, Jens Eisert(参考訳) 複数の量子回路の古典的な後処理結果によって、短期量子コンピューティングにおける避けられないエラーに対処する手段として、量子エラー軽減法が提案されている。 これは、重いオーバーヘッドを伴うフォールトトレラントなスキームとは対照的に、追加の量子リソースをほとんど必要としない方法で行う。 誤差軽減は小さなシステムにおけるノイズ低減につながる。 しかし,本研究では,より大きなシステムサイズに対して,量子ノイズが効果的に「不要」となる程度に強い制約を課す。 まず, 仮想蒸留, クリフォードデータ回帰, ゼロノイズ外挿, 確率的誤り消去など, 有意義で実用的な量子誤り軽減手法を, 大規模にカプセル化した形式的枠組みを提案する。 この枠組みが成立すると、我々の技術的貢献はノイズに非常に敏感なランダム回路の族を構築することであり、対数対数(n)深さのウィスキーでも、量子ノイズは超指数的に急速に出力を最大混合状態にスクランブルする。 我々の主張は、カーネル推定や、不規則な台地が出現する深さを計算するために適用でき、これは、以前考えられていたよりも指数関数的に小さな深さで発散することを意味する。 また, 期待値の推定には, ノイズの大きい装置を指数関数的に何度もサンプリングする必要がある。 同じ複雑さのスケーリングを示す古典的なアルゴリズムがあります。 量子ハードウェアの改善はノイズレベルを下げるが、もしエラーの緩和が使われるなら、最終的には指数時間量子アルゴリズムがより良い指数性を持つようになり、この設定における指数量子スピードアップの期待に強い障害を与えることになる。

Quantum error mitigation has been proposed as a means to combat unavoidable errors in near-term quantum computing by classically post-processing outcomes of multiple quantum circuits. It does so in a fashion that requires no or few additional quantum resources, in contrast to fault-tolerant schemes that come along with heavy overheads. Error mitigation leads to noise reduction in small systems. In this work, however, we identify strong limitations to the degree to which quantum noise can be effectively `undone' for larger system sizes. We start out by presenting a formal framework that rigorously encapsulates large classes of meaningful and practically applied schemes for quantum error mitigation, including virtual distillation, Clifford data regression, zero-noise extrapolation and probabilistic error cancellation. With the framework in place, our technical contribution is to construct families of random circuits that are highly sensitive to noise, in the sense that even at log log(n) depth, a whisker beyond constant, quantum noise is seen to super-exponentially rapidly scramble their output into the maximally-mixed state. Our results exponentially tighten known arguments for error mitigation, but they go beyond that: Our arguments can be applied to kernel estimation or to compute the depth at which barren plateaus emerge, implying that the scrambling kicks in at exponentially smaller depths than previously thought. Our results also say that a noisy device must be sampled exponentially many times to estimate expectation values. There are classical algorithms that exhibit the same scaling in complexity. While improvements in quantum hardware will push noise levels down, if error mitigation is used, ultimately this can only lead to an exponential time quantum algorithm with a better exponent, putting up a strong obstruction to the hope for exponential quantum speedups in this setting.
翻訳日:2023-01-18 20:04:38 公開日:2022-10-20
# 短時間量子力学の古典シミュレーション

Classical simulation of short-time quantum dynamics ( http://arxiv.org/abs/2210.11490v1 )

ライセンス: Link先を確認
Dominik S. Wild, \'Alvaro M. Alhambra(参考訳) 局所性は多くの物理システムの重要な単純化機能である。 クラスタ拡張技術は、それを利用する特定の方法を提供します。 これらは歴史的に統計物理学においてギブス状態の特異性と高温での相関の崩壊を証明するために現れてきた。 ここでは、局所ハミルトニアンの下で進化する量子多体系にこれらの手法を適用する。 我々は局所可観測量とロスシュミットエコーのような非局所量の両方の進化を考える。 製品の初期状態に対して,クラスタ展開は,システムサイズに依存しない固定進化時間まで,動的の効率的な古典的計算を可能にすることを示す。 計算コストは、近似誤差のシステムサイズおよび逆数と多項式的にスケールする。 局所観測可能量の場合、解析的継続を用いて進化時間を任意の定値に拡張することができる。 複数の次元において、結果として得られるアルゴリズムは、リーブ・ロビンソン境界に基づくアルゴリズムよりも近似誤差に依存する。 我々のアルゴリズムはクラスタ展開の収束に依存しており、これも重要な物理的結果をもたらす。 特に、新しい量子速度限界、動的相転移の束縛、および生成状態の束縛された濃度が短期間に進化した。

Locality is a key simplifying feature of many physical systems. Cluster expansion techniques provide one particular way of exploiting it. They have historically appeared in statistical physics to prove the uniqueness of Gibbs states and the decay of correlations at high temperature, among many other results. Here, we apply these techniques to quantum many-body systems evolving under local Hamiltonians. We consider the evolution of both local observables and non-local quantities such as the Loschmidt echo. We show that for a product initial state, the cluster expansion enables efficient classical computation of the dynamics up to a fixed evolution time, independent of the system size. The computational cost scales polynomially with the system size and the inverse of the approximation error. In the case of local observables, we can extend the evolution time to any constant value using analytic continuation. In more than one dimension, the resulting algorithm has a better dependence on the approximation error than algorithms based on the Lieb-Robinson bound. Our algorithms rely on the convergence of the cluster expansion, which also has important physical consequences. In particular, we establish a novel quantum speed limit, a bound on dynamical phase transitions, and a concentration bound for product states evolved for short times.
翻訳日:2023-01-18 20:04:07 公開日:2022-10-20
# 六方晶窒化ホウ素における強相互作用電子スピン欠陥のコヒーレントダイナミクス

Coherent Dynamics of Strongly Interacting Electronic Spin Defects in Hexagonal Boron Nitride ( http://arxiv.org/abs/2210.11485v1 )

ライセンス: Link先を確認
Ruotian Gong, Guanghui He, Xingyu Gao, Peng Ju, Zhongyuan Liu, Bingtian Ye, Erik A. Henriksen, Tongcang Li, Chong Zu(参考訳) ファンデルワールス材料の光学活性スピン欠陥は、現代の量子技術にとって有望なプラットフォームである。 本研究では, 欠陥密度の異なる六方晶窒化ホウ素 (hbn) における負に荷電されたホウ素空孔(英語版)("\mathrm{v}_{\mathrm{b}}^-$")中心の強相互作用のコヒーレントダイナミクスについて検討する。 異なるデファス源を選択的に分離するために高度な動的デカップリング配列を用いることにより、すべてのhbnサンプルで測定されたコヒーレンス時間の5倍以上の改善が観察される。 重要な点として、$\mathrm{v}_{\mathrm{b}}^-$アンサンブル内の多体相互作用がコヒーレントダイナミクスにおいて重要な役割を担っていることが判明し、これは$\mathrm{v}_{\mathrm{b}}^-$ の正確な濃度を直接決定するために用いられる。 高イオン注入量では、生成したホウ素空隙欠陥のわずか$\lesssim5~\%$のみが所望の負電荷状態にあることが判明した。 最後に,局所荷電欠陥誘導電界信号に対する$\mathrm{v}_{\mathrm{b}}^-$のスピン応答を調べ,その横電界感受性を推定する。 この結果は,hBNの欠陥を量子センサやシミュレータとして将来利用するために重要な$\mathrm{V}_{\mathrm{B}}^-$のスピンおよび電荷特性に関する新たな知見を提供する。

Optically active spin defects in van der Waals materials are promising platforms for modern quantum technologies. Here we investigate the coherent dynamics of strongly interacting ensembles of negatively charged boron-vacancy ($\mathrm{V}_{\mathrm{B}}^-$) centers in hexagonal boron nitride (hBN) with varying defect density. By employing advanced dynamical decoupling sequences to selectively isolate different dephasing sources, we observe more than 5-fold improvement in the measured coherence times across all hBN samples. Crucially, we identify that the many-body interaction within the $\mathrm{V}_{\mathrm{B}}^-$ ensemble plays a substantial role in the coherent dynamics, which is then used to directly determine the precise concentration of $\mathrm{V}_{\mathrm{B}}^-$. We find that at high ion implantation dosage, only $\lesssim5~\%$ of the created boron vacancy defects are in the desired negatively charged state. Finally, we investigate the spin response of $\mathrm{V}_{\mathrm{B}}^-$ to the local charged defects induced electric field signals, and estimate its transverse electric field susceptibility. Our results provide new insights on the spin and charge properties of $\mathrm{V}_{\mathrm{B}}^-$, which are important for future use of defects in hBN as quantum sensors and simulators.
翻訳日:2023-01-18 20:03:51 公開日:2022-10-20
# タングラムパズルとしての計測に基づく量子計算

Measurement-based Quantum Computation as a Tangram Puzzle ( http://arxiv.org/abs/2210.11465v1 )

ライセンス: Link先を確認
Ashlesha Patil, Yosef P. Jacobson, Don Towsley and Saikat Guha(参考訳) 2001年に提唱された測定に基づく量子コンピューティング(mbqc)は、一連の適応的単一量子ビット計測をエンタングルクラスタ状態上で実行することにより量子計算を実現する量子コンピューティングのモデルである。 本研究の目的は,高校生から量子コンピュータ研究者まで,アプレットでプレイする規則を修正したタングラムパズルを用いて,幅広いオーディエンスにmbqcを導入することである。 この規則は量子コンピューティングの背景なしに理解することができる。 プレイヤーは、ユニバーサルゲートセットからのゲートを使用して示される量子回路を備えており、プレイヤーはポリオミノを使用してプレーボードに正しくマッピングする必要がある。 Polyominos や 'puzzle blocks' は私たちのゲームの構成要素です。 四角いタイルが縁と縁をつなげ、異なる色の形を成す。 各タイルは単一キュービットの測定ベースを表し、色によって区別される。 ポリオミノスは、クラスタ状態を表す正方形グリッドのプレイボードに休む。 量子回路をmbqcにマッピングすることは、再生盤上の回路のゲートに対応するポリオミノの集合を、回転および変形するポリオミノを含む一定のルールに従って配置することと同値であることを示す。 量子コンピューティングとは無関係に、簡単な用語でルールを述べる。 プレイヤーはルールに従ってプレイボードにポリオミノを置く必要がある。 正しい解は、MBQCにおける量子回路の有効な実現を生成する。 より高いスコアの正しい解は、基板上のスペースを減らし、回路をMBQCに低オーバーヘッドで埋め込むという、オープンで挑戦的な研究問題である。

Measurement-Based Quantum Computing (MBQC), proposed in 2001 is a model of quantum computing that achieves quantum computation by performing a series of adaptive single-qubit measurements on an entangled cluster state. Our project is aimed at introducing MBQC to a wide audience ranging from high school students to quantum computing researchers through a Tangram puzzle with a modified set of rules, played on an applet. The rules can be understood without any background in quantum computing. The player is provided a quantum circuit, shown using gates from a universal gate set, which the player must map correctly to a playing board using polyominos. Polyominos or 'puzzle blocks' are the building blocks of our game. They consist of square tiles joined edge-to-edge to form different colored shapes. Each tile represents a single-qubit measurement basis, differentiated by its color. Polyominos rest on a square-grid playing board, which signifies a cluster state. We show that mapping a quantum circuit to MBQC is equivalent to arranging a set of polyominos, each corresponding to a gate in the circuit on the playing board, subject to certain rules, which involve rotating and deforming polyominos. We state the rules in simple terms with no reference to quantum computing. The player has to place polyominos on the playing board conforming to the rules. Any correct solution creates a valid realization of the quantum circuit in MBQC. A higher-scoring correct solution fills up less space on the board, resulting in a lower-overhead embedding of the circuit in MBQC, an open and challenging research problem.
翻訳日:2023-01-18 20:03:24 公開日:2022-10-20
# 量子および古典系の特性に関する局所的下界

Local lower bounds on characteristics of quantum and classical systems ( http://arxiv.org/abs/2210.11462v1 )

ライセンス: Link先を確認
M.E.Shirokov(参考訳) 我々は、量子(応答的、古典的)系の特性に関する局所下界を得る方法、すなわち、与えられた状態のトレースノルム$\epsilon$-neighborhood(応答的、確率分布)において有効な下界を考える。 主な関心は無限次元のシステムに向けられる。

We consider methods of obtaining local lower bounds on characteristics of quantum (correspondingly, classical) systems, i.e. lower bounds valid in the trace norm $\epsilon$-neighborhood of a given state (correspondingly, probability distribution). The main attention is paid to infinite-dimensional systems.
翻訳日:2023-01-18 20:03:00 公開日:2022-10-20
# トラップオン量子ネットワークノードにおけるロバスト量子メモリ

Robust Quantum Memory in a Trapped-Ion Quantum Network Node ( http://arxiv.org/abs/2210.11447v1 )

ライセンス: Link先を確認
P. Drmota, D. Main, D. P. Nadlinger, B. C. Nichol, M. A. Weber, E. M. Ainley, A. Agrawal, R. Srinivas, G. Araneda, C. J. Ballance, D. M. Lucas(参考訳) 我々は、長寿命のメモリキュービットを混種型トラップ型量子ネットワークノードに統合する。 sr-88のネットワークキュービットで最初に生成されたイオン光子絡み合いは0.977(7)の忠実度でca-43に転送され、ロバストメモリキュービットにマッピングされる。 次に、別の光子とネットワークキュービットを絡み合わせるが、メモリキュービットには影響しない。 量子状態トモグラフィーを行い、イオン-光子絡み合いの忠実度がメモリ量子ビットの約100倍遅くなることを示す。 動的デカップリングはさらに保存時間を延長し、10秒後に0.81(4)のイオン-光子エンタングルメント密度を測定する。

We integrate a long-lived memory qubit into a mixed-species trapped-ion quantum network node. Ion-photon entanglement first generated with a network qubit in Sr-88 is transferred to Ca-43 with 0.977(7) fidelity, and mapped to a robust memory qubit. We then entangle the network qubit with another photon, which does not affect the memory qubit. We perform quantum state tomography to show that the fidelity of ion-photon entanglement decays ~100 times slower on the memory qubit. Dynamical decoupling further extends the storage time; we measure an ion-photon entanglement fidelity of 0.81(4) after 10s.
翻訳日:2023-01-18 20:02:54 公開日:2022-10-20
# 無限格子上の量子スピン系に対するワッサースタイン距離の1ドル

The Wasserstein distance of order $1$ for quantum spin systems on infinite lattices ( http://arxiv.org/abs/2210.11446v1 )

ライセンス: Link先を確認
Giacomo De Palma and Dario Trevisan(参考訳) 我々は、格子 $\mathbb{Z}^d$ 上の量子スピン系へのオーダー1$のワッサーシュタイン距離の一般化を提案し、これは特定の量子$W_1$ 距離 (quantum $W_1$ distance) と呼ぶ。 この提案は[de palma et al., ieee trans. inf. theory 67, 6627 (2021)]のquditsに対する$w_1$ distance に基づいており、任意の有限個のスピン上の限界状態が正準基底で対角的である量子状態に対してornsteinの$\bar{d}$- distance を回復する。 また、$\mathbb{Z}^d$ 上の量子相互作用に対するリプシッツ定数の一般化を提案し、そのような量子リプシッツ定数と特定の量子 $W_1$ 距離が互いに双対であることを証明する。 我々は、量子$W_1$距離という観点から有限個の量子スピンに対するフォン・ノイマンエントロピーに対する新しい連続性を証明し、それを用いて、$\mathbb{Z}^d$上の量子スピン系に対する特定の量子$W_1$距離という観点から、特定のフォン・ノイマンエントロピーに対する連続性を証明する。 最後に、臨界温度を超える局所的な量子交換相互作用が輸送コストの不等式を満たすことを証明し、ギブス状態の特異性を示す。

We propose a generalization of the Wasserstein distance of order $1$ to quantum spin systems on the lattice $\mathbb{Z}^d$, which we call specific quantum $W_1$ distance. The proposal is based on the $W_1$ distance for qudits of [De Palma et al., IEEE Trans. Inf. Theory 67, 6627 (2021)] and recovers Ornstein's $\bar{d}$-distance for the quantum states whose marginal states on any finite number of spins are diagonal in the canonical basis. We also propose a generalization of the Lipschitz constant to quantum interactions on $\mathbb{Z}^d$ and prove that such quantum Lipschitz constant and the specific quantum $W_1$ distance are mutually dual. We prove a new continuity bound for the von Neumann entropy for a finite set of quantum spins in terms of the quantum $W_1$ distance, and we apply it to prove a continuity bound for the specific von Neumann entropy in terms of the specific quantum $W_1$ distance for quantum spin systems on $\mathbb{Z}^d$. Finally, we prove that local quantum commuting interactions above a critical temperature satisfy a transportation-cost inequality, which implies the uniqueness of their Gibbs states.
翻訳日:2023-01-18 20:02:40 公開日:2022-10-20
# リングトラップにおける分子イオンの量子論理制御と精密測定-基礎対称性試験のための新しいアプローチ

Quantum logic control and precision measurements of molecular ions in a ring trap -- a new approach for testing fundamental symmetries ( http://arxiv.org/abs/2210.11613v1 )

ライセンス: Link先を確認
Trevor N. Taylor, Joshua O. Island, Yan Zhou(参考訳) このレターは、精密測定のために環表面イオントラップ内の極性分子イオンの量子論理制御を実装する実験プラットフォームを記述する。 このアプローチは、統一状態の準備と検出と長いスピンプレセッションコヒーレンスをターゲットにしている。 ユニークな特徴は、静的フレームにおけるスピン分極と回転フレームにおけるスピン分極である。 この新しい方法は時間的および空間的に局所化された多重化測定に対応し、汎用イオン種にユビキタスに適用することができる。 このプラットフォームは、電子の電子双極子モーメント探索に$^{232}$thf$^+$を用いて適用でき、$^{181}$tao$^+$を用いて核磁気四極子モーメント探索に拡張することができる。

This letter describes an experimental platform that implements quantum logic control of polar molecular ions in a ring surface ion trap for precision measurements. This approach targets unity state preparation and detection and long spin precession coherence. A unique feature is bridging the spin-polarization in a static frame and the spin-precession in a rotating frame. The new method accommodates temporally and spatially localized multiplexing measurements and can be ubiquitously applied to generic ion species. This platform may be applied to the electron's Electric Dipole Moment search using $^{232}$ThF$^+$ and could be extended to the Nuclear Magnetic Quadrupole Momentum search using $^{181}$TaO$^+$.
翻訳日:2023-01-18 19:54:53 公開日:2022-10-20
# 量子コンピュータ上のsu(2)純粋ゲージ理論における実時間発展と移動励起

Real time evolution and a traveling excitation in SU(2) pure gauge theory on a quantum computer ( http://arxiv.org/abs/2210.11606v1 )

ライセンス: Link先を確認
Sarmed A Rahman, Randy Lewis, Emanuele Mendicelli and Sarah Powell(参考訳) ハミルトニアンのアプローチは、利用可能な雑音量子コンピュータ上の非可換格子ゲージ理論のリアルタイム発展を研究するのに有用である。 本研究は,IBMハードウェア上でのSU(2)純ゲージ理論のリアルタイム進化の結果について述べる。 数百個のCNOTゲートを持つ多数のトロッターステップにまたがる長いリアルタイム進化と格子上での走行励起の観測は,誤差軽減手法の収集によって可能となった。 自己緩和は,ノイズ緩和回路として同一の物理回路を用いた新しいツールである。

The Hamiltonian approach can be used successfully to study the real-time evolution of a non-Abelian lattice gauge theory on the available noisy quantum computers. In this work, results from the real-time evolution of SU(2) pure gauge theory on IBM hardware are presented. The long real-time evolution spanning dozens of Trotter steps with hundreds of CNOT gates and the observation of a traveling excitation on the lattice were made possible by using a collection of error mitigation techniques. Self-mitigation is our novel tool, which consists of using the same physics circuit as a noise-mitigation circuit.
翻訳日:2023-01-18 19:54:38 公開日:2022-10-20
# 量子力学の摂動解析とシミュレーションのためのアルゴリズム

Algorithms for perturbative analysis and simulation of quantum dynamics ( http://arxiv.org/abs/2210.11595v1 )

ライセンス: Link先を確認
Daniel Puzzuoli, Sophia Fuhui Lin, Moein Malekakhlagh, Emily Pritchett, Benjamin Rosand, Christopher J. Wood(参考訳) ダイソン級数とマグヌス級数の両方を計算・利用するための汎用アルゴリズムを開発し,量子力学の数値摂動研究を容易にすることを目的としている。 複数のパラメータを持つモデルへの広範な適用を可能にするため、我々は、解か時間平均の時間間隔上の進化のジェネレータについて、多変数感度解析の観点からアルゴリズムを表現した。 これらのツールは、任意の順序までの項の集まりを同時に計算し、モデルが任意の時間依存の方法でパラメータに依存することができるという意味で一般的である。 オープンソースソフトウェアパッケージであるQiskit Dynamicsにアルゴリズムを実装し、JAX配列ライブラリを利用して、全ての計算のジャストインタイムコンパイル、自動微分、GPU実行を可能にします。 単一トランスモンのモデルを用いて、モデルパラメータ空間の領域における忠実度を近似し、摂動的頑健な制御目標を構築する方法を示す。 我々はまた、線形行列微分方程式をシミュレートするためのダイゾルデアルゴリズム(Shillito et al., Physical Review Research, 3(3):033266]のダイソンとマグナスに基づくバリエーションを導出し、実装した。 本稿では,前計算ステップを,元法よりも少ない項で多変数拡張計算問題として表現できることを示す。 GPU上の2つのトランスモンエンタングゲートをシミュレートすると、DysonとMagnusをベースとした解法は、解の精度に応じて、従来のODE解法よりも約10 \times$から50 \times$までのスピードアップを提供する。

We develop general purpose algorithms for computing and utilizing both the Dyson series and Magnus expansion, with the goal of facilitating numerical perturbative studies of quantum dynamics. To enable broad applications to models with multiple parameters, we phrase our algorithms in terms of multivariable sensitivity analysis, for either the solution or the time-averaged generator of the evolution over a fixed time-interval. These tools simultaneously compute a collection of terms up to arbitrary order, and are general in the sense that the model can depend on the parameters in an arbitrary time-dependent way. We implement the algorithms in the open source software package Qiskit Dynamics, utilizing the JAX array library to enable just-in-time compilation, automatic differentiation, and GPU execution of all computations. Using a model of a single transmon, we demonstrate how to use these tools to approximate fidelity in a region of model parameter space, as well as construct perturbative robust control objectives. We also derive and implement Dyson and Magnus-based variations of the recently introduced Dysolve algorithm [Shillito et al., Physical Review Research, 3(3):033266] for simulating linear matrix differential equations. We show how the pre-computation step can be phrased as a multivariable expansion computation problem with fewer terms than in the original method. When simulating a two-transmon entangling gate on a GPU, we find the Dyson and Magnus-based solvers provide a speedup over traditional ODE solvers, ranging from roughly $10 \times$ to over $50 \times$, depending on solution accuracy.
翻訳日:2023-01-18 19:54:28 公開日:2022-10-20
# 有限ボソニック状態の積における有限ランク生成単粒子作用素の行列要素の多項式計算複雑性

Polynomial computational complexity of matrix elements of finite-rank-generated single-particle operators in products of finite bosonic states ( http://arxiv.org/abs/2210.11568v1 )

ライセンス: Link先を確認
Dmitri A. Ivanov(参考訳) 永久的な$\mathop{\rm Per}(1+A)$ を計算することは知られているが、$A$ は有限ランク行列であり、行列サイズで多くの演算多項式を必要とする。 私はこの結果を期待値 $\left\langle\psi| p(1+a) |\psi\right\rangle$ に一般化し、ここで $p()$ は単粒子作用素の乗法拡大であり、$\left|\psi\right\rangle$ は多数の同一の有限ボゾン状態(すなわち、ボーソンの有界な数を持つボソン状態)の積である。 また、同じ問題のフェルミオンバージョンに対する以前の多項式推定も改善します。

It is known that computing the permanent $\mathop{\rm Per}(1+A)$, where $A$ is a finite-rank matrix requires a number of operations polynomial in the matrix size. I generalize this result to the expectation values $\left\langle\Psi| P(1+A) |\Psi\right\rangle$, where $P()$ is the multiplicative extension of a single-particle operator and $\left|\Psi\right\rangle$ is a product of a large number of identical finite bosonic states (i.e. bosonic states with a bounded number of bosons). I also improve an earlier polynomial estimate for the fermionic version of the same problem.
翻訳日:2023-01-18 19:53:59 公開日:2022-10-20
# 高原における収束属拡大

A convergent genus expansion for the plateau ( http://arxiv.org/abs/2210.11565v1 )

ライセンス: Link先を確認
Phil Saad, Douglas Stanford, Zhenbin Yang, Shunyu Yao(参考訳) 本研究では, 2次元行列積分のスペクトル形成係数を, 大時間, 状態密度, 固定温度の極限で近似した。 この公式は、非零収束半径を持つ属展開を持つ。 この系列の起源を理解するために、周期軌道における「子」の半古典理論と比較する。 Jackiw-Teitelboim (JT) 重力では、遭遇は相互にキャンセルされる(向き付け可能な場合)が、低エネルギーで個別に成長するモジュライ空間積分の部分に対応する。 属1では、全モジュライ空間積分が低エネルギー領域を分解し、有限非零解を与えることを示す。

We conjecture a formula for the spectral form factor of a double-scaled matrix integral in the limit of large time, large density of states, and fixed temperature. The formula has a genus expansion with a nonzero radius of convergence. To understand the origin of this series, we compare to the semiclassical theory of "encounters" in periodic orbits. In Jackiw-Teitelboim (JT) gravity, encounters correspond to portions of the moduli space integral that mutually cancel (in the orientable case) but individually grow at low energies. At genus one we show how the full moduli space integral resolves the low energy region and gives a finite nonzero answer.
翻訳日:2023-01-18 19:53:40 公開日:2022-10-20
# 拡張トポロジと畳み込みニューラルネットワークの併用による神経進化

Combining Neuro-Evolution of Augmenting Topologies with Convolutional Neural Networks ( http://arxiv.org/abs/2211.16978v1 )

ライセンス: Link先を確認
Jan Hohenheim, Mathias Fischler, Sara Zarubica, Jeremy Stucki(参考訳) 現在の深い畳み込みネットワークはトポロジーで固定されている。 本稿では,拡張位相(neat)と畳み込みニューラルネットワーク(cnns)の神経進化を組み合わせることで畳み込みトポロジーをパラメータ自身とする手法を考察し,残差ネットワーク(resnets)ブロックを用いたシステムを提案する。 遺伝的アルゴリズムはバックプロパゲーションごとのトレーニングよりもはるかに要求が高いので、我々の提案するシステムは、追加の最適化が実施されれば、どのように構築できるのかを説明します。 そこでは、バズワードのほとんどを説明し、機械学習の最も重要な現代的領域について、穏やかで簡潔に紹介する。

Current deep convolutional networks are fixed in their topology. We explore the possibilites of making the convolutional topology a parameter itself by combining NeuroEvolution of Augmenting Topologies (NEAT) with Convolutional Neural Networks (CNNs) and propose such a system using blocks of Residual Networks (ResNets). We then explain how our suggested system can only be built once additional optimizations have been made, as genetic algorithms are way more demanding than training per backpropagation. On the way there we explain most of those buzzwords and offer a gentle and brief introduction to the most important modern areas of machine learning
翻訳日:2023-01-18 19:18:55 公開日:2022-10-20
# 条件付き確率勾配降下の漸近解析

Asymptotic Analysis of Conditioned Stochastic Gradient Descent ( http://arxiv.org/abs/2006.02745v4 )

ライセンス: Link先を確認
R\'emi Leluc and Fran\c{c}ois Portier(参考訳) 本稿では,勾配方向の事前条件付けに基づいて,sgdと呼ばれる確率的勾配降下(sgd)アルゴリズムの一般クラスについて検討する。 マルチンゲールツールを用いた離散時間アプローチを用いて,確率的一階法と二階法を含む広い条件付き行列に対するイテレートの再スケール列の弱い収束を確立する。 独立興味を持つかもしれない収束結果もほぼ確実に提示される。 条件行列が逆ヘシアンの推定値である場合、アルゴリズムは漸近的に最適であることが証明される。 完全性のために、我々はこの最小分散を達成するための実践的な手順を提供する。

In this paper, we investigate a general class of stochastic gradient descent (SGD) algorithms, called conditioned SGD, based on a preconditioning of the gradient direction. Using a discrete-time approach with martingale tools, we establish the weak convergence of the rescaled sequence of iterates for a broad class of conditioning matrices including stochastic first-order and second-order methods. Almost sure convergence results, which may be of independent interest, are also presented. When the conditioning matrix is an estimate of the inverse Hessian, the algorithm is proved to be asymptotically optimal. For the sake of completeness, we provide a practical procedure to achieve this minimum variance.
翻訳日:2022-11-25 12:47:08 公開日:2022-10-20
# 深層強化学習を用いたEコマースにおけるきめ細かいセッション勧告

Fine-Grained Session Recommendations in E-commerce using Deep Reinforcement Learning ( http://arxiv.org/abs/2210.15451v1 )

ライセンス: Link先を確認
Diddigi Raghu Ram Bharadwaj, Lakshya Kumar, Saif Jawaid, Sreekanth Vempati(参考訳) ユーザの関心の維持とプラットフォームへの関与は、Eコマースビジネスの成功にとって非常に重要です。 セッションは、プラットフォームへのログインからログアウトや購入までのユーザのさまざまなアクティビティを含んでいる。 セッション内のユーザアクティビティは、既知のインテントと未知インテントの2つのグループに分類できる。 既知の意図活動は、ユーザが特定の商品を閲覧・購入する意図を容易に捉えられるセッションに関係する。 未知の意図活動では、ユーザの意図は分かっていない。 例えば、ユーザがセッションを入力して、オフライン設定のウィンドウショッピングエクスペリエンスと同じように、プラットフォーム上で製品をカジュアルに閲覧するシナリオを考えてください。 前者にとって類似商品の推奨は不可欠であるが、ユーザを維持するためには、後者では、意図を正確に理解し、興味深い製品を推奨することが不可欠である。 この作業では、主に未知の意図設定に焦点を合わせ、セッション内でユーザに対して一連のプロダクトを推奨し、関心を保ち、エンゲージメントを維持し、購入を促すことを目的としています。 我々はこの問題を、逐次決定のための一般的な数学的フレームワークであるマルコフ決定プロセス(MDP)の枠組みで定式化し、Deep Reinforcement Learning(DRL)技術を用いて解決する。 しかし,ユーザの閲覧・購入行動のばらつきが大きいため,RLパラダイムでは,次の製品推奨のトレーニングは困難である。 したがって、問題を様々な製品属性の予測に分解し、パターン/trendを識別し、正確なモデルを構築するために活用する。 DRLエージェントは強欲な戦略よりも優れた性能を示すことを示す。

Sustaining users' interest and keeping them engaged in the platform is very important for the success of an e-commerce business. A session encompasses different activities of a user between logging into the platform and logging out or making a purchase. User activities in a session can be classified into two groups: Known Intent and Unknown intent. Known intent activity pertains to the session where the intent of a user to browse/purchase a specific product can be easily captured. Whereas in unknown intent activity, the intent of the user is not known. For example, consider the scenario where a user enters the session to casually browse the products over the platform, similar to the window shopping experience in the offline setting. While recommending similar products is essential in the former, accurately understanding the intent and recommending interesting products is essential in the latter setting in order to retain a user. In this work, we focus primarily on the unknown intent setting where our objective is to recommend a sequence of products to a user in a session to sustain their interest, keep them engaged and possibly drive them towards purchase. We formulate this problem in the framework of the Markov Decision Process (MDP), a popular mathematical framework for sequential decision making and solve it using Deep Reinforcement Learning (DRL) techniques. However, training the next product recommendation is difficult in the RL paradigm due to large variance in browse/purchase behavior of the users. Therefore, we break the problem down into predicting various product attributes, where a pattern/trend can be identified and exploited to build accurate models. We show that the DRL agent provides better performance compared to a greedy strategy.
翻訳日:2022-10-30 12:02:57 公開日:2022-10-20
# AugCSE: 異なる拡張を組み込んだコントラスト文

AugCSE: Contrastive Sentence Embedding with Diverse Augmentations ( http://arxiv.org/abs/2210.13749v1 )

ライセンス: Link先を確認
Zilu Tang, Muhammed Yusuf Kocyigit, Derry Wijaya(参考訳) データ拡張技術は、NLPフィールドにおける多くのアプリケーションで有用であることが証明されている。 ほとんどの拡張はタスク固有であり、汎用ツールとしては使用できない。 本稿では,AugCSEについて述べる。AugCSEは,多種多様なデータ拡張を利用する統一的なフレームワークで,より優れた汎用的な文埋め込みモデルを実現する。 最新の文埋め込みモデルに基づいて,本手法では,拡張型を区別する単純なアンタゴニスト判別器を用いる。 ドメイン適応から借用した微調整の目的により、相反するコントラスト信号につながる様々な拡張が、より良く、より頑健な文表現を生み出すために変更可能であることが示される。 提案手法は,ダウンストリーム転送タスクにおける最先端の成果を達成し,教師なしデータのみを用いて意味的テキスト類似性タスクを競合的に行う。

Data augmentation techniques have been proven useful in many applications in NLP fields. Most augmentations are task-specific, and cannot be used as a general-purpose tool. In our work, we present AugCSE, a unified framework to utilize diverse sets of data augmentations to achieve a better, general purpose, sentence embedding model. Building upon the latest sentence embedding models, our approach uses a simple antagonistic discriminator that differentiates the augmentation types. With the finetuning objective borrowed from domain adaptation, we show that diverse augmentations, which often lead to conflicting contrastive signals, can be tamed to produce a better and more robust sentence representation. Our methods achieve state-of-the-art results on downstream transfer tasks and perform competitively on semantic textual similarity tasks, using only unsupervised data.
翻訳日:2022-10-30 11:54:02 公開日:2022-10-20
# nlpにおける予測不確実性と校正の検討:手法とデータ不足の影響に関する研究

Exploring Predictive Uncertainty and Calibration in NLP: A Study on the Impact of Method & Data Scarcity ( http://arxiv.org/abs/2210.15452v1 )

ライセンス: Link先を確認
Dennis Ulmer, Jes Frellsen, Christian Hardmeier(参考訳) 低リソース言語のレンズを通して、神経分類器の予測信頼度(または逆に不確実性)を決定する問題を調べる。 3つの異なる言語のサブサンプルデータセットのモデルをトレーニングすることにより、幅広いアプローチからの見積もりの品質と利用可能なデータ量への依存性を評価する。 事前訓練されたモデルとアンサンブルに基づくアプローチは全体として最高の結果を得るが、不確実性推定の品質は驚くほど多くのデータに悩まされる。 また、シーケンス上の不確実性に関する定性的な分析を行い、モデル全体の不確実性は、モデルの不確実性ではなく、データの不確実性によって大きく影響されることを発見した。 すべてのモデル実装は、ソフトウェアパッケージでオープンソースである。

We investigate the problem of determining the predictive confidence (or, conversely, uncertainty) of a neural classifier through the lens of low-resource languages. By training models on sub-sampled datasets in three different languages, we assess the quality of estimates from a wide array of approaches and their dependence on the amount of available data. We find that while approaches based on pre-trained models and ensembles achieve the best results overall, the quality of uncertainty estimates can surprisingly suffer with more data. We also perform a qualitative analysis of uncertainties on sequences, discovering that a model's total uncertainty seems to be influenced to a large degree by its data uncertainty, not model uncertainty. All model implementations are open-sourced in a software package.
翻訳日:2022-10-30 11:45:01 公開日:2022-10-20
# カオス理論と対向ロバスト性

Chaos Theory and Adversarial Robustness ( http://arxiv.org/abs/2210.13235v1 )

ライセンス: Link先を確認
Jonathan S. Kent(参考訳) ニューラルネットワークは、敵の攻撃を受けやすいため、クリティカルまたは敵のアプリケーションにデプロイされる前に厳格な精査に直面するべきである。 本稿では、カオス理論の考え方を用いて、ニューラルネットワークが敵対的攻撃に対してどのような影響を受けやすいかを説明し、分析し、定量化する。 この結果から,攻撃に対する感受性はモデル深度とともに著しく増大し,生産環境におけるニューラルネットワークの設計に重要な安全性が示唆された。 また,従来の計算では直接計算が不可能であった超大型モデルに対して,証明されたロバスト性半径を迅速かつ容易に近似する方法を実証し,新しい感受性指標と攻撃後の精度との明確な関係を示す。

Neural Networks, being susceptible to adversarial attacks, should face a strict level of scrutiny before being deployed in critical or adversarial applications. This paper uses ideas from Chaos Theory to explain, analyze, and quantify the degree to which Neural Networks are susceptible to or robust against adversarial attacks. Our results show that susceptibility to attack grows significantly with the depth of the model, which has significant safety implications for the design of Neural Networks for production environments. We also demonstrate how to quickly and easily approximate the certified robustness radii for extremely large models, which until now has been computationally infeasible to calculate directly, as well as show a clear relationship between our new susceptibility metric and post-attack accuracy.
翻訳日:2022-10-25 22:20:21 公開日:2022-10-20
# 線形システムと勾配マッチングによる勾配からのトレーニングデータ漏洩の解析

Analysing Training-Data Leakage from Gradients through Linear Systems and Gradient Matching ( http://arxiv.org/abs/2210.13231v1 )

ライセンス: Link先を確認
Cangxiong Chen, Neill D. F. Campbell(参考訳) 近年の研究では、そのアーキテクチャが分かっていれば、画像分類モデルの勾配からトレーニング画像とそのラベルを再構築できることが示されている。 残念ながら、これらの勾配誘導攻撃の有効性と失敗についてはまだ不完全な理論的理解が残っている。 本稿では,解析的および最適化に基づくグラデーション・リーカド攻撃からの洞察を引き出す,グラデーションからのトレーニングデータ漏洩を解析するための新しい枠組みを提案する。 各層から線形系を反復的に解き、勾配マッチングによる補正を伴って再構成問題を定式化する。 この枠組みの下では、再構成問題の溶解度は各層における線形系の溶解度によって決定される。 その結果,深層ネットワークにおけるトレーニングデータの漏洩を,そのアーキテクチャに部分的に分類することが可能となった。 また,学習データに対する勾配に基づく攻撃に対して,ディープラーニングモデルのセキュリティレベルを測定する指標を提案する。

Recent works have demonstrated that it is possible to reconstruct training images and their labels from gradients of an image-classification model when its architecture is known. Unfortunately, there is still an incomplete theoretical understanding of the efficacy and failure of these gradient-leakage attacks. In this paper, we propose a novel framework to analyse training-data leakage from gradients that draws insights from both analytic and optimisation-based gradient-leakage attacks. We formulate the reconstruction problem as solving a linear system from each layer iteratively, accompanied by corrections using gradient matching. Under this framework, we claim that the solubility of the reconstruction problem is primarily determined by that of the linear system at each layer. As a result, we are able to partially attribute the leakage of the training data in a deep network to its architecture. We also propose a metric to measure the level of security of a deep learning model against gradient-based attacks on the training data.
翻訳日:2022-10-25 18:31:05 公開日:2022-10-20
# ベイズ知識伝達のための完全なレシピ:オブジェクト追跡

A Complete Recipe for Bayesian Knowledge Transfer: Object Tracking ( http://arxiv.org/abs/2210.13232v1 )

ライセンス: Link先を確認
Bahman Moraffah and Antonia Papandreou-Suppappola(参考訳) ソースオブジェクトトラックとモデルから別のベイズフィルタへ順次転送する問題は、ユビキタス化されている。 異なるモデル間の依存性をキャプチャできる構造モデルがないため、転送は完全には特定されない可能性がある。 本稿では,対象がモデルを選択して従うことができるモデルジャンプを考慮した,新しいベイズモデルを提案する。 我々は、ソースオブジェクトからターゲットオブジェクトへ順次転送しながら、オブジェクトの軌跡を追跡することを目指している。 主なアイデアは、オブジェクトを追跡しながら動的モデルをインデュートし、離散化された動的システムに従って動くオブジェクトの状態パラメータを推定することである。 本手法は,予測モデルを逐次修正することで,モデルミスマッチを処理できることを実証する。 特に、一定数の運動モデルに対して、オブジェクトは各ステップでどの動きに従うかを学ぶことができる。 各モデルに事前モデルを適用し,各モデルから別のモデルに変更を適応的に補正し,様々な動作で物体の軌跡をロバストに推定する。 より具体的には、モデルジャンプを扱うための頑健なベイズレシピを提案し、それとマルコフ連鎖モンテカルロ(mcmc)アプローチと統合して後方分布からサンプルを得る。 本研究では,ベイズ移動学習における学習課題間の知識伝達のためのモデルジャンプの利点を実験によって実証する。

The problem of sequentially transferring from a source object track and a model to another Bayesian filter has become ubiquitous. Due to the lack of a structural model that can capture the dependence among different models, the transfer may not be fully specified. In this paper, we introduce a novel Bayesian model that accounts for the model-jump from which the object can choose a model and follow. We aim to track the trajectory of the object while sequentially transferring from the source object to the target object. The main idea is to impute the dynamical model while tracking the object and estimating the state parameters of the moving object according to discretized dynamic systems. We demonstrate this procedure can handle the model mismatch as it sequentially corrects the predictive model. Particularly, for a fixed number of motion models, the object can learn what motion to follow at each time step. We employ a prior model for each model and then adaptively correct for changing one model to another to robustly estimate object trajectory under various motions. More concretely, we propose a robust Bayesian recipe to handle the model-jump and then integrate it with a Markov chain Monte Carlo (MCMC) approach to sample from the posterior distribution. We demonstrate through experiments the advantage of accounting for model-jump in our proposed method for knowledge transfer between learning tasks in Bayesian transfer learning.
翻訳日:2022-10-25 18:30:40 公開日:2022-10-20
# GeoAI at ACM SIGSPATIAL: The New Frontier of Geospatial Artificial Intelligence Research

GeoAI at ACM SIGSPATIAL: The New Frontier of Geospatial Artificial Intelligence Research ( http://arxiv.org/abs/2210.13207v1 )

ライセンス: Link先を確認
Dalton Lunga, Yingjie Hu, Shawn Newsam, Song Gao, Bruno Martins, Lexie Yang, Xueqing Deng(参考訳) geoai(geospatial artificial intelligence)は、非常に普及した分野である。 しかし、GeoAIシステムの効率的な設計と実装は多くのオープンな課題に直面している。 これは主に、人工知能ツール開発に対する非標準化アプローチの欠如、不適切なプラットフォーム、多分野の関与の欠如が原因であり、すべてのドメインの専門家が、社会に重大な影響を与える問題を解決するために、科学者やエンジニアと共通のステージを求める動機となっている。 2017年の開始以来、GeoAIシリーズのワークショップはAssociation for Computing Machinery International Conference on Advances in Geographic Information Systemsと共同で開催されている。 このワークショップシリーズは、地球科学者、コンピュータ科学者、エンジニア、起業家、意思決定者、学術、産業、政府から人工知能、時空間データコンピューティング、地理空間データサイエンス研究への参加を奨励し、様々な課題に動機付けられている。 本稿では,GeoAIのオープン研究の方向性,最近の展開,地域間交流の継続を訴える新たな課題について再検討し,議論する。

Geospatial Artificial Intelligence (GeoAI) is an interdisciplinary field enjoying tremendous adoption. However, the efficient design and implementation of GeoAI systems face many open challenges. This is mainly due to the lack of non-standardized approaches to artificial intelligence tool development, inadequate platforms, and a lack of multidisciplinary engagements, which all motivate domain experts to seek a shared stage with scientists and engineers to solve problems of significant impact on society. Since its inception in 2017, the GeoAI series of workshops has been co-located with the Association for Computing Machinery International Conference on Advances in Geographic Information Systems. The workshop series has fostered a nexus for geoscientists, computer scientists, engineers, entrepreneurs, and decision-makers, from academia, industry, and government to engage in artificial intelligence, spatiotemporal data computing, and geospatial data science research, motivated by various challenges. In this article, we revisit and discuss the state of GeoAI open research directions, the recent developments, and an emerging agenda calling for a continued cross-disciplinary community engagement.
翻訳日:2022-10-25 17:12:31 公開日:2022-10-20
# 地上気象観測データとレーダーデータを用いた深層学習による降雨予報

Deep-Learning-Based Precipitation Nowcasting with Ground Weather Station Data and Radar Data ( http://arxiv.org/abs/2210.12853v1 )

ライセンス: Link先を確認
Jihoon Ko, Kyuhan Lee, Hyunjin Hwang and Kijung Shin(参考訳) 近年,降雨量予測(降雨量と場所の予測)など,さまざまな気象予測タスクにディープラーニング技術が適用されている。 しかし、現在の深層学習に基づく降水ノキャスティングの手法のほとんどは、レーダーや衛星画像のみを入力としており、地上の気象観測所から収集された気象観測は比較的未探査である。 本稿では,複数の気象観測所からの地上観測を効果的に活用するための新しい観測手法であるASOCを提案する。 ASOCは、観測の時間的ダイナミクスとそれらの間の文脈的関係を捉えるように設計されている。 ASOCは、アーキテクチャを変更することなく、既存の画像ベースの降水モデルと簡単に組み合わせられる。 この組み合わせにより,2014年から2020年にかけての韓国周辺のレーダー画像と地上観測データを用いて,1~6時間リードタイムにおける重雨(少なくとも10mm/hr)と軽雨(少なくとも1mm/hr)の降雨を5.7%の精度で予測する平均臨界成功指数(CSI)が向上することを示す。

Recently, many deep-learning techniques have been applied to various weather-related prediction tasks, including precipitation nowcasting (i.e., predicting precipitation levels and locations in the near future). Most existing deep-learning-based approaches for precipitation nowcasting, however, consider only radar and/or satellite images as inputs, and meteorological observations collected from ground weather stations, which are sparsely located, are relatively unexplored. In this paper, we propose ASOC, a novel attentive method for effectively exploiting ground-based meteorological observations from multiple weather stations. ASOC is designed to capture temporal dynamics of the observations and also contextual relationships between them. ASOC is easily combined with existing image-based precipitation nowcasting models without changing their architectures. We show that such a combination improves the average critical success index (CSI) of predicting heavy (at least 10 mm/hr) and light (at least 1 mm/hr) rainfall events at 1-6 hr lead times by 5.7%, compared to the original image-based model, using the radar images and ground-based observations around South Korea collected from 2014 to 2020.
翻訳日:2022-10-25 13:10:38 公開日:2022-10-20
# 機械学習による航空機の性能向上 : レビュー

Improving aircraft performance using machine learning: a review ( http://arxiv.org/abs/2210.11481v1 )

ライセンス: Link先を確認
Soledad Le Clainche, Esteban Ferrer, Sam Gibson, Elisabeth Cross, Alessandro Parente, Ricardo Vinuesa(参考訳) 本稿では, 基礎流体力学(実験と数値), 空力学, 音響学, 燃焼, 構造健康モニタリングなど, 航空宇宙工学の多分野に影響を及ぼす機械学習(ML)の新たな展開について述べる。 我々は,技術の現状をレビューし,さまざまな航空宇宙分野にわたるML手法のメリットと課題を収集し,今後の展望について考察する。 MLの基本概念と最も関連性の高い戦略は、航空宇宙工学における最も関連性の高い応用と共に提示され、MLが航空機の性能を改善しており、これらの技術が近い将来大きな影響を与えることを明らかにする。

This review covers the new developments in machine learning (ML) that are impacting the multi-disciplinary area of aerospace engineering, including fundamental fluid dynamics (experimental and numerical), aerodynamics, acoustics, combustion and structural health monitoring. We review the state of the art, gathering the advantages and challenges of ML methods across different aerospace disciplines and provide our view on future opportunities. The basic concepts and the most relevant strategies for ML are presented together with the most relevant applications in aerospace engineering, revealing that ML is improving aircraft performance and that these techniques will have a large impact in the near future.
翻訳日:2022-10-24 16:23:34 公開日:2022-10-20
# 粒子物理発見のための機械学習圧縮

Machine-Learning Compression for Particle Physics Discoveries ( http://arxiv.org/abs/2210.11489v1 )

ライセンス: Link先を確認
Jack H. Collins, Yifeng Huang, Simon Knapen, Benjamin Nachman, Daniel Whiteson(参考訳) 衝突型粒子と核物理学の実験では、データは極端な速度で生成され、後の分析のためにサブセットのみが記録される。 通常、アルゴリズムは個々の衝突イベントを選択し、完全な実験応答を保存する。 比較的新しい代替戦略は、イベントのより大きなサブセットに対する部分的なレコードを保存し、後からより大きなイベントの特定の分析を可能にすることである。 汎用オフライン解析のためにイベント全体を圧縮することで,これらのパラダイムを橋渡しする戦略を提案する。 最適トランスポートベース$\beta$変動オートエンコーダ(VAE)は圧縮を自動化するために使用され、ハイパーパラメータ$\beta$は圧縮忠実度を制御する。 パラメータ化による$\beta$のすべての値に適したvaeを同時に学習することにより,多目的学習関数に対する新しいアプローチを提案する。 例えば、大ハドロン衝突型加速器 (lhc) での二重ミューオン共鳴探索(di-muon resonance search at the large hadron collisionr, lhc) では、我々の$\beta$-vae で圧縮されたシミュレーションデータが、異なる信号形態を識別するのに十分な忠実度を持つことを示す。

In collider-based particle and nuclear physics experiments, data are produced at such extreme rates that only a subset can be recorded for later analysis. Typically, algorithms select individual collision events for preservation and store the complete experimental response. A relatively new alternative strategy is to additionally save a partial record for a larger subset of events, allowing for later specific analysis of a larger fraction of events. We propose a strategy that bridges these paradigms by compressing entire events for generic offline analysis but at a lower fidelity. An optimal-transport-based $\beta$ Variational Autoencoder (VAE) is used to automate the compression and the hyperparameter $\beta$ controls the compression fidelity. We introduce a new approach for multi-objective learning functions by simultaneously learning a VAE appropriate for all values of $\beta$ through parameterization. We present an example use case, a di-muon resonance search at the Large Hadron Collider (LHC), where we show that simulated data compressed by our $\beta$-VAE has enough fidelity to distinguish distinct signal morphologies.
翻訳日:2022-10-24 16:23:23 公開日:2022-10-20
# DNN-ForwardTesting:統計履歴解析とディープニューラルネットワークを用いた新しい取引戦略検証

DNN-ForwardTesting: A New Trading Strategy Validation using Statistical Timeseries Analysis and Deep Neural Networks ( http://arxiv.org/abs/2210.11532v1 )

ライセンス: Link先を確認
Ivan Letteri, Giuseppe Della Penna, Giovanni De Gasperis, Abeer Dyoub(参考訳) 一般に、トレーダーは過去の市場データ(バックテスト)にトレーディング戦略を適用してトレーディング戦略をテストし、将来のトレーディングには、過去のデータで最大利益を達成した戦略を適用する。 本稿では,株価予測を行い,市場史データを用いてトレーニングした深層ニューラルネットワークによって予測される可能性に基づいて,適用戦略を決定するdnn-forwardtestingと呼ばれる新たな取引戦略を提案する。 このような歴史的データセットを生成するために,まず10の証券について探索的データ分析を行い,特に新しいk-means法を用いてその変動性を評価する。 そして、データセットを、同じ変動係数を持つ少数の資産に制限し、そのようなデータを使用して、次の30日間の公開株式市場の価格を予測するディープフィードフォワードニューラルネットワークをトレーニングする。 最後に、DNNの予測に適用することで、最も効果的な技術指標を計算し、そのような指標を用いて取引を案内する。 その結果、ニューラルネットワークが従来の統計的手法よりも優れていることが確認され、その予測は、実際の未来に適用すると、従来のバックテストによって選択された戦略に対して、期待、シャープ、ソーティノ、穏やかな比率を増加させる取引戦略を選択することができる。

In general, traders test their trading strategies by applying them on the historical market data (backtesting), and then apply to the future trades the strategy that achieved the maximum profit on such past data. In this paper, we propose a new trading strategy, called DNN-forwardtesting, that determines the strategy to apply by testing it on the possible future predicted by a deep neural network that has been designed to perform stock price forecasts and trained with the market historical data. In order to generate such an historical dataset, we first perform an exploratory data analysis on a set of ten securities and, in particular, analize their volatility through a novel k-means-based procedure. Then, we restrict the dataset to a small number of assets with the same volatility coefficient and use such data to train a deep feed-forward neural network that forecasts the prices for the next 30 days of open stocks market. Finally, our trading system calculates the most effective technical indicator by applying it to the DNNs predictions and uses such indicator to guide its trades. The results confirm that neural networks outperform classical statistical techniques when performing such forecasts, and their predictions allow to select a trading strategy that, when applied to the real future, increases Expectancy, Sharpe, Sortino, and Calmar ratios with respect to the strategy selected through traditional backtesting.
翻訳日:2022-10-24 16:23:03 公開日:2022-10-20
# 状態フィードバック$\mathcal{h}_\infty$ロバスト制御のための直接政策探索のグローバル収束:goldstein部分微分による非滑らか合成の再検討

Global Convergence of Direct Policy Search for State-Feedback $\mathcal{H}_\infty$ Robust Control: A Revisit of Nonsmooth Synthesis with Goldstein Subdifferential ( http://arxiv.org/abs/2210.11577v1 )

ライセンス: Link先を確認
Xingang Guo, Bin Hu(参考訳) ダイレクトポリシー探索は、現代の強化学習と継続的制御に広く適用されている。 しかし、非スムースロバスト制御合成における直接ポリシー探索の理論的な性質は、完全には解明されていない。 最適な$\mathcal{h}_\infty$制御フレームワークは、閉じたループ$\mathcal{h}_\infty$ノルムを最小化するポリシーを設計することを目的としており、おそらく最も基本的なロバストな制御パラダイムである。 本研究では,ロバストな$\mathcal{h}_\infty$ state-feedback 制御設計問題の解を求めるために,直接ポリシー探索が保証されることを示す。 最適$\mathcal{H}_\infty$制御のポリシー探索は非凸非滑らかな最適化問題につながることに注意し、非凸可能集合は閉ループ力学を安定化するすべてのポリシーからなる。 この非滑らかな最適化問題に対して、クラークの静止点は全て大域的最小値であることを示す。 次に、閉ループ $\mathcal{h}_\infty$ の目的関数の強制性を特定し、結果のポリシー探索問題のすべての部分レベル集合がコンパクトであることを証明する。 これらの性質に基づき、goldsteinの劣勾配法とその実装可能な変種は、非凸実現可能集合に留まり、最終的に$\mathcal{h}_\infty$状態フィードバック合成問題の大域的最適解を見つけることができる。 我々の研究は、非凸非滑らかな最適化理論とロバスト制御との新たな接続を構築し、最適な$\mathcal{h}_\infty$合成に対する直接ポリシー探索のための興味深いグローバル収束結果をもたらす。

Direct policy search has been widely applied in modern reinforcement learning and continuous control. However, the theoretical properties of direct policy search on nonsmooth robust control synthesis have not been fully understood. The optimal $\mathcal{H}_\infty$ control framework aims at designing a policy to minimize the closed-loop $\mathcal{H}_\infty$ norm, and is arguably the most fundamental robust control paradigm. In this work, we show that direct policy search is guaranteed to find the global solution of the robust $\mathcal{H}_\infty$ state-feedback control design problem. Notice that policy search for optimal $\mathcal{H}_\infty$ control leads to a constrained nonconvex nonsmooth optimization problem, where the nonconvex feasible set consists of all the policies stabilizing the closed-loop dynamics. We show that for this nonsmooth optimization problem, all Clarke stationary points are global minimum. Next, we identify the coerciveness of the closed-loop $\mathcal{H}_\infty$ objective function, and prove that all the sublevel sets of the resultant policy search problem are compact. Based on these properties, we show that Goldstein's subgradient method and its implementable variants can be guaranteed to stay in the nonconvex feasible set and eventually find the global optimal solution of the $\mathcal{H}_\infty$ state-feedback synthesis problem. Our work builds a new connection between nonconvex nonsmooth optimization theory and robust control, leading to an interesting global convergence result for direct policy search on optimal $\mathcal{H}_\infty$ synthesis.
翻訳日:2022-10-24 16:22:38 公開日:2022-10-20
# スパース動的特徴の生成とパーキンソン病診断への応用

Sparse Dynamical Features generation, application to Parkinson's Disease diagnosis ( http://arxiv.org/abs/2210.11624v1 )

ライセンス: Link先を確認
Houssem Meghnoudj (1), Bogdan Robu (1), Mazen Alamir (1) ((1) Univ. Grenoble Alpes, CNRS, Grenoble INP, GIPSA-lab, 38000 Grenoble, France)(参考訳) 本研究では,脳波信号(eeg)に基づくパーキンソン病(pd)の診断に焦点をあてた。 そこで本研究では,脳波の動態,頻度,時間的内容を利用して脳の機能に触発された新しいアプローチを提案する。 本手法は,n=50名を対象にした3オドボール聴覚課題中に記録された脳波信号を含むデータセット上で評価した。 2つの特徴を抽出し,LDA(Linear Discriminant Analysis)分類器を用いて直線で分離することにより,健常者から健常者を90%(p < 1.8$\times$10-5)の精度で分離することができる。 3つのチャンネルから情報を集約して投票することで、94%の精度、96%の感度、92%の特異性が得られる。 この評価は,データの漏洩問題を防止し,偏りの少ない評価を行うために,ネストしたref-one-outクロスバリデーション法を用いて実施した。 トレーニングに利用可能なデータの半分しか使用していないテストを含む,アプローチの有効性と堅牢性を評価するために,いくつかのテストを実施した。 この制約の下で、モデルは89.4 %の精度を達成する。

In this study we focus on the diagnosis of Parkinson's Disease (PD) based on electroencephalogram (EEG) signals. We propose a new approach inspired by the functioning of the brain that uses the dynamics, frequency and temporal content of EEGs to extract new demarcating features of the disease. The method was evaluated on a publicly available dataset containing EEG signals recorded during a 3-oddball auditory task involving N = 50 subjects, of whom 25 suffer from PD. By extracting two features, and separating them with a straight line using a Linear Discriminant Analysis (LDA) classifier, we can separate the healthy from the unhealthy subjects with an accuracy of 90% (p < 1.8$\times$10-5) using a single channel. By aggregating the information from three channels and making them vote, we obtain an accuracy of 94 %, a sensitivity of 96 % and a specificity of 92 %. The evaluation was carried out using a nested leave-one-out cross-validation procedure, thus preventing data leakage problems and giving a less biased evaluation. Several tests were carried out to assess the validity and robustness of our approach, including the test where we use only half the available data for training. Under this constraint, the model achieves an accuracy of 89.4 %.
翻訳日:2022-10-24 16:22:05 公開日:2022-10-20
# DIICAN:リチウムイオン電池用SOC, SOH, RULの2次元状態結合同時推定

DIICAN: Dual Time-scale State-Coupled Co-estimation of SOC, SOH and RUL for Lithium-Ion Batteries ( http://arxiv.org/abs/2210.11941v1 )

ライセンス: Link先を確認
Ningbo Cai, Yuwen Qin, Xin Chen, Kai Wu(参考訳) SOC(State-of-charge)、SOH(State-of-Health)、RUL(Restain useful Life)などのバッテリー状態の正確なコ見積は、安全で信頼性の高い管理を保証するためにバッテリー管理システムにとって不可欠である。 電池充電の外部特性と劣化度は類似しているが、電池劣化機構も同様の進化パターンを持つ。 電池は複雑な化学システムであるため、これらの状態は複雑な電気化学プロセスと強く結びついている。 本稿では,soc,soh,rulの電池測定データをサイクル内およびサイクル間タイムスケールに整理する,ディープ・インター・イントラサイクル・アテンション・ネットワーク(diican)という状態結合型共同推定法を提案する。 また, 劣化関連特徴を自動的に抽出し, 実用的な作業条件に適応するために, 畳み込みニューラルネットワークを適用した。 状態劣化注意部を利用して、電池状態進化パターンを抽出し、電池劣化度を評価する。 電池の劣化がSOC推定に与える影響を考慮し, 電池劣化関連状態をSOC推定に組み込んだキャパシティキャリブレーションを行った。 DIICAN法はオックスフォードのバッテリーデータセット上で検証される。 実験の結果,提案手法はSOHとRULの同時推定を高精度に達成し,全寿命のSOC推定精度を効果的に向上できることがわかった。

Accurate co-estimations of battery states, such as state-of-charge (SOC), state-of-health (SOH,) and remaining useful life (RUL), are crucial to the battery management systems to assure safe and reliable management. Although the external properties of the battery charge with the aging degree, batteries' degradation mechanism shares similar evolving patterns. Since batteries are complicated chemical systems, these states are highly coupled with intricate electrochemical processes. A state-coupled co-estimation method named Deep Inter and Intra-Cycle Attention Network (DIICAN) is proposed in this paper to estimate SOC, SOH, and RUL, which organizes battery measurement data into the intra-cycle and inter-cycle time scales. And to extract degradation-related features automatically and adapt to practical working conditions, the convolutional neural network is applied. The state degradation attention unit is utilized to extract the battery state evolution pattern and evaluate the battery degradation degree. To account for the influence of battery aging on the SOC estimation, the battery degradation-related state is incorporated in the SOC estimation for capacity calibration. The DIICAN method is validated on the Oxford battery dataset. The experimental results show that the proposed method can achieve SOH and RUL co-estimation with high accuracy and effectively improve SOC estimation accuracy for the whole lifespan.
翻訳日:2022-10-24 16:21:09 公開日:2022-10-20
# libeamsnet: 限られたdvlビーム測定条件下でのauv速度ベクトル推定

LiBeamsNet: AUV Velocity Vector Estimation in Situations of Limited DVL Beam Measurements ( http://arxiv.org/abs/2210.11572v1 )

ライセンス: Link先を確認
Nadav Cohen and Itzik Klein(参考訳) 自律型水中車両(AUV)は海洋用途に使用され、人間の手の届かない深海環境でも運用できる。 慣性ナビゲーションシステムとドップラー速度ログセンサ(DVL)を融合させることにより、自律ナビゲーション問題の標準解を得ることができる。 後者は、車両の速度ベクトルを推定するために4つのビーム速度を測定する。 現実のシナリオでは、AUVが複雑な水中環境で動作すれば、DVLは3つ未満のビーム速度を受ける可能性がある。 このような状況下では、車両の速度ベクトルは航法ソリューションのドリフトにつながると推定できず、いくつかの状況では、AUVはミッションを中止して地表に戻る必要がある。 そこで本稿では,この状況を回避するために,慣性データと部分ビーム速度を利用して,欠落ビームを2つの欠落ビームシナリオで後退させるディープラーニングフレームワークlibeamsnetを提案する。 すべてのビームが得られたら、車両の速度ベクトルを推定することができる。 アプローチ性能は地中海での海上実験によって検証された。 結果は車両の速度ベクトル推定では7.2%の速度誤差を示しており、それ以外は推定できない。

Autonomous underwater vehicles (AUVs) are employed for marine applications and can operate in deep underwater environments beyond human reach. A standard solution for the autonomous navigation problem can be obtained by fusing the inertial navigation system and the Doppler velocity log sensor (DVL). The latter measures four beam velocities to estimate the vehicle's velocity vector. In real-world scenarios, the DVL may receive less than three beam velocities if the AUV operates in complex underwater environments. In such conditions, the vehicle's velocity vector could not be estimated leading to a navigation solution drift and in some situations the AUV is required to abort the mission and return to the surface. To circumvent such a situation, in this paper we propose a deep learning framework, LiBeamsNet, that utilizes the inertial data and the partial beam velocities to regress the missing beams in two missing beams scenarios. Once all the beams are obtained, the vehicle's velocity vector can be estimated. The approach performance was validated by sea experiments in the Mediterranean Sea. The results show up to 7.2% speed error in the vehicle's velocity vector estimation in a scenario that otherwise could not provide an estimate.
翻訳日:2022-10-24 16:05:51 公開日:2022-10-20
# CDK記述子を用いた薬物標的相互作用予測手法

A Methodology for the Prediction of Drug Target Interaction using CDK Descriptors ( http://arxiv.org/abs/2210.11482v1 )

ライセンス: Link先を確認
Tanya Liyaqat and Tanvir Ahmad and Chandni Saxena(参考訳) 薬物標的相互作用(DTI)の検出は、薬物発見において重要な課題である。 従来のDTI研究は高価で、労働集約的であり、多くの時間を要するため、DTIをうまく予測できる有用な計算技術を構築するための重要な理由がある。 この原因のためにいくつかの方法が開発されているが、多くの相互作用がまだ発見されておらず、予測精度はまだ低い。 これらの課題に対処するため,薬物の分子構造と標的タンパク質の配列に基づくDTI予測モデルを提案する。 提案モデルでは,簡便な分子入力線入力システム(smiles)を用いてcdk記述子,分子アクセスシステム(maccs)指紋,電子状態(estate)指紋,および標的のアミノ酸配列を作成し,擬似アミノ酸組成(pseaac)を得る。 cdkディスクリプタを用いたdti予測モデルの性能評価を目標とした。 比較のために、ベンチマークデータを用いて、広く使われているMACCS指紋とEstate指紋の2つの指紋のモデル性能を評価する。 性能評価の結果,CDKディスクリプタはDTIの予測に優れていた。 提案手法は他の手法を大きく上回っている。

Detecting probable Drug Target Interaction (DTI) is a critical task in drug discovery. Conventional DTI studies are expensive, labor-intensive, and take a lot of time, hence there are significant reasons to construct useful computational techniques that may successfully anticipate possible DTIs. Although certain methods have been developed for this cause, numerous interactions are yet to be discovered, and prediction accuracy is still low. To meet these challenges, we propose a DTI prediction model built on molecular structure of drugs and sequence of target proteins. In the proposed model, we use Simplified Molecular Input Line Entry System (SMILES) to create CDK descriptors, Molecular ACCess System (MACCS) fingerprints, Electrotopological state (Estate) fingerprints and amino acid sequences of targets to get Pseudo Amino Acid Composition (PseAAC). We target to evaluate performance of DTI prediction models using CDK descriptors. For comparison, we use benchmark data and evaluate models performance on two widely used fingerprints, MACCS fingerprints and Estate fingerprints. The evaluation of performances shows that CDK descriptors are superior at predicting DTIs. The proposed method also outperforms other previously published techniques significantly.
翻訳日:2022-10-24 16:04:22 公開日:2022-10-20
# 複雑ネットワークの分類問題への低ランク表現

Low-Rank Representations Towards Classification Problem of Complex Networks ( http://arxiv.org/abs/2210.11561v1 )

ライセンス: Link先を確認
Murat \c{C}elik, Ali Baran Ta\c{s}demir, Lale \"Ozkahya(参考訳) 社会的相互作用、脳活動、分子構造を表す複雑なネットワークは、それらの特性をグラフとして理解し予測するために広く研究されている。 これらのネットワークのモデルとアルゴリズムは、検索エンジンやレコメンデーターシステムのような現実のアプリケーションで使用される。 一般に、そのようなネットワークは、ユークリッド空間内の頂点の近接が辺(リンク)の可能性を示唆する、ネットワークの頂点の低次元ユークリッド埋め込みを構築することによってモデル化される。 本研究では,ネットワーク分類問題における実生活ネットワークの低ランク表現の性能について検討する。

Complex networks representing social interactions, brain activities, molecular structures have been studied widely to be able to understand and predict their characteristics as graphs. Models and algorithms for these networks are used in real-life applications, such as search engines, and recommender systems. In general, such networks are modelled by constructing a low-dimensional Euclidean embedding of the vertices of the network, where proximity of the vertices in the Euclidean space hints the likelihood of an edge (link). In this work, we study the performance of such low-rank representations of real-life networks on a network classification problem.
翻訳日:2022-10-24 16:04:01 公開日:2022-10-20
# gSuite: GPU上のグラフニューラルネットワーク推論のためのフレキシブルでフレームワークに依存しないベンチマークスイート

gSuite: A Flexible and Framework Independent Benchmark Suite for Graph Neural Network Inference on GPUs ( http://arxiv.org/abs/2210.11601v1 )

ライセンス: Link先を確認
Taha Tekdo\u{g}an, Serkan G\"okta\c{s}, Ayse Yilmazer-Metin(参考訳) グラフニューラルネットワーク(GNN)への関心が高まっているため、GNNのベンチマークと性能評価研究の重要性が高まっている。 これまでのところ、GNNの性能と計算効率を調査・提示する研究は数多く行われてきた。 しかし、これまでの作業はいくつかの高レベルなGNNフレームワークを使用して行われてきた。 これらのフレームワークは使いやすさを提供するが、他の既存のライブラリへの依存性が多すぎる。 実装の詳細層と依存関係は、特にアーキテクチャシミュレータを使用する場合、これらのフレームワーク上に構築されたGNNモデルのパフォーマンス分析を複雑にします。 さらに, 先行研究では, gnn計算に対する異なるアプローチが一般的に見過ごされ, 一般的な計算モデルの1つに過ぎなかった。 これらの欠点とニーズに基づいて、我々はフレームワークに依存しない、多種多様な計算モデルをサポートし、構成が容易で、追加の労力なしでアーキテクチャシミュレータで使用することができるベンチマークスイートを開発した。 gSuiteと呼ばれるベンチマークスイートは、ハードウェアベンダのライブラリのみを活用しているので、他のフレームワークとは独立しています。 gSuiteは、現在のGPUプロファイラとアーキテクチャGPUシミュレータの両方を使用して、GNN推論に関する詳細なパフォーマンス評価研究を可能にする。 新しいベンチマークスイートの利点を説明するために、さまざまなデータセットを持つよく知られたGNNモデルのセットを用いて、詳細なキャラクタリゼーション調査を行い、gSuiteを実際のGPUカードとタイミングの詳細GPUシミュレータ上で実行します。 また,計算モデルが性能に与える影響も示唆する。 複数の評価指標を用いてgnn計算の性能を厳密に測定した。

As the interest to Graph Neural Networks (GNNs) is growing, the importance of benchmarking and performance characterization studies of GNNs is increasing. So far, we have seen many studies that investigate and present the performance and computational efficiency of GNNs. However, the work done so far has been carried out using a few high-level GNN frameworks. Although these frameworks provide ease of use, they contain too many dependencies to other existing libraries. The layers of implementation details and the dependencies complicate the performance analysis of GNN models that are built on top of these frameworks, especially while using architectural simulators. Furthermore, different approaches on GNN computation are generally overlooked in prior characterization studies, and merely one of the common computational models is evaluated. Based on these shortcomings and needs that we observed, we developed a benchmark suite that is framework independent, supporting versatile computational models, easily configurable and can be used with architectural simulators without additional effort. Our benchmark suite, which we call gSuite, makes use of only hardware vendor's libraries and therefore it is independent of any other frameworks. gSuite enables performing detailed performance characterization studies on GNN Inference using both contemporary GPU profilers and architectural GPU simulators. To illustrate the benefits of our new benchmark suite, we perform a detailed characterization study with a set of well-known GNN models with various datasets; running gSuite both on a real GPU card and a timing-detailed GPU simulator. We also implicate the effect of computational models on performance. We use several evaluation metrics to rigorously measure the performance of GNN computation.
翻訳日:2022-10-24 16:03:51 公開日:2022-10-20
# HesScale: ヘッセン対角線のスケーラブルな計算

HesScale: Scalable Computation of Hessian Diagonals ( http://arxiv.org/abs/2210.11639v1 )

ライセンス: Link先を確認
Mohamed Elsayed, A. Rupam Mahmood(参考訳) 2階最適化では、目的関数に関する曲率情報を使用し、より高速な収束に役立つ。 しかし、そのような方法は一般にヘッセン行列の高価な計算を必要とし、スケーラブルな方法での使用を妨げている。 効率的な計算方法の欠如は、曲率情報を捉えない一階近似にフォーカスする最も広く使われる方法となった。 本稿では,ヘッセン行列の対角線を近似するスケーラブルな手法であるHesScaleを開発し,2次情報を計算的に効率的に組み込む。 HesScaleはバックプロパゲーションと同じ計算複雑性を持つことを示す。 教師付き分類の結果,hesscaleは高い近似精度を達成でき,スケーラブルで効率的な二階最適化が可能となった。

Second-order optimization uses curvature information about the objective function, which can help in faster convergence. However, such methods typically require expensive computation of the Hessian matrix, preventing their usage in a scalable way. The absence of efficient ways of computation drove the most widely used methods to focus on first-order approximations that do not capture the curvature information. In this paper, we develop HesScale, a scalable approach to approximating the diagonal of the Hessian matrix, to incorporate second-order information in a computationally efficient manner. We show that HesScale has the same computational complexity as backpropagation. Our results on supervised classification show that HesScale achieves high approximation accuracy, allowing for scalable and efficient second-order optimization.
翻訳日:2022-10-24 16:03:27 公開日:2022-10-20
# H4VDM:H.264 ビデオ装置マッチング

H4VDM: H.264 Video Device Matching ( http://arxiv.org/abs/2210.11549v1 )

ライセンス: Link先を確認
Ziyue Xiang, Paolo Bestagini, Stefano Tubaro, Edward J. Delp(参考訳) 与えられた2つのビデオシーケンスが同じデバイス(例えば携帯電話やデジタルカメラ)でキャプチャされるかどうかを判断する手法は、多くの法医学的タスクで利用できる。 本稿では,これを「ビデオデバイスマッチング」と呼ぶ。 オープンセットビデオ法医学のシナリオでは、2つのビデオシーケンスが同一デバイスでキャプチャされたかどうかを特定できる。 本稿では,オープンセットビデオデバイスマッチング手法を提案する。 2つのH.264圧縮ビデオシーケンスが与えられた場合、トレーニング中にこのデバイスに遭遇したことがない場合でも、同一デバイスでキャプチャされたかどうかを判定できる。 提案手法を h.264 と表現します ビデオデバイスマッチング(h4vdm)。 H4VDMはビデオシーケンスから抽出したH.264圧縮情報を用いて意思決定を行う。 カメラセンサーの指紋を変えるアーティファクトに対してより堅牢であり、H.264配列の比較的小さな断片を分析するために使用できる。 提案手法は,提案手法が優れた性能を示した35のデバイスからなる,公開可能なビデオインフォメーションデータセット上でトレーニングおよびテストを行った。

Methods that can determine if two given video sequences are captured by the same device (e.g., mobile telephone or digital camera) can be used in many forensics tasks. In this paper we refer to this as "video device matching". In open-set video forensics scenarios it is easier to determine if two video sequences were captured with the same device than identifying the specific device. In this paper, we propose a technique for open-set video device matching. Given two H.264 compressed video sequences, our method can determine if they are captured by the same device, even if our method has never encountered the device in training. We denote our proposed technique as H.264 Video Device Matching (H4VDM). H4VDM uses H.264 compression information extracted from video sequences to make decisions. It is more robust against artifacts that alter camera sensor fingerprints, and it can be used to analyze relatively small fragments of the H.264 sequence. We trained and tested our method on a publicly available video forensics dataset consisting of 35 devices, where our proposed method demonstrated good performance.
翻訳日:2022-10-24 15:55:46 公開日:2022-10-20
# 近視ディスプレイ用スリップ・ロバスト・アイトラッキング

Slippage-robust Gaze Tracking for Near-eye Display ( http://arxiv.org/abs/2210.11637v1 )

ライセンス: Link先を確認
Wei Zhang, Jiaxi Cao, Xiang Wang, Enqi Tian and Bin Li(参考訳) 近年、ヘッドマウント型近眼ディスプレイは、仮想現実と拡張現実のハードウェア基盤となっている。 このように、ヘッドマウント型視線追跡技術は、人間とコンピュータの相互作用の重要な部分として注目されている。 しかし、ヘッドマウントデバイス(HMD)の回避不能なすべりは、視線追跡誤差を高くし、HMDの実用化を妨げていることが多い。 そこで本研究では,非球面眼球モデルに基づく近目表示方式の視線追跡手法を提案し,眼球の光軸と回転中心を正確に計算する。 すべり面を有するデータセット上でいくつかの手法を試験し,実験結果から,提案手法が従来の手法(ほぼ2倍の最適化手法)よりも優れていることが示された。

In recent years, head-mounted near-eye display devices have become the key hardware foundation for virtual reality and augmented reality. Thus head-mounted gaze tracking technology has received attention as an essential part of human-computer interaction. However, unavoidable slippage of head-mounted devices (HMD) often results higher gaze tracking errors and hinders the practical usage of HMD. To tackle this problem, we propose a slippage-robust gaze tracking for near-eye display method based on the aspheric eyeball model and accurately compute the eyeball optical axis and rotation center. We tested several methods on datasets with slippage and the experimental results show that the proposed method significantly outperforms the previous method (almost double the suboptimal method).
翻訳日:2022-10-24 15:55:28 公開日:2022-10-20
# JRDB-Pose:マルチパーソンポーズ推定と追跡のための大規模データセット

JRDB-Pose: A Large-scale Dataset for Multi-Person Pose Estimation and Tracking ( http://arxiv.org/abs/2210.11940v1 )

ライセンス: Link先を確認
Edward Vendrow, Duy Tho Le and Hamid Rezatofighi(参考訳) 人間の環境で動作する自律ロボットシステムは、正確かつ安全な決定を行うために周囲を理解する必要がある。 クローズアップされた人間とロボットのインタラクションとロボットのナビゲーションを持つ混雑した人間のシーンでは、深い理解のためには、人間の動きと人間の身体の動きを時間とともに推論し、追跡する必要がある。 しかし、既存のデータセットはポーズアノテーションを提供していないか、ロボットアプリケーションとは無関係なシーンタイプを含んでいる。 多くのデータセットは、混雑した人間のシーンに見られるポーズやオクルージョンの多様性を欠いている。 この制限に対処するために,ソーシャルナビゲーションロボットから撮影したビデオを用いて多人数のポーズ推定と追跡を行うための大規模データセットとベンチマークであるjrdb-poseを紹介する。 データセットには、屋内と屋外の混在するチャレンジシーンと、さまざまなスケールと閉塞タイプが含まれている。 JRDB-Poseは、キーポイント単位のオクルージョンラベルと、シーン全体で一貫性のあるトラックIDを備えたヒューマンポーズアノテーションを提供する。 ホールドアウトテストセットにおいて、公開評価サーバを公平に評価することができる。 JRDB-Poseはhttps://jrdb.erc.monash.edu/で利用可能である。

Autonomous robotic systems operating in human environments must understand their surroundings to make accurate and safe decisions. In crowded human scenes with close-up human-robot interaction and robot navigation, a deep understanding requires reasoning about human motion and body dynamics over time with human body pose estimation and tracking. However, existing datasets either do not provide pose annotations or include scene types unrelated to robotic applications. Many datasets also lack the diversity of poses and occlusions found in crowded human scenes. To address this limitation we introduce JRDB-Pose, a large-scale dataset and benchmark for multi-person pose estimation and tracking using videos captured from a social navigation robot. The dataset contains challenge scenes with crowded indoor and outdoor locations and a diverse range of scales and occlusion types. JRDB-Pose provides human pose annotations with per-keypoint occlusion labels and track IDs consistent across the scene. A public evaluation server is made available for fair evaluation on a held-out test set. JRDB-Pose is available at https://jrdb.erc.monash.edu/ .
翻訳日:2022-10-24 15:55:03 公開日:2022-10-20
# セマンティクスとrgb egoビューに基づくオブジェクトゴールナビゲーション

Object Goal Navigation Based on Semantics and RGB Ego View ( http://arxiv.org/abs/2210.11543v1 )

ライセンス: Link先を確認
Snehasis Banerjee, Brojeshwar Bhowmick, Ruddra Dev Roychoudhury(参考訳) 本稿では、RGBエゴビューを前提として、サービスロボットが屋内環境を意味決定でナビゲートするためのアーキテクチャと方法論を提案する。 本手法は,ロボットのアクティベーション能力とシーン,オブジェクト,およびそれらの関係の知識を意味的形式で表現する。 ロボットはジオセムマップ(幾何マップと意味マップのリレーショナル組み合わせ)に基づいてナビゲートする。 ロボットに与えられたゴールは、ナビゲーションマップがなく、自我中心のRGBカメラしか認識できない未知の環境で物体を見つけることである。 この手法はシミュレーション環境と実生活屋内環境の両方でテストされる。 提案手法は, 平均完了時間に対するゲーミフィケーション評価において, 人間のユーザよりも優れていた。

This paper presents an architecture and methodology to empower a service robot to navigate an indoor environment with semantic decision making, given RGB ego view. This method leverages the knowledge of robot's actuation capability and that of scenes, objects and their relations -- represented in a semantic form. The robot navigates based on GeoSem map - a relational combination of geometric and semantic map. The goal given to the robot is to find an object in a unknown environment with no navigational map and only egocentric RGB camera perception. The approach is tested both on a simulation environment and real life indoor settings. The presented approach was found to outperform human users in gamified evaluations with respect to average completion time.
翻訳日:2022-10-24 15:46:52 公開日:2022-10-20
# 人間中心の説明可能なAIを目指して : モデル説明のためのユーザスタディ

Towards Human-centered Explainable AI: User Studies for Model Explanations ( http://arxiv.org/abs/2210.11584v1 )

ライセンス: Link先を確認
Yao Rong, Tobias Leemann, Thai-trang Nguyen, Lisa Fiedler, Tina Seidel, Gjergji Kasneci, Enkelejda Kasneci(参考訳) 説明可能なAI(XAI)は、拡張可能なAI研究の正当性として広く見なされている。 XAIユーザのニーズをよりよく理解すると同時に、説明可能なモデルの人間中心の評価も必要かつ課題である。 本稿では、系統的な文献レビューに基づいて、HCIとAI研究者がXAIアプリケーションでユーザ研究を行う方法について検討する。 過去5年間に人為的XAI評価による85のコアペーパーの同定と分析を行った結果,信頼,理解,公正性,ユーザビリティ,人間-AIチームパフォーマンスなど,説明的手法の指標的特徴に沿って分類した。 我々の研究は、XAIが推奨システムなど特定のアプリケーション領域において他の分野よりも急速に普及していることを示しているが、ユーザ評価はいまだに疎外であり、認知科学や社会科学からの洞察をほとんど含まない。 ユーザ研究におけるベストプラクティス、すなわち共通モデル、設計選択、測定の包括的議論に基づいて、xai研究者や実践者のためにユーザー研究を設計・実施するための実践的ガイドラインを提案する。 最後に、この調査はいくつかのオープンな研究の方向性、特に心理学と人間中心のXAIの関連を強調している。

Explainable AI (XAI) is widely viewed as a sine qua non for ever-expanding AI research. A better understanding of the needs of XAI users, as well as human-centered evaluations of explainable models are both a necessity and a challenge. In this paper, we explore how HCI and AI researchers conduct user studies in XAI applications based on a systematic literature review. After identifying and thoroughly analyzing 85 core papers with human-based XAI evaluations over the past five years, we categorize them along the measured characteristics of explanatory methods, namely trust, understanding, fairness, usability, and human-AI team performance. Our research shows that XAI is spreading more rapidly in certain application domains, such as recommender systems than in others, but that user evaluations are still rather sparse and incorporate hardly any insights from cognitive or social sciences. Based on a comprehensive discussion of best practices, i.e., common models, design choices, and measures in user studies, we propose practical guidelines on designing and conducting user studies for XAI researchers and practitioners. Lastly, this survey also highlights several open research directions, particularly linking psychological science and human-centered XAI.
翻訳日:2022-10-24 15:46:39 公開日:2022-10-20
# cycleganとドメイン間損失を用いた半教師付きエンドツーエンド自動音声認識の改善

Improving Semi-supervised End-to-end Automatic Speech Recognition using CycleGAN and Inter-domain Losses ( http://arxiv.org/abs/2210.11642v1 )

ライセンス: Link先を確認
Chia-Yu Li and Ngoc Thang Vu(参考訳) 半教師付きエンドツーエンド自動音声認識におけるサイクルガンとドメイン間損失を組み合わせた新しい手法を提案する。 ドメイン間損失は、共有ネットワークを用いた音声とテキストの中間的共有表現の抽出を目標とする。 CycleGANは、あるドメインから別のドメインへの変換後の入力特徴の関連性を維持するために、サイクル一貫性損失とアイデンティティマッピング損失を使用する。 このように、両手法は、未ペア音声テキスト入力のエンドツーエンドモデルを訓練するのに適している。 本稿では、ドメイン間損失とサイクガンの両方の利点を生かして、非ペア音声とテキスト入力のより良い共有表現を実現し、音声対テキストマッピングを改善した。 WSJ eval92 と Voxforge (ノンイングリッシュ) の実験結果から, 基準値よりも8~8.5% の文字誤り率を低減し, また, LibriSpeech test_clean の精度も向上した。

We propose a novel method that combines CycleGAN and inter-domain losses for semi-supervised end-to-end automatic speech recognition. Inter-domain loss targets the extraction of an intermediate shared representation of speech and text inputs using a shared network. CycleGAN uses cycle-consistent loss and the identity mapping loss to preserve relevant characteristics of the input feature after converting from one domain to another. As such, both approaches are suitable to train end-to-end models on unpaired speech-text inputs. In this paper, we exploit the advantages from both inter-domain loss and CycleGAN to achieve better shared representation of unpaired speech and text inputs and thus improve the speech-to-text mapping. Our experimental results on the WSJ eval92 and Voxforge (non English) show 8~8.5% character error rate reduction over the baseline, and the results on LibriSpeech test_clean also show noticeable improvement.
翻訳日:2022-10-24 15:45:18 公開日:2022-10-20
# MTの人的評価における高次パワーの探索

Searching for a higher power in the human evaluation of MT ( http://arxiv.org/abs/2210.11612v1 )

ライセンス: Link先を確認
Johnny Tian-Zheng Wei, Tom Kocmi, and Christian Federmann(参考訳) MT評価では、より良いシステムを特定するためにペアワイズ比較を行う。 比較を行う際、実験者は直接評価(da)判断を収集するために予算を割り当てなければならない。 予算を費やすためのコスト効率のよい方法を提供するが、典型的な予算サイズでは、しっかりとした比較ができないことが多いことを示します。 統計的意義の達成に固体比較の基礎が重要であるという観点から,ペアワイズda比較の大規模なコレクションにおける力(有意性)について検討する。 統計的推定の性質のため、1-2 DA 点未満の差分には電力が低く、顕著な増加には少なくとも2-3倍のサンプルが必要である。 分散還元を単独で適用してもこれらの利益は得られないため、検出不能な差異と支出の増加の現実に直面する必要がある。 この文脈において、我々は、判断ごとにより多くのパワーを得られる「早期停止」収集手順である暫定テストを提案し、予算を境界となるペアに適応的に集中させる。 中間テストは、現在の予算の3倍、または現在の評価力で18%の節約を行うと、最大27%の効率向上を達成できる。

In MT evaluation, pairwise comparisons are conducted to identify the better system. In conducting the comparison, the experimenter must allocate a budget to collect Direct Assessment (DA) judgments. We provide a cost effective way to spend the budget, but show that typical budget sizes often do not allow for solid comparison. Taking the perspective that the basis of solid comparison is in achieving statistical significance, we study the power (rate of achieving significance) on a large collection of pairwise DA comparisons. Due to the nature of statistical estimation, power is low for differentiating less than 1-2 DA points, and to achieve a notable increase in power requires at least 2-3x more samples. Applying variance reduction alone will not yield these gains, so we must face the reality of undetectable differences and spending increases. In this context, we propose interim testing, an "early stopping" collection procedure that yields more power per judgment collected, which adaptively focuses the budget on pairs that are borderline significant. Interim testing can achieve up to a 27% efficiency gain when spending 3x the current budget, or 18% savings at the current evaluation power.
翻訳日:2022-10-24 15:30:05 公開日:2022-10-20
# 精度と逆ロバスト性のための学習サンプルの重み付け

Learning Sample Reweighting for Accuracy and Adversarial Robustness ( http://arxiv.org/abs/2210.11513v1 )

ライセンス: Link先を確認
Chester Holtz, Tsui-Wei Weng, Gal Mishne(参考訳) ニューラルネットワーク分類器のロバスト性向上には,ロバスト精度と標準精度とのトレードオフのバランスを保ちながら,敵対的摂動から防御する大きな関心が寄せられている。 本稿では,クラス条件付きマージンの概念に基づいて,個々のトレーニングサンプルの損失を軽減し,堅牢な一般化を目標とする,新たな逆トレーニングフレームワークを提案する。 重み付き対向訓練を,頑健な分類器の学習に対応する上位レベル問題と,サンプルの \textit{multi-class margin} から重要重みにマップされるパラメトリック関数の学習に対応する下位レベル問題との双レベル最適化問題として定式化する。 広範な実験により,我々のアプローチは,関連する手法や最先端のベースラインと比較して,クリーンでロバストな精度を一貫して向上できることが証明された。

There has been great interest in enhancing the robustness of neural network classifiers to defend against adversarial perturbations through adversarial training, while balancing the trade-off between robust accuracy and standard accuracy. We propose a novel adversarial training framework that learns to reweight the loss associated with individual training samples based on a notion of class-conditioned margin, with the goal of improving robust generalization. We formulate weighted adversarial training as a bilevel optimization problem with the upper-level problem corresponding to learning a robust classifier, and the lower-level problem corresponding to learning a parametric function that maps from a sample's \textit{multi-class margin} to an importance weight. Extensive experiments demonstrate that our approach consistently improves both clean and robust accuracy compared to related methods and state-of-the-art baselines.
翻訳日:2022-10-24 15:28:49 公開日:2022-10-20
# ベイズ探索を用いたモデルベース生涯強化学習

Model-based Lifelong Reinforcement Learning with Bayesian Exploration ( http://arxiv.org/abs/2210.11579v1 )

ライセンス: Link先を確認
Haotian Fu, Shangqun Yu, Michael Littman, George Konidaris(参考訳) 本研究では,各タスク間で共有される共通構造を階層的ベイズ後方蒸留により推定するモデルベース生涯強化学習手法を提案する。 サンプルベースのベイズ探索法と組み合わされた学習後段は、関連するタスクのファミリー間で学習のサンプル効率を高める。 まず,有限mdp設定における試料の複雑さと後方初期化品質との関係について解析を行った。 次に、最近のモデルベース深部RL法と組み合わせることができる変分ベイズ生涯強化学習アルゴリズムを導入することで、連続状態領域へのアプローチをスケールし、後方転送を示す。 いくつかの挑戦的領域に対する実験結果から,我々のアルゴリズムは最先端の寿命RL法よりも前向きと後向きの転送性能がよいことが示された。

We propose a model-based lifelong reinforcement-learning approach that estimates a hierarchical Bayesian posterior distilling the common structure shared across different tasks. The learned posterior combined with a sample-based Bayesian exploration procedure increases the sample efficiency of learning across a family of related tasks. We first derive an analysis of the relationship between the sample complexity and the initialization quality of the posterior in the finite MDP setting. We next scale the approach to continuous-state domains by introducing a Variational Bayesian Lifelong Reinforcement Learning algorithm that can be combined with recent model-based deep RL methods, and that exhibits backward transfer. Experimental results on several challenging domains show that our algorithms achieve both better forward and backward transfer performance than state-of-the-art lifelong RL methods.
翻訳日:2022-10-24 15:28:30 公開日:2022-10-20
# 潜在マルコフ決定過程に対する水平自由強化学習

Horizon-Free Reinforcement Learning for Latent Markov Decision Processes ( http://arxiv.org/abs/2210.11604v1 )

ライセンス: Link先を確認
Runlong Zhou, Ruosong Wang, Simon S. Du(参考訳) 潜在マルコフ決定過程(lmdps)における強化学習(rl)に対する後悔の最小化について検討した。 我々は,モデル最適化と値最適化の両手法でインスタンス化できる新しいモデルベースアルゴリズムフレームワークを設計する。 我々は$\widetilde{O}\left(\sqrt{M \Gamma S A K}\right)$ regret bound where $M$ is the number of contexts, $S$ is the number of state, $A$ is the number of actions, $K$ is the number of episodes, $\Gamma \le S$ is the maximum transition degree of any state-action pair。 後悔のバウンドは計画の地平線と対数的にしかスケールしないので、lmdpに対して最初の(ほぼ)地平線なしの後悔となる。 証明の鍵となるのは、再帰に基づく手法によって慎重に拘束されるアルファベクトルの総分散の分析である。 我々は、新しい $\omega\left(\sqrt{m s a k}\right)$ regret lower bound with $\gamma = 2$ で正の結果を補完する。 我々の下位境界は、理論計算機科学の対称性技術に基づく新しいハードインスタンスの構成と引数に依存しており、どちらも既存のMDPの下位境界証明と技術的に異なるため、独立した関心を持つことができる。

We study regret minimization for reinforcement learning (RL) in Latent Markov Decision Processes (LMDPs) with context in hindsight. We design a novel model-based algorithmic framework which can be instantiated with both a model-optimistic and a value-optimistic solver. We prove an $\widetilde{O}\left(\sqrt{M \Gamma S A K}\right)$ regret bound where $M$ is the number of contexts, $S$ is the number of states, $A$ is the number of actions, $K$ is the number of episodes, and $\Gamma \le S$ is the maximum transition degree of any state-action pair. The regret bound only scales logarithmically with the planning horizon, thus yielding the first (nearly) horizon-free regret bound for LMDP. Key in our proof is an analysis of the total variance of alpha vectors, which is carefully bounded by a recursion-based technique. We complement our positive result with a novel $\Omega\left(\sqrt{M S A K}\right)$ regret lower bound with $\Gamma = 2$, which shows our upper bound minimax optimal when $\Gamma$ is a constant. Our lower bound relies on new constructions of hard instances and an argument based on the symmetrization technique from theoretical computer science, both of which are technically different from existing lower bound proof for MDPs, and thus can be of independent interest.
翻訳日:2022-10-24 15:28:17 公開日:2022-10-20
# 一般化された相互観

Generalized Reciprocal Perspective ( http://arxiv.org/abs/2210.11616v1 )

ライセンス: Link先を確認
Kevin Dick and Daniel G. Kyrollos and James R. Green(参考訳) 多くの領域において、現実世界の問題はネットワークとして表現できる。 ノードはドメイン固有の要素を表し、エッジは要素間の関係をキャプチャする。 高性能コンピューティングと最適化されたリンク予測アルゴリズムを利用することで、ノード(データ駆動コンテキストを提供する)を含むすべてのリンクのコンテキストに個々のリンク予測スコアを置く包括的予測行列(cpm)を生成することができる、nodalペアのあらゆる可能な組み合わせを評価することができる。 歴史的に,この文脈情報は指数関数的に増大する問題の大きさから無視されてきたが,予測性能の向上を考えると,CPMを生成するために高性能な計算資源を浪費することは価値ある投資であることを示す。 本研究は,すべてのペアワイズリンク述語タスクについて一般化し,提案する半教師付き機械学習法であるreciprocal perspective (rp) について述べる。 CPMの豊富な情報を活用することにより,リンク予測精度を大幅に向上することを示す。 階層化分類器で使用するCPMからコンテキストベースの特徴を抽出し,カスケードにおけるRPの適用がほぼ常に有意に(p < 0.05)改善された予測結果を示す。 RS型問題に対するこれらの結果は、RPが幅広いリンク予測問題に適用可能であることを示唆している。

Across many domains, real-world problems can be represented as a network. Nodes represent domain-specific elements and edges capture the relationship between elements. Leveraging high-performance computing and optimized link prediction algorithms, it is increasingly possible to evaluate every possible combination of nodal pairs enabling the generation of a comprehensive prediction matrix (CPM) that places an individual link prediction score in the context of all possible links involving either node (providing data-driven context). Historically, this contextual information has been ignored given exponentially growing problem sizes resulting in computational intractability; however, we demonstrate that expending high-performance compute resources to generate CPMs is a worthwhile investment given the improvement in predictive performance. In this work, we generalize for all pairwise link-prediction tasks our novel semi-supervised machine learning method, denoted Reciprocal Perspective (RP). We demonstrate that RP significantly improves link prediction accuracy by leveraging the wealth of information in a CPM. Context-based features are extracted from the CPM for use in a stacked classifier and we demonstrate that the application of RP in a cascade almost always results in significantly (p < 0.05) improved predictions. These results on RS-type problems suggest that RP is applicable to a broad range of link prediction problems.
翻訳日:2022-10-24 15:27:33 公開日:2022-10-20
# 個人再識別のためのエンド・ツー・エンドコンテキスト支援ユニシティマッチング

End-to-End Context-Aided Unicity Matching for Person Re-identification ( http://arxiv.org/abs/2210.12008v1 )

ライセンス: Link先を確認
Min Cao, Cong Ding, Chen Chen, Junchi Yan and Yinqiang Zheng(参考訳) 既存の人物再同定手法のほとんどは、対の類似性のランキングに基づいて、人物画像間のカメラビュー間のマッチング関係を計算する。 グローバル視点の欠如とコンテキストの考慮によるこのマッチング戦略は、必然的にあいまいなマッチング結果と準最適性能をもたらす。 同一人物の同一性に属する画像は、同一人物の同一性と呼ばれる複数の異なる人物の同一性に属する画像とは一致しないという自然な仮定に基づいて、一致した人物を学習・精査するためのエンドツーエンドの人物の共通性マッチングアーキテクチャを提案する。 まず,画像サンプルの文脈情報を特徴空間に適用し,グラフニューラルネットワークを用いて最初のソフトマッチング結果を生成する。 第2に,サンプルのグローバルコンテキスト関係を利用してソフトマッチングの結果を洗練し,2部グラフマッチングによって一致するユニシティに到達する。 実世界の人物再識別アプリケーションを完全に考慮し、人物再識別のワンショット設定とマルチショット設定の両方でユニシティマッチングを実現し、性能を損なうことなく、さらに高速バージョンのユニシティマッチングを開発する。 提案手法は,MSMT17, DukeMTMC, Market1501, CUHK03, VIPeRの4つのマルチショットデータセットを含む5つの公開ベンチマークで評価される。 実験の結果,提案手法は性能と効率に優れることがわかった。

Most existing person re-identification methods compute the matching relations between person images across camera views based on the ranking of the pairwise similarities. This matching strategy with the lack of the global viewpoint and the context's consideration inevitably leads to ambiguous matching results and sub-optimal performance. Based on a natural assumption that images belonging to the same person identity should not match with images belonging to multiple different person identities across views, called the unicity of person matching on the identity level, we propose an end-to-end person unicity matching architecture for learning and refining the person matching relations. First, we adopt the image samples' contextual information in feature space to generate the initial soft matching results by using graph neural networks. Secondly, we utilize the samples' global context relationship to refine the soft matching results and reach the matching unicity through bipartite graph matching. Given full consideration to real-world person re-identification applications, we achieve the unicity matching in both one-shot and multi-shot settings of person re-identification and further develop a fast version of the unicity matching without losing the performance. The proposed method is evaluated on five public benchmarks, including four multi-shot datasets MSMT17, DukeMTMC, Market1501, CUHK03, and a one-shot dataset VIPeR. Experimental results show the superiority of the proposed method on performance and efficiency.
翻訳日:2022-10-24 15:18:54 公開日:2022-10-20
# 合成ゼロショット学習のための学習注意伝播

Learning Attention Propagation for Compositional Zero-Shot Learning ( http://arxiv.org/abs/2210.11557v1 )

ライセンス: Link先を確認
Muhammad Gul Zain Ali Khan, Muhammad Ferjad Naeem, Luc Van Gool, Alain Pagani, Didier Stricker, Muhammad Zeshan Afzal(参考訳) compositional zero-shot learningは、オブジェクトクラスとその状態の見えない視覚プリミティブの構成を認識することを目的としている。 すべてのプリミティブ(状態とオブジェクト)は、何らかの組み合わせでトレーニング中に観測可能であるが、それらの複雑な相互作用は、このタスクを特に難しくする。 例えば、ウェットは、自転車とは全く異なる見た目の犬の外観を変える。 さらに、コンポジション間の関係は共有状態やオブジェクトを超えていると論じる。 散らかったオフィスは、忙しいテーブルを含むことができ、これらのコンポジションは状態やオブジェクトを共有していないが、忙しいテーブルの存在は、散らかったオフィスの存在を導くことができる。 そこで本研究では,CAPE(Compositional Attention Propagated Embedding)という新しい手法を提案する。 本手法の重要な直観は,合成間の他の依存関係に加えて,プリミティブの複雑な相互作用から生じる構成間のリッチな依存関係構造の存在である。 CAPEは、この構造を識別し、それらの間の知識を伝播して、目に見えないすべての構成に対するクラス埋め込みを学ぶ。 提案手法は, 従来のベースラインよりも優れており, 3つの公開ベンチマーク上で新しい最先端のベンチマークを設定できることを示す。

Compositional zero-shot learning aims to recognize unseen compositions of seen visual primitives of object classes and their states. While all primitives (states and objects) are observable during training in some combination, their complex interaction makes this task especially hard. For example, wet changes the visual appearance of a dog very differently from a bicycle. Furthermore, we argue that relationships between compositions go beyond shared states or objects. A cluttered office can contain a busy table; even though these compositions don't share a state or object, the presence of a busy table can guide the presence of a cluttered office. We propose a novel method called Compositional Attention Propagated Embedding (CAPE) as a solution. The key intuition to our method is that a rich dependency structure exists between compositions arising from complex interactions of primitives in addition to other dependencies between compositions. CAPE learns to identify this structure and propagates knowledge between them to learn class embedding for all seen and unseen compositions. In the challenging generalized compositional zero-shot setting, we show that our method outperforms previous baselines to set a new state-of-the-art on three publicly available benchmarks.
翻訳日:2022-10-24 15:12:07 公開日:2022-10-20
# 対角的アールベ生成検出のための深層学習

Deep Learning for Diagonal Earlobe Crease Detection ( http://arxiv.org/abs/2210.11582v1 )

ライセンス: Link先を確認
Sara L. Almonacid-Uribe, Oliverio J. Santana, Daniel Hern\'andez-Sosa, David Freire-Obreg\'on(参考訳) 2022年6月にmedical newsに発表された記事は、そのタイトルに根本的な疑問を呈している。 著者は動脈が心臓と耳を供給していると説明した。 言い換えれば、血液供給を失うと、他の動脈が引き継がれなくなり、組織が損傷する。 その結果、一部の耳たぶには、輪郭に似た対角線、線、または深い折り目がある。 本稿では,delc や frank's sign として知られる特異なマーカーを検出するための一歩を踏み出す。 そのため、最初のDELCデータセットを一般公開しました。 また,アノテート写真における多数の切刃バックボーンの性能について検討した。 実験により,事前学習したエンコーダとカスタマイズした分類器を組み合わせることで,97.7%の精度でこの問題を解くことができることを示した。 さらに、パフォーマンスとサイズの間のバックボーントレードオフを分析し、最も有望なエンコーダとしてMobileNetを推定した。

An article published on Medical News Today in June 2022 presented a fundamental question in its title: Can an earlobe crease predict heart attacks? The author explained that end arteries supply the heart and ears. In other words, if they lose blood supply, no other arteries can take over, resulting in tissue damage. Consequently, some earlobes have a diagonal crease, line, or deep fold that resembles a wrinkle. In this paper, we take a step toward detecting this specific marker, commonly known as DELC or Frank's Sign. For this reason, we have made the first DELC dataset available to the public. In addition, we have investigated the performance of numerous cutting-edge backbones on annotated photos. Experimentally, we demonstrate that it is possible to solve this challenge by combining pre-trained encoders with a customized classifier to achieve 97.7% accuracy. Moreover, we have analyzed the backbone trade-off between performance and size, estimating MobileNet as the most promising encoder.
翻訳日:2022-10-24 15:11:51 公開日:2022-10-20
# 野生の光リアルな360度ヘッドアバター

Photo-realistic 360 Head Avatars in the Wild ( http://arxiv.org/abs/2210.11594v1 )

ライセンス: Link先を確認
Stanislaw Szymanowicz and Virginia Estellers and Tadas Baltrusaitis and Matthew Johnson(参考訳) 人間のコミュニケーションに没入的な3d体験を提供するには、360度フォトリアリスティックなアバターを得る方法が必要となる。 これらの体験を誰にでもアクセスできるようにするには、携帯電話カメラのようなコモディティなハードウェアだけが、アバター作成に必要なデータをキャプチャする必要がある。 アバターをあらゆる視点からリアルにレンダリングするには、あらゆる角度からトレーニング画像とカメラのポーズが必要です。 しかし、特に頭部の側面や後方から、ポーズを推定するために、前景やすべての画像の背景に追跡可能な機能があることは、頼りにしません。 そこで本研究では,写真リアルアバターを作成する多段階最適化プロセスにおいて,人間の頭部の360度携帯電話映像からカメラポーズを推定するために,合成データに基づいて訓練された新しいランドマーク検出手法を提案する。 合成データを用いた検証実験を行い,携帯ビデオから訓練した360度アバターについて実験を行った。

Delivering immersive, 3D experiences for human communication requires a method to obtain 360 degree photo-realistic avatars of humans. To make these experiences accessible to all, only commodity hardware, like mobile phone cameras, should be necessary to capture the data needed for avatar creation. For avatars to be rendered realistically from any viewpoint, we require training images and camera poses from all angles. However, we cannot rely on there being trackable features in the foreground or background of all images for use in estimating poses, especially from the side or back of the head. To overcome this, we propose a novel landmark detector trained on synthetic data to estimate camera poses from 360 degree mobile phone videos of a human head for use in a multi-stage optimization process which creates a photo-realistic avatar. We perform validation experiments with synthetic data and showcase our method on 360 degree avatars trained from mobile phone videos.
翻訳日:2022-10-24 15:11:36 公開日:2022-10-20
# ConfMix:信頼に基づく混合によるオブジェクト検出のための教師なしドメイン適応

ConfMix: Unsupervised Domain Adaptation for Object Detection via Confidence-based Mixing ( http://arxiv.org/abs/2210.11539v1 )

ライセンス: Link先を確認
Giulio Mattolin, Luca Zanella, Elisa Ricci, Yiming Wang(参考訳) オブジェクト検出のための教師なしドメイン適応(UDA)は、ソースドメインでトレーニングされたモデルを適用して、アノテーションが利用できない新しいターゲットドメインからインスタンスを検出することを目的としている。 従来の手法とは違って,適応型物体検出学習のための領域レベルの検出信頼度に基づくサンプル混合戦略を最初に導入するConfMixを提案する。 我々は、最も確実な疑似検出に対応する対象サンプルの局所領域とソース画像とを混合し、目標データ分布に徐々に適応するために追加の整合損失項を適用する。 領域の信頼度を安定的に定義するために,検出値に依存した信頼度と境界ボックスの不確実性の両方を考慮に入れた疑似検出値当たりの信頼度スコアを利用する。 さらに,訓練に伴うゆるやかから厳格な方法によって異なる信頼度指標を用いて,疑似目標検出を段階的にフィルタリングする新しい擬似ラベル方式を提案する。 3つのデータセットで広範な実験を行い、そのうちの2つで最先端のパフォーマンスを達成し、もう一方では教師対象モデルのパフォーマンスにアプローチする。 コードは、https://github.com/giuliomattolin/ConfMix.comで入手できる。

Unsupervised Domain Adaptation (UDA) for object detection aims to adapt a model trained on a source domain to detect instances from a new target domain for which annotations are not available. Different from traditional approaches, we propose ConfMix, the first method that introduces a sample mixing strategy based on region-level detection confidence for adaptive object detector learning. We mix the local region of the target sample that corresponds to the most confident pseudo detections with a source image, and apply an additional consistency loss term to gradually adapt towards the target data distribution. In order to robustly define a confidence score for a region, we exploit the confidence score per pseudo detection that accounts for both the detector-dependent confidence and the bounding box uncertainty. Moreover, we propose a novel pseudo labelling scheme that progressively filters the pseudo target detections using the confidence metric that varies from a loose to strict manner along the training. We perform extensive experiments with three datasets, achieving state-of-the-art performance in two of them and approaching the supervised target model performance in the other. Code is available at: https://github.com/giuliomattolin/ConfMix.
翻訳日:2022-10-24 15:00:43 公開日:2022-10-20
# 大規模言語モデルは自己改善できる

Large Language Models Can Self-Improve ( http://arxiv.org/abs/2210.11610v1 )

ライセンス: Link先を確認
Jiaxin Huang, Shixiang Shane Gu, Le Hou, Yuexin Wu, Xuezhi Wang, Hongkun Yu, Jiawei Han(参考訳) 大規模言語モデル(llm)は様々なタスクで優れたパフォーマンスを達成しています。 しかし、LLMの微調整には広範囲の監督が必要である。 一方、人間は外部入力なしで自己思考することで推論能力を向上させることができる。 本研究では,LLMがラベルのないデータセットのみを用いて自己改善できることを示す。 我々は、事前学習したLCMを用いて、Chain-of-Thoughtプロンプトと自己整合性を用いて、ラベルのない質問に対して「高信頼」な有理化解を生成する。 GSM8Kでは74.4%->82.1%,DROPでは78.2%->83.0%,OpenBookQAでは90.0%->94.4%,ANLI-A3では63.4%->67.9%)の一般的な推論能力を向上し,基礎的真理ラベルを使わずに最先端のパフォーマンスを実現する。 アブレーション研究を行い,推論の微調整が自己改善に不可欠であることを示す。

Large Language Models (LLMs) have achieved excellent performances in various tasks. However, fine-tuning an LLM requires extensive supervision. Human, on the other hand, may improve their reasoning abilities by self-thinking without external inputs. In this work, we demonstrate that an LLM is also capable of self-improving with only unlabeled datasets. We use a pre-trained LLM to generate "high-confidence" rationale-augmented answers for unlabeled questions using Chain-of-Thought prompting and self-consistency, and fine-tune the LLM using those self-generated solutions as target outputs. We show that our approach improves the general reasoning ability of a 540B-parameter LLM (74.4%->82.1% on GSM8K, 78.2%->83.0% on DROP, 90.0%->94.4% on OpenBookQA, and 63.4%->67.9% on ANLI-A3) and achieves state-of-the-art-level performance, without any ground truth label. We conduct ablation studies and show that fine-tuning on reasoning is critical for self-improvement.
翻訳日:2022-10-24 14:37:21 公開日:2022-10-20
# 多言語多言語ニューラルマシン翻訳におけるドメインの言語間変換は可能か?

Can Domains Be Transferred Across Languages in Multi-Domain Multilingual Neural Machine Translation? ( http://arxiv.org/abs/2210.11628v1 )

ライセンス: Link先を確認
Thuy-Trang Vu, Shahram Khadivi, Xuanli He, Dinh Phung and Gholamreza Haffari(参考訳) これまでの研究は主に、ニューラルネットワーク翻訳(NMT)の多言語あるいは多ドメイン的な側面に焦点を当てていた。 本稿では,多言語NMTと多言語NMTの合成において,言語間でドメイン情報を転送できるかどうか,特に言語ペアにドメイン内のbitextが欠落している不完全なデータ条件について検討する。 その結果,マルチドメイン多言語 (MDML) NMT は,BLEU におけるゼロショット翻訳性能を+10ゲインまで向上し,マルチドメイン NMT の欠落領域への一般化を支援することができた。 また,言語とドメインタグの組み合わせや補助的タスクトレーニングを含む,多言語および多ドメインNMTの効果的な統合戦略についても検討する。 ドメイン認識表現の学習や,エンコーダにターゲット言語タグを追加することで,MDML-NMTの有効性が得られることがわかった。

Previous works mostly focus on either multilingual or multi-domain aspects of neural machine translation (NMT). This paper investigates whether the domain information can be transferred across languages on the composition of multi-domain and multilingual NMT, particularly for the incomplete data condition where in-domain bitext is missing for some language pairs. Our results in the curated leave-one-domain-out experiments show that multi-domain multilingual (MDML) NMT can boost zero-shot translation performance up to +10 gains on BLEU, as well as aid the generalisation of multi-domain NMT to the missing domain. We also explore strategies for effective integration of multilingual and multi-domain NMT, including language and domain tag combination and auxiliary task training. We find that learning domain-aware representations and adding target-language tags to the encoder leads to effective MDML-NMT.
翻訳日:2022-10-24 14:36:57 公開日:2022-10-20
# クラスタ化フェデレーション学習のための改良アルゴリズム

An Improved Algorithm for Clustered Federated Learning ( http://arxiv.org/abs/2210.11538v1 )

ライセンス: Link先を確認
Harshvardhan, Avishek Ghosh and Arya Mazumdar(参考訳) 本稿では,異種モデル間の二分法と,クラスタリングフレームワークを用いたフェデレートラーニング(FL)の同時学習について述べる。 私たちは、ユーザの(最適)ローカルモデルに基づいて、flの新しいクラスタリングモデルを定義します。 ローカルモデルが近い場合は、2人のユーザが同じクラスタに属します。 クラスタ化FLの標準的なアルゴリズムは \cite{ghosh_efficient_2021} で提案されており、これは \emph{suitable} 初期化とクラスタ数のようなハイパーパラメータの知識を収束させる必要がある。 そこで我々は,このような制約的仮定を除去する改良アルゴリズム, \emph{Successive Refine Federated Clustering Algorithm} (\texttt{SR-FCA})を提案する。 \texttt{SR-FCA} は、各ユーザをシングルトンクラスタとして初期化として扱い、同じクラスタに属する類似ユーザを利用してクラスタ推定を順次洗練する。 任意の中間ステップにおいて、 \texttt{SR-FCA} はクラスタ内の堅牢なフェデレーション学習アルゴリズムを使用して、同時トレーニングとクラスタリングエラーの修正を行う。 さらに、 texttt{SR-FCA} は理論と実践の両方において \emph{good} 初期化(ウォームスタート)を必要としない。 学習率を適切に選択することで,任意にクラスタリング誤差が小さくなることを示す。 さらに、ニューラルネットワークのような非凸問題における標準flデータセットにおけるアルゴリズムの性能を検証するとともに、ベースラインに対する \texttt{sr-fca} の利点を示す。

In this paper, we address the dichotomy between heterogeneous models and simultaneous training in Federated Learning (FL) via a clustering framework. We define a new clustering model for FL based on the (optimal) local models of the users: two users belong to the same cluster if their local models are close; otherwise they belong to different clusters. A standard algorithm for clustered FL is proposed in \cite{ghosh_efficient_2021}, called \texttt{IFCA}, which requires \emph{suitable} initialization and the knowledge of hyper-parameters like the number of clusters (which is often quite difficult to obtain in practical applications) to converge. We propose an improved algorithm, \emph{Successive Refine Federated Clustering Algorithm} (\texttt{SR-FCA}), which removes such restrictive assumptions. \texttt{SR-FCA} treats each user as a singleton cluster as an initialization, and then successively refine the cluster estimation via exploiting similar users belonging to the same cluster. In any intermediate step, \texttt{SR-FCA} uses a robust federated learning algorithm within each cluster to exploit simultaneous training and to correct clustering errors. Furthermore, \texttt{SR-FCA} does not require any \emph{good} initialization (warm start), both in theory and practice. We show that with proper choice of learning rate, \texttt{SR-FCA} incurs arbitrarily small clustering error. Additionally, we validate the performance of our algorithm on standard FL datasets in non-convex problems like neural nets, and we show the benefits of \texttt{SR-FCA} over baselines.
翻訳日:2022-10-24 14:27:56 公開日:2022-10-20
# balanced adversarial training: nlpモデルにおける軽度と連続性のトレードオフのバランス

Balanced Adversarial Training: Balancing Tradeoffs between Fickleness and Obstinacy in NLP Models ( http://arxiv.org/abs/2210.11498v1 )

ライセンス: Link先を確認
Hannah Chen, Yangfeng Ji, David Evans(参考訳) 従来の(フィックルな)逆例では、入力の真のラベルを変えない小さな摂動を見つけるが、分類器を混乱させて異なる予測を出力する。 逆に、敵が分類器の予測を保ちながら入力の真のラベルを変更する小さな摂動を見つけると、敵対的な例が発生する。 敵の訓練と証明された頑健な訓練は、敵の例を損なうために、機械学習モデルの堅牢性を改善する効果を示す。 提案手法は,自然言語推論とパラファーゼ識別タスクの両方を対象として実験を行い,攻撃例に対する脆弱性の軽減に重点を置いた標準的な攻撃訓練手法により,攻撃例の難易度が向上することを示す。 この現象に対処するために,コントラスト学習を取り入れたバランスド・逆行訓練を導入する。

Traditional (fickle) adversarial examples involve finding a small perturbation that does not change an input's true label but confuses the classifier into outputting a different prediction. Conversely, obstinate adversarial examples occur when an adversary finds a small perturbation that preserves the classifier's prediction but changes the true label of an input. Adversarial training and certified robust training have shown some effectiveness in improving the robustness of machine learnt models to fickle adversarial examples. We show that standard adversarial training methods focused on reducing vulnerability to fickle adversarial examples may make a model more vulnerable to obstinate adversarial examples, with experiments for both natural language inference and paraphrase identification tasks. To counter this phenomenon, we introduce Balanced Adversarial Training, which incorporates contrastive learning to increase robustness against both fickle and obstinate adversarial examples.
翻訳日:2022-10-24 14:27:12 公開日:2022-10-20
# コミュニケーション障害:人間とニューラルキャプションの相互理解の低さについて

Communication breakdown: On the low mutual intelligibility between human and neural captioning ( http://arxiv.org/abs/2210.11512v1 )

ライセンス: Link先を確認
Roberto Dess\`i, Eleonora Gualdoni, Francesca Franzon, Gemma Boleda, Marco Baroni(参考訳) ニューラルキャプションが生成するキャプションまたはキャプションの入力として与えられた場合、ニューラルキャプションベースの画像検索装置の0ショット性能を比較する。 最近導入された imagecode data-set \citep{krojer:etal:2022} でこの比較を行い、検索対象の画像とほぼ同一の注意をそらした。 我々は、前者とは異なり、タスクを困難にする注意をそらさずに前者を生成するという事実にもかかわらず、人間のキャプションよりも神経を供給した場合、神経検索装置はずっと高いパフォーマンスを示すことを見出した。 さらに驚くべきことに、同じニューラルキャプションが人間の被験者に与えられる場合、その検索性能はほぼ偶然のレベルである。 その結果、神経モデルの'言語'が英語に似ているとしても、この表面的類似性は深い誤解を招く可能性があるという証拠が増えてきている。

We compare the 0-shot performance of a neural caption-based image retriever when given as input either human-produced captions or captions generated by a neural captioner. We conduct this comparison on the recently introduced ImageCoDe data-set \citep{Krojer:etal:2022}, which contains hard distractors nearly identical to the images to be retrieved. We find that the neural retriever has much higher performance when fed neural rather than human captions, despite the fact that the former, unlike the latter, were generated without awareness of the distractors that make the task hard. Even more remarkably, when the same neural captions are given to human subjects, their retrieval performance is almost at chance level. Our results thus add to the growing body of evidence that, even when the ``language'' of neural models resembles English, this superficial resemblance might be deeply misleading.
翻訳日:2022-10-24 14:26:53 公開日:2022-10-20
# 教師なしテキスト識別

Unsupervised Text Deidentification ( http://arxiv.org/abs/2210.11528v1 )

ライセンス: Link先を確認
John X. Morris, Justin T. Chiu, Ramin Zabih, Alexander M. Rush(参考訳) 特定は、配布前にテキストデータを匿名化しようとする。 自動識別は、主に人間のラベルデータポイントから教師付き名前付きエンティティ認識を使用する。 個人識別情報を漏洩する単語を隠蔽する教師なし識別手法を提案する。 このアプローチでは、特別に訓練された再識別モデルを使用して、修正された個人文書から個人を識別する。 K匿名性に基づくプライバシによってモチベーションされた我々は、文書の正しいプロファイルに対する最小の再識別ランクを保証するリアクションを生成する。 このアプローチを評価するために,ウィキペディアの伝記を識別するタスクを検討し,逆方向の再同定指標を用いて評価する。 教師なしベースラインの集合と比較して,本手法は少ない単語を除去しながら文書をより完全に識別する。 質的に見れば、このアプローチは共通の名前のエンティティベースのアプローチから外れる多くの側面を排除します。

Deidentification seeks to anonymize textual data prior to distribution. Automatic deidentification primarily uses supervised named entity recognition from human-labeled data points. We propose an unsupervised deidentification method that masks words that leak personally-identifying information. The approach utilizes a specially trained reidentification model to identify individuals from redacted personal documents. Motivated by K-anonymity based privacy, we generate redactions that ensure a minimum reidentification rank for the correct profile of the document. To evaluate this approach, we consider the task of deidentifying Wikipedia Biographies, and evaluate using an adversarial reidentification metric. Compared to a set of unsupervised baselines, our approach deidentifies documents more completely while removing fewer words. Qualitatively, we see that the approach eliminates many identifying aspects that would fall outside of the common named entity based approach.
翻訳日:2022-10-24 14:26:34 公開日:2022-10-20
# CONSISTENT:ニュース記事からオープンな質問生成

CONSISTENT: Open-Ended Question Generation From News Articles ( http://arxiv.org/abs/2210.11536v1 )

ライセンス: Link先を確認
Tuhin Chakrabarty, Justin Lewis, Smaranda Muresan(参考訳) 質問生成に関する最近の研究は、誰が、どこで、どこで、基本的な事実について、ファクトイドな質問に主に焦点を当てている。 オープンな理由や方法、質問など、長い形式の回答を必要とする質問の生成は、より困難であることが証明されている。 オープンエンド質問の生成を容易にするために,我々は,入力テキストから回答可能かつ忠実なオープンエンド質問を生成するための新しいエンドツーエンドシステムであるconsentを提案する。 実験のための信頼できる基盤としてニュース記事を用いて, 自動評価と人的評価の両方を用いて, モデルが複数のベースラインにまたがる強さを実証する。 我々は,専門家が作成したオープンエンド質問の評価データセットに貢献する。

Recent work on question generation has largely focused on factoid questions such as who, what, where, when about basic facts. Generating open-ended why, how, what, etc. questions that require long-form answers have proven more difficult. To facilitate the generation of open-ended questions, we propose CONSISTENT, a new end-to-end system for generating open-ended questions that are answerable from and faithful to the input text. Using news articles as a trustworthy foundation for experimentation, we demonstrate our model's strength over several baselines using both automatic and human=based evaluations. We contribute an evaluation dataset of expert-generated open-ended questions.We discuss potential downstream applications for news media organizations.
翻訳日:2022-10-24 14:26:22 公開日:2022-10-20
# 文法誘導によるデータセットショートカットの探索

Finding Dataset Shortcuts with Grammar Induction ( http://arxiv.org/abs/2210.11560v1 )

ライセンス: Link先を確認
Dan Friedman, Alexander Wettig, Danqi Chen(参考訳) 多くのNLPデータセットは、驚くほど高い精度を達成する単純な決定規則を含むことが判明した。 しかし,ショートカットの自動発見は困難である。 従来の自動ショートカット検出では、ユニグラムやbigramのような低レベルのショートカットのみを見つける機能や、明確な統計的な解釈なしに質的パターンを明らかにするサリエンシーマップのようなポストホックなモデル解釈可能性メソッドに頼りになる機能に重点が置かれていた。 本研究では,NLPデータセットのショートカットを特徴付ける確率論的文法を提案する。 具体的には、文脈自由文法を用いて文分類データセットのパターンをモデル化し、同期文脈自由文法を用いて文ペアを含むデータセットをモデル化する。 その結果得られた文法は、単純かつ高レベルの特徴を含む多くのデータセットで興味深いショートカット機能を示し、従来の分類器が失敗するテスト例のグループを自動的に識別する。 最後に,検出した特徴を診断コントラスト例の生成に利用し,標準頑健な最適化手法に組み込むことで,最悪のグループ精度を向上できることを示す。

Many NLP datasets have been found to contain shortcuts: simple decision rules that achieve surprisingly high accuracy. However, it is difficult to discover shortcuts automatically. Prior work on automatic shortcut detection has focused on enumerating features like unigrams or bigrams, which can find only low-level shortcuts, or relied on post-hoc model interpretability methods like saliency maps, which reveal qualitative patterns without a clear statistical interpretation. In this work, we propose to use probabilistic grammars to characterize and discover shortcuts in NLP datasets. Specifically, we use a context-free grammar to model patterns in sentence classification datasets and use a synchronous context-free grammar to model datasets involving sentence pairs. The resulting grammars reveal interesting shortcut features in a number of datasets, including both simple and high-level features, and automatically identify groups of test examples on which conventional classifiers fail. Finally, we show that the features we discover can be used to generate diagnostic contrast examples and incorporated into standard robust optimization methods to improve worst-group accuracy.
翻訳日:2022-10-24 14:26:07 公開日:2022-10-20
# 単語レベル逆例生成のためのヒューマンストラテジーの同定

Identifying Human Strategies for Generating Word-Level Adversarial Examples ( http://arxiv.org/abs/2210.11598v1 )

ライセンス: Link先を確認
Maximilian Mozes, Bennett Kleinberg, Lewis D. Griffin(参考訳) NLPの敵対的な例は研究の注目を集めている。 研究の1行は、自然性と文法性を保持する微調整トランスフォーマーモデルに対する単語レベルの逆例の生成である。 以前の研究では、人間と機械が生成した敵の例はその自然さと文法的正しさに匹敵することがわかった。 とりわけ、人間は自動攻撃よりも敵の例をはるかに簡単に生成することができた。 本稿では, 人間がこれらの逆転例をいかに作り出すか, 正確に分析する。 生成過程における人的労働者の行動パターンを探索することにより、人間が相手の代用(例えば、単語の頻度、単語のサリエンシ、感情)を選ぶ単語と、どの単語が入力シーケンスで置換されるかに基づいて統計的に有意な傾向を識別する。 そこで本研究では,より堅牢なNLPモデルのための人的戦略を活用する取り組みを刺激する。

Adversarial examples in NLP are receiving increasing research attention. One line of investigation is the generation of word-level adversarial examples against fine-tuned Transformer models that preserve naturalness and grammaticality. Previous work found that human- and machine-generated adversarial examples are comparable in their naturalness and grammatical correctness. Most notably, humans were able to generate adversarial examples much more effortlessly than automated attacks. In this paper, we provide a detailed analysis of exactly how humans create these adversarial examples. By exploring the behavioural patterns of human workers during the generation process, we identify statistically significant tendencies based on which words humans prefer to select for adversarial replacement (e.g., word frequencies, word saliencies, sentiment) as well as where and when words are replaced in an input sequence. With our findings, we seek to inspire efforts that harness human strategies for more robust NLP models.
翻訳日:2022-10-24 14:25:46 公開日:2022-10-20
# WMT22多言語機械翻訳タスクのためのVolcTransシステム

The VolcTrans System for WMT22 Multilingual Machine Translation Task ( http://arxiv.org/abs/2210.11599v1 )

ライセンス: Link先を確認
Xian Qian, Kai Hu, Jiaqiang Wang, Yifeng Liu, Xingyuan Pan, Jun Cao, Mingxuan Wang(参考訳) 本稿では,大規模多言語機械翻訳におけるWMT22共有タスクのためのVolcTransシステムについて述べる。 外部資源の利用を可能にする未整備の軌道に参加した。 我々のシステムは、データトラックからの公開トレーニングセット、Meta AIが提供するNLLBデータ、自己コンパイル並列コーパス、バックトランスレーションからの擬似bitextを含む、複数のソースのデータに基づいて訓練されたトランスフォーマーベースの多言語モデルである。 一連のヒューリスティックな規則はバイリンガルテキストとモノリンガルテキストの両方をきれいにする。 公式テストセットでは,全言語対の平均17.3 BLEU,21.9 spBLEU,41.9 chrF2++を達成した。 平均的な推論速度は、nvidia tesla v100 gpuで毎秒11.5センテンスである。 私たちのコードとトレーニングされたモデルはhttps://github.com/xian8/wmt22で利用可能です。

This report describes our VolcTrans system for the WMT22 shared task on large-scale multilingual machine translation. We participated in the unconstrained track which allows the use of external resources. Our system is a transformerbased multilingual model trained on data from multiple sources including the public training set from the data track, NLLB data provided by Meta AI, self-collected parallel corpora, and pseudo bitext from back-translation. A series of heuristic rules clean both bilingual and monolingual texts. On the official test set, our system achieves 17.3 BLEU, 21.9 spBLEU, and 41.9 chrF2++ on average over all language pairs. The average inference speed is 11.5 sentences per second using a single Nvidia Tesla V100 GPU. Our code and trained models are available at https://github.com/xian8/wmt22
翻訳日:2022-10-24 14:25:29 公開日:2022-10-20
# 質問応答対生成のためのタグセットシーケンス学習

Tag-Set-Sequence Learning for Generating Question-Answer Pairs ( http://arxiv.org/abs/2210.11608v1 )

ライセンス: Link先を確認
Cheng Zhang, Jie Wang(参考訳) トランスフォーマーベースのQGモデルは質の高い質問応答ペア(QAP)を生成することができるが、特定のテキストに対して愚かな質問を生成することもある。 タグセットシーケンス学習(タグセットシークエンスラーニング)と呼ばれる新しい手法を提案する。タグセットシーケンスは、下層の文の構文的および意味的な情報をキャプチャするためのタグセットのシーケンスであり、タグセットは1つ以上の言語特徴タグから構成される。 TSS-Learnerと呼ばれるシステムを構築し、与えられた宣言文と対応する疑問文からタグセットシーケンスを学習し、後者への回答を導出する。 小さなトレーニングデータセットを使って英語のtss-learnerモデルをトレーニングし、トランスフォーマーベースのモデルが不十分な特定のテキストに対して適切なqapを生成することができることを示した。 TSS-LearnerによるSAT実践読解テストに対するQAPの人的評価が推奨されている。

Transformer-based QG models can generate question-answer pairs (QAPs) with high qualities, but may also generate silly questions for certain texts. We present a new method called tag-set sequence learning to tackle this problem, where a tag-set sequence is a sequence of tag sets to capture the syntactic and semantic information of the underlying sentence, and a tag set consists of one or more language feature tags, including, for example, semantic-role-labeling, part-of-speech, named-entity-recognition, and sentiment-indication tags. We construct a system called TSS-Learner to learn tag-set sequences from given declarative sentences and the corresponding interrogative sentences, and derive answers to the latter. We train a TSS-Learner model for the English language using a small training dataset and show that it can indeed generate adequate QAPs for certain texts that transformer-based models do poorly. Human evaluation on the QAPs generated by TSS-Learner over SAT practice reading tests is encouraging.
翻訳日:2022-10-24 14:25:14 公開日:2022-10-20
# 過剰露出マスクフュージョン: 一般化可能な逆ISPマルチステップリファインメント

Overexposure Mask Fusion: Generalizable Reverse ISP Multi-Step Refinement ( http://arxiv.org/abs/2210.11511v1 )

ライセンス: Link先を確認
Jinha Kim, Jun Jiang, and Jinwei Gu(参考訳) センサRAW読取をRGB画像に変換するためのISPに代わるディープラーニング手法の出現により、多くの方法論が実生活に定着した。 同様に強力なタスクは、RAWドメインで実行される計算写真タスクの強化に応用し、センサーの読み取りに直接タスクを実行するという利点を享受しながら、利用可能なRAWデータの欠如に対処する。 This paper's proposed methodology is a state-of-the-art solution to the task of RAW reconstruction, and the multi-step refinement process integrating an overexposure mask is novel in three ways: instead of from RGB to bayer, the pipeline trains from RGB to demosaiced RAW allowing use of perceptual loss functions; the multi-step processes has greatly enhanced the performance of the baseline U-Net from start to end; the pipeline is a generalizable process of refinement that can enhance other high performance methodologies that support end-to-end learning.

With the advent of deep learning methods replacing the ISP in transforming sensor RAW readings into RGB images, numerous methodologies solidified into real-life applications. Equally potent is the task of inverting this process which will have applications in enhancing computational photography tasks that are conducted in the RAW domain, addressing lack of available RAW data while reaping from the benefits of performing tasks directly on sensor readings. This paper's proposed methodology is a state-of-the-art solution to the task of RAW reconstruction, and the multi-step refinement process integrating an overexposure mask is novel in three ways: instead of from RGB to bayer, the pipeline trains from RGB to demosaiced RAW allowing use of perceptual loss functions; the multi-step processes has greatly enhanced the performance of the baseline U-Net from start to end; the pipeline is a generalizable process of refinement that can enhance other high performance methodologies that support end-to-end learning.
翻訳日:2022-10-24 14:18:03 公開日:2022-10-20
# 3DALL-E:3Dデザインワークフローにおけるテキストと画像のAIの統合

3DALL-E: Integrating Text-to-Image AI in 3D Design Workflows ( http://arxiv.org/abs/2210.11603v1 )

ライセンス: Link先を確認
Vivian Liu, Jo Vermeulen, George Fitzmaurice, Justin Matejka(参考訳) テキストから画像までのAIシステムは、インスピレーションのために新しいイメージを生成することができるが、3Dデザインワークフローや、AIが提供するインスピレーションを使ってデザイナが3Dモデルを構築する方法はあまり理解されていない。 そこで我々は3DALL-EのCADソフトウェアにDALL-E, GPT-3, CLIPを統合した。 13人のデザイナーによる研究で、デザイナーは3dall-eをワークフローに取り入れ、テキストから画像へのaiを参照画像、レンダリング、素材、デザインの考慮に利用する大きな可能性を見出しました。 さらに,プロンプトパターンを詳述し,参加者間で観察される素早い複雑性の尺度を提供する。 我々は,3DALL-Eが既存の生成設計ワークフローとどのように統合できるかを議論し,人間-AI設計史の一形態として書誌学の推進を提案する。

Text-to-image AI systems are capable of generating novel images for inspiration, but their applications for 3D design workflows and how designers can build 3D models using AI-provided inspiration is less understood. To investigate this, we integrated DALL-E, GPT-3, and CLIP within a CAD software in 3DALL-E, a plugin that allows users to construct text and image prompts based on what they are modelling. In a study with 13 designers, we found that designers saw great potential to incorporate 3DALL-E into their workflows and to use text-to-image AI for reference images, renders, materials, and design considerations. Additionally, we elaborate on prompting patterns and provide measures of prompt complexity observed across participants. We conclude on a discussion of how 3DALL-E can merge with existing generative design workflows and propose prompt bibliographies as a form of human-AI design history.
翻訳日:2022-10-24 14:16:21 公開日:2022-10-20
# LOT: l2認証ロバスト性向上のための階層的直交訓練

LOT: Layer-wise Orthogonal Training on Improving l2 Certified Robustness ( http://arxiv.org/abs/2210.11620v1 )

ライセンス: Link先を確認
Xiaojun Xu, Linyi Li, Bo Li(参考訳) 近年の研究では、リプシッツ制約によるディープニューラルネットワーク(DNN)のトレーニングは、対向的堅牢性や安定性などのモデル特性を高めることができることが示されている。 本稿では, 直交行列を非拘束行列でパラメトリゼーションすることにより, 1-Lipschitz畳み込み層を効果的に訓練するための層ワイド直交訓練法(LOT)を提案する。 次に、入力領域をフーリエ周波数領域に変換することにより、畳み込み核の逆二乗根を効率的に計算する。 一方,既存の研究は,半教師付き学習が経験的堅牢性の向上に寄与していることを示し,そのギャップを埋めることと,半教師付き学習がリプシッツ有界モデルの証明された堅牢性を向上させることの証明を目指している。 異なる設定でLOTの総合評価を行う。 LOTは、決定論的l2証明されたロバスト性に関するベースラインを著しく上回り、より深いニューラルネットワークにスケールすることを示す。 監視されたシナリオでは、すべてのアーキテクチャ(例えば、cifar-10では59.04%から63.50%、半径rho = 36/255でcifar-100では32.57%から34.59%)の堅牢性を向上させる。 非ラベルデータによる半教師付き学習により、rho = 108/255 における cifar-10 の最先端認証の堅牢性が 36.04% から 42.39% に向上した。 加えて、LOTは異なるモデルアーキテクチャのベースラインを1/3評価時間で一貫して上回る。

Recent studies show that training deep neural networks (DNNs) with Lipschitz constraints are able to enhance adversarial robustness and other model properties such as stability. In this paper, we propose a layer-wise orthogonal training method (LOT) to effectively train 1-Lipschitz convolution layers via parametrizing an orthogonal matrix with an unconstrained matrix. We then efficiently compute the inverse square root of a convolution kernel by transforming the input domain to the Fourier frequency domain. On the other hand, as existing works show that semi-supervised training helps improve empirical robustness, we aim to bridge the gap and prove that semi-supervised learning also improves the certified robustness of Lipschitz-bounded models. We conduct comprehensive evaluations for LOT under different settings. We show that LOT significantly outperforms baselines regarding deterministic l2 certified robustness, and scales to deeper neural networks. Under the supervised scenario, we improve the state-of-the-art certified robustness for all architectures (e.g. from 59.04% to 63.50% on CIFAR-10 and from 32.57% to 34.59% on CIFAR-100 at radius rho = 36/255 for 40-layer networks). With semi-supervised learning over unlabelled data, we are able to improve state-of-the-art certified robustness on CIFAR-10 at rho = 108/255 from 36.04% to 42.39%. In addition, LOT consistently outperforms baselines on different model architectures with only 1/3 evaluation time.
翻訳日:2022-10-24 14:01:37 公開日:2022-10-20
# 精密農業における土壌画像からの学習パターンの移動と農作物のUAV画像と雑草セマンティックセグメンテーションの予測

Transferring learned patterns from ground-based field imagery to predict UAV-based imagery for crop and weed semantic segmentation in precision crop farming ( http://arxiv.org/abs/2210.11545v1 )

ライセンス: Link先を確認
Junfeng Gao, Wenzhi Liao, David Nuyttens, Peter Lootens, Erik Alexandersson, Jan Pieters(参考訳) 雑草と作物のセグメンテーションは、現在のコンピュータビジョンとディープラーニング技術を活用する精密農業において、ますます不可欠な部分になりつつある。 様々なプラットフォームからカメラで撮影した画像に基づいて研究が盛んに行われている。 無人航空機(UAV)と農業用ロボットを含む地上用車両は、フィールドでデータ収集を行う2つの一般的なプラットフォームである。 これらはすべて、収穫量を維持するために、サイト固有の雑草管理(SSWM)に貢献する。 現在、これら2つのプラットフォームからのデータは別々に処理されているが、同じ意味オブジェクト(雑草と作物)を共有している。 そこで本研究では,草地分割とマッピングのためのUAVからのフィールド画像と空中画像の両方を,トレーニング段階で提供されるフィールド画像のみを用いて予測できる深部畳み込みネットワークを開発した。 ネットワーク学習プロセスは、浅い層と深い層でフィーチャーマップによって可視化される。 その結果, フィールドデータセットの開発モデルにおいて, 作物のセグメンテーション(トウモロコシ), 雑草, 土壌背景の平均和(iou)値はそれぞれ0.744, 0.577, 0.979であり, 同じモデルを用いたuavからの空中画像の性能, 作物セグメンテーション(トウモロコシ), 雑草, 土壌背景のiou値はそれぞれ0.596, 0.407, 0.875であった。 植物防除剤の使用に対する効果を推定するために,予測した雑草マップに基づいて除草率とグリッドサイズ(散布解像度)の関係を定量化する。 噴霧解像度が 1.78 x 1.78 cm2 の場合、噴霧の節約率は90%となる。 研究によると、深層畳み込みニューラルネットワークは、フィールド画像と空中画像の両方から雑草を分類し、良好な結果をもたらすことができる。

Weed and crop segmentation is becoming an increasingly integral part of precision farming that leverages the current computer vision and deep learning technologies. Research has been extensively carried out based on images captured with a camera from various platforms. Unmanned aerial vehicles (UAVs) and ground-based vehicles including agricultural robots are the two popular platforms for data collection in fields. They all contribute to site-specific weed management (SSWM) to maintain crop yield. Currently, the data from these two platforms is processed separately, though sharing the same semantic objects (weed and crop). In our paper, we have developed a deep convolutional network that enables to predict both field and aerial images from UAVs for weed segmentation and mapping with only field images provided in the training phase. The network learning process is visualized by feature maps at shallow and deep layers. The results show that the mean intersection of union (IOU) values of the segmentation for the crop (maize), weeds, and soil background in the developed model for the field dataset are 0.744, 0.577, 0.979, respectively, and the performance of aerial images from an UAV with the same model, the IOU values of the segmentation for the crop (maize), weeds and soil background are 0.596, 0.407, and 0.875, respectively. To estimate the effect on the use of plant protection agents, we quantify the relationship between herbicide spraying saving rate and grid size (spraying resolution) based on the predicted weed map. The spraying saving rate is up to 90% when the spraying resolution is at 1.78 x 1.78 cm2. The study shows that the developed deep convolutional neural network could be used to classify weeds from both field and aerial images and delivers satisfactory results.
翻訳日:2022-10-24 13:58:53 公開日:2022-10-20
# 長期的行動予測のための学習アプローチの再考

Rethinking Learning Approaches for Long-Term Action Anticipation ( http://arxiv.org/abs/2210.11566v1 )

ライセンス: Link先を確認
Megha Nawhal, Akash Abdu Jyothi, Greg Mori(参考訳) アクション予測は、ビデオの初期部分を観察した将来のアクションを予測することを含む。 通常、観察されたビデオは全体として処理され、ビデオ内の進行中の活動をビデオレベルで表現し、将来の予測に使用される。 本稿では、ビデオレベルの表現に加えて、異なるアクティビティから個々のセグメントを用いて学習したセグメントレベルの表現を活用する、長期的なアクション予測を行うアンチCIPATRを紹介する。 本稿では,これらの2種類の表現を用いて,任意の予測期間において,将来のアクションインスタンスのセットを直接予測する,新しいトランスフォーマーモデルを構築するための2段階学習手法を提案する。 Breakfast、50Salads、Epic-Kitchens-55、EGTEA Gaze+データセットの結果は、我々のアプローチの有効性を示している。

Action anticipation involves predicting future actions having observed the initial portion of a video. Typically, the observed video is processed as a whole to obtain a video-level representation of the ongoing activity in the video, which is then used for future prediction. We introduce ANTICIPATR which performs long-term action anticipation leveraging segment-level representations learned using individual segments from different activities, in addition to a video-level representation. We propose a two-stage learning approach to train a novel transformer-based model that uses these two types of representations to directly predict a set of future action instances over any given anticipation duration. Results on Breakfast, 50Salads, Epic-Kitchens-55, and EGTEA Gaze+ datasets demonstrate the effectiveness of our approach.
翻訳日:2022-10-24 13:58:21 公開日:2022-10-20
# 需要予測のためのマルチモーダルニューラルネットワーク

Multimodal Neural Network For Demand Forecasting ( http://arxiv.org/abs/2210.11502v1 )

ライセンス: Link先を確認
Nitesh Kumar, Kumar Dheenadayalan, Suprabath Reddy, Sumant Kulkarni(参考訳) 需要予測アプリケーションは、時系列予測に使用される最先端のディープラーニング手法から大いに恩恵を受けている。 伝統的なユニモーダルモデルは、主に季節性が駆動され、休日やプロモーションイベントに関する情報とともに、需要を歴史的販売の機能としてモデル化しようとする。 しかし、正確でロバストな販売予測では、自然災害、パンデミック、選挙など他の複数の要因を調整し、製品や製品カテゴリー全般の需要に影響を及ぼすよう求めている。 本稿では,ニュース記事からのリアルタイムイベントと,過去のセールス情報やホリデー情報などの従来のデータを組み合わせたマルチモーダルセールス予測ネットワークを提案する。 さらに、google trendsが公開した一般的な製品トレンドから情報を融合する。 実世界のスーパーマーケットデータセットにおける既存販売予測技術と比較して,SMAPEの誤差測定値の平均は7.37%,統計的に有意な改善が見られた。

Demand forecasting applications have immensely benefited from the state-of-the-art Deep Learning methods used for time series forecasting. Traditional uni-modal models are predominantly seasonality driven which attempt to model the demand as a function of historic sales along with information on holidays and promotional events. However, accurate and robust sales forecasting calls for accommodating multiple other factors, such as natural calamities, pandemics, elections, etc., impacting the demand for products and product categories in general. We propose a multi-modal sales forecasting network that combines real-life events from news articles with traditional data such as historical sales and holiday information. Further, we fuse information from general product trends published by Google trends. Empirical results show statistically significant improvements in the SMAPE error metric with an average improvement of 7.37% against the existing state-of-the-art sales forecasting techniques on a real-world supermarket dataset.
翻訳日:2022-10-24 13:52:00 公開日:2022-10-20
# 時間依存観測のためのディープニューラルネットワークの理論的解析

Theoretical analysis of deep neural networks for temporally dependent observations ( http://arxiv.org/abs/2210.11530v1 )

ライセンス: Link先を確認
Mingliang Ma, Abolfazl Safikhani(参考訳) ディープニューラルネットワークは、非線形パターンによる観測を時間とともにモデル化する強力なツールである。 このような環境ではニューラルネットワークが広く使われているが、ディープニューラルネットワークの理論的な発展のほとんどは独立した観測の仮定下にあり、時間依存観測の理論的結果はほとんどない。 このギャップを埋めるために,非線形時系列データのモデル化におけるディープニューラルネットワークの理論的性質について検討する。 具体的には、ReLUアクティベーション機能付きフィードフォワードニューラルネットワークの予測誤差の非漸近境界を混合型仮定の下で確立する。 これらの仮定は軽度であり、自動回帰モデルを含む幅広い時系列モデルを含んでいる。 独立した観測と比較すると、確立された収束速度は、データポイント間の依存による追加の複雑さを補うために追加の対数係数を持つ。 理論結果は、様々な数値シミュレーション設定およびマクロ経済データセットへの応用を通して支持される。

Deep neural networks are powerful tools to model observations over time with non-linear patterns. Despite the widespread use of neural networks in such settings, most theoretical developments of deep neural networks are under the assumption of independent observations, and theoretical results for temporally dependent observations are scarce. To bridge this gap, we study theoretical properties of deep neural networks on modeling non-linear time series data. Specifically, non-asymptotic bounds for prediction error of (sparse) feed-forward neural network with ReLU activation function is established under mixing-type assumptions. These assumptions are mild such that they include a wide range of time series models including auto-regressive models. Compared to independent observations, established convergence rates have additional logarithmic factors to compensate for additional complexity due to dependence among data points. The theoretical results are supported via various numerical simulation settings as well as an application to a macroeconomic data set.
翻訳日:2022-10-24 13:49:59 公開日:2022-10-20
# 過パラメータ線形回帰における局所SGD

Local SGD in Overparameterized Linear Regression ( http://arxiv.org/abs/2210.11562v1 )

ライセンス: Link先を確認
Mike Nguyen, Charly Kirst, and Nicole M\"ucke(参考訳) 本稿では,複数のデバイス上でのステップサイズSGD(Constant Stepize SGD)を用いた分散学習について考察する。 最後のステップでは、局所的な見積もりが集約されます。 パラメータ化された線形回帰一般上界と、一致した下界と、特定のデータ生成分布に対する学習率を設定できる。 局所ノード数が大きすぎると大きすぎるので,過大なリスクはばらつきの順序であることを示した。 さらに, dsgd のサンプル複雑性と分散リッジ回帰 (drr) のサンプル複雑性を比較し, sgd-risk が rr-risk よりも小さいことを示した。

We consider distributed learning using constant stepsize SGD (DSGD) over several devices, each sending a final model update to a central server. In a final step, the local estimates are aggregated. We prove in the setting of overparameterized linear regression general upper bounds with matching lower bounds and derive learning rates for specific data generating distributions. We show that the excess risk is of order of the variance provided the number of local nodes grows not too large with the global sample size. We further compare the sample complexity of DSGD with the sample complexity of distributed ridge regression (DRR) and show that the excess SGD-risk is smaller than the excess RR-risk, where both sample complexities are of the same order.
翻訳日:2022-10-24 13:49:46 公開日:2022-10-20
# 正規化リスク最小化のための分布シフト下の単調リスク関係

Monotonic Risk Relationships under Distribution Shifts for Regularized Risk Minimization ( http://arxiv.org/abs/2210.11589v1 )

ライセンス: Link先を確認
Daniel LeJeune, Jiayu Liu, Reinhard Heckel(参考訳) 機械学習システムは、トレーニング分布とは異なる分布から引き出されたデータに適用されることが多い。 近年の研究では,様々な分類・信号再構成問題に対して,分布外性能と分布内性能との相関が強く示されている。 この関係やより一般に単調な関係が成り立つと、それは重要な結果をもたらす。 例えば、あるディストリビューションのパフォーマンスを、もう一方のパフォーマンスのプロキシとして最適化することができる。 本稿では,2つの分布におけるモデルの性能の単調な関係が期待できる条件について検討する。 共変量シフトの下でのリッジ正規化一般線形モデルの二乗誤差に対する完全漸近線形関係と誤分類誤差に対する単調関係および線形逆問題に対する近似線形関係を証明した。

Machine learning systems are often applied to data that is drawn from a different distribution than the training distribution. Recent work has shown that for a variety of classification and signal reconstruction problems, the out-of-distribution performance is strongly linearly correlated with the in-distribution performance. If this relationship or more generally a monotonic one holds, it has important consequences. For example, it allows to optimize performance on one distribution as a proxy for performance on the other. In this paper, we study conditions under which a monotonic relationship between the performances of a model on two distributions is expected. We prove an exact asymptotic linear relation for squared error and a monotonic relation for misclassification error for ridge-regularized general linear models under covariate shift, as well as an approximate linear relation for linear inverse problems.
翻訳日:2022-10-24 13:49:31 公開日:2022-10-20
# メタ学習によるインストラクションからの自然言語生成の促進

Boosting Natural Language Generation from Instructions with Meta-Learning ( http://arxiv.org/abs/2210.11617v1 )

ライセンス: Link先を確認
Budhaditya Deb, Guoqing Zheng, Ahmed Hassan Awadallah(参考訳) 最近の研究によると、マルチタスクのtextit{instructional learning} (MTIL) で訓練された言語モデル(LM) は、即時チューニングよりもパフォーマンスが向上し、ゼロおよび少数ショット設定で多様なNLPタスクを解くことができる。 MTILは、LMが入力と出力の表面パターンを超えた命令からタスクに関する情報を抽出し、使用することができることを示している。 これはメタラーニングが効果的なタスク転送のための命令の利用をさらに強化することを示唆している。 本稿では,MTILに適用したメタラーニングが,ゼロショット設定における未確認タスクへの一般化をさらに改善できるかどうかを検討する。 具体的には,メタラーニングをMTILに3方向に適応させることを提案する。 1)モデル非依存型メタ学習(maml) 2)ハイパーネットワーク(hnet)に基づく命令を条件としたタスク固有パラメータ生成への適応 3) HNet と MAML を組み合わせたアプローチ。 大規模自然命令v2データセットに関する広範囲な実験を通じて,提案手法がゼロショット設定の強いベースラインよりも大幅に改善することを示す。 特に、メタラーニングは命令の有効性を改善し、テストタスクが厳密にゼロショット(すなわちトレーニングセットに類似したタスクがない)であり、lmsにとって「困難」であり、mtilの分散タスクのためのメタラーニングの可能性を示す。

Recent work has shown that language models (LMs) trained with multi-task \textit{instructional learning} (MTIL) can solve diverse NLP tasks in zero- and few-shot settings with improved performance compared to prompt tuning. MTIL illustrates that LMs can extract and use information about the task from instructions beyond the surface patterns of the inputs and outputs. This suggests that meta-learning may further enhance the utilization of instructions for effective task transfer. In this paper we investigate whether meta-learning applied to MTIL can further improve generalization to unseen tasks in a zero-shot setting. Specifically, we propose to adapt meta-learning to MTIL in three directions: 1) Model Agnostic Meta Learning (MAML), 2) Hyper-Network (HNet) based adaptation to generate task specific parameters conditioned on instructions, and 3) an approach combining HNet and MAML. Through extensive experiments on the large scale Natural Instructions V2 dataset, we show that our proposed approaches significantly improve over strong baselines in zero-shot settings. In particular, meta-learning improves the effectiveness of instructions and is most impactful when the test tasks are strictly zero-shot (i.e. no similar tasks in the training set) and are "hard" for LMs, illustrating the potential of meta-learning for MTIL for out-of-distribution tasks.
翻訳日:2022-10-24 13:43:31 公開日:2022-10-20
# 大規模言語モデルを用いたエラーメッセージのプログラミング

Using Large Language Models to Enhance Programming Error Messages ( http://arxiv.org/abs/2210.11630v1 )

ライセンス: Link先を確認
Juho Leinonen, Arto Hellas, Sami Sarsa, Brent Reeves, Paul Denny, James Prather, Brett A. Becker(参考訳) プログラミングを学ぶ上で重要なのは、プログラムエラーメッセージを理解することだ。 エラーの原因を解釈し、特定するのは時間を要する可能性がある。 この課題の1つの要因は、メッセージが典型的には、すでにプログラミングの方法を知っているオーディエンスや、その情報を使ってコードの領域をハイライトするプログラミング環境に向けられていることである。 研究者は1960年代からこれらのエラーを初心者フレンドリーにすることに取り組んでいるが、進展は遅くなっている。 本研究は,大規模な言語モデルを用いて,エラーの解説やエラーの修正方法の提案とともに,エラーメッセージのプログラミングを強化することによる,この研究の流れに寄与する。 大規模な言語モデルは、解釈性と動作性において、元のプログラミングエラーメッセージを超えたエラーメッセージをプログラミングするための、便利で初心者フレンドリーな拡張を作成するのに使うことができる。 これらの結果は、コンピュータ教育者にとって大きな言語モデルの利点のさらなる証拠となり、学生にとって困難な領域での使用が強調された。 大規模言語モデルの利点と欠点をさらに議論し、プログラムエラーメッセージの強化に向けた今後の研究の流れを強調する。

A key part of learning to program is learning to understand programming error messages. They can be hard to interpret and identifying the cause of errors can be time-consuming. One factor in this challenge is that the messages are typically intended for an audience that already knows how to program, or even for programming environments that then use the information to highlight areas in code. Researchers have been working on making these errors more novice friendly since the 1960s, however progress has been slow. The present work contributes to this stream of research by using large language models to enhance programming error messages with explanations of the errors and suggestions on how to fix the error. Large language models can be used to create useful and novice-friendly enhancements to programming error messages that sometimes surpass the original programming error messages in interpretability and actionability. These results provide further evidence of the benefits of large language models for computing educators, highlighting their use in areas known to be challenging for students. We further discuss the benefits and downsides of large language models and highlight future streams of research for enhancing programming error messages.
翻訳日:2022-10-24 13:40:41 公開日:2022-10-20
# テクスチュアルエンリッチメントのためのDense Paraphrasing

Dense Paraphrasing for Textual Enrichment ( http://arxiv.org/abs/2210.11563v1 )

ライセンス: Link先を確認
Jingxuan Tu, Kyeongmin Rim, Eben Holderness, James Pustejovsky(参考訳) 推論の理解とテキストからの質問に答えるには、単にクエリ用語に関連する表面引数、随伴、文字列を復元する以上のことが必要だ。 人間として、我々は文章を物語や談話の文脈化された構成要素と解釈し、欠落した情報を記入し、出来事の結果を推論する。 本稿では,文構造経済において(必要に)表現されない意味論をDense Paraphrasing (DP) として明示しつつ,曖昧さを低減させるような文表現(レキセムやフレーズ)を書き換えるプロセスを定義する。 我々は、最初の完全なDPデータセットを構築し、アノテーションタスクのスコープと設計を提供し、このDPプロセスがどのようにソーステキストを豊かにし、推論とQAタスクのパフォーマンスを改善するかを示す。 データとソースコードは公開される予定だ。

Understanding inferences and answering questions from text requires more than merely recovering surface arguments, adjuncts, or strings associated with the query terms. As humans, we interpret sentences as contextualized components of a narrative or discourse, by both filling in missing information, and reasoning about event consequences. In this paper, we define the process of rewriting a textual expression (lexeme or phrase) such that it reduces ambiguity while also making explicit the underlying semantics that is not (necessarily) expressed in the economy of sentence structure as Dense Paraphrasing (DP). We build the first complete DP dataset, provide the scope and design of the annotation task, and present results demonstrating how this DP process can enrich a source text to improve inferencing and QA task performance. The data and the source code will be publicly available.
翻訳日:2022-10-24 13:34:07 公開日:2022-10-20
# グラフ構造拡散モデル

Graphically Structured Diffusion Models ( http://arxiv.org/abs/2210.11633v1 )

ライセンス: Link先を確認
Christian Weilbach, William Harvey, Frank Wood(参考訳) 問題固有の構造を持つ深層生成モデルを自動的に定義・学習するフレームワークを提案する。 従来,ソート,制約満足度,行列因子化といったアルゴリズムによって解決されてきた問題領域に取り組む。 具体的には、問題仕様に合わせたアーキテクチャで拡散モデルを訓練する。 この問題仕様は変数間の関係を記述するグラフィカルモデルを含み、しばしばサブ計算の明示的な表現から恩恵を受けるべきである。 置換不変性も利用できる。 さまざまな実験セットを通じて、トレーニング時間と最終精度の両方の観点から、問題次元とモデルのパフォーマンスの間のスケーリング関係を改善します。

We introduce a framework for automatically defining and learning deep generative models with problem-specific structure. We tackle problem domains that are more traditionally solved by algorithms such as sorting, constraint satisfaction for Sudoku, and matrix factorization. Concretely, we train diffusion models with an architecture tailored to the problem specification. This problem specification should contain a graphical model describing relationships between variables, and often benefits from explicit representation of subcomputations. Permutation invariances can also be exploited. Across a diverse set of experiments we improve the scaling relationship between problem dimension and our model's performance, in terms of both training time and final accuracy.
翻訳日:2022-10-24 13:31:47 公開日:2022-10-20
# 反復的コンセンサスによる事前学習モデルの構成

Composing Ensembles of Pre-trained Models via Iterative Consensus ( http://arxiv.org/abs/2210.11522v1 )

ライセンス: Link先を確認
Shuang Li, Yilun Du, Joshua B. Tenenbaum, Antonio Torralba, Igor Mordatch(参考訳) 事前トレーニングされた大規模モデルは、トレーニングされたデータに依存する特徴的で補完的な能力を示す。 gpt-3のような言語モデルはテキスト推論はできるが視覚情報を理解できないが、dall-eのような視覚モデルはフォトリアリスティックな写真を生成することができるが、複雑な言語記述は理解できない。 本研究では,異なる事前学習モデルのアンサンブルを構成する統一的な枠組みを提案し,各モデルの強みを組み合わせて,ゼロショット方式で様々なマルチモーダル問題を解く。 事前学習したモデルを「ジェネレータ」あるいは「スコラー」として使用し、閉ループ反復コンセンサス最適化により構成する。 ジェネレータは提案を構築し、スコアラーは生成された結果を洗練するためにフィードバックを反復的に提供します。 このようなクローズループ通信により、モデルは他のモデルによるエラーを修正でき、例えば小学校数学の問題の精度を7.5%向上させるなど、下流タスクのパフォーマンスを大幅に向上する。 スコアラーのアンサンブルによって達成されたコンセンサスは、各専門家モデルの強みを生かして、単一のスコアラーのフィードバックを上回ることを実証する。 その結果,提案手法は画像生成,ビデオ質問応答,数学的推論,ロボット操作など,広範囲のゼロショットマルチモーダルタスクの汎用フレームワークとして利用できることがわかった。 プロジェクトページ: https://energy-based-model.github.io/composing-pretrained-models。

Large pre-trained models exhibit distinct and complementary capabilities dependent on the data they are trained on. Language models such as GPT-3 are capable of textual reasoning but cannot understand visual information, while vision models such as DALL-E can generate photorealistic photos but fail to understand complex language descriptions. In this work, we propose a unified framework for composing ensembles of different pre-trained models -- combining the strengths of each individual model to solve various multimodal problems in a zero-shot manner. We use pre-trained models as "generators" or "scorers" and compose them via closed-loop iterative consensus optimization. The generator constructs proposals and the scorers iteratively provide feedback to refine the generated result. Such closed-loop communication enables models to correct errors caused by other models, significantly boosting performance on downstream tasks, e.g. improving accuracy on grade school math problems by 7.5%, without requiring any model finetuning. We demonstrate that consensus achieved by an ensemble of scorers outperforms the feedback of a single scorer, by leveraging the strengths of each expert model. Results show that the proposed method can be used as a general purpose framework for a wide range of zero-shot multimodal tasks, such as image generation, video question answering, mathematical reasoning, and robotic manipulation. Project page: https://energy-based-model.github.io/composing-pretrained-models.
翻訳日:2022-10-24 13:24:24 公開日:2022-10-20
# XC:3次元物体検出における説明のための定量的ユースケースの探索

XC: Exploring Quantitative Use Cases for Explanations in 3D Object Detection ( http://arxiv.org/abs/2210.11590v1 )

ライセンス: Link先を確認
Sunsheng Gu, Vahdat Abdelzad, Krzysztof Czarnecki(参考訳) 説明可能なAI(XAI)手法は、深層モデルの予測に関する定性的な洞察を得るために頻繁に適用される。 しかし、そのような洞察は人間の観察者が有用であると解釈する必要がある。 本稿では,人間の観察者なしで直接説明を用いて意思決定することを目的とする。 我々は,3次元物体検出の課題に対して,勾配に基づく2つの説明手法,IG(Integrated Gradients)とbackpropを採用する。 そこで本研究では,下流タスクに使用可能な,説明濃度(XC)スコアという定量的尺度を提案する。 これらのスコアは、検出された対象の境界内の帰属濃度を定量化する。 KITTIおよびWaymoデータセットにおける真正(TP)および偽正(FP)検出対象を識別するタスクにより,XCスコアの有効性を評価する。 その結果、ランダムな推測やバウンディングボックス内のLiDAR点数といった他のヒューリスティックよりも、両方のデータセットで100\%以上の改善が示され、より多くのユースケースにおけるXCの応用可能性への自信が高まった。 また,計算コストのかかるIGなどのXAI手法は,より単純な手法に比べて定量的に比較しても有用ではない可能性が示唆された。

Explainable AI (XAI) methods are frequently applied to obtain qualitative insights about deep models' predictions. However, such insights need to be interpreted by a human observer to be useful. In this paper, we aim to use explanations directly to make decisions without human observers. We adopt two gradient-based explanation methods, Integrated Gradients (IG) and backprop, for the task of 3D object detection. Then, we propose a set of quantitative measures, named Explanation Concentration (XC) scores, that can be used for downstream tasks. These scores quantify the concentration of attributions within the boundaries of detected objects. We evaluate the effectiveness of XC scores via the task of distinguishing true positive (TP) and false positive (FP) detected objects in the KITTI and Waymo datasets. The results demonstrate an improvement of more than 100\% on both datasets compared to other heuristics such as random guesses and the number of LiDAR points in the bounding box, raising confidence in XC's potential for application in more use cases. Our results also indicate that computationally expensive XAI methods like IG may not be more valuable when used quantitatively compare to simpler methods.
翻訳日:2022-10-24 13:24:01 公開日:2022-10-20
# マルチタスクモデルは構造的障害にロバスト:バイリンガル認知予備のためのニューラルモデル

Multitasking Models are Robust to Structural Failure: A Neural Model for Bilingual Cognitive Reserve ( http://arxiv.org/abs/2210.11618v1 )

ライセンス: Link先を確認
Giannis Daras, Negin Raoof, Zoi Gkalitsiou, Alexandros G. Dimakis(参考訳) マルチタスク学習とニューロン障害に対する堅牢性との間には,驚くべき関連性がある。 両言語モデルでは, ランダム削除, マグニチュードプルーニング, 重み雑音など, ニューロンの摂動下では等価な単言語モデルに比べて高い性能を保っている。 線形表現学習を数学的に解析し、マルチタスクがより堅牢な表現を生み出すことを示すことにより、このロバスト性を理論的に正当化する。 本解析は,学習表現のスペクトル特性とロバスト性を結び,マルチタスクが多様なタスクベクトルに対して高いロバスト性をもたらすことを証明した。 私たちはコードとモデルをオープンソースにしています。

We find a surprising connection between multitask learning and robustness to neuron failures. Our experiments show that bilingual language models retain higher performance under various neuron perturbations, such as random deletions, magnitude pruning and weight noise compared to equivalent monolingual ones. We provide a theoretical justification for this robustness by mathematically analyzing linear representation learning and showing that multitasking creates more robust representations. Our analysis connects robustness to spectral properties of the learned representation and proves that multitasking leads to higher robustness for diverse task vectors. We open-source our code and models: https://github.com/giannisdaras/multilingual_robustness
翻訳日:2022-10-24 13:15:07 公開日:2022-10-20
# SMaLL-100:低リソース言語のための浅層多言語機械翻訳モデルの導入

SMaLL-100: Introducing Shallow Multilingual Machine Translation Model for Low-Resource Languages ( http://arxiv.org/abs/2210.11621v1 )

ライセンス: Link先を確認
Alireza Mohammadshahi, Vassilina Nikoulina, Alexandre Berard, Caroline Brun, James Henderson, Laurent Besacier(参考訳) 近年、多言語機械翻訳モデルは、類似言語間の情報共有により、低リソース言語対で有望な性能を達成し、ゼロショット翻訳を可能にしている。 多言語性の問題」を克服するために、これらのモデルはしばしばパラメータ数を増加させることを選択し、リソース制約のある環境での使用を困難にしている。 本稿では,100言語をカバーする多言語機械翻訳モデルであるM2M-100 (12B) の蒸留版であるSMaLL-100を紹介する。 我々はSMALL-100を全ての言語対を均一にサンプリングすることで訓練し、低リソース言語の性能を維持することに重点を置いている。 FLORES-101, Tatoeba, TICO-19の2つの低リソースベンチマークでSMaLL-100を評価し, 推論遅延とメモリ使用量の改善を図りながら, 比較可能なサイズ (200-600M) の多言語モデルよりも優れていることを示した。 さらに,本モデルではM2M-100 (1.2B) に匹敵する結果を得た。 コードと事前学習されたモデル: https://github.com/alirezamshi/small100

In recent years, multilingual machine translation models have achieved promising performance on low-resource language pairs by sharing information between similar languages, thus enabling zero-shot translation. To overcome the "curse of multilinguality", these models often opt for scaling up the number of parameters, which makes their use in resource-constrained environments challenging. We introduce SMaLL-100, a distilled version of the M2M-100 (12B) model, a massively multilingual machine translation model covering 100 languages. We train SMaLL-100 with uniform sampling across all language pairs and therefore focus on preserving the performance of low-resource languages. We evaluate SMaLL-100 on different low-resource benchmarks: FLORES-101, Tatoeba, and TICO-19 and demonstrate that it outperforms previous massively multilingual models of comparable sizes (200-600M) while improving inference latency and memory usage. Additionally, our model achieves comparable results to M2M-100 (1.2B), while being 3.6x smaller and 4.3x faster at inference. Code and pre-trained models: https://github.com/alirezamshi/small100
翻訳日:2022-10-24 13:14:54 公開日:2022-10-20
# 自然言語コミュニケーションにおける概念・動機・影響過程の知識表現

Knowledge Representation for Conceptual, Motivational, and Affective Processes in Natural Language Communication ( http://arxiv.org/abs/2210.08994v2 )

ライセンス: Link先を確認
Seng-Beng Ho, Zhaoxia Wang, Boon-Kiat Quek, Erik Cambria(参考訳) 自然言語通信は複雑で複雑なプロセスである。 話し手は通常、聞き手の精神モデルを考慮して適切な文を合成しながら、コミュニケーションすべき内容と、コミュニケーションからどのような効果が期待できるかの意図と動機から始める。 聞き手も同様に話者の意味を解釈し、それに応じて応答し、話者の精神状態も念頭に置く必要がある。 これを成功させるためには、言語生成と理解プロセスを促進するために、概念的、動機的、感情的なプロセスが適切に表現されなければならない。 言語処理は、チャットボットや機械翻訳のようなアプリケーションにおけるビッグデータアプローチでうまくいった。 しかし、人間とロボットの協調的な社会コミュニケーションや自然言語によるロボットへの正確な指示では、概念的、動機づけ的、感情的なプロセスのより深い表現が必要である。 本稿では, 概念的, モチベーション的, 情緒的プロセスを扱う知識表現型スキームによって, 言語を通じた社会的コミュニケーションがいかに支援されるかを説明するための, UGALRS (Unified General Autonomous and Language Reasoning System) フレームワークとCD+ (Conceptual Representation Plus) 表現スキームを活用する。 本論文では,概念,モチベーション,感情の小さなセットについて論じるが,その主な貢献は,知能システムのための自然言語コミュニケーションの目的を果たすために,これらの側面を結合する知識表現と処理の一般的な枠組みを明確化することである。

Natural language communication is an intricate and complex process. The speaker usually begins with an intention and motivation of what is to be communicated, and what effects are expected from the communication, while taking into consideration the listener's mental model to concoct an appropriate sentence. The listener likewise has to interpret what the speaker means, and respond accordingly, also with the speaker's mental state in mind. To do this successfully, conceptual, motivational, and affective processes have to be represented appropriately to drive the language generation and understanding processes. Language processing has succeeded well with the big data approach in applications such as chatbots and machine translation. However, in human-robot collaborative social communication and in using natural language for delivering precise instructions to robots, a deeper representation of the conceptual, motivational, and affective processes is needed. This paper capitalizes on the UGALRS (Unified General Autonomous and Language Reasoning System) framework and the CD+ (Conceptual Representation Plus) representational scheme to illustrate how social communication through language is supported by a knowledge representational scheme that handles conceptual, motivational, and affective processes in a deep and general way. Though a small set of concepts, motivations, and emotions is treated in this paper, its main contribution is in articulating a general framework of knowledge representation and processing to link these aspects together in serving the purpose of natural language communication for an intelligent system.
翻訳日:2022-10-23 20:52:35 公開日:2022-10-20
# 視覚の効率的な拡散モデル:調査

Efficient Diffusion Models for Vision: A Survey ( http://arxiv.org/abs/2210.09292v2 )

ライセンス: Link先を確認
Anwaar Ulhaq, Naveed Akhtar, Ganna Pogrebna(参考訳) 拡散モデル (DM) は, 逆行訓練を必要とせず, コンテンツ生成における最先端の性能を示す。 これらのモデルは2段階のプロセスで訓練される。 第一に、前方拡散 - 過程は徐々にデータム(通常は画像)にノイズを付加する。 その後、後ろ向きの逆拡散 - プロセスはノイズを徐々に取り除き、対象分布のサンプルとしてモデル化する。 DMは非平衡熱力学にインスパイアされ、本質的に高い計算複雑性を持つ。 高次元空間での頻繁な関数評価と勾配計算のため、これらのモデルはトレーニングと推論の段階でかなりの計算オーバーヘッドを負う。 これは拡散に基づくモデリングの民主化を妨げるだけでなく、現実の応用における拡散モデルの適応を妨げる。 言うまでもなく、計算モデルの効率性は、過度のエネルギー消費と環境問題のために急速に重要な関心事になりつつある。 これらの要因は、計算効率の良いDMを考案することに焦点を当てた文献に多くの貢献をもたらした。 本稿では,視覚の拡散モデルにおける最新の進歩について述べる。特に,DMの計算効率に影響を与える重要な設計側面に着目して述べる。 特に、最近提案された設計選択が、より効率的なDMに繋がったことを強調する。 広義の拡散モデルについて論じる他の最近のレビューとは違い,本調査は,幅広い研究コミュニティの実践可能なモデルとなる文献のデザイン戦略を強調することにより,この研究の方向性を推し進めることを目的としている。 また,その計算効率の観点からの拡散モデルの将来展望について述べる。

Diffusion Models (DMs) have demonstrated state-of-the-art performance in content generation without requiring adversarial training. These models are trained using a two-step process. First, a forward - diffusion - process gradually adds noise to a datum (usually an image). Then, a backward - reverse diffusion - process gradually removes the noise to turn it into a sample of the target distribution being modelled. DMs are inspired by non-equilibrium thermodynamics and have inherent high computational complexity. Due to the frequent function evaluations and gradient calculations in high-dimensional spaces, these models incur considerable computational overhead during both training and inference stages. This can not only preclude the democratization of diffusion-based modelling, but also hinder the adaption of diffusion models in real-life applications. Not to mention, the efficiency of computational models is fast becoming a significant concern due to excessive energy consumption and environmental scares. These factors have led to multiple contributions in the literature that focus on devising computationally efficient DMs. In this review, we present the most recent advances in diffusion models for vision, specifically focusing on the important design aspects that affect the computational efficiency of DMs. In particular, we emphasize the recently proposed design choices that have led to more efficient DMs. Unlike the other recent reviews, which discuss diffusion models from a broad perspective, this survey is aimed at pushing this research direction forward by highlighting the design strategies in the literature that are resulting in practicable models for the broader research community. We also provide a future outlook of diffusion models in vision from their computational efficiency viewpoint.
翻訳日:2022-10-23 20:25:01 公開日:2022-10-20
# 確率勾配勾配の拡散限界について

A note on diffusion limits for stochastic gradient descent ( http://arxiv.org/abs/2210.11257v1 )

ライセンス: Link先を確認
Alberto Lanconelli and Christopher S. A. Lauria(参考訳) 機械学習文学において、確率勾配降下はその暗黙正則化特性について広く議論されている。 確率的勾配アルゴリズムにおけるノイズの役割を明確にしようとする理論の多くは、ガウス雑音を伴う確率的微分方程式による確率的勾配降下を広く近似している。 本稿では,雑音のガウス性が自然にどのように発生するかを示す,新しい厳密な理論的正当化を提案する。

In the machine learning literature stochastic gradient descent has recently been widely discussed for its purported implicit regularization properties. Much of the theory, that attempts to clarify the role of noise in stochastic gradient algorithms, has widely approximated stochastic gradient descent by a stochastic differential equation with Gaussian noise. We provide a novel rigorous theoretical justification for this practice that showcases how the Gaussianity of the noise arises naturally.
翻訳日:2022-10-21 16:16:16 公開日:2022-10-20
# 変圧器を用いた物理系の高精度余剰予測

Accurate Extrinsic Prediction of Physical Systems Using Transformers ( http://arxiv.org/abs/2210.11269v1 )

ライセンス: Link先を確認
Arnaud Pannatier, Kyle Matoba, Fran\c{c}ois Fleuret(参考訳) 航空管制には正確な高度風速予測が重要である。 そして、このタスクで利用可能な大量のデータによって、ディープニューラルネットワークベースのモデルが可能になる。 しかし、データは僅かに測定されるため、特別な方法が必要であり、主な航空機の軌道に沿って配置され、空間、すなわち主気道に沿って配置される。 いくつかのディープラーニングアプローチが提案されており、本研究では、トランスフォーマーがこのデータに効率よく適合し、コンテキスト集合からコヒーレントに外挿できることを示す。 そこで本論文では,トランスフォーマーと既存のディープラーニングベースラインとの広範な比較を行った。 高高度風速予測の他に、他の力学物理系、すなわち偏微分方程式、特にポアソン方程式とダーシー流方程式によってモデル化されたモデルの比較を行った。 これらの実験では、データが非正規に宇宙に配置されている場合、トランスフォーマーは他の全ての評価方法を上回る。 また、グリッド上にデータを配置するより標準的な設定で比較し、通常の間隔を必要としない場合でもトランスフォーマーが最先端の手法と競合することを示す。 さまざまな実験のコードとデータセットは、公開時に公開される予定だ。

Accurate high-altitude wind forecasting is important for air traffic control. And the large volume of data available for this task makes deep neural network-based models a possibility. However, special methods are required because the data is measured only sparsely: along the main aircraft trajectories and arranged sparsely in space, namely along the main air corridors. Several deep learning approaches have been proposed, and in this work, we show that Transformers can fit this data efficiently and are able to extrapolate coherently from a context set. We show this by an extensive comparison of Transformers to numerous existing deep learning-based baselines in the literature. Besides high-altitude wind forecasting, we compare competing models on other dynamical physical systems, namely those modelled by partial differential equations, in particular the Poisson equation and Darcy Flow equation. For these experiments, in the case where the data is arranged non-regularly in space, Transformers outperform all the other evaluated methods. We also compared them in a more standard setup where the data is arranged on a grid and show that the Transformers are competitive with state-of-the-art methods, even though it does not require regular spacing. The code and datasets of the different experiments will be made publicly available at publication time.
翻訳日:2022-10-21 16:16:10 公開日:2022-10-20
# Network Synthetic Interventions: ネットワーク干渉によるパネルデータのためのフレームワーク

Network Synthetic Interventions: A Framework for Panel Data with Network Interference ( http://arxiv.org/abs/2210.11355v1 )

ライセンス: Link先を確認
Anish Agarwal, Sarah Cen, Devavrat Shah, Christina Lee Yu(参考訳) 本稿では,ネットワーク干渉を組み込むための合成制御と合成介入手法の一般化を提案する。 本研究は, 単体間および非観察的埋没の有無を考慮したパネルデータから単位特異的処理効果を推定する。 我々のアプローチの鍵は、ネットワーク干渉を考慮した新しい潜在因子モデルであり、パネルデータ設定で一般的に使用される因子モデルを一般化する。 本研究では,ネットワーク合成介入(network synthetic interventions)という推定器を提案し,データに一定の観察パターンが保持されている場合,任意の処理の順序で単位の平均結果を連続的に推定することを示した。 我々は理論的な結果をシミュレーションで裏付ける。

We propose a generalization of the synthetic controls and synthetic interventions methodology to incorporate network interference. We consider the estimation of unit-specific treatment effects from panel data where there are spillover effects across units and in the presence of unobserved confounding. Key to our approach is a novel latent factor model that takes into account network interference and generalizes the factor models typically used in panel data settings. We propose an estimator, "network synthetic interventions", and show that it consistently estimates the mean outcomes for a unit under an arbitrary sequence of treatments for itself and its neighborhood, given certain observation patterns hold in the data. We corroborate our theoretical findings with simulations.
翻訳日:2022-10-21 16:15:51 公開日:2022-10-20
# ObSynth:自然言語仕様からオブジェクトモデルを生成する対話型合成システム

ObSynth: An Interactive Synthesis System for Generating Object Models from Natural Language Specifications ( http://arxiv.org/abs/2210.11468v1 )

ライセンス: Link先を確認
Alex Gu, Tamara Mitrovska, Daniela Velez, Jacob Andreas, Armando Solar-Lezama(参考訳) 我々は,大規模言語モデル(LLM)に埋め込まれたドメイン知識を活用した対話型システムObSynthを紹介し,高レベルの自然言語プロンプトからオブジェクトモデルの設計を支援する。 これは、高レベルで潜在的に曖昧な仕様を取り、より具体的な形式に修正するプロセスである仕様修正の例です。 まず、ObSynthを使って設計したオブジェクトモデルはより詳細であり、ユーザーが省略したかもしれないフィールドをしばしば合成することを示している。 次に、ObSynthによって生成されたほとんどのオブジェクト、メソッド、フィールドは、ユーザが最終的なオブジェクトモデルに保持し、生成されたコンポーネントの品質を強調します。 第三に、ObSynthは参加者のワークフローを変更した:彼らは合成されたコンポーネントがスクラッチから生成するのではなく正しいことをチェックすることに重点を置いている。

We introduce ObSynth, an interactive system leveraging the domain knowledge embedded in large language models (LLMs) to help users design object models from high level natural language prompts. This is an example of specification reification, the process of taking a high-level, potentially vague specification and reifying it into a more concrete form. We evaluate ObSynth via a user study, leading to three key findings: first, object models designed using ObSynth are more detailed, showing that it often synthesizes fields users might have otherwise omitted. Second, a majority of objects, methods, and fields generated by ObSynth are kept by the user in the final object model, highlighting the quality of generated components. Third, ObSynth altered the workflow of participants: they focus on checking that synthesized components were correct rather than generating them from scratch, though ObSynth did not reduce the time participants took to generate object models.
翻訳日:2022-10-21 16:15:22 公開日:2022-10-20
# オンラインカーネルベース強化学習による線形適応フィルタリングにおけるpノルムの動的選択

Dynamic selection of p-norm in linear adaptive filtering via online kernel-based reinforcement learning ( http://arxiv.org/abs/2210.11317v1 )

ライセンス: Link先を確認
Minh Vu, Yuki Akiyama, Konstantinos Slavakis(参考訳) 本研究は, 線形適応フィルタリングにおいて, 時変確率分布関数の知識を必要とせずに, 線形適応フィルタにおいて, 最適p-ノルムが外乱に対処する際の動的選択の問題に対処する。 この目的のために、オンラインおよびデータ駆動フレームワークは、カーネルベースの強化学習(KBRL)によって設計されている。 再生カーネルヒルベルト空間 (RKHSs) 上のベルマン写像はマルコフ決定過程の遷移確率に関する知識を必要とせず、根底にあるヒルベルトノルムに関して拡張性がない。 ベルマン写像の固定点集合の有限次元アフィンスーパーセットの導入により、近似的なポリシーイテレーションフレームワークが最終的に提供される。 RKHSsのよく知られた '`curse of dimensionality'' は、近似線形依存基準を用いてベクトルの基礎を構築することで解決される。 合成データの数値実験により,提案手法は,不整合シナリオに対して常に ''optimal'' p-norm を選択し,同時にいくつかの非RLおよびKBRLスキームよりも優れた性能を示した。

This study addresses the problem of selecting dynamically, at each time instance, the ``optimal'' p-norm to combat outliers in linear adaptive filtering without any knowledge on the potentially time-varying probability distribution function of the outliers. To this end, an online and data-driven framework is designed via kernel-based reinforcement learning (KBRL). Novel Bellman mappings on reproducing kernel Hilbert spaces (RKHSs) are introduced that need no knowledge on transition probabilities of Markov decision processes, and are nonexpansive with respect to the underlying Hilbertian norm. An approximate policy-iteration framework is finally offered via the introduction of a finite-dimensional affine superset of the fixed-point set of the proposed Bellman mappings. The well-known ``curse of dimensionality'' in RKHSs is addressed by building a basis of vectors via an approximate linear dependency criterion. Numerical tests on synthetic data demonstrate that the proposed framework selects always the ``optimal'' p-norm for the outlier scenario at hand, outperforming at the same time several non-RL and KBRL schemes.
翻訳日:2022-10-21 16:12:34 公開日:2022-10-20
# スキルベース模倣学習のための事前データからの学習と検索

Learning and Retrieval from Prior Data for Skill-based Imitation Learning ( http://arxiv.org/abs/2210.11435v1 )

ライセンス: Link先を確認
Soroush Nasiriany and Tian Gao and Ajay Mandlekar and Yuke Zhu(参考訳) 模倣学習は、ロボットが汎用的な行動を学ぶ有望な経路を提供するが、伝統的に、高いデータ監督要件と不安定な一般化のために、スケーラビリティが制限されている。 近年のマルチタスク模倣学習の進展に触発されて,従来のタスクからの先行データを用いて,堅牢でデータ効率のよい新しいタスクの学習を容易にする。 従来のデータを効果的に活用するには、ロボットは過去の経験から知識を内包し、新しいタスクでその知識を文脈化する必要がある。 そこで,我々は,事前データから時間的に拡張された感覚運動能力を抽出するスキルベース模倣学習フレームワークを開発し,これらの学習スキルを起動する対象タスクのポリシーを学習する。 我々は,新しいタスクにおけるパフォーマンスを著しく向上させる重要な設計選択,すなわち,より予測可能なスキル表現を可能にするための表現学習目標と,政策訓練の監督範囲を増やすための検索に基づくデータ拡張機構を同定する。 シミュレーションおよび実世界の操作領域のコレクションにおいて,本手法が既存の模倣学習やオフライン強化学習よりも優れていることを示す。 ビデオとコードはhttps://ut-austin-rpl.github.io/sailorで入手できる。

Imitation learning offers a promising path for robots to learn general-purpose behaviors, but traditionally has exhibited limited scalability due to high data supervision requirements and brittle generalization. Inspired by recent advances in multi-task imitation learning, we investigate the use of prior data from previous tasks to facilitate learning novel tasks in a robust, data-efficient manner. To make effective use of the prior data, the robot must internalize knowledge from past experiences and contextualize this knowledge in novel tasks. To that end, we develop a skill-based imitation learning framework that extracts temporally extended sensorimotor skills from prior data and subsequently learns a policy for the target task that invokes these learned skills. We identify several key design choices that significantly improve performance on novel tasks, namely representation learning objectives to enable more predictable skill representations and a retrieval-based data augmentation mechanism to increase the scope of supervision for policy training. On a collection of simulated and real-world manipulation domains, we demonstrate that our method significantly outperforms existing imitation learning and offline reinforcement learning approaches. Videos and code are available at https://ut-austin-rpl.github.io/sailor
翻訳日:2022-10-21 16:11:37 公開日:2022-10-20
# レーダーはどのように認識をマスクできるか?

How can a Radar Mask its Cognition? ( http://arxiv.org/abs/2210.11444v1 )

ライセンス: Link先を確認
Kunal Pattanayak and Vikram Krishnamurthy and Christopher Berry(参考訳) 認知レーダ(英: Cognitive radar)は、環境の変化に応じてその感知モードに適応する制約付きユーティリティ最大化器である。 敵が認知レーダーの実用機能を推定できれば、レーダーの検知戦略を判断し、電子対策(ECM)を通じてレーダー性能を緩和することができる。 本稿では,認知レーダーが認識を検出する敵からその戦略を隠蔽する方法について論じる。 レーダーは故意に設計された副最適応答を敵のニーマン・ピアソン検出器のspoofに送信する。 敵の検出器のタイプiの誤差確率が、レーダーの性能損失に対する所定の許容レベルを超えることを保証し、理論的保証を提供する。 本稿では,波形適応とビーム割り当てを含む数値例を用いて,認知マスキング手法について述べる。 レーダーの最適戦略からのわずかな目的的逸脱が敵をかなりの量混乱させ、レーダーの認識を覆すことを示した。 我々のアプローチは、ミクロ経済学と逆逆強化学習における明らかにされた嗜好から生まれた新しいアイデアを用いる。 提案アルゴリズムは,レーダーの認識を隠蔽するシステムレベルの電子カウンターカウンタ対策(ECCM)に対して,敵からレーダーの戦略を隠蔽する原理的アプローチを提供する。 また,敵がレーダーの応答測定を誤認した場合の認識マスキング方式の性能限界も提示する。

A cognitive radar is a constrained utility maximizer that adapts its sensing mode in response to a changing environment. If an adversary can estimate the utility function of a cognitive radar, it can determine the radar's sensing strategy and mitigate the radar performance via electronic countermeasures (ECM). This paper discusses how a cognitive radar can {\em hide} its strategy from an adversary that detects cognition. The radar does so by transmitting purposefully designed sub-optimal responses to spoof the adversary's Neyman-Pearson detector. We provide theoretical guarantees by ensuring the Type-I error probability of the adversary's detector exceeds a pre-defined level for a specified tolerance on the radar's performance loss. We illustrate our cognition masking scheme via numerical examples involving waveform adaptation and beam allocation. We show that small purposeful deviations from the optimal strategy of the radar confuse the adversary by significant amounts, thereby masking the radar's cognition. Our approach uses novel ideas from revealed preference in microeconomics and adversarial inverse reinforcement learning. Our proposed algorithms provide a principled approach for system-level electronic counter-countermeasures (ECCM) to mask the radar's cognition, i.e., hide the radar's strategy from an adversary. We also provide performance bounds for our cognition masking scheme when the adversary has misspecified measurements of the radar's response.
翻訳日:2022-10-21 16:11:07 公開日:2022-10-20
# nift: オブジェクト操作のための神経相互作用場とテンプレート

NIFT: Neural Interaction Field and Template for Object Manipulation ( http://arxiv.org/abs/2210.10992v1 )

ライセンス: Link先を確認
Zeyu Huang, Juzhan Xu, Sisi Dai, Kai Xu, Hao Zhang, Hui Huang, Ruizhen Hu(参考訳) 模倣学習を容易にするために,nift,neural interaction field and template,オブジェクト操作の記述的かつロバストなインタラクション表現を導入する。 いくつかのオブジェクト操作デモが与えられた後、niftは、デモから抽出されたneural interaction template(nit)と、新しいオブジェクトのために定義されたneural interaction field(nif)とのマッチングによって、新しいオブジェクトインスタンスのインタラクション模倣の生成をガイドする。 具体的には、nifは、各空間点と与えられた対象との関係を符号化する神経場であり、相対位置は、占有量や符号付き距離よりも球面距離関数によって定義される。 所定のデモインタラクションに対して、対応するNITは、デモオブジェクトのNIFでサンプリングされた空間点と関連する神経的特徴によって定義される。 相互作用をよりよく捉えるために、点を2つの相互作用対象に等しく相互作用表現に広く使われている点からなる相互作用双セクタ面にサンプリングする。 より良いインタラクションエンコーディングのために定義されたポイント選択とポイントワイズ機能の両方により、nitは新しいオブジェクトインスタンスのnifsで機能マッチングを効果的にガイドし、オブジェクトのポーズを最適化し、デモインタラクションを模倣しながら操作を実現する。 実験によると、niftソリューションはオブジェクト操作のための最先端の模倣学習手法よりも優れており、新しいカテゴリのオブジェクトに対してより一般化している。

We introduce NIFT, Neural Interaction Field and Template, a descriptive and robust interaction representation of object manipulations to facilitate imitation learning. Given a few object manipulation demos, NIFT guides the generation of the interaction imitation for a new object instance by matching the Neural Interaction Template (NIT) extracted from the demos to the Neural Interaction Field (NIF) defined for the new object. Specifically, the NIF is a neural field which encodes the relationship between each spatial point and a given object, where the relative position is defined by a spherical distance function rather than occupancies or signed distances, which are commonly adopted by conventional neural fields but less informative. For a given demo interaction, the corresponding NIT is defined by a set of spatial points sampled in the NIF of the demo object with associated neural features. To better capture the interaction, the points are sampled on the interaction bisector surface, which consists of points that are equidistant to two interacting objects and has been used extensively for interaction representation. With both point selection and pointwise features defined for better interaction encoding, NIT effectively guides the feature matching in the NIFs of the new object instances to optimize the object poses to realize the manipulation while imitating the demo interactions. Experiments show that our NIFT solution outperforms state-of-the-art imitation learning methods for object manipulation and generalizes better to objects from new categories.
翻訳日:2022-10-21 16:10:46 公開日:2022-10-20
# 作業障害機能評価用電池における自己符号化されたスパースベイズ式IRT分解, キャリブレーション, 償却推論

Autoencoded sparse Bayesian in-IRT factorization, calibration, and amortized inference for the Work Disability Functional Assessment Battery ( http://arxiv.org/abs/2210.10952v1 )

ライセンス: Link先を確認
Joshua C. Chang, Carson C. Chow, Julia Porcino(参考訳) ワーク障害機能評価電池 (WD-FAB) は、アイテムバンクへの応答に基づいて、作業関連心身機能を評価するために設計された多次元アイテム応答理論(IRT)である。 前回のイテレーションでは、従来の方法 -- 線形因子分解(linear factorization)、次いで項目選択のための統計的テスト(statistical testing)、そして最後に不一致の一次元irtモデルのキャリブレーションを使用して開発されました。 その結果、WD-FABは他のIRTの楽器と同様にポストホックモデルとなった。 本書では,デコーダとして組み込む解釈可能な確率的オートエンコーダアーキテクチャを導出し,スケールファクタリング,項目選択,パラメータ識別,応答スコアリングといった同時タスクを自己整合的に実行するベイズ階層モデルを提案する。 この方法では、多次元IRTモデルの開発に通常必要となる線形分解とヌル仮説統計テストが不要となり、分割は究極の非線形因子モデルと一致する。 本稿では,wd-fab項目応答の手法を用いて,得られた項目識別を従来の手法で得られたものと比較する。

The Work Disability Functional Assessment Battery (WD-FAB) is a multidimensional item response theory (IRT) instrument designed for assessing work-related mental and physical function based on responses to an item bank. In prior iterations it was developed using traditional means -- linear factorization, followed by statistical testing for item selection, and finally, calibration of disjoint unidimensional IRT models. As a result, the WD-FAB, like many other IRT instruments, is a posthoc model. In this manuscript, we derive an interpretable probabilistic autoencoder architecture that embeds as the decoder a Bayesian hierarchical model for self-consistently performing the following simultaneous tasks: scale factorization, item selection, parameter identification, and response scoring. This method obviates the linear factorization and null hypothesis statistical tests that are usually required for developing multidimensional IRT models, so that partitioning is consistent with the ultimate nonlinear factor model. We use the method on WD-FAB item responses and compare the resulting item discriminations to those obtained using the traditional method.
翻訳日:2022-10-21 16:10:22 公開日:2022-10-20
# idm-follower:長期車追従軌跡予測のためのモデルインフォーム深層学習法

IDM-Follower: A Model-Informed Deep Learning Method for Long-Sequence Car-Following Trajectory Prediction ( http://arxiv.org/abs/2210.10965v1 )

ライセンス: Link先を確認
Yilin Wang and Yiheng Feng(参考訳) モデルに基づく手法と学習に基づく手法は、車従動作をモデル化する2つの主要な手法である。 モデルベース手法は明示的な数学的方程式による車追従行動を記述するが、学習ベース手法は入力と出力の間のマッピングの獲得に焦点を当てている。 どちらの方法にも利点と弱点がある。 一方、ほとんどのカーフォローモデルは生成的であり、前回のステップの速度、位置、加速度の入力のみを考慮する。 そこで本研究では,実車追従モデル(intelligent driving model:idm)によって通知される再帰オートエンコーダによって,追従車両の軌跡列を生成できるidm-followerと呼ばれる新しい枠組みを提案する。 2つの独立したエンコーダと、次の軌道を逐次予測できる自己注意デコーダを備えた新しい構造を実装した。 モデルに基づく予測と一致したラベル付きデータとの差分を考慮した損失関数を実装し、ニューラルネットワークパラメータを更新する。 シミュレーションとNGSIMデータセットの複数の設定による数値実験により、IMM-Followerはモデルベースや学習ベースの手法だけで予測性能を向上できることが示された。 異なるノイズレベルの解析も、モデルの優れた堅牢性を示している。

Model-based and learning-based methods are two major types of methodologies to model car following behaviors. Model-based methods describe the car-following behaviors with explicit mathematical equations, while learning-based methods focus on getting a mapping between inputs and outputs. Both types of methods have advantages and weaknesses. Meanwhile, most car-following models are generative and only consider the inputs of the speed, position, and acceleration of the last time step. To address these issues, this study proposes a novel framework called IDM-Follower that can generate a sequence of following vehicle trajectory by a recurrent autoencoder informed by a physical car-following model, the Intelligent Driving Model (IDM).We implement a novel structure with two independent encoders and a self-attention decoder that could sequentially predict the following trajectories. A loss function considering the discrepancies between predictions and labeled data integrated with discrepancies from model-based predictions is implemented to update the neural network parameters. Numerical experiments with multiple settings on simulation and NGSIM datasets show that the IDM-Follower can improve the prediction performance compared to the model-based or learning-based methods alone. Analysis on different noise levels also shows good robustness of the model.
翻訳日:2022-10-21 16:10:00 公開日:2022-10-20
# 合成リップ効果:動的処理レジームのための合成制御の一般化

Synthetic Blip Effects: Generalizing Synthetic Controls for the Dynamic Treatment Regime ( http://arxiv.org/abs/2210.11003v1 )

ライセンス: Link先を確認
Anish Agarwal, Vasilis Syrgkanis(参考訳) 本稿では, 動的処理系に対する合成制御および合成介入手法の一般化を提案する。 本研究では,動的処理方式で収集したパネルデータから単位特異的な治療効果を推定し,観察不能なコンファウンドの存在下での処理効果を考察する。 すなわち、各処理ユニットは順応ポリシーに基づいて順次複数の処理を受け取り、その処理ユニットの潜在的な内在的な時間的結合状態に依存する。 低ランク潜在因子モデル仮定と技術的重複仮定の下では、任意の介入の順序の下で、単位固有平均結果の識別戦略を提案する。 提案する潜在因子モデルは線形時変力学系と時間不変力学系を特別な場合として認める。 本手法は,blip効果に対する低位潜伏因子仮定下での構造的ネスト平均モデルの同定戦略と見なすことができる。 本手法は「合成リップ効果」とよばれる手法であり、各期間における治療のリップ効果と対象単位に対するブリップ効果を、指定された治療を受けた他のユニットの慎重に選択された群によるブリップ効果の線形結合として再帰的に表現する。 本研究は,このようなダイナミックな処理環境において,事前の合成制御と合成介入手法のバニラ適用によって要求される単位数の組合せ爆発を回避している。

We propose a generalization of the synthetic control and synthetic interventions methodology to the dynamic treatment regime. We consider the estimation of unit-specific treatment effects from panel data collected via a dynamic treatment regime and in the presence of unobserved confounding. That is, each unit receives multiple treatments sequentially, based on an adaptive policy, which depends on a latent endogenously time-varying confounding state of the treated unit. Under a low-rank latent factor model assumption and a technical overlap assumption we propose an identification strategy for any unit-specific mean outcome under any sequence of interventions. The latent factor model we propose admits linear time-varying and time-invariant dynamical systems as special cases. Our approach can be seen as an identification strategy for structural nested mean models under a low-rank latent factor assumption on the blip effects. Our method, which we term "synthetic blip effects", is a backwards induction process, where the blip effect of a treatment at each period and for a target unit is recursively expressed as linear combinations of blip effects of a carefully chosen group of other units that received the designated treatment. Our work avoids the combinatorial explosion in the number of units that would be required by a vanilla application of prior synthetic control and synthetic intervention methods in such dynamic treatment regime settings.
翻訳日:2022-10-21 16:09:40 公開日:2022-10-20
# ロバストなワンショット歌声変換

Robust One-Shot Singing Voice Conversion ( http://arxiv.org/abs/2210.11096v1 )

ライセンス: Link先を確認
Naoya Takahashi, Mayank Kumar Singh, Yuki Mitsufuji(参考訳) 歌唱音声変換(SVC)に関する多くの既存の研究は、訓練のためにターゲット歌手の声をきれいに記録する必要がある。 しかし、事前に収集することはしばしば困難であり、歌声は残響や伴奏音楽で歪曲されることが多い。 本研究では、参照音声の10秒未満の変形した歌声であっても、任意のSVCを頑健に行う頑健なワンショットSVC(ROSVC)を提案する。 そこで我々はRobostifyと呼ばれる2段階の学習手法を提案する。 第1段階では、生成逆数ネットワークに基づく新しいワンショットSVCモデルがクリーンデータに基づいて訓練され、高品質な変換が保証される。 第2段階では、拡張モジュールがモデルのエンコーダに導入され、特徴空間の歪みに対するロバスト性が向上する。 実験の結果, 提案手法は, シングルショットのsvcベースラインよりも優れており, 歪みに対するロバスト性が大幅に向上した。

Many existing works on singing voice conversion (SVC) require clean recordings of target singer's voice for training. However, it is often difficult to collect them in advance and singing voices are often distorted with reverb and accompaniment music. In this work, we propose robust one-shot SVC (ROSVC) that performs any-to-any SVC robustly even on such distorted singing voices using less than 10s of a reference voice. To this end, we propose two-stage training method called Robustify. In the first stage, a novel one-shot SVC model based on a generative adversarial network is trained on clean data to ensure high-quality conversion. In the second stage, enhancement modules are introduced to the encoders of the model to improve the robustness against distortions in the feature space. Experimental results show that the proposed method outperforms one-shot SVC baselines for both seen and unseen singers and greatly improves the robustness against the distortions.
翻訳日:2022-10-21 16:09:21 公開日:2022-10-20
# 深層学習法による角度分解光電子分光の格子構造除去

Removing grid structure in angle-resolved photoemission spectra via deep learning method ( http://arxiv.org/abs/2210.11200v1 )

ライセンス: Link先を確認
Junde Liu, Dongchen Huang, Yi-feng Yang, and Tian Qian(参考訳) 分光データは、しばしば望ましくない外因性信号を含む。 例えば、ALPES実験では、ワイヤメッシュがCCDの前に置かれ、成層光電子を遮断するが、迅速な測定モード中にスペクトルの格子状構造を引き起こす可能性がある。 過去に、この構造は周期構造を消去することで、数学的なフーリエフィルタ法を用いてしばしば取り除かれた。 しかし、この方法は、格子構造が厳密に線形に重畳されていないため、情報の損失とスペクトルの空隙をもたらす可能性がある。 本稿では,この問題を効果的に克服する深層学習手法を提案する。 本手法は,スペクトル内部の自己相関情報を利用して,格子構造とノイズを同時に除去し,スペクトルの品質を大幅に最適化する。 他の外因性シグナルを排除し、スペクトルの自己相関のみに基づくスペクトル品質を高めるため、全ての分光測定に拡張される可能性がある。

Spectroscopic data may often contain unwanted extrinsic signals. For example, in ARPES experiment, a wire mesh is typically placed in front of the CCD to block stray photo-electrons, but could cause a grid-like structure in the spectra during quick measurement mode. In the past, this structure was often removed using the mathematical Fourier filtering method by erasing the periodic structure. However, this method may lead to information loss and vacancies in the spectra because the grid structure is not strictly linearly superimposed. Here, we propose a deep learning method to effectively overcome this problem. Our method takes advantage of the self-correlation information within the spectra themselves and can greatly optimize the quality of the spectra while removing the grid structure and noise simultaneously. It has the potential to be extended to all spectroscopic measurements to eliminate other extrinsic signals and enhance the spectral quality based on the self-correlation of the spectra solely.
翻訳日:2022-10-21 16:09:06 公開日:2022-10-20
# ESPNN: IAEAの停止電力データベース上のディープニューラルネットワーク。 原子標的

ESPNN: Deep Neural Network on the IAEA stopping power database. Atomic targets ( http://arxiv.org/abs/2210.10950v1 )

ライセンス: Link先を確認
F. Bivort Haiek, A.M.P. Mendez, C.C. Montanari, and D.M. Mitnik(参考訳) 国際原子力機関(IAEA、International Atomic Energy Agency)は、およそ1世紀にわたって公表された実験的な測定のほとんどをまとめた、非常に価値の高い公共資源である。 このデータベースは、世界科学コミュニティがアクセス可能なもので、継続的に更新され、理論および実験研究に30年以上にわたって広く使われてきた。 この研究は、2021年のIAEAデータベースに機械学習アルゴリズムを用いて、あらゆるイオンとターゲットの組み合わせの正確な停止電力断面積を予測することを目的としている。 教師なしの機械学習手法を適用してデータベースを自動的にクリーンにする。 これらのテクニックは、不審な外れ値と古い孤立値を取り除くことでデータをパージする。 残りのデータの大部分はディープニューラルネットワークのトレーニングに使用され、残りの部分は別々に設定され、テストセットを構成する。 本研究は原子標的のみの衝突系を考察する。 電子停止パワーニューラルネットワークコード(espnn)の最初のバージョンは、ユーザに公開されており、テストセットの実験結果とよく一致して予測値が得られる。

The International Atomic Energy Agency (IAEA) stopping power database is a highly valued public resource compiling most of the experimental measurements published over nearly a century. The database -- accessible to the global scientific community -- is continuously updated and has been extensively employed in theoretical and experimental research for more than thirty years. This work aims to employ machine learning algorithms on the 2021 IAEA database to predict accurate electronic stopping power cross sections for any ion and target combination in a wide range of incident energies. Unsupervised machine learning methods are applied to clean the database in an automated manner. These techniques purge the data by removing suspicious outliers and old isolated values. A large portion of the remaining data is used to train a deep neural network, while the rest is set aside, constituting the test set. The present work considers collisional systems only with atomic targets. The first version of the electronic stopping power neural network code (espnn), openly available to users, is shown to yield predicted values in excellent agreement with the experimental results of the test set.
翻訳日:2022-10-21 16:01:44 公開日:2022-10-20
# 磁気フレームレットを用いた有向グラフ畳み込みニューラルネットワーク

A Magnetic Framelet-Based Convolutional Neural Network for Directed Graphs ( http://arxiv.org/abs/2210.10993v1 )

ライセンス: Link先を確認
Lequan Lin and Junbin Gao(参考訳) グラフデータの分析と処理を行う強力なツールであるspectral graph convolutional networks(spectral gcnns)は通常、フーリエ変換による周波数フィルタリングを適用し、選択的情報を持つ表現を得る。 研究は、スペクトルGCNNはフレームレットベースのフィルタリングによって拡張可能であることを示しているが、そのような研究の大部分は、非方向グラフのみを考慮する。 本稿では,磁気フレームレットを用いた有向グラフ用スペクトルgcnnであるframelet-magnetについて述べる。 このモデルは、ダイアグラム信号にフレームレット変換を適用し、フィルタリングのためのより洗練された表現を形成する。 ディグラフフレームレットは複素値の磁気ラプラシアンで構築され、同時に実領域と複素領域の両方の信号処理に繋がる。 我々は,ノード分類,リンク予測,デノーミングにおける最先端モデルに対して,Framelet-MagNetの予測力を実証的に検証した。

Spectral Graph Convolutional Networks (spectral GCNNs), a powerful tool for analyzing and processing graph data, typically apply frequency filtering via Fourier transform to obtain representations with selective information. Although research shows that spectral GCNNs can be enhanced by framelet-based filtering, the massive majority of such research only considers undirected graphs. In this paper, we introduce Framelet-MagNet, a magnetic framelet-based spectral GCNN for directed graphs (digraphs). The model applies the framelet transform to digraph signals to form a more sophisticated representation for filtering. Digraph framelets are constructed with the complex-valued magnetic Laplacian, simultaneously leading to signal processing in both real and complex domains. We empirically validate the predictive power of Framelet-MagNet over a range of state-of-the-art models in node classification, link prediction, and denoising.
翻訳日:2022-10-21 16:01:30 公開日:2022-10-20
# 最大コモンサブグラフ誘導グラフ検索:後期および初期相互作用ネットワーク

Maximum Common Subgraph Guided Graph Retrieval: Late and Early Interaction Networks ( http://arxiv.org/abs/2210.11020v1 )

ライセンス: Link先を確認
Indradyumna Roy, Soumen Chakrabarti and Abir De(参考訳) グラフ検索問題は、クエリグラフに最もよく似たグラフの巨大なコーパスで検索することである。 類似性を評価するための一般的な考慮事項は、クエリとコーパスグラフの間の最大共通部分グラフ(MCS)であり、通常は共通エッジの数(MCES)をカウントする。 いくつかの応用では、共通部分グラフ、すなわち最大共通部分グラフ(mccs)が連結であることが望ましい。 正確な MCES と MCCS の発見は難しいが、関連性によるコーパスグラフのランク付けが目的であれば不要である。 MCESとMCCSをよく近似する高速で訓練可能なニューラル関数を設計する。 遅延相互作用法はクエリグラフとコーパスグラフの密表現を別々に計算し、これらの表現を最終段階で単純な類似度関数を用いて比較し、高度にスケーラブルなシステムへと導く。 初期相互作用法は、入力段階から両方のグラフからの情報を組み合わせるが、通常はかなり正確だが遅い。 遅くとも早期の相互作用型ニューラルネットワーク MCES と MCCS の定式化を提案する。 どちらもクエリとコーパスノード間のノードアライメントマトリックスの連続的な緩和に基づいている。 MCCSでは,最大連結部分グラフのサイズを推定する新しい微分可能なネットワークを提案する。 7つのデータセットによる大規模な実験により,提案手法は,精度と速度の両面で,遅延相互作用モデルよりも優れていることが示された。 我々の初期の相互作用モデルは、より高速で、最先端のテクノロジーと競合する精度を提供する。

The graph retrieval problem is to search in a large corpus of graphs for ones that are most similar to a query graph. A common consideration for scoring similarity is the maximum common subgraph (MCS) between the query and corpus graphs, usually counting the number of common edges (i.e., MCES). In some applications, it is also desirable that the common subgraph be connected, i.e., the maximum common connected subgraph (MCCS). Finding exact MCES and MCCS is intractable, but may be unnecessary if ranking corpus graphs by relevance is the goal. We design fast and trainable neural functions that approximate MCES and MCCS well. Late interaction methods compute dense representations for the query and corpus graph separately, and compare these representations using simple similarity functions at the last stage, leading to highly scalable systems. Early interaction methods combine information from both graphs right from the input stages, are usually considerably more accurate, but slower. We propose both late and early interaction neural MCES and MCCS formulations. They are both based on a continuous relaxation of a node alignment matrix between query and corpus nodes. For MCCS, we propose a novel differentiable network for estimating the size of the largest connected common subgraph. Extensive experiments with seven data sets show that our proposals are superior among late interaction models in terms of both accuracy and speed. Our early interaction models provide accuracy competitive with the state of the art, at substantially greater speeds.
翻訳日:2022-10-21 16:01:14 公開日:2022-10-20
# 2段階ロバスト最適化における$K$-adaptabilityのための機械学習

Machine Learning for $K$-adaptability in Two-stage Robust Optimization ( http://arxiv.org/abs/2210.11152v1 )

ライセンス: Link先を確認
Esther Julien, Krzysztof Postek, \c{S}. \.Ilker Birbil(参考訳) 2段階のロバスト最適化問題は最も難しい最適化問題クラスの一つである。 このクラスの問題に対する解決策の1つは、$K$-adaptabilityである。 このアプローチでは、シナリオの不確実性セットの最適な分割を$k$サブセットに同時に求め、これらのサブセットに対応する決定を最適化する。 一般的には、指数関数的に成長する溶液木の探索を必要とする$K$-adaptability branch-and-boundアルゴリズムを用いて解決される。 このような木で高品質な解を見つけるために,機械学習によるノード選択戦略を提案する。 特に,解決されたb\&b木のデータベース上で機械学習ツールをトレーニングし,さまざまなサイズや型の問題に適用するための,一般的な2段階のロバスト最適化インサイトに基づく機能エンジニアリングスキームを構築した。 学習したノード選択戦略は、トレーニング問題と同じタイプの問題に対してテストした場合、学習したノード選択戦略がバニラ、ランダムなノード選択戦略より優れていることを示す。

Two-stage robust optimization problems constitute one of the hardest optimization problem classes. One of the solution approaches to this class of problems is $K$-adaptability. This approach simultaneously seeks the best partitioning of the uncertainty set of scenarios into $K$ subsets, and optimizes decisions corresponding to each of these subsets. In general case, it is solved using the $K$-adaptability branch-and-bound algorithm, which requires exploration of exponentially-growing solution trees. To accelerate finding high-quality solutions in such trees, we propose a machine learning-based node selection strategy. In particular, we construct a feature engineering scheme based on general two-stage robust optimization insights that allows us to train our machine learning tool on a database of resolved B\&B trees, and to apply it as-is to problems of different sizes and/or types. We experimentally show that using our learned node selection strategy outperforms a vanilla, random node selection strategy when tested on problems of the same type as the training problems, also in case the $K$-value or the problem size differs from the training ones.
翻訳日:2022-10-21 16:00:49 公開日:2022-10-20
# 物理インフォームドディープ拡散MRI再構成:人工知能のトレーニングデータのボトルネックを破る

Physics-informed deep diffusion MRI reconstruction: break the bottleneck of training data in artificial intelligence ( http://arxiv.org/abs/2210.11388v1 )

ライセンス: Link先を確認
Chen Qian, Zi Wang, Xinlin Zhang, Qingrui Cai, Taishan Kang, Boyu Jiang, Ran Tao, Zhigang Wu, Di Guo, and Xiaobo Qu(参考訳) 本研究では,物理インフォームドディープ拡散磁気共鳴画像(DWI)再構成法を提案する。 PIDDには、マルチショットDWIデータ合成とディープラーニング再構成ネットワークの2つの主要コンポーネントが含まれている。 データ合成のために,まずマルチショットデータ取得時の動作を数学的に解析し,簡易な物理運動モデルを用いてアプローチする。 運動モデルは、運動誘起位相合成の多項式モデルに刺激を与える。 そして、多くの合成フェーズといくつかの実データを組み合わせて、大量のトレーニングデータを生成する。 再構成ネットワークでは,k空間における学習可能な畳み込み核として各ショット画像位相の滑らかさ特性と,画像領域における相補的スパース性を利用する。 人工脳データと生体内脳データの両方で、合成データに基づいてトレーニングされた提案PIDDは、異なるb値とアンダーサンプリングパターンで、サブ秒間超高速、高品質、堅牢な再構成を可能にする。

In this work, we propose a Physics-Informed Deep Diffusion magnetic resonance imaging (DWI) reconstruction method (PIDD). PIDD contains two main components: The multi-shot DWI data synthesis and a deep learning reconstruction network. For data synthesis, we first mathematically analyze the motion during the multi-shot data acquisition and approach it by a simplified physical motion model. The motion model inspires a polynomial model for motion-induced phase synthesis. Then, lots of synthetic phases are combined with a few real data to generate a large amount of training data. For reconstruction network, we exploit the smoothness property of each shot image phase as learnable convolution kernels in the k-space and complementary sparsity in the image domain. Results on both synthetic and in vivo brain data show that, the proposed PIDD trained on synthetic data enables sub-second ultra-fast, high-quality, and robust reconstruction with different b-values and undersampling patterns.
翻訳日:2022-10-21 15:54:16 公開日:2022-10-20
# 代数的視覚のスナップショット

Snapshot of Algebraic Vision ( http://arxiv.org/abs/2210.11443v1 )

ライセンス: Link先を確認
Joe Kileel, Kathl\'en Kohn(参考訳) 本稿では,最近代数的視覚のヘッダーの下に置かれている代数幾何学とコンピュータビジョンの相互作用について述べる。 この主題は、多視点幾何学とその3次元シーン再構成への応用に関する新たな洞察を与え、多くの新しい問題やアイデアを代数幾何学に戻す。

In this survey article, we present interactions between algebraic geometry and computer vision, which have recently come under the header of Algebraic Vision. The subject has given new insights in multiple view geometry and its application to 3D scene reconstruction, and carried a host of novel problems and ideas back into algebraic geometry.
翻訳日:2022-10-21 15:53:57 公開日:2022-10-20
# 暗号通貨取引ペアの最適設定

Optimal Settings for Cryptocurrency Trading Pairs ( http://arxiv.org/abs/2210.10971v1 )

ライセンス: Link先を確認
Di Zhang, Qiang Niu, Youzhou Zhou(参考訳) 暗号通貨の目標は分散化である。 原則として、全ての通貨は等しい状態にある。 伝統的な株式市場とは異なり、デフォルト通貨(fiat)は存在せず、取引ペアは自由に設定できる。 しかし、2通貨ごとに取引市場を設置するのは現実的ではない。 経営コストを抑え、十分な流動性を確保するためには、これらの大量取引ペアをカバーし、すべての硬貨が到達可能であることを優先しなければならない。 これは最適化の問題である。 その特異性は次の通りである。 1) ほとんど(>99.5%)の取引ペア間の取引量は直接観察できない。 2)接続制約、すなわち、全ての通貨が取引可能であることを保証します。 この問題を解決するために、2段階のプロセスを使います。 1) 正規化された非正規化固有値分解(regularized eigenvalue decomposition)に基づいて不足値を埋める。 2) 最適取引ペアの探索は, 分枝および束縛過程に基づき, ヒューリスティック探索および刈り取り戦略を用いて行う。 実験の結果は以下の通りである。 1) 発行枚数に制限がない場合は,より分散的な取引ペアの設定が得られ,大規模な通貨ペア間の取引ペアの確立を提唱する。 2)すべての交換において最適化の余地がある。 不適切な取引ペアの設定は、主に小さなコインを引用するように主観的に設定したり、時間内に現れる大きなコインを追跡しなかったりすることで引き起こされる。 3)トレーディングペアが少なすぎるとカバレッジが低下し、トレーディングペアが頻繁に市場に調整される必要がある。 取引所は適切なバランスをとるべきである。

The goal of cryptocurrencies is decentralization. In principle, all currencies have equal status. Unlike traditional stock markets, there is no default currency of denomination (fiat), thus the trading pairs can be set freely. However, it is impractical to set up a trading market between every two currencies. In order to control management costs and ensure sufficient liquidity, we must give priority to covering those large-volume trading pairs and ensure that all coins are reachable. We note that this is an optimization problem. Its particularity lies in: 1) the trading volume between most (>99.5%) possible trading pairs cannot be directly observed. 2) It satisfies the connectivity constraint, that is, all currencies are guaranteed to be tradable. To solve this problem, we use a two-stage process: 1) Fill in missing values based on a regularized, truncated eigenvalue decomposition, where the regularization term is used to control what extent missing values should be limited to zero. 2) Search for the optimal trading pairs, based on a branch and bound process, with heuristic search and pruning strategies. The experimental results show that: 1) If the number of denominated coins is not limited, we will get a more decentralized trading pair settings, which advocates the establishment of trading pairs directly between large currency pairs. 2) There is a certain room for optimization in all exchanges. The setting of inappropriate trading pairs is mainly caused by subjectively setting small coins to quote, or failing to track emerging big coins in time. 3) Too few trading pairs will lead to low coverage; too many trading pairs will need to be adjusted with markets frequently. Exchanges should consider striking an appropriate balance between them.
翻訳日:2022-10-21 15:53:52 公開日:2022-10-20
# 話者認識のための一般化表現の大規模学習

Large-scale learning of generalised representations for speaker recognition ( http://arxiv.org/abs/2210.10985v1 )

ライセンス: Link先を確認
Jee-weon Jung, Hee-Soo Heo, Bong-Jin Lee, Jaesong Lee, Hye-jin Shim, Youngki Kwon, Joon Son Chung, Shinji Watanabe(参考訳) 本研究の目的は,多様なシナリオで使用される話者認識モデルを開発することである。 このようなモデルを構築するには、2つのコンポーネントを適切に設定する必要があると仮定する。 まず、適切なアーキテクチャが必要です。 ECAPA-TDNNやMFA-Conformerなど,最近の最先端モデルについても検討する。 第二に、大量のデータが必要になる。 既存のデータセットを結合した新しいトレーニングデータ構成について検討する。 最も広い構成は87k以上の話者の10.22k時間である。 さまざまなシナリオでトレーニングされたモデルがどのように振る舞うかを測定するために、4つの評価プロトコルが採用されている。 実験により、最小帰納バイアスの MFA-Conformer が最良を一般化することがわかった。 また,提案する大規模データ構成によるトレーニングにより,パフォーマンスが向上することを示す。 一般化の促進が観察され、4つの評価プロトコルの平均性能が20%以上向上した。 さらに,これらのモデルの性能が,キャパシティの増大に伴ってさらに向上することを示す。

The objective of this work is to develop a speaker recognition model to be used in diverse scenarios. We hypothesise that two components should be adequately configured to build such a model. First, adequate architecture would be required. We explore several recent state-of-the-art models, including ECAPA-TDNN and MFA-Conformer, as well as other baselines. Second, a massive amount of data would be required. We investigate several new training data configurations combining a few existing datasets. The most extensive configuration includes over 87k speakers' 10.22k hours of speech. Four evaluation protocols are adopted to measure how the trained model performs in diverse scenarios. Through experiments, we find that MFA-Conformer with the least inductive bias generalises the best. We also show that training with proposed large data configurations gives better performance. A boost in generalisation is observed, where the average performance on four evaluation protocols improves by more than 20%. In addition, we also demonstrate that these models' performances can improve even further when increasing capacity.
翻訳日:2022-10-21 15:53:27 公開日:2022-10-20
# 非線形最適制御のためのフィードバックポリシーとしてのニューラルode

Neural ODEs as Feedback Policies for Nonlinear Optimal Control ( http://arxiv.org/abs/2210.11245v1 )

ライセンス: Link先を確認
Ilya Orson Sandoval, Panagiotis Petsagkourakis, Ehecatl Antonio del Rio-Chanona(参考訳) 神経常微分方程式(neural ordinary differential equation、neural odes)は、ニューラルネットワークにパラメトリズされた微分方程式として連続時間ダイナミクスをモデル化する。 モデリングの柔軟性のおかげで、システムの識別や時系列分析のように、プロセスの連続的な時間的性質が特に関係する複数のタスクに採用されている。 制御設定に適用した場合、最適な非線形フィードバックポリシーにそれらの使用を適用することができる。 この定式化は強化学習におけるポリシー勾配と同じアプローチに従っており、環境が微分方程式系によって与えられる既知の決定論的ダイナミクスからなる場合をカバーしている。 モデル仕様のホワイトボックスの性質は、感度分析によるポリシー勾配の直接計算を可能にし、サンプリングによる不正確な非効率な勾配推定を避けることができる。 そこで本研究では,本研究で提案するニューラル・オデムとして提示されるニューラル・コントロール・ポリシーを用いて,実世界シナリオにおいて重要な状態制約と制御制約を満たしながら,一般的な非線形最適制御問題を解く手法を提案する。 状態フィードバックポリシはモデルダイナミクスを部分的に変更するため、システム全体の空間位相は最適化に基づいて再構成される。 このアプローチは、動的システムモデルの可用性を効率的に活用する非線形制御問題の歴史的に難解な閉ループ解に対する妥当な近似である。

Neural ordinary differential equations (Neural ODEs) model continuous time dynamics as differential equations parametrized with neural networks. Thanks to their modeling flexibility, they have been adopted for multiple tasks where the continuous time nature of the process is specially relevant, as in system identification and time series analysis. When applied in a control setting, it is possible to adapt their use to approximate optimal nonlinear feedback policies. This formulation follows the same approach as policy gradients in reinforcement learning, covering the case where the environment consists of known deterministic dynamics given by a system of differential equations. The white box nature of the model specification allows the direct calculation of policy gradients through sensitivity analysis, avoiding the inexact and inefficient gradient estimation through sampling. In this work we propose the use of a neural control policy posed as a Neural ODE to solve general nonlinear optimal control problems while satisfying both state and control constraints, which are crucial for real world scenarios. Since the state feedback policy partially modifies the model dynamics, the whole space phase of the system is reshaped upon the optimization. This approach is a sensible approximation to the historically intractable closed loop solution of nonlinear control problems that efficiently exploits the availability of a dynamical system model.
翻訳日:2022-10-21 15:53:13 公開日:2022-10-20
# オーバー・ザ・エア計算に関する調査

A Survey on Over-the-Air Computation ( http://arxiv.org/abs/2210.11350v1 )

ライセンス: Link先を確認
Alphan Sahin, Rui Yang(参考訳) コミュニケーションと計算はしばしば別のタスクと見なされる。 このアプローチは、分離された最適化を行うことができるため、エンジニアリングの観点から非常に効果的です。 一方で、ローカル情報そのものではなく、デバイスにおけるローカル情報の関数が主な関心事である場合が多い。 このようなシナリオでは、情報理論的な結果から、OAC(Over-the-air compute)と呼ばれるマルチアクセスチャネルでの干渉を利用して、通信と計算タスクの分離により達成可能な計算速度が大幅に向上することが示された。 さらに、OACと計算速度の分離のギャップは、より多くのノードが参加することで増大する。 この動機から,本研究では,OAC手法に関する総合的な調査を行う。 OACに関する基礎を概説した後、利用可能なOACスキームについて、その長所と短所について論じる。 次に、無線チャネルにおける信頼性の高い計算を実現するためのメカニズムと関連するメトリクスの概要を示す。 最後に、OACの潜在的な応用を要約し、今後の方向性を指摘する。

Communication and computation are often viewed as separate tasks. This approach is very effective from the perspective of engineering as isolated optimizations can be performed. On the other hand, there are many cases where the main interest is a function of the local information at the devices instead of the local information itself. For such scenarios, information theoretical results show that harnessing the interference in a multiple-access channel for computation, i.e., over-the-air computation (OAC), can provide a significantly higher achievable computation rate than the one with the separation of communication and computation tasks. Besides, the gap between OAC and separation in terms of computation rate increases with more participating nodes. Given this motivation, in this study, we provide a comprehensive survey on practical OAC methods. After outlining fundamentals related to OAC, we discuss the available OAC schemes with their pros and cons. We then provide an overview of the enabling mechanisms and relevant metrics to achieve reliable computation in the wireless channel. Finally, we summarize the potential applications of OAC and point out some future directions.
翻訳日:2022-10-21 15:52:42 公開日:2022-10-20
# DisC-VC: 絡み合ったF0制御可能なニューラル音声変換

DisC-VC: Disentangled and F0-Controllable Neural Voice Conversion ( http://arxiv.org/abs/2210.11059v1 )

ライセンス: Link先を確認
Chihiro Watanabe, Hirokazu Kameoka(参考訳) 音声変換は、与えられた発話の非言語的特徴を変換するタスクである。 音声の自然性はそのピッチパターンに強く依存するため、一部の応用では、話者のアイデンティティを変更しながら、元の立ち上がりピッチパターンを維持することが望ましい。 既存の手法のいくつかは、ソースフィルタモデルを使用するか、F0パターンをモデルに入力するニューラルネットワークを開発することでこの問題に対処している。 後者の方法は,前者に比べて比較的高い音質を実現することができるが,その訓練過程における目標と生成したf0パターンの相違は考慮されていない。 本稿では,変換結果が指定されたf0/timbre情報を正しく反映することを保証するために,補助ネットワークを用いた可変オートエンコーダに基づく音声変換モデルを提案する。 提案手法の有効性を客観的および主観的評価により示す。

Voice conversion is a task to convert a non-linguistic feature of a given utterance. Since naturalness of speech strongly depends on its pitch pattern, in some applications, it would be desirable to keep the original rise/fall pitch pattern while changing the speaker identity. Some of the existing methods address this problem by either using a source-filter model or developing a neural network that takes an F0 pattern as input to the model. Although the latter approach can achieve relatively high sound quality compared to the former one, there is no consideration for discrepancy between the target and generated F0 patterns in its training process. In this paper, we propose a new variational-autoencoder-based voice conversion model accompanied by an auxiliary network, which ensures that the conversion result correctly reflects the specified F0/timbre information. We show the effectiveness of the proposed method by objective and subjective evaluations.
翻訳日:2022-10-21 15:52:05 公開日:2022-10-20
# ル・カムの方程式の再検討:凸密度クラス上の厳密なミニマックスレート

Revisiting Le Cam's Equation: Exact Minimax Rates over Convex Density Classes ( http://arxiv.org/abs/2210.11436v1 )

ライセンス: Link先を確認
Shamindra Shrotriya, Matey Neykov(参考訳) 凸密度クラス上の密度推定のための最小値率を導出する古典的問題を考察する。 ル・カム(1973)、バージ(1983, 1986)、ウォン・アンド・シェン(1995)、ヤン・アンド・バロン(1999)の先駆的な業績に基づいて、任意の凸密度クラスに対する(定数まで)最小値の正確な値を決定する。 この研究はこれらの既知の結果を拡張し、密度クラスの局所計量エントロピーが常にそのような設定の下で最小値の最適速度を捉えることを示した。 我々の境界はパラメトリックおよび非パラメトリック凸密度クラスをまたいだ統一的な視点を提供し、以前考えられていたよりも密度クラスのリッチ性に関する弱い仮定の下にある。 提案した「マルチステージシーブ」 MLE は任意の凸密度クラスに適用できる。 リスク境界を限定された全変動やホルダー密度クラスを含む既知のミニマックス率の再帰に適用する。 さらに、研究の少ないクラス、例えば凸混合密度に対する上限を導出した結果の有用性について述べる。

We study the classical problem of deriving minimax rates for density estimation over convex density classes. Building on the pioneering work of Le Cam (1973), Birge (1983, 1986), Wong and Shen (1995), Yang and Barron (1999), we determine the exact (up to constants) minimax rate over any convex density class. This work thus extends these known results by demonstrating that the local metric entropy of the density class always captures the minimax optimal rates under such settings. Our bounds provide a unifying perspective across both parametric and nonparametric convex density classes, under weaker assumptions on the richness of the density class than previously considered. Our proposed `multistage sieve' MLE applies to any such convex density class. We apply our risk bounds to rederive known minimax rates including bounded total variation, and Holder density classes. We further illustrate the utility of the result by deriving upper bounds for less studied classes, e.g., convex mixture of densities.
翻訳日:2022-10-21 15:51:50 公開日:2022-10-20
# 過パラメータ学習におけるバギング:リスク特性とリスク単調化

Bagging in overparameterized learning: Risk characterization and risk monotonization ( http://arxiv.org/abs/2210.11445v1 )

ライセンス: Link先を確認
Pratik Patil, Jin-Hong Du, Arun Kumar Kuchibhotla(参考訳) バギング(英: Bagging)は、統計学と機械学習において、予測手順の性能を改善するために一般的に用いられるアンサンブル技法である。 本稿では,特徴量と観測回数の比率が一定値に収束する比例漸近系において,バッジ予測器の変種予測リスクについて検討する。 具体的には,単純なランダムサンプリングにおける古典的結果を用いて,袋詰め予測器の2乗誤差損失下での予測リスクを分析する一般的な戦略を提案する。 戦略を特化することで,任意の特徴共分散行列と信号ベクトルを持つ定型線形モデルの下で,任意の数のバッグを持つ袋付リッジおよびリッジレス予測器の正確な漸近的リスクを導出する。 さらに,袋詰めの最適サブサンプルサイズを選定する汎用クロスバリデーション手順を定式化し,サンプルサイズ(すなわち二重または複数降下)における限界リスクの非単調な挙動を緩和するための有用性について検討した。 袋詰めリッジとリッジレス予測器に対する提案手法の実証において,oracle の最適サブサンプルサイズ特性を徹底的に検討し,異なる袋詰めタイプ間の詳細な比較を行った。

Bagging is a commonly used ensemble technique in statistics and machine learning to improve the performance of prediction procedures. In this paper, we study the prediction risk of variants of bagged predictors in the proportional asymptotics regime, in which the ratio of the number of features to the number of observations converges to a constant. Specifically, we propose a general strategy to analyze prediction risk under squared error loss of bagged predictors using classical results on simple random sampling. Specializing the strategy, we derive the exact asymptotic risk of the bagged ridge and ridgeless predictors with an arbitrary number of bags under a well-specified linear model with arbitrary feature covariance matrices and signal vectors. Furthermore, we prescribe a generic cross-validation procedure to select the optimal subsample size for bagging and discuss its utility to mitigate the non-monotonic behavior of the limiting risk in the sample size (i.e., double or multiple descents). In demonstrating the proposed procedure for bagged ridge and ridgeless predictors, we thoroughly investigate oracle properties of the optimal subsample size, and provide an in-depth comparison between different bagging variants.
翻訳日:2022-10-21 15:51:28 公開日:2022-10-20
# Wi-Fiを活用した3次元メッシュ構築

3D Human Mesh Construction Leveraging Wi-Fi ( http://arxiv.org/abs/2210.10957v1 )

ライセンス: Link先を確認
Yichao Wang and Jie Yang(参考訳) 本稿ではWi-MeshというWiFiビジョンによる3次元メッシュ構築システムについて述べる。 本システムは、WiFiの進歩を利用して、人体の形状と変形を可視化し、3Dメッシュ構築を行う。 特に、WiFiデバイス上の複数の送信アンテナと受信アンテナを利用して、WiFi信号反射の2次元の到着角(AoA)を推定し、WiFiデバイスが人間と同じように物理的な環境を見ることができるようにします。 その後、物理的環境から人体の画像のみを抽出し、深層学習モデルを利用して抽出した人体を3Dメッシュ表現にデジタル化する。 様々な屋内環境下での実験評価により、wi-meshは、専用ハードウェアを利用するシステムと同等の平均頂点位置誤差2.81cm、ジョイント位置誤差2.4cmを達成した。 提案システムでは,すでに環境に存在しているWiFiデバイスを再利用して大量導入する利点がある。 また、非視界(NLoS)、照明条件の悪さ、そしてカメラベースのシステムがうまく機能しないダギーな衣服でも機能する。

In this paper, we present, Wi-Mesh, a WiFi vision-based 3D human mesh construction system. Our system leverages the advances of WiFi to visualize the shape and deformations of the human body for 3D mesh construction. In particular, it leverages multiple transmitting and receiving antennas on WiFi devices to estimate the two-dimensional angle of arrival (2D AoA) of the WiFi signal reflections to enable WiFi devices to see the physical environment as we humans do. It then extracts only the images of the human body from the physical environment and leverages deep learning models to digitize the extracted human body into a 3D mesh representation. Experimental evaluation under various indoor environments shows that Wi-Mesh achieves an average vertices location error of 2.81cm and joint position error of 2.4cm, which is comparable to the systems that utilize specialized and dedicated hardware. The proposed system has the advantage of re-using the WiFi devices that already exist in the environment for potential mass adoption. It can also work in non-line of sight (NLoS), poor lighting conditions, and baggy clothes, where the camera-based systems do not work well.
翻訳日:2022-10-21 15:45:21 公開日:2022-10-20
# 人物認識のための欠落モードに頑健なマルチモーダルセンサ融合フレームワーク

A Multimodal Sensor Fusion Framework Robust to Missing Modalities for Person Recognition ( http://arxiv.org/abs/2210.10972v1 )

ライセンス: Link先を確認
Vijay John and Yasutomo Kawanishi(参考訳) 音声、可視カメラ、サーマルカメラのセンサ特性を利用することで、人物認識の堅牢性を高めることができる。 既存のマルチモーダルな人物認識フレームワークは、主にマルチモーダルなデータが常に利用可能であると仮定して定式化されている。 本稿では, 音響, 可視, サーマルカメラを用いた新しい3モードセンサ融合フレームワークを提案する。 このフレームワークでは、複数の潜伏埋め込みを学ぶために、AVTNetと呼ばれる新しい潜伏埋め込みフレームワークが提案されている。 また、欠失モダリティ損失と呼ばれる新しい損失関数は、個々の潜在埋め込みを学習しながら三重項損失計算に基づいて欠失モダリティを説明できる。 さらに, マルチヘッドアテンション変換器を用いて, 異なるモードにアテンション重みを割り当て, トリモーダルデータを利用したジョイントラテント埋め込みを学習する。 異なる潜伏埋め込みはその後、ディープニューラルネットワークのトレーニングに使用される。 提案フレームワークはspeaking facesデータセット上で検証される。 ベースラインアルゴリズムとの比較分析により,提案手法は,モダリティの欠如を考慮しつつ,認識精度を大幅に向上させることを示した。

Utilizing the sensor characteristics of the audio, visible camera, and thermal camera, the robustness of person recognition can be enhanced. Existing multimodal person recognition frameworks are primarily formulated assuming that multimodal data is always available. In this paper, we propose a novel trimodal sensor fusion framework using the audio, visible, and thermal camera, which addresses the missing modality problem. In the framework, a novel deep latent embedding framework, termed the AVTNet, is proposed to learn multiple latent embeddings. Also, a novel loss function, termed missing modality loss, accounts for possible missing modalities based on the triplet loss calculation while learning the individual latent embeddings. Additionally, a joint latent embedding utilizing the trimodal data is learnt using the multi-head attention transformer, which assigns attention weights to the different modalities. The different latent embeddings are subsequently used to train a deep neural network. The proposed framework is validated on the Speaking Faces dataset. A comparative analysis with baseline algorithms shows that the proposed framework significantly increases the person recognition accuracy while accounting for missing modalities.
翻訳日:2022-10-21 15:45:00 公開日:2022-10-20
# MGTUNet: 大腸核インスタンスのセグメンテーションと定量化のための新しいUNet

MGTUNet: An new UNet for colon nuclei instance segmentation and quantification ( http://arxiv.org/abs/2210.10981v1 )

ライセンス: Link先を確認
Liangrui Pan, Lian Wang, Mingting Liu, Zhujun Xu, Liwen Xu, and Shaoliang Peng(参考訳) 大腸癌(CRC)は死亡率と死亡率で上位3つの悪性腫瘍の1つである。 病理組織像は大腸癌診断の金本位制である。 細胞核インスタンスのセグメンテーションと分類、および核成分の回帰タスクは、大腸組織における腫瘍微小環境の分析に役立つ。 従来の手法では、両方のタスクをエンドツーエンドで同時に扱うことができず、予測精度が低く、アプリケーションコストも高い。 本稿では,Mish, Group normalization, transposed convolution layer を用いてセグメント化モデルを改善する UNet フレームワーク MGTUNet と,SmoothL1Loss 値を調整するレンジャー最適化器を提案する。 第二に、異なるチャネルを使用して異なる種類の核を分割し分類し、最終的に核のインスタンスのセグメンテーションと分類タスクを完了する。 最後に,8つのセグメンテーションモデルを用いた広範囲比較実験を行った。 3つの評価指標とモデルのパラメータサイズを比較することで、MGTUNetはPQで0.6254、mPQで0.6359、R2で0.8695を得た。 その結果,MGTUNetは大腸癌の病理組織像を定量化するための最先端の手法であることがわかった。

Colorectal cancer (CRC) is among the top three malignant tumor types in terms of morbidity and mortality. Histopathological images are the gold standard for diagnosing colon cancer. Cellular nuclei instance segmentation and classification, and nuclear component regression tasks can aid in the analysis of the tumor microenvironment in colon tissue. Traditional methods are still unable to handle both types of tasks end-to-end at the same time, and have poor prediction accuracy and high application costs. This paper proposes a new UNet model for handling nuclei based on the UNet framework, called MGTUNet, which uses Mish, Group normalization and transposed convolution layer to improve the segmentation model, and a ranger optimizer to adjust the SmoothL1Loss values. Secondly, it uses different channels to segment and classify different types of nucleus, ultimately completing the nuclei instance segmentation and classification task, and the nuclei component regression task simultaneously. Finally, we did extensive comparison experiments using eight segmentation models. By comparing the three evaluation metrics and the parameter sizes of the models, MGTUNet obtained 0.6254 on PQ, 0.6359 on mPQ, and 0.8695 on R2. Thus, the experiments demonstrated that MGTUNet is now a state-of-the-art method for quantifying histopathological images of colon cancer.
翻訳日:2022-10-21 15:44:41 公開日:2022-10-20
# 二重領域対向学習による赤外・可視画像融合

Infrared and visible image fusion via dual-domain adversarial learning ( http://arxiv.org/abs/2210.11018v1 )

ライセンス: Link先を確認
Xiaowen Liu, Renhua Wang, Hongtao Huo, Jing Li, Xin Yang(参考訳) ganベースの赤外線および可視画像融合法は、その有効性と優れているため、ますます注目を集めている。 しかし,既存の手法では,画像のグローバルな画素分布を識別の基盤として採用しており,重要なモダリティ情報に焦点をあてることができない。 さらに、両判別器に基づく手法は、判別器間の対立に苦しむ。 そこで本研究では,両領域対向型赤外線・可視画像融合法(D2AFGAN)を提案する。 本手法では,核融合性能を向上させるために2つの特異な識別戦略を考案する。 具体的には、空間注意モジュール(sam)を発電機に導入して空間注意マップを得るとともに、赤外線画像の識別を対象領域に集中させるために注意マップを利用する。 さらに,可視情報の識別範囲をウェーブレット部分空間に拡張することで,可視画像の高周波詳細を復元することができる。 アブレーション実験は,判別器間の対立を解消する手法の有効性を示す。 また,公開データセットの比較実験により,提案手法の有効性と優位性を示した。

The GAN-based infrared and visible image fusion methods have gained ever-increasing attention due to its effectiveness and superiority. However, the existing methods adopt the global pixel distribution of source images as the basis for discrimination, which fails to focus on the key modality information. Moreover, the dual-discriminator based methods suffer from the confrontation between the discriminators. To this end, we propose a dual-domain adversarial based infrared and visible image fusion method (D2AFGAN). In this method, two unique discrimination strategies are designed to improve the fusion performance. Specifically, we introduce the spatial attention modules (SAM) into the generator to obtain the spatial attention maps, and then the attention maps are utilized to force the discrimination of infrared images to focus on the target regions. In addition, we extend the discrimination range of visible information to the wavelet subspace, which can force the generator to restore the high-frequency details of visible images. Ablation experiments demonstrate the effectiveness of our method in eliminating the confrontation between discriminators. And the comparison experiments on public datasets demonstrate the effectiveness and superiority of the proposed method.
翻訳日:2022-10-21 15:44:18 公開日:2022-10-20
# スウィントランスを用いた軽量ネットワークを用いた単一画像超解像

Single Image Super-Resolution Using Lightweight Networks Based on Swin Transformer ( http://arxiv.org/abs/2210.11019v1 )

ライセンス: Link先を確認
Bolong Zhang and Juan Chen and Quan Wen(参考訳) 画像超解像再構成は画像処理技術において重要な課題であり、低解像度画像を高解像度で高画質画像に復元することができる。 近年,画像超解像再構成の分野ではディープラーニングが応用されている。 ディープニューラルネットワークの継続的な発展により、再構成画像の品質は大幅に向上したが、モデルの複雑さも増大した。 本稿では,Swin Transformerに基づくMSwinSRとUGSwinSRという2つの軽量モデルを提案する。 mswinsrの最も重要な構造はマルチサイズスウィントランスブロック(mstb)と呼ばれ、主に4つの並列マルチヘッドセルフアテンション(msa)ブロックを含んでいる。 UGSwinSRはU-NetとGANをSwin Transformerと組み合わせている。 どちらもモデルの複雑さを減らすことができるが、MSwinSRはより高い客観的な品質に到達でき、UGSwinSRは高い知覚的品質に達する。 実験の結果、MSwinSRは最先端のSwinIRと比較してPSNRを$\mathbf{0.07dB}$で増加させ、パラメータの数は$\mathbf{30.68\%}$で減少し、計算コストは$\mathbf{9.936\%}$で減少することを示した。 UGSwinSRはネットワークの計算量を効果的に削減し、SwinIRと比較して$\mathbf{90.92\%}$に削減することができる。

Image super-resolution reconstruction is an important task in the field of image processing technology, which can restore low resolution image to high quality image with high resolution. In recent years, deep learning has been applied in the field of image super-resolution reconstruction. With the continuous development of deep neural network, the quality of the reconstructed images has been greatly improved, but the model complexity has also been increased. In this paper, we propose two lightweight models named as MSwinSR and UGSwinSR based on Swin Transformer. The most important structure in MSwinSR is called Multi-size Swin Transformer Block (MSTB), which mainly contains four parallel multi-head self-attention (MSA) blocks. UGSwinSR combines U-Net and GAN with Swin Transformer. Both of them can reduce the model complexity, but MSwinSR can reach a higher objective quality, while UGSwinSR can reach a higher perceptual quality. The experimental results demonstrate that MSwinSR increases PSNR by $\mathbf{0.07dB}$ compared with the state-of-the-art model SwinIR, while the number of parameters can reduced by $\mathbf{30.68\%}$, and the calculation cost can reduced by $\mathbf{9.936\%}$. UGSwinSR can effectively reduce the amount of calculation of the network, which can reduced by $\mathbf{90.92\%}$ compared with SwinIR.
翻訳日:2022-10-21 15:44:01 公開日:2022-10-20
# DeepRing:LiDARを用いた位置認識のためのロト翻訳不変表現学習

DeepRING: Learning Roto-translation Invariant Representation for LiDAR based Place Recognition ( http://arxiv.org/abs/2210.11029v1 )

ライセンス: Link先を確認
Sha Lu, Xuecheng Xu, Li Tang, Rong Xiong and Yue Wang(参考訳) LiDARベースの位置認識はループ閉鎖検出と再局在に人気がある。 近年、ディープラーニングは、学習可能な特徴抽出による位置認識の改善をもたらしている。 しかし、ロボットが前の場所を大きな視点差で再訪すると、これらの方法は縮退する。 この課題に対処するために,LDARスキャンからroto-translation不変表現を学習するためにDeepRingを提案する。 deepringには2つのキーがある: 特徴はsinogramから抽出され、特徴はマグニチュードスペクトルで集約される。 2つのステップは、識別とロト翻訳不変性の両方で最終表現を保持する。 さらに,各場所がクラスである場合,位置認識をワンショット学習問題として記述し,関係学習を活用して表現類似性を構築する。 提案した各コンポーネントの有効性を検証し,特にデータセットレベルの一般化において,DeepRingが比較手法より優れていることを示す。

LiDAR based place recognition is popular for loop closure detection and re-localization. In recent years, deep learning brings improvements to place recognition by learnable feature extraction. However, these methods degenerate when the robot re-visits previous places with large perspective difference. To address the challenge, we propose DeepRING to learn the roto-translation invariant representation from LiDAR scan, so that robot visits the same place with different perspective can have similar representations. There are two keys in DeepRING: the feature is extracted from sinogram, and the feature is aggregated by magnitude spectrum. The two steps keeps the final representation with both discrimination and roto-translation invariance. Moreover, we state the place recognition as a one-shot learning problem with each place being a class, leveraging relation learning to build representation similarity. Substantial experiments are carried out on public datasets, validating the effectiveness of each proposed component, and showing that DeepRING outperforms the comparative methods, especially in dataset level generalization.
翻訳日:2022-10-21 15:43:33 公開日:2022-10-20
# びまん性グリオーマ患者の術前・術後脳MRIにおける無症状のロバスト画像登録

Robust Image Registration with Absent Correspondences in Pre-operative and Follow-up Brain MRI Scans of Diffuse Glioma Patients ( http://arxiv.org/abs/2210.11045v1 )

ライセンス: Link先を確認
Tony C. W. Mok and Albert C. S. Chung(参考訳) 腫瘍集団効果による腫瘍再発部位の組織像の多様さと対応性の欠如が原因で,術前および術後の脳MRI検査の登録が困難である。 近年の深層学習に基づく変形可能な登録手法は,様々な医療応用において大きな成功を収めているが,そのほとんどが病理画像の登録ができない。 本稿では,術前および術後の脳MRIスキャンのための3段階登録パイプラインを提案する。 1) 多水準アフィン登録 2)前方方向一貫性制約を持つ条件付きディープラプラシアピラミッド画像登録ネットワーク(clapirn)と, 3) 非線形インスタンス最適化手法。 本手法を脳腫瘍シーケンス登録(BraTS-Reg)チャレンジに適用する。 BraTS-Reg 課題の検証セットにおいて,脳MRI スキャンの正確かつ堅牢な病理検査を行い,平均絶対誤差 1.64 mm と 88% を達成している。

Registration of pre-operative and follow-up brain MRI scans is challenging due to the large variation of tissue appearance and missing correspondences in tumour recurrence regions caused by tumour mass effect. Although recent deep learning-based deformable registration methods have achieved remarkable success in various medical applications, most of them are not capable of registering images with pathologies. In this paper, we propose a 3-step registration pipeline for pre-operative and follow-up brain MRI scans that consists of 1) a multi-level affine registration, 2) a conditional deep Laplacian pyramid image registration network (cLapIRN) with forward-backward consistency constraint, and 3) a non-linear instance optimization method. We apply the method to the Brain Tumor Sequence Registration (BraTS-Reg) Challenge. Our method achieves accurate and robust registration of brain MRI scans with pathologies, which achieves a median absolute error of 1.64 mm and 88% of successful registration rate in the validation set of BraTS-Reg challenge.
翻訳日:2022-10-21 15:43:17 公開日:2022-10-20
# 逆画像信号処理とRAW再構成 AIM 2022 チャレンジレポート

Reversed Image Signal Processing and RAW Reconstruction. AIM 2022 Challenge Report ( http://arxiv.org/abs/2210.11153v1 )

ライセンス: Link先を確認
Marcos V. Conde, Radu Timofte, Yibin Huang, Jingyang Peng, Chang Chen, Cheng Li, Eduardo P\'erez-Pellitero, Fenglong Song, Furui Bai, Shuai Liu, Chaoyu Feng, Xiaotao Wang, Lei Lei, Yu Zhu, Chenghua Li, Yingying Jiang, Yong A, Peisong Wang, Cong Leng, Jian Cheng, Xiaoyu Liu, Zhicun Yin, Zhilu Zhang, Junyi Li, Ming Liu, Wangmeng Zuo, Jun Jiang, Jinha Kim, Yue Zhang, Beiji Zou, Zhikai Zong, Xiaoxiao Liu, Juan Mar\'in Vega, Michael Sloth, Peter Schneider-Kamp, Richard R\"ottger, Furkan K{\i}nl{\i}, Bar{\i}\c{s} \"Ozcan, Furkan K{\i}ra\c{c}, Li Leyi, SM Nadim Uddin, Dipon Kumar Ghosh, Yong Ju Jung(参考訳) カメラはセンサーRAW画像をキャプチャして、その統合されたイメージシグナルプロセッサ(ISP)を使用して、人間の目に適したRGB画像に変換する。 RAW領域(例えば、画像デノイング、ホワイトバランス)における多くの低レベル視覚タスクは、シーンの照度、12ビットでの幅広い情報、センサー設計との線形関係のために動作する。 それにもかかわらず、RAWイメージデータセットは、すでに大規模でパブリックなRGBデータセットよりも、収集が困難で高価である。 本稿では,AIM 2022 Challenge on Reversed Image Signal Processing and RAW Reconstructionを紹介する。 我々は,メタデータを使わずにRGBから生のセンサイメージを回収し,ISP変換を「逆」することを目的としている。 提案手法とベンチマークにより、この低レベルの視覚逆問題に対する最先端の手法が確立され、リアルな生のセンサー読み取りを生成することは、ノイズ除去や超高解像度化といった他のタスクに利益をもたらす可能性がある。

Cameras capture sensor RAW images and transform them into pleasant RGB images, suitable for the human eyes, using their integrated Image Signal Processor (ISP). Numerous low-level vision tasks operate in the RAW domain (e.g. image denoising, white balance) due to its linear relationship with the scene irradiance, wide-range of information at 12bits, and sensor designs. Despite this, RAW image datasets are scarce and more expensive to collect than the already large and public RGB datasets. This paper introduces the AIM 2022 Challenge on Reversed Image Signal Processing and RAW Reconstruction. We aim to recover raw sensor images from the corresponding RGBs without metadata and, by doing this, "reverse" the ISP transformation. The proposed methods and benchmark establish the state-of-the-art for this low-level vision inverse problem, and generating realistic raw sensor readings can potentially benefit other tasks such as denoising and super-resolution.
翻訳日:2022-10-21 15:43:00 公開日:2022-10-20
# バイナリと連続ラベルによる画像テキスト検索

Image-Text Retrieval with Binary and Continuous Label Supervision ( http://arxiv.org/abs/2210.11319v1 )

ライセンス: Link先を確認
Zheng Li, Caili Guo, Zerun Feng, Jenq-Neng Hwang, Ying Jin, Yufeng Zhang(参考訳) ほとんどの画像テキスト検索作業では、画像とテキストのペアが一致するかどうかを示すバイナリラベルを採用している。 このようなバイナリインジケータは、画像とテキストのセマンティックリレーションの限られたサブセットのみをカバーするが、画像キャプションのような連続ラベルによって記述される画像とテキストの関連度を表現できない。 二項ラベルを学習して得られる視覚的意味埋め込み空間は不整合であり、関連度を完全に特徴づけることができない。 本論文では,バイナリラベルの使用に加えて,連続的な擬似ラベル(キャプション間のテキスト類似度によって近似されることが多い)も取り入れて,関連度を示す。 そこで本研究では,二項ラベルと連続ラベル監督(bcls)を用いた画像テキスト検索フレームワークを提案する。二項ラベルを用いて,検索モデルに限定された二項相関を学習し,連続ラベルを画像テキスト意味関係の学習に補完する。 バイナリラベルの学習において,ソフトネガティブマイニング(Triplet-SN)による一般的なトリプルトランキングの損失を改善し,収束性を向上させる。 連続ラベルの学習のために,Kendallランク相関係数(Kendallランク相関係数)に着想を得たKendallランキングの損失を設計し,検索モデルと連続ラベルとの類似度スコアの相関性を改善する。 連続的な擬似ラベルがもたらすノイズを軽減するため、スライディングウィンドウサンプリングとハードサンプルマイニング戦略(SW-HS)をさらに設計し、ノイズの影響を緩和し、我々のフレームワークの複雑さを三重項ランキングの損失と同じ桁に減らした。 2つの画像テキスト検索ベンチマークに関する広範囲な実験により,本手法が最先端画像テキスト検索モデルの性能を向上させることを証明した。

Most image-text retrieval work adopts binary labels indicating whether a pair of image and text matches or not. Such a binary indicator covers only a limited subset of image-text semantic relations, which is insufficient to represent relevance degrees between images and texts described by continuous labels such as image captions. The visual-semantic embedding space obtained by learning binary labels is incoherent and cannot fully characterize the relevance degrees. In addition to the use of binary labels, this paper further incorporates continuous pseudo labels (generally approximated by text similarity between captions) to indicate the relevance degrees. To learn a coherent embedding space, we propose an image-text retrieval framework with Binary and Continuous Label Supervision (BCLS), where binary labels are used to guide the retrieval model to learn limited binary correlations, and continuous labels are complementary to the learning of image-text semantic relations. For the learning of binary labels, we improve the common Triplet ranking loss with Soft Negative mining (Triplet-SN) to improve convergence. For the learning of continuous labels, we design Kendall ranking loss inspired by Kendall rank correlation coefficient (Kendall), which improves the correlation between the similarity scores predicted by the retrieval model and the continuous labels. To mitigate the noise introduced by the continuous pseudo labels, we further design Sliding Window sampling and Hard Sample mining strategy (SW-HS) to alleviate the impact of noise and reduce the complexity of our framework to the same order of magnitude as the triplet ranking loss. Extensive experiments on two image-text retrieval benchmarks demonstrate that our method can improve the performance of state-of-the-art image-text retrieval models.
翻訳日:2022-10-21 15:42:43 公開日:2022-10-20
# 等尺近似定理によるハード負マイニングの数学的正当化

Mathematical Justification of Hard Negative Mining via Isometric Approximation Theorem ( http://arxiv.org/abs/2210.11173v1 )

ライセンス: Link先を確認
Albert Xu, Jhih-Yi Hsieh, Bhaskar Vundurthy, Eliana Cohen, Howie Choset, Lu Li(参考訳) ディープメトリック学習において、三重項損失は、顔認識、物体検出、視覚認識埋め込みなど、多くのコンピュータビジョンや自然言語処理タスクを学ぶ一般的な方法として現れてきた。 三重項損失を悩ませる問題の一つがネットワーク崩壊である。これは望ましくない現象であり、ネットワークがすべてのデータを一つの点に投影する。 研究者はトリプルトマイニング戦略を用いてこの問題を優先的に解決する。 強硬な負の採掘はこれらの戦略の中で最も効果的であるが、既存の定式化は経験的成功に対して強い理論上の正当化を欠いている。 本稿では,重負マイニングによってサンプリングされた三重項損失と,ニューラルネットワークと理想関数との間のハウスドルフ的距離を最小化する最適化問題との等価性を示すために等尺近似の数学的理論を用いる。 これは、強陰性鉱業の実証的な有効性の理論的な正当化を与える。 さらに, 等尺近似定理の新たな応用により, ネットワーク崩壊を回避した将来の強負鉱業の基盤となる。 この理論は、ラダーロスやコントラスト学習といった他のユークリッド空間に基づく計量学習法を分析するために拡張することもできる。

In deep metric learning, the Triplet Loss has emerged as a popular method to learn many computer vision and natural language processing tasks such as facial recognition, object detection, and visual-semantic embeddings. One issue that plagues the Triplet Loss is network collapse, an undesirable phenomenon where the network projects the embeddings of all data onto a single point. Researchers predominately solve this problem by using triplet mining strategies. While hard negative mining is the most effective of these strategies, existing formulations lack strong theoretical justification for their empirical success. In this paper, we utilize the mathematical theory of isometric approximation to show an equivalence between the Triplet Loss sampled by hard negative mining and an optimization problem that minimizes a Hausdorff-like distance between the neural network and its ideal counterpart function. This provides the theoretical justifications for hard negative mining's empirical efficacy. In addition, our novel application of the isometric approximation theorem provides the groundwork for future forms of hard negative mining that avoid network collapse. Our theory can also be extended to analyze other Euclidean space-based metric learning methods like Ladder Loss or Contrastive Learning.
翻訳日:2022-10-21 15:36:15 公開日:2022-10-20
# 鏡下逆強化学習によるロバスト模倣

Robust Imitation via Mirror Descent Inverse Reinforcement Learning ( http://arxiv.org/abs/2210.11201v1 )

ライセンス: Link先を確認
Dong-Sig Han, Hyunseo Kim, Hyundo Lee, Je-Hwan Ryu, Byoung-Tak Zhang(参考訳) 近年,逆強化学習(IRL)問題に対して,逆模倣学習はスケーラブルな報酬獲得手法を示している。 しかし,既存の手法では厳密な最適化問題を直接解く傾向があるため,推定報酬信号は不確実となり,信頼性の高い統計モデルの訓練に失敗することが多い。 ミラー降下と呼ばれる一階最適化法に着想を得て,制約凸問題に対する反復解である報酬関数の列を予測することを提案する。 ミラー降下によるirl解は,局所的な幾何学的制約により報酬学習量が規制されるため,目標密度推定によって生じる不確実性に耐性がある。 提案したミラー降下更新規則は,ステップサイズが$\{\eta_t\}_{t=1}^{T}$に対して,厳密な後悔境界が$\mathcal{O}(1/T)$であることから,ブレグマン発散の堅牢な最小化を保証する。 提案手法は,既存手法よりも幅広いベンチマーク群において,既存手法よりも優れていた。

Recently, adversarial imitation learning has shown a scalable reward acquisition method for inverse reinforcement learning (IRL) problems. However, estimated reward signals often become uncertain and fail to train a reliable statistical model since the existing methods tend to solve hard optimization problems directly. Inspired by a first-order optimization method called mirror descent, this paper proposes to predict a sequence of reward functions, which are iterative solutions for a constrained convex problem. IRL solutions derived by mirror descent are tolerant to the uncertainty incurred by target density estimation since the amount of reward learning is regulated with respect to local geometric constraints. We prove that the proposed mirror descent update rule ensures robust minimization of a Bregman divergence in terms of a rigorous regret bound of $\mathcal{O}(1/T)$ for step sizes $\{\eta_t\}_{t=1}^{T}$. Our IRL method was applied on top of an adversarial framework, and it outperformed existing adversarial methods in an extensive suite of benchmarks.
翻訳日:2022-10-21 15:35:52 公開日:2022-10-20
# スロット変換器による推論タスクの解法

Solving Reasoning Tasks with a Slot Transformer ( http://arxiv.org/abs/2210.11394v1 )

ライセンス: Link先を確認
Ryan Faulkner, Daniel Zoran(参考訳) 時間と空間を推論するために世界を有用な抽象化に彫る能力は、知性の重要な構成要素である。 感覚を利用して効果的に知覚し、行動するためには、より下流の推論を行うために大量の情報を解析し、圧縮しなければなりません。 実世界のシーンや時間的ダイナミクスを扱うために表現学習手法をスケールしたいという希望があれば、時間をかけて正確で簡潔で構成可能な抽象化を学ぶ方法がある必要があります。 本稿では,スロットアテンション,トランスフォーマー,および映像データに対する反復的変動推論を利用してそのような表現を推論するアーキテクチャであるSlot Transformerを提案する。 clevrer, kinetics-600 および cater dateets のスロットトランスフォーマーを評価し,このアプローチにより,複雑な振る舞いに関する堅牢なモデリングと推論,および既存のベースラインと比較可能なこれらのデータセットのスコアの開発が可能になることを実証する。 最後に、アーキテクチャの重要なコンポーネントの有効性、モデルの表現能力、不完全な入力から予測する能力を評価する。

The ability to carve the world into useful abstractions in order to reason about time and space is a crucial component of intelligence. In order to successfully perceive and act effectively using senses we must parse and compress large amounts of information for further downstream reasoning to take place, allowing increasingly complex concepts to emerge. If there is any hope to scale representation learning methods to work with real world scenes and temporal dynamics then there must be a way to learn accurate, concise, and composable abstractions across time. We present the Slot Transformer, an architecture that leverages slot attention, transformers and iterative variational inference on video scene data to infer such representations. We evaluate the Slot Transformer on CLEVRER, Kinetics-600 and CATER datesets and demonstrate that the approach allows us to develop robust modeling and reasoning around complex behaviours as well as scores on these datasets that compare favourably to existing baselines. Finally we evaluate the effectiveness of key components of the architecture, the model's representational capacity and its ability to predict from incomplete input.
翻訳日:2022-10-21 15:35:22 公開日:2022-10-20
# ロボットと社会人工知能の文脈における子どもの行動のモデル化から理解へ

From Modelling to Understanding Children's Behaviour in the Context of Robotics and Social Artificial Intelligence ( http://arxiv.org/abs/2210.11161v1 )

ライセンス: Link先を確認
Serge Thill and Vicky Charisi and Tony Belpaeme and Ana Paiva(参考訳) 子どもの認知過程とその行動の理解とモデル化は、ロボットと社会的な人工知能システムとの相互作用の文脈において、有意義で効果的なロボット介入のための基本的な前提条件である。 しかし、子供の発達には、モデル化が難しい探索、創造性、好奇心といった複雑な要素が伴う。 また、子供はしばしば、典型的な大人の行動とは異なる遊び心のある方法で表現する。 異なる子供にも異なるニーズがあり、現在の芸術の状況では、神経多様性の子供の子どもが過小評価されているという課題が残されている。 本ワークショップでは,発達科学,人工知能,社会ロボティクスなど様々な分野の共通基盤を促進し,子どものためのユーザモデリングと適応システムの分野での最先端研究について論じる。

Understanding and modelling children's cognitive processes and their behaviour in the context of their interaction with robots and social artificial intelligence systems is a fundamental prerequisite for meaningful and effective robot interventions. However, children's development involve complex faculties such as exploration, creativity and curiosity which are challenging to model. Also, often children express themselves in a playful way which is different from a typical adult behaviour. Different children also have different needs, and it remains a challenge in the current state of the art that those of neurodiverse children are under-addressed. With this workshop, we aim to promote a common ground among different disciplines such as developmental sciences, artificial intelligence and social robotics and discuss cutting-edge research in the area of user modelling and adaptive systems for children.
翻訳日:2022-10-21 15:34:37 公開日:2022-10-20
# RMBench:ロボットマニピュレータ制御のための深部強化学習ベンチマーク

RMBench: Benchmarking Deep Reinforcement Learning for Robotic Manipulator Control ( http://arxiv.org/abs/2210.11262v1 )

ライセンス: Link先を確認
Yanfei Xiang, Xin Wang, Shu Hu, Bin Zhu, Xiaomeng Huang, Xi Wu, Siwei Lyu(参考訳) 強化学習は、高次元の感覚入力から実際の複雑なタスクを解決するために用いられる。 過去10年間、強化学習アルゴリズムの長いリストが開発された。 生の知覚信号表現における深層学習の最近の進歩 ロボット操作のさまざまなタスクに対して、どの程度うまく機能するのか? ベンチマークは客観的パフォーマンスメトリクスを使用して、アルゴリズムを比較する科学的方法を提供する。 本稿では,ロボット操作のための最初のベンチマークであるRMBenchについて述べる。 観測画素を直接入力として使用する強化学習アルゴリズムを実装し,評価する。 平均的な成績と学習曲線を報告し,トレーニングのパフォーマンスと安定性を示す。 我々の研究は、研究対象のアルゴリズムはどれも全てのタスクをうまく処理することができず、ソフトアクター・クリティカルは平均的な報酬と安定性でほとんどのアルゴリズムより優れており、データ拡張と組み合わせたアルゴリズムは学習ポリシーを促進する可能性があると結論付けている。 私たちのコードはhttps://anonymous.4open.science/r/RMBench-2022-3424で公開されています。

Reinforcement learning is applied to solve actual complex tasks from high-dimensional, sensory inputs. The last decade has developed a long list of reinforcement learning algorithms. Recent progress benefits from deep learning for raw sensory signal representation. One question naturally arises: how well do they perform concerning different robotic manipulation tasks? Benchmarks use objective performance metrics to offer a scientific way to compare algorithms. In this paper, we present RMBench, the first benchmark for robotic manipulations, which have high-dimensional continuous action and state spaces. We implement and evaluate reinforcement learning algorithms that directly use observed pixels as inputs. We report their average performance and learning curves to show their performance and stability of training. Our study concludes that none of the studied algorithms can handle all tasks well, soft Actor-Critic outperforms most algorithms in average reward and stability, and an algorithm combined with data augmentation may facilitate learning policies. Our code is publicly available at https://anonymous.4open.science/r/RMBench-2022-3424, including all benchmark tasks and studied algorithms.
翻訳日:2022-10-21 15:34:25 公開日:2022-10-20
# 環境負荷に対する車載インタフェースの適応

In-Vehicle Interface Adaptation to Environment-Induced Cognitive Workload ( http://arxiv.org/abs/2210.11271v1 )

ライセンス: Link先を確認
Elena Meiser, Alexandra Alles, Samuel Selter, Marco Molz, Amr Gomaa, Guillermo Reyes(参考訳) 多くの自動車事故は人間の気晴らしによって引き起こされる。 車両内ヒューマンマシンインタフェース(HMI)は長年にわたって進化し、ますます多くの機能を提供している。 しかし、HMIとの相互作用は、さらに注意をそらし、結果として事故を引き起こす可能性がある。 この問題に対処するために,ドライバの精神的負荷に応じて変化する適応的HMIを提案する。 そこで本研究では,1つのインタフェースの効果を理解しようとする運転中(すなわちプライマリタスク)において,自然主義的な二次タスクを用いたユーザ調査の状況と予備結果を提示する。

Many car accidents are caused by human distractions, including cognitive distractions. In-vehicle human-machine interfaces (HMIs) have evolved throughout the years, providing more and more functions. Interaction with the HMIs can, however, also lead to further distractions and, as a consequence, accidents. To tackle this problem, we propose using adaptive HMIs that change according to the mental workload of the driver. In this work, we present the current status as well as preliminary results of a user study using naturalistic secondary tasks while driving (i.e., the primary task) that attempt to understand the effects of one such interface.
翻訳日:2022-10-21 15:34:10 公開日:2022-10-20
# 多目的QUBO解法における拡張手法の検討

A Study of Scalarisation Techniques for Multi-Objective QUBO Solving ( http://arxiv.org/abs/2210.11321v1 )

ライセンス: Link先を確認
Mayowa Ayodele, Richard Allmendinger, Manuel L\'opez-Ib\'a\~nez, Matthieu Parizy(参考訳) 近年,二次的非拘束バイナリ最適化 (QUBO) 問題の解決に対する研究の関心が高まっている。 物理に着想を得た最適化アルゴリズムがQUBOの最適解や準最適解の導出のために提案されている。 これらの手法は、最適化問題を解決するために量子コンピュータ、アプリケーション固有のCMOS、その他の高性能コンピューティングリソースなどの特別なハードウェアを使用するコンテキストにおいて特に魅力的である。 これらの解法は組合せ最適化問題のQUBO定式化に適用される。 量子および量子に着想を得た最適化アルゴリズムは、学術ベンチマークや実世界の問題に適用した場合に有望な性能を示す。 しかし、QUBOソルバは単目的ソルバである。 複数の目的を持つ問題解決をより効率的に行うためには、このような多目的問題を単一目的問題に変換する方法を決定する必要がある。 本研究では,濃度制約付き平均分散ポートフォリオ最適化問題の2つの目的を1つに組み合わせる際に,スカラー化重みを導出する手法を比較する。 一様生成重みを用いたn\"aiveアプローチと比較して,パレートフロントの最大空間を反復的に満たす手法を用いた場合,性能改善(ハイパーボリュームによる測定)が顕著である。

In recent years, there has been significant research interest in solving Quadratic Unconstrained Binary Optimisation (QUBO) problems. Physics-inspired optimisation algorithms have been proposed for deriving optimal or sub-optimal solutions to QUBOs. These methods are particularly attractive within the context of using specialised hardware, such as quantum computers, application specific CMOS and other high performance computing resources for solving optimisation problems. These solvers are then applied to QUBO formulations of combinatorial optimisation problems. Quantum and quantum-inspired optimisation algorithms have shown promising performance when applied to academic benchmarks as well as real-world problems. However, QUBO solvers are single objective solvers. To make them more efficient at solving problems with multiple objectives, a decision on how to convert such multi-objective problems to single-objective problems need to be made. In this study, we compare methods of deriving scalarisation weights when combining two objectives of the cardinality constrained mean-variance portfolio optimisation problem into one. We show significant performance improvement (measured in terms of hypervolume) when using a method that iteratively fills the largest space in the Pareto front compared to a n\"aive approach using uniformly generated weights.
翻訳日:2022-10-21 15:34:01 公開日:2022-10-20
# グラフ注意の因果誘導正規化による一般化性の向上

Causally-guided Regularization of Graph Attention Improves Generalizability ( http://arxiv.org/abs/2210.10946v1 )

ライセンス: Link先を確認
Alexander P. Wu, Thomas Markovich, Bonnie Berger, Nils Hammerla, Rohit Singh(参考訳) しかし、推定された注意は、トレーニングデータの急激な相関や接続に弱いため、モデルの一般化を妨げている。 グラフアテンションネットワークのための汎用正規化フレームワークであるcarを紹介する。 因果推論アプローチを具現化し、グラフ接続性に対するアクティブな介入による因果効果と、スケーラブルな方法でアテンションメカニズムを整合させる。 CARは様々なグラフアテンションアーキテクチャと互換性があり、様々なノード分類タスクの一般化性を体系的に改善することを示す。 我々のアブレーション研究によれば、\methodname は予測(例えばホモフィア)に最も関連するグラフ構造の側面を基礎としており、他のアプローチよりも効果的である。 最後に,carは,因果仮説を示すノード間関係を強調することで注意重みの解釈性を高めることを示した。 ソーシャルメディアのネットワークサイズグラフでは,カーガイドグラフリワイリングアプローチによって,グラフ畳み込み手法のスケーラビリティとグラフ注目度の向上を両立させることができる。

However, the inferred attentions are vulnerable to spurious correlations and connectivity in the training data, hampering the generalizability of the model. We introduce CAR, a general-purpose regularization framework for graph attention networks. Embodying a causal inference approach, \methodname aligns the attention mechanism with the causal effects of active interventions on graph connectivity in a scalable manner. CAR is compatible with a variety of graph attention architectures, and we show that it systematically improves generalizability on various node classification tasks. Our ablation studies indicate that \methodname hones in on the aspects of graph structure most pertinent to the prediction (e.g., homophily), and does so more effectively than alternative approaches. Finally, we also show that CAR enhances interpretability of attention weights by accentuating node-neighbor relations that point to causal hypotheses. For social media network-sized graphs, a CAR-guided graph rewiring approach could allow us to combine the scalability of graph convolutional methods with the higher performance of graph attention.
翻訳日:2022-10-21 15:26:32 公開日:2022-10-20
# 非定常ヘテロセダス的ガウス過程による能動学習の不確かさの解消

Uncertainty Disentanglement with Non-stationary Heteroscedastic Gaussian Processes for Active Learning ( http://arxiv.org/abs/2210.10964v1 )

ライセンス: Link先を確認
Zeel B Patel, Nipun Batra, Kevin Murphy(参考訳) ガウス過程は、多くの領域で使用されるベイズ非パラメトリックモデルである。 本研究では,勾配に基づく手法で学習可能な非定常ヘテロセダス的ガウス過程モデルを提案する。 提案モデルの解釈性は,全体の不確実性(既約)と認識的不確実性(モデル)を分離することで証明する。 アクティブラーニング問題に対する認識的不確かさの導出の有用性について述べる。 モデルの有効性を,複数のデータセットで検証した。

Gaussian processes are Bayesian non-parametric models used in many areas. In this work, we propose a Non-stationary Heteroscedastic Gaussian process model which can be learned with gradient-based techniques. We demonstrate the interpretability of the proposed model by separating the overall uncertainty into aleatoric (irreducible) and epistemic (model) uncertainty. We illustrate the usability of derived epistemic uncertainty on active learning problems. We demonstrate the efficacy of our model with various ablations on multiple datasets.
翻訳日:2022-10-21 15:26:11 公開日:2022-10-20
# スケーラブルベイズ変換ガウス過程

Scalable Bayesian Transformed Gaussian Processes ( http://arxiv.org/abs/2210.10973v1 )

ライセンス: Link先を確認
Xinran Zhu, Leo Huang, Cameron Ibrahim, Eric Hans Lee, David Bindel(参考訳) ケデムとオリヴィエラによって提唱されたベイジアン変換ガウス過程(btg)モデルは、wgp(warped gaussian process)と完全にベイジアンであり、入力ウォーピングとカーネルハイパーパラメータよりも前のジョイントを辺限化する。 このハイパパラメータのベイズ的処理は、しばしばより正確な回帰推定と優れた不確実性伝播を提供するが、違法に高価である。 高次元積分により推定されるBTG後続予測分布は、モデル予測を行うために反転しなければならない。 ベイジアンアプローチを実用的かつ高速に最大自由度推定(MLE)に匹敵するものにするため,BTGを用いた計算の原理的かつ高速な手法を提案する。 我々のフレームワークは、高速モデル予測とモデル選択の両方を可能にするために、二重スパース二次規則、厳密な量子境界、ランク1行列代数を使用する。 これらのスケーラブルな手法により、高次元のデータセットに回帰し、その表現性を大幅に向上する層変換を伴うBTGを適用することができる。 BTGはMLEモデルよりも優れた経験的性能を示す。

The Bayesian transformed Gaussian process (BTG) model, proposed by Kedem and Oliviera, is a fully Bayesian counterpart to the warped Gaussian process (WGP) and marginalizes out a joint prior over input warping and kernel hyperparameters. This fully Bayesian treatment of hyperparameters often provides more accurate regression estimates and superior uncertainty propagation, but is prohibitively expensive. The BTG posterior predictive distribution, itself estimated through high-dimensional integration, must be inverted in order to perform model prediction. To make the Bayesian approach practical and comparable in speed to maximum-likelihood estimation (MLE), we propose principled and fast techniques for computing with BTG. Our framework uses doubly sparse quadrature rules, tight quantile bounds, and rank-one matrix algebra to enable both fast model prediction and model selection. These scalable methods allow us to regress over higher-dimensional datasets and apply BTG with layered transformations that greatly improve its expressibility. We demonstrate that BTG achieves superior empirical performance over MLE-based models.
翻訳日:2022-10-21 15:26:01 公開日:2022-10-20
# 部分モジュラ関数のニューラル推定と微分可能部分集合選択への応用

Neural Estimation of Submodular Functions with Applications to Differentiable Subset Selection ( http://arxiv.org/abs/2210.11033v1 )

ライセンス: Link先を確認
Abir De and Soumen Chakrabarti(参考訳) 多様性とカバレッジを特徴付ける機能を通じて、サブモジュラー機能と変種が、データ選択と要約の重要なツールとして登場した。 部分モジュラ函数を学習する最近の多くのアプローチは、表現力に制限がある。 本稿では,単調と非単調の両方のサブモジュラー関数に対するフレキシブルニューラルモデルのファミリーであるflexsubnetを提案する。 FLEXSUBNET は (集合, 値) 観測から潜在部分モジュラ函数に適合するため、再帰的にモジュラ函数に凹函数を適用する。 制限されたファミリーから凹凸関数を描くのではなく、微分可能な二次手順を実装する高度に表現力のあるニューラルネットワークを用いてデータから学習する。 このような凹函数の表現的ニューラルモデルは独立した関心事であるかもしれない。 次に、この設定を拡張して、最近導入された近似部分モジュラ函数の概念である単調 \alpha-submodular function の新たな特徴を与える。 次に、この特徴付けを用いて、このような機能のための新しいニューラルモデルを設計する。 最後に, (perimeter-set, high-value-subset) ペアの形で遠隔監督下でのサブモジュラー集合関数の学習について検討する。 これにより、上述の神経集合関数の周りに構築された順序不変だが欲張りなスプリマーに基づく新しい部分集合選択法が得られる。 合成および実データを用いた実験により,FLEXSUBNETはいくつかのベースラインを上回る性能を示した。

Submodular functions and variants, through their ability to characterize diversity and coverage, have emerged as a key tool for data selection and summarization. Many recent approaches to learn submodular functions suffer from limited expressiveness. In this work, we propose FLEXSUBNET, a family of flexible neural models for both monotone and non-monotone submodular functions. To fit a latent submodular function from (set, value) observations, FLEXSUBNET applies a concave function on modular functions in a recursive manner. We do not draw the concave function from a restricted family, but rather learn from data using a highly expressive neural network that implements a differentiable quadrature procedure. Such an expressive neural model for concave functions may be of independent interest. Next, we extend this setup to provide a novel characterization of monotone \alpha-submodular functions, a recently introduced notion of approximate submodular functions. We then use this characterization to design a novel neural model for such functions. Finally, we consider learning submodular set functions under distant supervision in the form of (perimeter-set, high-value-subset) pairs. This yields a novel subset selection method based on an order-invariant, yet greedy sampler built around the above neural set functions. Our experiments on synthetic and real data show that FLEXSUBNET outperforms several baselines.
翻訳日:2022-10-21 15:25:36 公開日:2022-10-20
# 非IIDシナリオにおける分散水平・垂直連立学習アーキテクチャのロバスト性の解析

Analyzing the Robustness of Decentralized Horizontal and Vertical Federated Learning Architectures in a Non-IID Scenario ( http://arxiv.org/abs/2210.11061v1 )

ライセンス: Link先を確認
Pedro Miguel S\'anchez S\'anchez, Alberto Huertas Celdr\'an, Enrique Tom\'as Mart\'inez Beltr\'an, Daniel Demeter, G\'er\^ome Bovet, Gregorio Mart\'inez P\'erez, Burkhard Stiller(参考訳) フェデレートラーニング(FL)は、参加者がデータのプライバシを保護しながら、機械学習モデルとディープラーニングモデルの協調トレーニングを可能にする。 しかし、FLパラダイムは、悪意のある参加者がトレーニングプロセスに対する敵の攻撃を開始する可能性があるため、信頼性に影響を及ぼす欠点をまだ示している。 関連する研究は、異なる攻撃下で水平flシナリオのロバスト性を研究している。 しかし、分散垂直flのロバスト性を評価し、敵の攻撃によって影響を受ける水平flアーキテクチャと比較する作業が不足している。 そこで本研究では,水平シナリオと垂直シナリオ,すなわちHoriChain,VertiChain,VertiCombの3つの分散FLアーキテクチャを提案する。 これらのアーキテクチャは、水平および垂直のシナリオに適した異なるニューラルネットワークとトレーニングプロトコルを提供する。 次に、非IIDデータによる分散化、プライバシ保存、フェデレートされたユースケースを配置して手書き桁を分類し、3つのアーキテクチャの性能を評価する。 最後に、一連の実験は、画像ウォーターマークと勾配中毒攻撃に基づいて異なるデータ中毒に影響を受ける場合、提案されたアーキテクチャのロバスト性を計算し比較する。 実験によると、両方の攻撃の特定の構成がアーキテクチャの分類性能を損なう可能性があるにもかかわらず、HoriChainが最も堅牢である。

Federated learning (FL) allows participants to collaboratively train machine and deep learning models while protecting data privacy. However, the FL paradigm still presents drawbacks affecting its trustworthiness since malicious participants could launch adversarial attacks against the training process. Related work has studied the robustness of horizontal FL scenarios under different attacks. However, there is a lack of work evaluating the robustness of decentralized vertical FL and comparing it with horizontal FL architectures affected by adversarial attacks. Thus, this work proposes three decentralized FL architectures, one for horizontal and two for vertical scenarios, namely HoriChain, VertiChain, and VertiComb. These architectures present different neural networks and training protocols suitable for horizontal and vertical scenarios. Then, a decentralized, privacy-preserving, and federated use case with non-IID data to classify handwritten digits is deployed to evaluate the performance of the three architectures. Finally, a set of experiments computes and compares the robustness of the proposed architectures when they are affected by different data poisoning based on image watermarks and gradient poisoning adversarial attacks. The experiments show that even though particular configurations of both attacks can destroy the classification performance of the architectures, HoriChain is the most robust one.
翻訳日:2022-10-21 15:25:16 公開日:2022-10-20
# 凍結学習 : 純粋相関と特徴雑音下での予測表現学習を目指して

Freeze then Train: Towards Provable Representation Learning under Spurious Correlations and Feature Noise ( http://arxiv.org/abs/2210.11075v1 )

ライセンス: Link先を確認
Haotian Ye, James Zou, Linjun Zhang(参考訳) 訓練環境における画像背景などの素早い相関関係の存在は、試験環境において経験的リスク最小化(ERM)を著しく向上させる。 この問題に対処するため、Kirichenkoら (2022) は、結果に因果関係のある中核的な特徴は、たとえ素早い相関が存在するとしても、十分に学習可能であることを実証的に見出した。 これにより、最初に分類器ではなく機能学習者を訓練し、テスト環境で線形プローブ(最終層再トレーニング)を実行する、有望な戦略が開かれる。 しかし、いつ、なぜこのアプローチが機能するのかを理論的に理解できない。 本稿では,コア機能はスプリアス機能よりもノイズが少ない場合にのみ十分に学習できることを見出し,実際には必ずしもそうではない。 我々はこの発見を支援し、特徴雑音の重要性を説明するため、理論と実験の両方を提供する。 さらに,まず特定の有能な特徴を凍結し,残りの特徴をEMMを用いて訓練する,Freeze then Train (FTT) というアルゴリズムを提案する。 理論的には、FTTはテスト時間探索に有利な特徴を保存している。 2つの一般的な実世界のベンチマークで、FTTはEMM、JTT、CVaR-DROより優れており、特にノイズが大きい場合には精度が4.8%向上している。

The existence of spurious correlations such as image backgrounds in the training environment can make empirical risk minimization (ERM) perform badly in the test environment. To address this problem, Kirichenko et al. (2022) empirically found that the core features that are causally related to the outcome can still be learned well even with the presence of spurious correlations. This opens a promising strategy to first train a feature learner rather than a classifier, and then perform linear probing (last layer retraining) in the test environment. However, a theoretical understanding of when and why this approach works is lacking. In this paper, we find that core features are only learned well when they are less noisy than spurious features, which is not necessarily true in practice. We provide both theories and experiments to support this finding and to illustrate the importance of feature noise. Moreover, we propose an algorithm called Freeze then Train (FTT), that first freezes certain salient features and then trains the rest of the features using ERM. We theoretically show that FTT preserves features that are more beneficial to test time probing. Across two commonly used real-world benchmarks, FTT outperforms ERM, JTT and CVaR-DRO, with especially substantial improvement in accuracy (by 4.8%) when the feature noise is large.
翻訳日:2022-10-21 15:24:55 公開日:2022-10-20
# 都市・制御環境農業におけるコンピュータビジョン技術に関する調査

A Survey of Computer Vision Technologies In Urban and Controlled-environment Agriculture ( http://arxiv.org/abs/2210.11318v1 )

ライセンス: Link先を確認
Jiayun Luo, Boyang Li, Cyril Leung(参考訳) 農業の次の段階である5.0への進化において、人工知能は中心的な役割を果たす。 制御環境農業(英語: Controled-Environment Agricultural, CEA)は、人口集中部への輸送ルートの短縮、環境への影響の低減、生産性の向上など、多くの経済的、環境的、社会的利益を提供する、都市および郊外の農業の特殊な形態である。 環境要因を制御できるため、CEAは植物環境のリアルタイムモニタリングや自律栽培、収穫の実施においてコンピュータビジョン(CV)とうまく連携する。 本研究の目的は,CV研究者を農業従事者と農業従事者とに親しませることである。 CEAにおける5つの主要なCVアプリケーションを特定し、その要件とモチベーションを分析し、深層学習手法を用いて68の技術的論文に反映された技術状況を調査した。 さらに,コンピュータビジョンの5つの重要なサブエリアと,これらcea問題との関連性,および9つのビジョンに基づくceaデータセットについて論じる。 今回の調査は、研究領域の鳥眼ビューを素早く取得し、新たな研究と開発に刺激を与えることを期待しています。

In the evolution of agriculture to its next stage, Agriculture 5.0, artificial intelligence will play a central role. Controlled-environment agriculture, or CEA, is a special form of urban and suburban agricultural practice that offers numerous economic, environmental, and social benefits, including shorter transportation routes to population centers, reduced environmental impact, and increased productivity. Due to its ability to control environmental factors, CEA couples well with computer vision (CV) in the adoption of real-time monitoring of the plant conditions and autonomous cultivation and harvesting. The objective of this paper is to familiarize CV researchers with agricultural applications and agricultural practitioners with the solutions offered by CV. We identify five major CV applications in CEA, analyze their requirements and motivation, and survey the state of the art as reflected in 68 technical papers using deep learning methods. In addition, we discuss five key subareas of computer vision and how they related to these CEA problems, as well as nine vision-based CEA datasets. We hope the survey will help researchers quickly gain a bird-eye view of the striving research area and will spark inspiration for new research and development.
翻訳日:2022-10-21 15:19:06 公開日:2022-10-20
# 変圧器を用いた2手操作物体シナリオのグローバル3次元ハンドポース推定

Transformer-based Global 3D Hand Pose Estimation in Two Hands Manipulating Objects Scenarios ( http://arxiv.org/abs/2210.11384v1 )

ライセンス: Link先を確認
Hoseong Cho, Donguk Kim, Chanwoo Kim, Seongyeong Lee and Seungryul Baek(参考訳) 本報告では,エゴセントリックカメラとマルチビューカメラによるECCV 2022による人体・手・活動(HBHA)問題に対する第1位ソリューションについて述べる。 この課題では,2つの手と物体が相互作用している入力画像から,世界的3次元手ポーズを推定することを目的としている。 提案手法はトランスフォーマーアーキテクチャを用いてエンドツーエンドのマルチハンドポーズ推定を行う。 特に,本手法は両手が相互作用するシナリオにおいて手ポーズを強く推定する。 また, 絶対深度を頑健に推定するために, ハンドスケールを考慮したアルゴリズムを提案する。 提案アルゴリズムは,手の大きさがそれぞれ異なる場合にも有効である。 テストセットの各手に対して14.4mm (左) と15.9mm (右) の誤差を発生させる。

This report describes our 1st place solution to ECCV 2022 challenge on Human Body, Hands, and Activities (HBHA) from Egocentric and Multi-view Cameras (hand pose estimation). In this challenge, we aim to estimate global 3D hand poses from the input image where two hands and an object are interacting on the egocentric viewpoint. Our proposed method performs end-to-end multi-hand pose estimation via transformer architecture. In particular, our method robustly estimates hand poses in a scenario where two hands interact. Additionally, we propose an algorithm that considers hand scales to robustly estimate the absolute depth. The proposed algorithm works well even when the hand sizes are various for each person. Our method attains 14.4 mm (left) and 15.9 mm (right) errors for each hand in the test set.
翻訳日:2022-10-21 15:18:42 公開日:2022-10-20
# ハンドオブジェクトインタラクションシナリオにおけるトランスフォーマティブ動作認識

Transformer-based Action recognition in hand-object interacting scenarios ( http://arxiv.org/abs/2210.11387v1 )

ライセンス: Link先を確認
Hoseong Cho and Seungryul Baek(参考訳) 本報告では,Egocentric and Multi-view Cameras Challenge: Action RecognitionによるECCV 2022 Human Body, Hands, and Activity (HBHA)の2番目のソリューションについて述べる。 この課題は、自我中心の視点で手動の相互作用を認識することである。 本稿では,2つの手と物体のキーポイントを推定し,推定したキーポイントに基づいて動作を認識するフレームワークを提案する。 テストセットでトップ1の精度87.19%を達成した。

This report describes the 2nd place solution to the ECCV 2022 Human Body, Hands, and Activities (HBHA) from Egocentric and Multi-view Cameras Challenge: Action Recognition. This challenge aims to recognize hand-object interaction in an egocentric view. We propose a framework that estimates keypoints of two hands and an object with a Transformer-based keypoint estimator and recognizes actions based on the estimated keypoints. We achieved a top-1 accuracy of 87.19% on the testset.
翻訳日:2022-10-21 15:18:29 公開日:2022-10-20
# 歯科用パノラマx線写真におけるマスキング画像モデルを用いた自己教師あり学習

Self-Supervised Learning with Masked Image Modeling for Teeth Numbering, Detection of Dental Restorations, and Instance Segmentation in Dental Panoramic Radiographs ( http://arxiv.org/abs/2210.11404v1 )

ライセンス: Link先を確認
Amani Almalki and Longin Jan Latecki(参考訳) コンピュータ支援放射線情報報告は, 歯科治療の促進と手指パノラマx線撮影における時間消費の低減を目的として現在, 歯科診療で行われている。 しかし,特に深層学習の観点からは,歯のx線撮影の量は非常に限られている。 本研究は,SimMIM や UM-MAE などの近年の自己教師型学習手法を用いて,限られた数の歯科用ラジオグラフィーのモデル効率と理解を高めることを目的とする。 我々は,スウィントランスフォーマーを用いて,歯数,歯列修復の検出,症例分割作業を行う。 我々の知る限りでは、歯科用パノラマX線写真にスイニングトランスフォーマーに自己教師あり学習法を適用した最初の研究である。 以上の結果から, simmim法は, 歯列, 歯列, 歯列切片の検出において, 最大90.4%, 88.9%の成績を示し, ランダム初期化ベースラインに対して, 平均精度が13.4, 12.8に向上した。 さらに,既存のパノラマラジオグラフのデータセットを拡張・修正する。 コードとデータセットはhttps://github.com/AmaniHAlmalki/DentalMIMで公開されている。

The computer-assisted radiologic informative report is currently emerging in dental practice to facilitate dental care and reduce time consumption in manual panoramic radiographic interpretation. However, the amount of dental radiographs for training is very limited, particularly from the point of view of deep learning. This study aims to utilize recent self-supervised learning methods like SimMIM and UM-MAE to increase the model efficiency and understanding of the limited number of dental radiographs. We use the Swin Transformer for teeth numbering, detection of dental restorations, and instance segmentation tasks. To the best of our knowledge, this is the first study that applied self-supervised learning methods to Swin Transformer on dental panoramic radiographs. Our results show that the SimMIM method obtained the highest performance of 90.4% and 88.9% on detecting teeth and dental restorations and instance segmentation, respectively, increasing the average precision by 13.4 and 12.8 over the random initialization baseline. Moreover, we augment and correct the existing dataset of panoramic radiographs. The code and the dataset are available at https://github.com/AmaniHAlmalki/DentalMIM.
翻訳日:2022-10-21 15:18:20 公開日:2022-10-20
# gpr-net:幾何認識パノラマ登録ネットワークによるマルチビューレイアウト推定

GPR-Net: Multi-view Layout Estimation via a Geometry-aware Panorama Registration Network ( http://arxiv.org/abs/2210.11419v1 )

ライセンス: Link先を確認
Jheng-Wei Su, Chi-Han Peng, Peter Wonka, Hung-Kuo Chu(参考訳) 1つのパノラマから大規模で複雑な部屋のレイアウトを推定するのは非常に難しいため、パノラマ360円から3Dレイアウトを再構築することは近年注目されている。 PSMNetと呼ばれる最先端の手法は、一対のパノラマを与えられた部屋のレイアウトと登録を共同で見積もる最初の学習ベースのフレームワークを導入する。 しかし、PSMNetは入力として近似的な (すなわち"ノイズ") 登録に依存している。 この入力を取得するには、幅広いベースライン登録のソリューションが必要です。 本研究では,パノラマの1対のパノラマが先行するポーズに依存することなく,パノラマ登録とレイアウト推定を共同で学習する多視点パノラマレイアウト推定フレームワークを提案する。 PSMNetに対する大きな改善は、ジオメトリ対応のパノラマ登録ネットワーク(GPR-Net)によって実現された。 私たちの建築は2つの部分からなる。 まず、2つのパノラマが与えられたとき、私たちは視覚変換器を採用してパノラマでサンプリングされた1次元水平方向の特徴を学習する。 これらの1次元地平線の特徴は、個々のレイアウト境界サンプルの深さとレイアウト境界間の対応と可視性マップを符号化する。 次に、非線形登録モジュールを用いて、これらの1次元水平特性をレイアウト上の対応する2次元境界点の集合に変換する。 最後に、RANSACを介して最終相対カメラのポーズを推定し、登録されたレイアウトを結合して完全なレイアウトを得る。 実験結果から,大規模な屋内パノラマデータセットZInDにおけるパノラマ登録とレイアウト推定の両面での最先端性能が得られた。

Reconstructing 3D layouts from multiple $360^{\circ}$ panoramas has received increasing attention recently as estimating a complete layout of a large-scale and complex room from a single panorama is very difficult. The state-of-the-art method, called PSMNet, introduces the first learning-based framework that jointly estimates the room layout and registration given a pair of panoramas. However, PSMNet relies on an approximate (i.e., "noisy") registration as input. Obtaining this input requires a solution for wide baseline registration which is a challenging problem. In this work, we present a complete multi-view panoramic layout estimation framework that jointly learns panorama registration and layout estimation given a pair of panoramas without relying on a pose prior. The major improvement over PSMNet comes from a novel Geometry-aware Panorama Registration Network or GPR-Net that effectively tackles the wide baseline registration problem by exploiting the layout geometry and computing fine-grained correspondences on the layout boundaries, instead of the global pixel-space. Our architecture consists of two parts. First, given two panoramas, we adopt a vision transformer to learn a set of 1D horizon features sampled on the panorama. These 1D horizon features encode the depths of individual layout boundary samples and the correspondence and covisibility maps between layout boundaries. We then exploit a non-linear registration module to convert these 1D horizon features into a set of corresponding 2D boundary points on the layout. Finally, we estimate the final relative camera pose via RANSAC and obtain the complete layout simply by taking the union of registered layouts. Experimental results indicate that our method achieves state-of-the-art performance in both panorama registration and layout estimation on a large-scale indoor panorama dataset ZInD.
翻訳日:2022-10-21 15:17:53 公開日:2022-10-20
# DiffEdit: マスク誘導による拡散に基づく意味画像編集

DiffEdit: Diffusion-based semantic image editing with mask guidance ( http://arxiv.org/abs/2210.11427v1 )

ライセンス: Link先を確認
Guillaume Couairon, Jakob Verbeek, Holger Schwenk, Matthieu Cord(参考訳) 画像生成は、様々なテキストプロンプトのための説得力のある画像の合成を可能にする拡散モデルによって、最近大きく進歩した。 本稿では,テキストクエリに基づく画像編集を目標とするセマンティック画像編集作業において,テキスト条件付き拡散モデルを活用する手法であるDiffEditを提案する。 セマンティック画像編集(semantic image editing)は画像生成の拡張であり、生成された画像は入力画像と可能な限り類似すべきという追加の制約がある。 拡散モデルに基づく現在の編集方法は、通常マスクを提供する必要があり、条件付き塗装タスクとして扱うことでタスクをより簡単にすることができる。 対照的に,提案手法では,異なるテキストプロンプトを条件とした拡散モデルの予測を対比することにより,編集が必要な入力画像の領域を強調表示するマスクを自動的に生成することができる。 さらに,これらの領域のコンテンツ保存には潜時推論を頼りに,マスクによる拡散に優れた相乗効果を示す。 DiffEditはImageNetで最先端の編集性能を実現する。 さらに,COCOデータセットの画像とテキストベースの生成画像を用いて,セマンティックな画像編集をより困難な設定で評価する。

Image generation has recently seen tremendous advances, with diffusion models allowing to synthesize convincing images for a large variety of text prompts. In this article, we propose DiffEdit, a method to take advantage of text-conditioned diffusion models for the task of semantic image editing, where the goal is to edit an image based on a text query. Semantic image editing is an extension of image generation, with the additional constraint that the generated image should be as similar as possible to a given input image. Current editing methods based on diffusion models usually require to provide a mask, making the task much easier by treating it as a conditional inpainting task. In contrast, our main contribution is able to automatically generate a mask highlighting regions of the input image that need to be edited, by contrasting predictions of a diffusion model conditioned on different text prompts. Moreover, we rely on latent inference to preserve content in those regions of interest and show excellent synergies with mask-based diffusion. DiffEdit achieves state-of-the-art editing performance on ImageNet. In addition, we evaluate semantic image editing in more challenging settings, using images from the COCO dataset as well as text-based generated images.
翻訳日:2022-10-21 15:17:21 公開日:2022-10-20
# 活性優先割当戦略を用いた生体顕微鏡のための細胞追跡

Cell tracking for live-cell microscopy using an activity-prioritized assignment strategy ( http://arxiv.org/abs/2210.11441v1 )

ライセンス: Link先を確認
Karina Ruzaeva, Jan-Christopher Cohrs, Keitaro Kasahara, Dietrich Kohlheyer, Katharina N\"oh, Benjamin Berkels(参考訳) 細胞追跡は、分裂パターンや伸長率などの単一細胞の特徴を決定するために、ライブセルイメージングにおいて必須のツールである。 一般的な複数の物体追跡とは異なり、微生物のライブ細胞実験細胞は時間とともに成長、移動、分裂し、単層構造に密に詰め込まれた細胞コロニーを形成する。 細胞数が増加するにつれて、多くの世代にわたって正確な細胞結合を正しく追従することがますます困難になる。 この課題に対処するために,成長する細胞に近接する活性優先的な近接配置と,母細胞の分裂を娘に割り当てる組合せ解法からなる高速パラメータフリーな細胞追跡手法を提案する。 トラッキングの入力として、Omniposeはインスタンスセグメンテーションに使用される。 従来のneighbor-based tracking法とは異なり,提案手法の割り当てステップはgaussian activity-based metricに基づいて,細胞特異的なマイグレーション確率を予測し,不正な割り当て数を制限している。 細胞追跡のためのビルディングブロックであるのに加えて、提案したアクティビティマップは、細胞活動を示すためのスタンドアロンのトラッキングフリーメトリックである。 最後に, 異なるフレームレートの追跡精度を定量的に解析し, 細胞追跡が望ましい結果である場合に, 培養実験におけるフレームレートの適切な選択(追跡性能の観点から)をライフサイエンティストに知らせる。

Cell tracking is an essential tool in live-cell imaging to determine single-cell features, such as division patterns or elongation rates. Unlike in common multiple object tracking, in microbial live-cell experiments cells are growing, moving, and dividing over time, to form cell colonies that are densely packed in mono-layer structures. With increasing cell numbers, following the precise cell-cell associations correctly over many generations becomes more and more challenging, due to the massively increasing number of possible associations. To tackle this challenge, we propose a fast parameter-free cell tracking approach, which consists of activity-prioritized nearest neighbor assignment of growing cells and a combinatorial solver that assigns splitting mother cells to their daughters. As input for the tracking, Omnipose is utilized for instance segmentation. Unlike conventional nearest-neighbor-based tracking approaches, the assignment steps of our proposed method are based on a Gaussian activity-based metric, predicting the cell-specific migration probability, thereby limiting the number of erroneous assignments. In addition to being a building block for cell tracking, the proposed activity map is a standalone tracking-free metric for indicating cell activity. Finally, we perform a quantitative analysis of the tracking accuracy for different frame rates, to inform life scientists about a suitable (in terms of tracking performance) choice of the frame rate for their cultivation experiments, when cell tracks are the desired key outcome.
翻訳日:2022-10-21 15:17:00 公開日:2022-10-20
# マルチビューガイド型マルチビューステレオ

Multi-View Guided Multi-View Stereo ( http://arxiv.org/abs/2210.11467v1 )

ライセンス: Link先を確認
Matteo Poggi, Andrea Conti, Stefano Mattoccia(参考訳) 本稿では,複数の画像フレームからの密集した3次元再構成のための新しい深層フレームワークを提案する。 深層多視点ステレオネットワークを前提として,我々のフレームワークでは,前方ステップで構築した平面スウィープコスト量を調整し,より正確な深度マップを常に推測することで,ニューラルネットワークを誘導するスパース奥行きヒントを用いている。 さらに,複数の視点が付加的な深度測定を行うことができるため,ネットワークを誘導するスパースポイントの密度を増大させる多視点誘導戦略を提案する。 我々は,BlendedMVG と DTU のデータセットを用いて,様々な最先端の多視点ステレオネットワーク内でのマルチビューガイドフレームワークの評価を行い,その有効性を実証した。

This paper introduces a novel deep framework for dense 3D reconstruction from multiple image frames, leveraging a sparse set of depth measurements gathered jointly with image acquisition. Given a deep multi-view stereo network, our framework uses sparse depth hints to guide the neural network by modulating the plane-sweep cost volume built during the forward step, enabling us to infer constantly much more accurate depth maps. Moreover, since multiple viewpoints can provide additional depth measurements, we propose a multi-view guidance strategy that increases the density of the sparse points used to guide the network, thus leading to even more accurate results. We evaluate our Multi-View Guided framework within a variety of state-of-the-art deep multi-view stereo networks, demonstrating its effectiveness at improving the results achieved by each of them on BlendedMVG and DTU datasets.
翻訳日:2022-10-21 15:16:36 公開日:2022-10-20
# G2NetPL:部分ラベル画像分類のためのジェネリックゲーム理論ネットワーク

G2NetPL: Generic Game-Theoretic Network for Partial-Label Image Classification ( http://arxiv.org/abs/2210.11469v1 )

ライセンス: Link先を確認
Rabab Abdelfattah, Xin Zhang, Mostafa M. Fouda, Xiaofeng Wang, Song Wang(参考訳) マルチラベル画像分類は、画像内の全ての可能なラベルを予測することを目的としている。 訓練画像の全てのラベルに注釈を付けるのにコストがかかるため、通常は部分ラベル学習問題として定式化される。 既存の学習は、各トレーニングイメージが正負のラベルのサブセットでラベル付けされている場合に焦点を当てている。 本稿では,部分ラベル分類を効果的に扱うために,訓練画像のサブセットのみをラベル付けし,一方に正のラベルのみを付け,他方にラベルを付けない部分ラベル学習のためのエンド・ツー・エンド汎用ゲーム理論ネットワーク(g2netpl)を提案する。 G2NetPLでは、各未観測ラベルはソフトな擬似ラベルに関連付けられ、ネットワークとともに2人のプレイヤ非ゼロサム非協調ゲームが定式化される。 ネットワークの目的は、与えられた擬似ラベルによる損失関数を最小化することであり、擬似ラベルは、ネットワークによって決定された予測ラベルから逸脱するペナルティを持つ1(正)または0(負)への収束を求める。 さらに,ネットワークの喪失に対して信頼性を考慮したスケジューラを導入し,異なるラベルに対して適応的に学習を行う。 実験の結果,提案したG2NetPLは,3つの異なるデータセットの様々な部分ラベル設定の下で,最先端の多ラベル分類法よりも優れていた。

Multi-label image classification aims to predict all possible labels in an image. It is usually formulated as a partial-label learning problem, since it could be expensive in practice to annotate all the labels in every training image. Existing works on partial-label learning focus on the case where each training image is labeled with only a subset of its positive/negative labels. To effectively address partial-label classification, this paper proposes an end-to-end Generic Game-theoretic Network (G2NetPL) for partial-label learning, which can be applied to most partial-label settings, including a very challenging, but annotation-efficient case where only a subset of the training images are labeled, each with only one positive label, while the rest of the training images remain unlabeled. In G2NetPL, each unobserved label is associated with a soft pseudo label, which, together with the network, formulates a two-player non-zero-sum non-cooperative game. The objective of the network is to minimize the loss function with given pseudo labels, while the pseudo labels will seek convergence to 1 (positive) or 0 (negative) with a penalty of deviating from the predicted labels determined by the network. In addition, we introduce a confidence-aware scheduler into the loss of the network to adaptively perform easy-to-hard learning for different labels. Extensive experiments demonstrate that our proposed G2NetPL outperforms many state-of-the-art multi-label classification methods under various partial-label settings on three different datasets.
翻訳日:2022-10-21 15:16:19 公開日:2022-10-20
# sodomのリンゴ:コントラスト学習による優れた文埋め込みにおける隠れたバックドア

Apple of Sodom: Hidden Backdoors in Superior Sentence Embeddings via Contrastive Learning ( http://arxiv.org/abs/2210.11082v1 )

ライセンス: Link先を確認
Xiaoyi Chen, Baisong Xin, Shengfang Zhai, Shiqing Ma, Qingni Shen and Zhonghai Wu(参考訳) 本稿では,コントラスト学習が事前学習モデルに対して優れた文埋め込みを生成できるが,バックドア攻撃にも脆弱であることを示す。 我々は,教師なしおよび教師なし学習環境下で,最先端文埋め込みのための最初のバックドア攻撃フレームワークbadcseを提案する。 攻撃は正対と負対の構成を操作し、バックドアされたサンプルがターゲットサンプル(標的攻撃)に類似した埋め込みや、そのクリーンバージョン(標的でない攻撃)の負の埋め込みを行う。 文埋め込みにバックドアを注入することで、badcseは下流の微調整に抵抗する。 STSタスクと他の下流タスクの両方でBadCSEを評価する。 監視された非標的攻撃は性能低下が194.86%となり、ターゲット攻撃はモデルユーティリティを維持しながら、バックドア付きサンプルを97.70%の成功率でターゲット埋め込みにマッピングする。

This paper finds that contrastive learning can produce superior sentence embeddings for pre-trained models but is also vulnerable to backdoor attacks. We present the first backdoor attack framework, BadCSE, for state-of-the-art sentence embeddings under supervised and unsupervised learning settings. The attack manipulates the construction of positive and negative pairs so that the backdoored samples have a similar embedding with the target sample (targeted attack) or the negative embedding of its clean version (non-targeted attack). By injecting the backdoor in sentence embeddings, BadCSE is resistant against downstream fine-tuning. We evaluate BadCSE on both STS tasks and other downstream tasks. The supervised non-targeted attack obtains a performance degradation of 194.86%, and the targeted attack maps the backdoored samples to the target embedding with a 97.70% success rate while maintaining the model utility.
翻訳日:2022-10-21 15:15:53 公開日:2022-10-20
# センサの相互運用性と署名検証の融合:タブレットPCを用いたケーススタディ

Sensor interoperability and fusion in signature verification: A case study using tablet PC ( http://arxiv.org/abs/2210.11139v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez-Aguilar, Javier Ortega-Garcia(参考訳) 署名検証のための情報融合に関するいくつかの研究が提示されている。 しかし、センサーの融合とセンサーの相互運用性に焦点を当てた研究はほとんどない。 本稿では,2種類の市販タブレットPCを用いた署名検証について評価する。 また,2台のタブレットPCの署名を用いたエンローメント戦略を提案する。 認証性能実験は3000以上の署名を持つデータベースを用いて報告される。

Several works related to information fusion for signature verification have been presented. However, few works have focused on sensor fusion and sensor interoperability. In this paper, these two topics are evaluated for signature verification using two different commercial Tablet PCs. An enrolment strategy using signatures from the two Tablet PCs is also proposed. Authentication performance experiments are reported by using a database with over 3000 signatures.
翻訳日:2022-10-21 15:09:54 公開日:2022-10-20
# VideoPipe 2022 Challenge: 都市管検査のリアルタイムビデオ理解

VideoPipe 2022 Challenge: Real-World Video Understanding for Urban Pipe Inspection ( http://arxiv.org/abs/2210.11158v1 )

ライセンス: Link先を確認
Yi Liu, Xuan Zhang, Ying Li, Guixin Liang, Yabing Jiang, Lixia Qiu, Haiping Tang, Fei Xie, Wei Yao, Yi Dai, Yu Qiao, Yali Wang(参考訳) 映像理解はコンピュータビジョンの重要な問題である。 現在、この研究でよく研究されているタスクは人間の行動認識であり、クリップは長いビデオから手動でトリミングされ、クリップごとに1つの人間の行動が推定される。 しかし、産業応用においてより複雑なシナリオに直面する可能性がある。 例えば、実際の都市パイプシステムでは、異常欠陥は細粒度でマルチラベル、ドメイン関連である。 それらを正しく認識するには、詳細なビデオコンテンツを理解する必要がある。 そこで本稿では,従来の行動認識から産業的異常分析へ移行し,映像理解の研究分野を進展させることを提案する。 特に,QV-Pipe と CCTV-Pipe の2つの高品質なビデオベンチマークを導入し,実際の都市管システムの異常検査を行った。 これらの新たなデータセットに基づいて、(1)QVパイプ上のビデオ欠陥分類と(2)CCTVパイプ上の時間欠陥局所化の2つのコンペを開催する。 本報告では,これらのベンチマークの詳細,競合トラックの問題定義,評価指標,結果要約について述べる。 われわれはこの競争がスマートシティなどにおけるビデオ理解の新しい機会と課題をもたらすことを期待している。 videopipeチャレンジの詳細はhttps://videopipe.github.io.com/で確認できます。

Video understanding is an important problem in computer vision. Currently, the well-studied task in this research is human action recognition, where the clips are manually trimmed from the long videos, and a single class of human action is assumed for each clip. However, we may face more complicated scenarios in the industrial applications. For example, in the real-world urban pipe system, anomaly defects are fine-grained, multi-labeled, domain-relevant. To recognize them correctly, we need to understand the detailed video content. For this reason, we propose to advance research areas of video understanding, with a shift from traditional action recognition to industrial anomaly analysis. In particular, we introduce two high-quality video benchmarks, namely QV-Pipe and CCTV-Pipe, for anomaly inspection in the real-world urban pipe systems. Based on these new datasets, we will host two competitions including (1) Video Defect Classification on QV-Pipe and (2) Temporal Defect Localization on CCTV-Pipe. In this report, we describe the details of these benchmarks, the problem definitions of competition tracks, the evaluation metric, and the result summary. We expect that, this competition would bring new opportunities and challenges for video understanding in smart city and beyond. The details of our VideoPipe challenge can be found in https://videopipe.github.io.
翻訳日:2022-10-21 15:09:49 公開日:2022-10-20
# コンテンツベースのグラフプライバシーアドバイザ

Content-based Graph Privacy Advisor ( http://arxiv.org/abs/2210.11169v1 )

ライセンス: Link先を確認
Dimitrios Stoidis and Andrea Cavallaro(参考訳) 人々は、画像をオンラインでアップロードするプライバシーリスクを知らないかもしれない。 本稿では,画像プライバシの予測手法としてシーン情報とオブジェクトの濃度を用いた画像プライバシ分類器を提案する。 我々のグラフプライバシ・アドバイザ(GPA)モデルは、画像から抽出したコンテンツベース情報の関連性を改善することにより、最先端のグラフモデルを単純化し、その性能を向上させる。 プライバシ分類タスクに最も有用な視覚的特徴を判定し、高次元画像ベース特徴ベクトルを低次元でより効果的な特徴に置き換えることで、モデルの複雑さを低減する。 また、各クラスにおけるオブジェクト発生頻度の代わりに、オブジェクト共起をモデル化することで、バイアス付き事前情報に対処する。

People may be unaware of the privacy risks of uploading an image online. In this paper, we present an image privacy classifier that uses scene information and object cardinality as cues for the prediction of image privacy. Our Graph Privacy Advisor (GPA) model simplifies a state-of-the-art graph model and improves its performance by refining the relevance of the content-based information extracted from the image. We determine the most informative visual features to be used for the privacy classification task and reduce the complexity of the model by replacing high-dimensional image-based feature vectors with lower-dimensional, more effective features. We also address the biased prior information by modelling object co-occurrences instead of the frequency of object occurrences in each class.
翻訳日:2022-10-21 15:09:27 公開日:2022-10-20
# 座標は孤独ではない -- codebook priorは暗黙の3d表現を助ける

Coordinates Are NOT Lonely -- Codebook Prior Helps Implicit Neural 3D Representations ( http://arxiv.org/abs/2210.11170v1 )

ライセンス: Link先を確認
Fukun Yin, Wen Liu, Zilong Huang, Pei Cheng, Tao Chen, Gang YU(参考訳) 暗黙的な3D表現は、表面やシーンの再構成や新しいビュー合成において印象的な成果を上げており、通常は座標ベースの多層パーセプトロン(MLP)を用いて連続的なシーン表現を学習している。 しかし、Neural Radiance Field(NeRF)やその変種のような既存のアプローチでは、適切な結果を得るためには、高密度な入力ビュー(50-150)が必要である。 大規模キャリブレーション画像に過度に依存し,座標に基づく特徴表現を充実させるため,座標ベースネットワークに事前情報を注入し,暗黙的な3次元表現のための新しい座標ベースモデルCoCo-INRを導入する。 本手法の核となるものは2つの注意モジュールである。 前者は、前のコードブックからリッチな幾何学と外観情報を含む有用なプロトタイプを抽出し、後者は、これらの事前情報を各座標に伝播し、シーンまたはオブジェクト表面の特徴表現を充実させる。 先行情報を利用することで,より少ない校正画像を用いて,現在の手法よりも,よりリアルな外観とジオメトリを持った3dビューをレンダリングできる。 DTU や BlendedMVS などのシーン再構成データセットとフル3次元頭部再構成データセット H3DS を用いた実験により,より少ない入力ビュー下での堅牢性と,提案手法の詳細な保存能力を示す。

Implicit neural 3D representation has achieved impressive results in surface or scene reconstruction and novel view synthesis, which typically uses the coordinate-based multi-layer perceptrons (MLPs) to learn a continuous scene representation. However, existing approaches, such as Neural Radiance Field (NeRF) and its variants, usually require dense input views (i.e. 50-150) to obtain decent results. To relive the over-dependence on massive calibrated images and enrich the coordinate-based feature representation, we explore injecting the prior information into the coordinate-based network and introduce a novel coordinate-based model, CoCo-INR, for implicit neural 3D representation. The cores of our method are two attention modules: codebook attention and coordinate attention. The former extracts the useful prototypes containing rich geometry and appearance information from the prior codebook, and the latter propagates such prior information into each coordinate and enriches its feature representation for a scene or object surface. With the help of the prior information, our method can render 3D views with more photo-realistic appearance and geometries than the current methods using fewer calibrated images available. Experiments on various scene reconstruction datasets, including DTU and BlendedMVS, and the full 3D head reconstruction dataset, H3DS, demonstrate the robustness under fewer input views and fine detail-preserving capability of our proposed method.
翻訳日:2022-10-21 15:09:14 公開日:2022-10-20
# 深層畳み込みニューラルネットワークにおける注意の誘導と人間知識の挿入

Towards Better Guided Attention and Human Knowledge Insertion in Deep Convolutional Neural Networks ( http://arxiv.org/abs/2210.11177v1 )

ライセンス: Link先を確認
Ankit Gupta and Ida-Maria Sintorn(参考訳) 注意分岐ネットワーク(ABN)は、視覚的説明と深層畳み込みニューラルネットワーク(CNN)の性能向上を同時に提供する。 本研究では,マルチスケールアテンション分岐ネットワーク(MSABN)を導入し,生成したアテンションマップの解像度を向上し,性能を向上する。 msabnをベンチマーク画像認識および細粒度認識データセットで評価し,abnおよびベースラインモデルに勝る評価を行った。 また,関心対象のバウンディングボックスアノテーションの形で人間の知識を組み込むために,注目マップを利用した新しいデータ拡張戦略を導入する。 編集されたサンプルが限られていても,この戦略により大幅な性能向上が達成できることを示す。

Attention Branch Networks (ABNs) have been shown to simultaneously provide visual explanation and improve the performance of deep convolutional neural networks (CNNs). In this work, we introduce Multi-Scale Attention Branch Networks (MSABN), which enhance the resolution of the generated attention maps, and improve the performance. We evaluate MSABN on benchmark image recognition and fine-grained recognition datasets where we observe MSABN outperforms ABN and baseline models. We also introduce a new data augmentation strategy utilizing the attention maps to incorporate human knowledge in the form of bounding box annotations of the objects of interest. We show that even with a limited number of edited samples, a significant performance gain can be achieved with this strategy.
翻訳日:2022-10-21 15:08:45 公開日:2022-10-20
# FEV-GANによる顔表情映像生成

Facial Expression Video Generation Based-On Spatio-temporal Convolutional GAN: FEV-GAN ( http://arxiv.org/abs/2210.11182v1 )

ライセンス: Link先を確認
Hamza Bouzid, Lahoucine Ballihi(参考訳) 表情の生成は、常に世界中の科学者や研究者にとって興味深い課題だった。 そこで本研究では,6種類の表情の映像を生成する新しい手法を提案する。 一つの中性顔画像と、所望の表情を示すラベルから始め、特定の表情を行う所定のアイデンティティの映像を合成することを目的としている。 我々のアプローチはFEV-GAN(Facial Expression Video GAN)と呼ばれ、同一ネットワーク内のコンテンツと動きの両方をモデル化することが知られている時空間的畳み込みGANに基づいている。 このようなネットワークに基づく従来の手法では,スムースな時間変化を伴うコヒーレントなビデオを生成することができる。 しかし、画像品質の低下とアイデンティティの保存能力の低下に悩まされている。 本研究では、2つの画像エンコーダからなるジェネレータを用いてこの問題に対処する。 1つは顔の特徴抽出、もう1つは空間特徴抽出のための事前学習である。 我々は、MUGとOulu-CASIA NIR&VISという2つの国際顔表情ベンチマークデータベース上で、定性的かつ定量的にモデルを評価した。 実験結果分析により,入力アイデンティティを維持しつつ6種類の基本表情の映像を生成する手法の有効性が示された。 この分析は、アイデンティティと空間的機能の両方を使用することで、アイデンティティを保存し高品質なビデオを生成するデコーダ能力を高めることも証明している。 コードと事前訓練されたモデルは間もなく公開される予定だ。

Facial expression generation has always been an intriguing task for scientists and researchers all over the globe. In this context, we present our novel approach for generating videos of the six basic facial expressions. Starting from a single neutral facial image and a label indicating the desired facial expression, we aim to synthesize a video of the given identity performing the specified facial expression. Our approach, referred to as FEV-GAN (Facial Expression Video GAN), is based on Spatio-temporal Convolutional GANs, that are known to model both content and motion in the same network. Previous methods based on such a network have shown a good ability to generate coherent videos with smooth temporal evolution. However, they still suffer from low image quality and low identity preservation capability. In this work, we address this problem by using a generator composed of two image encoders. The first one is pre-trained for facial identity feature extraction and the second for spatial feature extraction. We have qualitatively and quantitatively evaluated our model on two international facial expression benchmark databases: MUG and Oulu-CASIA NIR&VIS. The experimental results analysis demonstrates the effectiveness of our approach in generating videos of the six basic facial expressions while preserving the input identity. The analysis also proves that the use of both identity and spatial features enhances the decoder ability to better preserve the identity and generate high-quality videos. The code and the pre-trained model will soon be made publicly available.
翻訳日:2022-10-21 15:08:33 公開日:2022-10-20
# PalGAN: Palette Generative Adversarial Networksによる画像カラー化

PalGAN: Image Colorization with Palette Generative Adversarial Networks ( http://arxiv.org/abs/2210.11204v1 )

ライセンス: Link先を確認
Yi Wang, Menghan Xia, Lu Qi, Jing Shao, Yu Qiao(参考訳) 発色には多モードの曖昧さと色出血が依然として困難である。 これらの問題に対処するため,我々は,パレット推定と着色注意を統合した新しいGANベースのカラー化手法PalGANを提案する。 マルチモーダリティ問題を回避するため,入力されたグレー画像から確率的パレットを推定し,生成モデルを用いてパレットに条件付き色割り当てを行う新しいカラー化定式化を提案する。 また,色覚的注意を伴う色出血も扱う。 色親和性は意味的相関と強度相関の両方を考慮することで研究する。 大規模な実験では、PalGANは定量的評価と視覚比較において最先端の成果を上げ、顕著な多様性、コントラスト、エッジ保存の外観を提供する。 パレット設計により,無関係な文脈でも画像間の色移動が可能となる。

Multimodal ambiguity and color bleeding remain challenging in colorization. To tackle these problems, we propose a new GAN-based colorization approach PalGAN, integrated with palette estimation and chromatic attention. To circumvent the multimodality issue, we present a new colorization formulation that estimates a probabilistic palette from the input gray image first, then conducts color assignment conditioned on the palette through a generative model. Further, we handle color bleeding with chromatic attention. It studies color affinities by considering both semantic and intensity correlation. In extensive experiments, PalGAN outperforms state-of-the-arts in quantitative evaluation and visual comparison, delivering notable diverse, contrastive, and edge-preserving appearances. With the palette design, our method enables color transfer between images even with irrelevant contexts.
翻訳日:2022-10-21 15:08:10 公開日:2022-10-20
# YOWO-Plus: 漸進的な改善

YOWO-Plus: An Incremental Improvement ( http://arxiv.org/abs/2210.11219v1 )

ライセンス: Link先を確認
Jianhua Yang(参考訳) 本技術報告では,時空間行動検出のリアルタイム手法であるYOWOの更新について紹介する。 私たちは改善するために、小さなデザイン変更をたくさん行います。 ネットワーク構造には3D-ResNext-101やYOLOv2を含むYOWOと同じものを使用しますが、実装済みのYOLOv2の事前学習重量は、YOLOv2よりも優れています。 また,YOWOにおけるラベル割り当てを最適化する。 アクションインスタンスを正確に検出するために、ボックス回帰のためのGIoU損失をデプロイする。 インクリメンタルな改善の後、YOWOは公式のYOWOよりもかなり高い84.9\%のフレームmAPと50.5\%の動画mAPをUCF101-24で達成した。 AVAでは、最適化されたYOWOは、公式YOWOを超える16フレームの20.6\%のフレームmAPを達成する。 32フレームのYOWOでは、RTX 3090 GPU上で25FPSの21.6フレームのmAPを実現しています。 最適化されたYOWOをYOWO-Plusと呼ぶ。 さらに、3D-ResNext-101を効率的な3D-ShuffleNet-v2に置き換え、軽量なアクション検出器YOWO-Nanoを設計する。 YOWO-Nano は UCF101-24 上で 90 FPS 以上の 81.0 \% フレーム mAP と 49.7\% ビデオフレーム mAP を達成する。 また、AVAで約90 FPSの18.4 \%のフレームmAPを達成している。 我々が知る限り、yowo-nanoは最先端のアクション検出器だ。 私たちのコードはhttps://github.com/yjh0410/PyTorch_YOWOで利用可能です。

In this technical report, we would like to introduce our updates to YOWO, a real-time method for spatio-temporal action detection. We make a bunch of little design changes to make it better. For network structure, we use the same ones of official implemented YOWO, including 3D-ResNext-101 and YOLOv2, but we use a better pretrained weight of our reimplemented YOLOv2, which is better than the official YOLOv2. We also optimize the label assignment used in YOWO. To accurately detection action instances, we deploy GIoU loss for box regression. After our incremental improvement, YOWO achieves 84.9\% frame mAP and 50.5\% video mAP on the UCF101-24, significantly higher than the official YOWO. On the AVA, our optimized YOWO achieves 20.6\% frame mAP with 16 frames, also exceeding the official YOWO. With 32 frames, our YOWO achieves 21.6 frame mAP with 25 FPS on an RTX 3090 GPU. We name the optimized YOWO as YOWO-Plus. Moreover, we replace the 3D-ResNext-101 with the efficient 3D-ShuffleNet-v2 to design a lightweight action detector, YOWO-Nano. YOWO-Nano achieves 81.0 \% frame mAP and 49.7\% video frame mAP with over 90 FPS on the UCF101-24. It also achieves 18.4 \% frame mAP with about 90 FPS on the AVA. As far as we know, YOWO-Nano is the fastest state-of-the-art action detector. Our code is available on https://github.com/yjh0410/PyTorch_YOWO.
翻訳日:2022-10-21 15:07:55 公開日:2022-10-20
# 心エコー画像からの半監督エジェクション分画予測のための周期的自己スーパービジョン

Cyclical Self-Supervision for Semi-Supervised Ejection Fraction Prediction from Echocardiogram Videos ( http://arxiv.org/abs/2210.11291v1 )

ライセンス: Link先を確認
Weihang Dai, Xiaomeng Li, Xinpeng Ding, Kwang-Ting Cheng(参考訳) 左室放出率(LVEF)は心不全の重要な指標である。 既存のビデオからのLVEF推定法では、大量のアノテートデータが必要であり、例えば10,030ラベルの心エコービデオを使用して4.10の平均絶対誤差(MAE)を達成する。 しかし、これらのビデオのラベル付けは時間がかかり、下流のアプリケーションは他の心臓疾患に制限される。 本稿では,LVEF予測のための最初の半教師付きアプローチを提案する。 一般的なビデオ予測タスクとは異なり、LVEF予測は心エコービデオにおける左心室(LV)の変化と特に関連している。 lvセグメンテーションの予測から学んだ知識をlvef回帰に組み込むことで、より良い予測のためにモデルに追加のコンテキストを提供できる。 そこで本研究では,心拍が周期的周期過程であり,周期的反復を繰り返すことによるビデオベースのlvセグメンテーションを学習するための新しい巡回的自己スーパービジョン(css)法を提案する。 セグメンテーションモデルからの予測マスクをLVEF回帰のための追加入力として使用して,LV領域の空間的コンテキストを提供する。 また,LVセグメンテーションマスクからの情報をビデオ入力のみを必要とするエンドツーエンドのLVEF回帰モデルに抽出するために,教師による蒸留を導入する。 その結果,提案手法は代替の半教師付き手法よりも優れており,最先端の教師付き性能と競合する4.17のMAEを実現することができる。 外部データセットの検証も,本手法による一般化能力の向上を示す。

Left-ventricular ejection fraction (LVEF) is an important indicator of heart failure. Existing methods for LVEF estimation from video require large amounts of annotated data to achieve high performance, e.g. using 10,030 labeled echocardiogram videos to achieve mean absolute error (MAE) of 4.10. Labeling these videos is time-consuming however and limits potential downstream applications to other heart diseases. This paper presents the first semi-supervised approach for LVEF prediction. Unlike general video prediction tasks, LVEF prediction is specifically related to changes in the left ventricle (LV) in echocardiogram videos. By incorporating knowledge learned from predicting LV segmentations into LVEF regression, we can provide additional context to the model for better predictions. To this end, we propose a novel Cyclical Self-Supervision (CSS) method for learning video-based LV segmentation, which is motivated by the observation that the heartbeat is a cyclical process with temporal repetition. Prediction masks from our segmentation model can then be used as additional input for LVEF regression to provide spatial context for the LV region. We also introduce teacher-student distillation to distill the information from LV segmentation masks into an end-to-end LVEF regression model that only requires video inputs. Results show our method outperforms alternative semi-supervised methods and can achieve MAE of 4.17, which is competitive with state-of-the-art supervised performance, using half the number of labels. Validation on an external dataset also shows improved generalization ability from using our method.
翻訳日:2022-10-21 15:07:09 公開日:2022-10-20
# Few-Shot画像分類のためのビジュアル・セマンティック・コントラストアライメント

Visual-Semantic Contrastive Alignment for Few-Shot Image Classification ( http://arxiv.org/abs/2210.11000v1 )

ライセンス: Link先を確認
Mohamed Afham, Ranga Rodrigo(参考訳) Few-Shot Learningは、表示されていない視覚クラスに適応できるモデルをトレーニングし、最適化することを目的としている。 既存の数ショット学習(FSL)法は、視覚データのみに大きく依存しているため、視覚概念のより一般化されたバージョンを学ぶために意味的属性をキャプチャできなかった。 しかし、人間の視覚学習が視覚、言語、音声などの複数のモードからの入力から大きな恩恵を受けることは知られている事実である。 言語形態の視覚カテゴリの既存の知識をカプセル化する人間の学習の性質に触発されて,視覚特徴ベクトルと意味的特徴ベクトルの対比的アライメント機構を導入して,より汎用的な視覚概念を学習する。 提案手法は,既存の学習機構に加えて,強力なテキストエンコーダから視覚カテゴリーの文脈的知識を抽出する補助的コントラスト学習目的を簡便に追加する。 したがって、このアプローチはより一般化され、既存のFSLメソッドにプラグインすることができる。 提案手法で使用する事前学習型意味特徴抽出器(大規模テキストコーパスから派生した)は,FSLを支援するための文脈的事前知識を提供する。 一般的なFSLデータセットで行った実験結果から,我々のアプローチは本質的に汎用的であり,既存のFSLベースラインを強く後押しすることを示す。

Few-Shot learning aims to train and optimize a model that can adapt to unseen visual classes with only a few labeled examples. The existing few-shot learning (FSL) methods, heavily rely only on visual data, thus fail to capture the semantic attributes to learn a more generalized version of the visual concept from very few examples. However, it is a known fact that human visual learning benefits immensely from inputs from multiple modalities such as vision, language, and audio. Inspired by the human learning nature of encapsulating the existing knowledge of a visual category which is in the form of language, we introduce a contrastive alignment mechanism for visual and semantic feature vectors to learn much more generalized visual concepts for few-shot learning. Our method simply adds an auxiliary contrastive learning objective which captures the contextual knowledge of a visual category from a strong textual encoder in addition to the existing training mechanism. Hence, the approach is more generalized and can be plugged into any existing FSL method. The pre-trained semantic feature extractor (learned from a large-scale text corpora) we use in our approach provides a strong contextual prior knowledge to assist FSL. The experimental results done in popular FSL datasets show that our approach is generic in nature and provides a strong boost to the existing FSL baselines.
翻訳日:2022-10-21 15:01:21 公開日:2022-10-20
# simpleclick:simple vision transformersによるインタラクティブな画像セグメンテーション

SimpleClick: Interactive Image Segmentation with Simple Vision Transformers ( http://arxiv.org/abs/2210.11006v1 )

ライセンス: Link先を確認
Qin Liu, Zhenlin Xu, Gedas Bertasius, Marc Niethammer(参考訳) クリックベースのインタラクティブイメージセグメンテーションは、限られたユーザクリックでオブジェクトを抽出することを目的としている。 階層型バックボーンは、現在のメソッドのデファクトアーキテクチャである。 近年,高密度予測タスクのバックボーンとして,非階層型視覚変換器(ViT)が登場している。 この設計により、オリジナルのViTは、事前トレーニングのために階層的なバックボーンを再設計することなく、下流タスクのために微調整できる基盤モデルとなる。 この設計は単純で有効であることが証明されているが、インタラクティブなセグメンテーションのためにはまだ検討されていない。 このギャップを埋めるために,インタラクティブセグメンテーションのためのアーキテクチャの単純さからsimpleclickと呼ばれる最初のプレーンバックボーン法を提案する。 マスク付きオートエンコーダ(MAE)として事前訓練されたプレーンバックボーンにより、SimpleClickは、ベルやホイッスルなしで最先端のパフォーマンスを実現する。 また,SBDでは4.15 NoC@90を達成し,従来よりも21.8%向上した。 医用画像の広範な評価は,本手法の汎用性を強調した。 また,本手法の詳細な計算解析を行い,実用的なアノテーションツールとしての有用性を強調する。

Click-based interactive image segmentation aims at extracting objects with limited user clicking. Hierarchical backbone is the de-facto architecture for current methods. Recently, the plain, non-hierarchical Vision Transformer (ViT) has emerged as a competitive backbone for dense prediction tasks. This design allows the original ViT to be a foundation model that can be finetuned for the downstream task without redesigning a hierarchical backbone for pretraining. Although this design is simple and has been proven effective, it has not yet been explored for interactive segmentation. To fill this gap, we propose the first plain-backbone method, termed as SimpleClick due to its simplicity in architecture, for interactive segmentation. With the plain backbone pretrained as masked autoencoder (MAE), SimpleClick achieves state-of-the-art performance without bells and whistles. Remarkably, our method achieves 4.15 NoC@90 on SBD, improving 21.8% over previous best result. Extensive evaluation of medical images highlights the generalizability of our method. We also provide a detailed computation analysis for our method, highlighting its availability as a practical annotation tool.
翻訳日:2022-10-21 15:00:58 公開日:2022-10-20
# 持続的自己指導型学習を目指して

Towards Sustainable Self-supervised Learning ( http://arxiv.org/abs/2210.11016v1 )

ライセンス: Link先を確認
Shanghua Gao, Pan Zhou, Ming-Ming Cheng, Shuicheng Yan(参考訳) トレーニングの強化がますます進んでいるが、ほとんどの自己教師付き学習(SSL)モデルはスクラッチから繰り返し訓練されているが、完全には活用されていない。 本研究では,2つの大きな課題を持つ,持続可能なSSLフレームワークについて検討する。 一 既存の事前訓練されたSSLモデルに基づくより強力な新しいSSLモデル(ベースモデルとも呼ばれる)を、コストに優しく学習すること。 二 新モデルのトレーニングを各種のベースモデルと互換性のあるものにすること。 本稿では,既存のマスク再構成ベースのSSLに2つのコンポーネントを導入し,Target-Enhanced Conditional (TEC)方式を提案する。 まず,ベースモデルが与えるターゲットを強化するパッチ関係強化ターゲットを提案し,不完全入力を用いてベースモデルから意味関係の知識を学ぶことを奨励する。 このハードニングとターゲットエンハンシングは、不完全な入力を処理するために追加のパッチ関係モデルを適用するため、新しいモデルがベースモデルを上回るのに役立つ。 次に,新しいモデル予測を適応的に調整し,異なるベースモデルのターゲットに適合させる条件付きアダプタを提案する。 大規模な実験結果から,我々のTECスキームは学習速度を向上し,SOTA SSLベースモデル(MAEやiBOTなど)を改良し,持続可能なSSLに向けた爆発的な一歩を踏み出した。

Although increasingly training-expensive, most self-supervised learning (SSL) models have repeatedly been trained from scratch but not fully utilized, since only a few SOTAs are employed for downstream tasks. In this work, we explore a sustainable SSL framework with two major challenges: i) learning a stronger new SSL model based on the existing pretrained SSL model, also called as "base" model, in a cost-friendly manner, ii) allowing the training of the new model to be compatible with various base models. We propose a Target-Enhanced Conditional (TEC) scheme which introduces two components to the existing mask-reconstruction based SSL. Firstly, we propose patch-relation enhanced targets which enhances the target given by base model and encourages the new model to learn semantic-relation knowledge from the base model by using incomplete inputs. This hardening and target-enhancing help the new model surpass the base model, since they enforce additional patch relation modeling to handle incomplete input. Secondly, we introduce a conditional adapter that adaptively adjusts new model prediction to align with the target of different base models. Extensive experimental results show that our TEC scheme can accelerate the learning speed, and also improve SOTA SSL base models, e.g., MAE and iBOT, taking an explorative step towards sustainable SSL.
翻訳日:2022-10-21 15:00:37 公開日:2022-10-20
# PointTAD: 学習可能なクエリポイントを用いた複数ラベル時間行動検出

PointTAD: Multi-Label Temporal Action Detection with Learnable Query Points ( http://arxiv.org/abs/2210.11035v1 )

ライセンス: Link先を確認
Jing Tan, Xiaotong Zhao, Xintian Shi, Bing Kang, Limin Wang(参考訳) 伝統的な時間的アクション検出(TAD)は、通常、単一のラベル(ActivityNet、THUMOSなど)から少数のアクションインスタンスを持つ、トリミングされていないビデオを扱う。 しかし、この設定は、アクションの異なるクラスが実際に共起することが多いため、非現実的かもしれない。 本稿では,マルチラベルの非トリミングビデオからすべてのアクションインスタンスをローカライズすることを目的とした,マルチラベルの時間的動作検出のタスクに焦点を当てる。 マルチラベルTADは、単一のビデオ内のきめ細かいクラス識別と、共起インスタンスの正確なローカライゼーションを必要とするため、より難しい。 この問題を軽減するため,我々はsparse query-based detectionパラダイムを従来のtadから拡張し,pointtadのマルチラベルtadフレームワークを提案する。 具体的には、各アクションインスタンスの重要なフレームを表すために、学習可能なクエリポイントの小さなセットを導入しています。 このポイントベースの表現は、境界での識別フレームとアクション内の重要なフレームをローカライズするための柔軟なメカニズムを提供する。 さらに,マルチレベルインタラクティブモジュールを用いてアクションデコード処理を行い,ポイントレベルとインスタンスレベルのアクションセマンティクスの両方をキャプチャする。 最後に、PointTADでは、RGB入力をベースとしたエンドツーエンドのトレーニング可能なフレームワークを採用しています。 提案手法を2つの一般的なベンチマークで評価し,マルチラベルTADにおける検出-mAPの新たな指標を提案する。 本モデルでは, 検出-mAP測定値において, 従来手法よりも大きな差があり, セグメンテーション-mAP測定値では有望な結果が得られる。 コードはhttps://github.com/MCG-NJU/PointTADで入手できる。

Traditional temporal action detection (TAD) usually handles untrimmed videos with small number of action instances from a single label (e.g., ActivityNet, THUMOS). However, this setting might be unrealistic as different classes of actions often co-occur in practice. In this paper, we focus on the task of multi-label temporal action detection that aims to localize all action instances from a multi-label untrimmed video. Multi-label TAD is more challenging as it requires for fine-grained class discrimination within a single video and precise localization of the co-occurring instances. To mitigate this issue, we extend the sparse query-based detection paradigm from the traditional TAD and propose the multi-label TAD framework of PointTAD. Specifically, our PointTAD introduces a small set of learnable query points to represent the important frames of each action instance. This point-based representation provides a flexible mechanism to localize the discriminative frames at boundaries and as well the important frames inside the action. Moreover, we perform the action decoding process with the Multi-level Interactive Module to capture both point-level and instance-level action semantics. Finally, our PointTAD employs an end-to-end trainable framework simply based on RGB input for easy deployment. We evaluate our proposed method on two popular benchmarks and introduce the new metric of detection-mAP for multi-label TAD. Our model outperforms all previous methods by a large margin under the detection-mAP metric, and also achieves promising results under the segmentation-mAP metric. Code is available at https://github.com/MCG-NJU/PointTAD.
翻訳日:2022-10-21 15:00:00 公開日:2022-10-20
# 拡散モデルを用いた表現学習

Representation Learning with Diffusion Models ( http://arxiv.org/abs/2210.11058v1 )

ライセンス: Link先を確認
Jeremias Traub(参考訳) 拡散モデル (DM) は画像合成タスクや密度推定において最先端の結果を得た。 強力な事前学習オートエンコーダ(ldm)の潜在空間に適用すると、その膨大な計算要件はサンプリング品質を犠牲にすることなく大幅に削減できる。 しかし、拡散過程が潜伏変数の情報を徐々に破壊するので、DMとLDMは意味的に意味のある表現空間を持たない。 拡散モデル(LRDM)を用いてそのような表現を学習するためのフレームワークを提案する。 これにより、別個のエンコーダによってクリーン画像から抽出された表現に基づいてldmを条件とする。 特に、DMと表現エンコーダは、生成的認知過程に特有の豊かな表現を学習するために共同で訓練される。 先行してトラクタブルな表現を導入することで、余分なモデルを訓練することなく、非条件画像合成のための表現分布を効率的にサンプリングすることができる。 私たちはそれを証明します 一 画像パラメータ化LDMによる競合画像生成結果を達成することができる。 二 LRDMは、意味的に意味のある表現を学習することができ、忠実な画像再構成と意味補間を可能にする。 私たちの実装はhttps://github.com/jeremiastraub/diffusionで利用可能です。

Diffusion models (DMs) have achieved state-of-the-art results for image synthesis tasks as well as density estimation. Applied in the latent space of a powerful pretrained autoencoder (LDM), their immense computational requirements can be significantly reduced without sacrificing sampling quality. However, DMs and LDMs lack a semantically meaningful representation space as the diffusion process gradually destroys information in the latent variables. We introduce a framework for learning such representations with diffusion models (LRDM). To that end, a LDM is conditioned on the representation extracted from the clean image by a separate encoder. In particular, the DM and the representation encoder are trained jointly in order to learn rich representations specific to the generative denoising process. By introducing a tractable representation prior, we can efficiently sample from the representation distribution for unconditional image synthesis without training of any additional model. We demonstrate that i) competitive image generation results can be achieved with image-parameterized LDMs, ii) LRDMs are capable of learning semantically meaningful representations, allowing for faithful image reconstructions and semantic interpolations. Our implementation is available at https://github.com/jeremiastraub/diffusion.
翻訳日:2022-10-21 14:59:32 公開日:2022-10-20
# 高密度視覚予測のための大規模バッチ最適化

Large-batch Optimization for Dense Visual Predictions ( http://arxiv.org/abs/2210.11078v1 )

ライセンス: Link先を確認
Zeyue Xue, Jianming Liang, Guanglu Song, Zhuofan Zong, Liang Chen, Yu Liu, Ping Luo(参考訳) 大規模データセットにおける大規模ディープニューラルネットワークのトレーニングは、困難で時間がかかります。 最近の大規模バッチ最適化のブレークスルーは、この課題に取り組むための有望な方法である。 しかし、larsやlambといった現在の高度なアルゴリズムは分類モデルに成功しているが、オブジェクト検出やセグメンテーションといった複雑なビジュアル予測の複雑なパイプラインは、大規模訓練システムのパフォーマンス低下に依然として苦しめられている。 この課題に対処するために,適応勾配分散変調器(agvm,adaptive gradient variance modulationor,適応勾配分散変調器)という,簡便で効果的なアルゴリズムを提案する。 まず、AGVMはバックボーン、フィーチャーピラミッドネットワーク(FPN)、検出、セグメンテーションヘッドなど、密集した視覚予測器内の異なるモジュール間の勾配のばらつきを調整できる。 バッチサイズが大きいトレーニングでは,先行研究で主に見過ごされる現象である勾配分散がミスアライメントされ,失敗する可能性がある。 第二に、AGVMは様々なアーキテクチャ(CNNやTransformerなど)と異なるタスク(オブジェクト検出、インスタンスセグメンテーション、セマンティックセグメンテーション、パノプティックセグメンテーションなど)をうまく一般化するプラグイン・アンド・プレイモジュールである。 また、異なるオプティマイザ(SGDやAdamWなど)とも互換性がある。 第3に、AGVMの理論的解析を提供する。 COCOとADE20Kデータセットに関する大規模な実験は、AGVMの優位性を示している。 例えば、より高速なR-CNN+ResNet50を4分でトレーニングできます。 AGVMは、わずか3.5時間で10億個のパラメータを持つオブジェクト検出器をトレーニングすることができ、トレーニング時間を20.9倍削減し、COCO上で62.2 mAPを達成することができる。 deliverablesはhttps://github.com/sense-x/agvmでリリースされている。

Training a large-scale deep neural network in a large-scale dataset is challenging and time-consuming. The recent breakthrough of large-batch optimization is a promising way to tackle this challenge. However, although the current advanced algorithms such as LARS and LAMB succeed in classification models, the complicated pipelines of dense visual predictions such as object detection and segmentation still suffer from the heavy performance drop in the large-batch training regime. To address this challenge, we propose a simple yet effective algorithm, named Adaptive Gradient Variance Modulator (AGVM), which can train dense visual predictors with very large batch size, enabling several benefits more appealing than prior arts. Firstly, AGVM can align the gradient variances between different modules in the dense visual predictors, such as backbone, feature pyramid network (FPN), detection, and segmentation heads. We show that training with a large batch size can fail with the gradient variances misaligned among them, which is a phenomenon primarily overlooked in previous work. Secondly, AGVM is a plug-and-play module that generalizes well to many different architectures (e.g., CNNs and Transformers) and different tasks (e.g., object detection, instance segmentation, semantic segmentation, and panoptic segmentation). It is also compatible with different optimizers (e.g., SGD and AdamW). Thirdly, a theoretical analysis of AGVM is provided. Extensive experiments on the COCO and ADE20K datasets demonstrate the superiority of AGVM. For example, it can train Faster R-CNN+ResNet50 in 4 minutes without losing performance. AGVM enables training an object detector with one billion parameters in just 3.5 hours, reducing the training time by 20.9x, whilst achieving 62.2 mAP on COCO. The deliverables are released at https://github.com/Sense-X/AGVM.
翻訳日:2022-10-21 14:59:15 公開日:2022-10-20
# Robustcaps:画像分類のためのトランスフォーメーションロバストカプセルネットワーク

Robustcaps: a transformation-robust capsule network for image classification ( http://arxiv.org/abs/2210.11092v1 )

ライセンス: Link先を確認
Sai Raam Venkataraman, S. Balasubramanian, R. Raghunatha Sarma(参考訳) トレーニングデータとテストデータの幾何学的変換は、深層ニューラルネットワークを視覚ベースの学習タスクに使用する上での課題を示す。 この問題に対処するため,我々は,トランスフォーメーション・ロバスト性の望ましい特性を示すディープニューラルネットワークモデルを提案する。 robustcapsと呼ばれるこのモデルは、改良されたカプセルネットワークモデルでグループ同変畳み込みを使用する。 robustcapsは、ルーティングアルゴリズムでグローバルコンテキスト正規化手順を使用して、画像データ内の変換不変部分-whole関係を学習する。 このような関係の学習により、我々のモデルはトランスフォーメーション・ロバスト分類タスクにおいてカプセルと畳み込みニューラルネットワークのベースラインを上回ります。 具体的には、RobustCapsは、CIFAR-10、FashionMNIST、CIFAR-100で、これらのデータセットのイメージがトレインとテストタイムのローテーションと翻訳を受ける際に、最先端の精度を達成する。

Geometric transformations of the training data as well as the test data present challenges to the use of deep neural networks to vision-based learning tasks. In order to address this issue, we present a deep neural network model that exhibits the desirable property of transformation-robustness. Our model, termed RobustCaps, uses group-equivariant convolutions in an improved capsule network model. RobustCaps uses a global context-normalised procedure in its routing algorithm to learn transformation-invariant part-whole relationships within image data. This learning of such relationships allows our model to outperform both capsule and convolutional neural network baselines on transformation-robust classification tasks. Specifically, RobustCaps achieves state-of-the-art accuracies on CIFAR-10, FashionMNIST, and CIFAR-100 when the images in these datasets are subjected to train and test-time rotations and translations.
翻訳日:2022-10-21 14:58:41 公開日:2022-10-20
# トランスフォーメーションロバストカプセルネットワークのための同変カプセル間の反復的協調ルーティング

Iterative collaborative routing among equivariant capsules for transformation-robust capsule networks ( http://arxiv.org/abs/2210.11095v1 )

ライセンス: Link先を確認
Sai Raam Venkataraman, S. Balasubramanian, R. Raghunatha Sarma(参考訳) 変換ロバスト性は、画像分類を行う機械学習モデルにとって重要な特徴である。 多くの手法は、データ拡張戦略を用いてモデルにこの特性を与えるが、より正式な保証は同変モデルを用いて得られる。 構成的あるいは部分的構造は,変換ロバストモデルを構築する上で考慮すべき画像の重要な側面でもある。 そこで本研究では,同値かつ構成性を考慮したカプセルネットワークモデルを提案する。 我々のカプセルネットワークモデルの等分散性は、注意深いチョンセン・ノベル・アーキテクチャにおける等変畳み込みの使用から生じる。 構成性に対する意識は、提案した新しい反復的グラフベースのルーティングアルゴリズム、ICR(Iterative collaborative routing)によってもたらされる。 当社の貢献の中核であるicrは、近距離にあるカプセルの次数分布を反復的に平均したスコアに基づいて、カプセルの予測を重み付けている。 FashionMNIST, CIFAR-10, CIFAR-100の変換画像分類実験により, ICRを用いた我々のモデルは, 畳み込みベースラインとカプセルベースラインを上回り, 最先端の性能を達成することを示した。

Transformation-robustness is an important feature for machine learning models that perform image classification. Many methods aim to bestow this property to models by the use of data augmentation strategies, while more formal guarantees are obtained via the use of equivariant models. We recognise that compositional, or part-whole structure is also an important aspect of images that has to be considered for building transformation-robust models. Thus, we propose a capsule network model that is, at once, equivariant and compositionality-aware. Equivariance of our capsule network model comes from the use of equivariant convolutions in a carefully-chosen novel architecture. The awareness of compositionality comes from the use of our proposed novel, iterative, graph-based routing algorithm, termed Iterative collaborative routing (ICR). ICR, the core of our contribution, weights the predictions made for capsules based on an iteratively averaged score of the degree-centralities of its nearest neighbours. Experiments on transformed image classification on FashionMNIST, CIFAR-10, and CIFAR-100 show that our model that uses ICR outperforms convolutional and capsule baselines to achieve state-of-the-art performance.
翻訳日:2022-10-21 14:58:25 公開日:2022-10-20
# 虹彩認識のための超解像と画像再投影

Super-Resolution and Image Re-projection for Iris Recognition ( http://arxiv.org/abs/2210.11129v1 )

ライセンス: Link先を確認
Eduardo Ribeiro, Andreas Uhl, Fernando Alonso-Fernandez(参考訳) 最近のいくつかの研究は、最も多様な目的のために、豊かで階層的で差別的なモデルを開示する深層学習の能力に対処してきた。 特に超解像領域において、異なるディープラーニングアプローチを用いた畳み込みニューラルネットワーク(cnns)は、低解像度画像から現実的なテクスチャと細部の詳細を回復しようとする。 本研究では、虹彩認識環境における虹彩超解法(SR)に対するこれらのアプローチの有効性について検討する。 そこで我々は,画像の再投影を伴わずに異なるアーキテクチャをテストし,異なるアイリスデータベースに適用したアーティファクトを削減し,アイリス超解像のための異なるCNNの生存可能性を検証する。 その結果、cnnと画像再投影は、トランスファー学習をうまく行うための完全に異なるトレーニングデータベースを用いて、認識システムの精度を特別に向上できることがわかった。

Several recent works have addressed the ability of deep learning to disclose rich, hierarchical and discriminative models for the most diverse purposes. Specifically in the super-resolution field, Convolutional Neural Networks (CNNs) using different deep learning approaches attempt to recover realistic texture and fine grained details from low resolution images. In this work we explore the viability of these approaches for iris Super-Resolution (SR) in an iris recognition environment. For this, we test different architectures with and without a so called image re-projection to reduce artifacts applying it to different iris databases to verify the viability of the different CNNs for iris super-resolution. Results show that CNNs and image re-projection can improve the results specially for the accuracy of recognition systems using a complete different training database performing the transfer learning successfully.
翻訳日:2022-10-21 14:58:06 公開日:2022-10-20
# タブレットPCを用いたオンライン署名検証

On-line signature verification using Tablet PC ( http://arxiv.org/abs/2210.11135v1 )

ライセンス: Link先を確認
Fernando Alonso-Fernandez, Julian Fierrez-Aguilar, Francisco del-Valle, Javier Ortega-Garcia(参考訳) タブレットPC機器のオンライン署名検証について検討した。 第1回国際署名検証コンペティション(SVC 2004)で著者らが提示したオンライン署名検証アルゴリズムは、タブレットPC環境で動作するように適応されている。 また、このタブレットpcシステムを用いた文書アプリケーションへのアクセスとセキュリティの確保の例についても報告する。 サンプリングや圧力統計などの署名検証システムに関心のある情報を含む、2つの異なる商用タブレットPCを評価する。 3000以上のシグネチャを持つ新しいデータベースを用いて,ランダムな偽造と熟練した偽造の両方を考慮した認証性能実験を行った。

On-line signature verification for Tablet PC devices is studied. The on-line signature verification algorithm presented by the authors at the First International Signature Verification Competition (SVC 2004) is adapted to work in Tablet PC environments. An example prototype of securing access and securing document application using this Tablet PC system is also reported. Two different commercial Tablet PCs are evaluated, including information of interest for signature verification systems such as sampling and pressure statistics. Authentication performance experiments are reported considering both random and skilled forgeries by using a new database with over 3000 signatures.
翻訳日:2022-10-21 14:57:52 公開日:2022-10-20
# 故障解析のためのテレ知識事前学習

Tele-Knowledge Pre-training for Fault Analysis ( http://arxiv.org/abs/2210.11298v1 )

ライセンス: Link先を確認
Zhuo Chen, Wen Zhang, Yufeng Huang, Mingyang Chen, Yuxia Geng, Hongtao Yu, Zhen Bi, Yichi Zhang, Zhen Yao, Wenting Song, Xinliang Wu, Yi Yang, Song Jiang, Zhaoyang Lian, Yingying Li, Huajun Chen(参考訳) 本研究では,障害解析のための遠隔知識事前学習の経験を共有する。 障害解析はテレアプリケーションにとって重要なタスクであり、タイムリーに適切に処理する必要がある。 障害解析も複雑なタスクであり、多くのサブタスクがある。 各タスクの解決には多様なテレ知識が必要です。 マシンログデータと製品ドキュメントは、テレ知識の一部を含んでいる。 我々は、専門家から他のテレ知識を均一に組織するためのテレKGを作成します。 これらの貴重な遠隔知識データを用いて、本研究では、効果的なプロンプトヒント、適応数値データ符号化、および2つの知識注入パラダイムを含む、遠隔ドメイン事前学習モデルKTeleBERTとその知識強化バージョンKTeleBERTを提案する。 我々は、2000万の通信コーパスでTeleBERTを事前訓練し、100万の因果コーパスと機械コーパスでTeleBERTを再訓練し、KTeleBERTを入手する。 そこで本研究では,根本原因分析,事象関連予測,故障連鎖追跡の3つの課題について,本モデルを適用した。 その結果、KTeleBERTではタスクモデルの性能が向上し、多様なテレ知識を含むモデルとしての事前学習KTeleBERTの有効性が示された。

In this work, we share our experience on tele-knowledge pre-training for fault analysis. Fault analysis is a vital task for tele-application, which should be timely and properly handled. Fault analysis is also a complex task, that has many sub-tasks. Solving each task requires diverse tele-knowledge. Machine log data and product documents contain part of the tele-knowledge. We create a Tele-KG to organize other tele-knowledge from experts uniformly. With these valuable tele-knowledge data, in this work, we propose a tele-domain pre-training model KTeleBERT and its knowledge-enhanced version KTeleBERT, which includes effective prompt hints, adaptive numerical data encoding, and two knowledge injection paradigms. We train our model in two stages: pre-training TeleBERT on 20 million telecommunication corpora and re-training TeleBERT on 1 million causal and machine corpora to get the KTeleBERT. Then, we apply our models for three tasks of fault analysis, including root-cause analysis, event association prediction, and fault chain tracing. The results show that with KTeleBERT, the performance of task models has been boosted, demonstrating the effectiveness of pre-trained KTeleBERT as a model containing diverse tele-knowledge.
翻訳日:2022-10-21 14:52:53 公開日:2022-10-20
# イベント駆動分散デジタル化システムにおけるニューロモルフィックaiの統合:概念と研究方向

Integration of Neuromorphic AI in Event-Driven Distributed Digitized Systems: Concepts and Research Directions ( http://arxiv.org/abs/2210.11190v1 )

ライセンス: Link先を確認
Mattias Nilsson, Olov Schel\'en, Anders Lindgren, Ulf Bodin, Cristina Paniagua, Jerker Delsing, and Fredrik Sandin(参考訳) サイバー物理システムとモノの産業用インターネットにおける複雑さとデータ生成率の増大は、インターネットのリソース制限されたエッジにおけるAI能力の増大を呼びかけている。 一方、デジタルコンピューティングとディープラーニングのリソース要件は、持続不可能な方法で指数関数的に増加している。 このギャップを埋める方法のひとつは、イベント駆動、非同期、動的神経シナプス要素と、分散処理と機械学習のためのコロケーションメモリを使用する、リソース効率の高い脳にインスパイアされた"ニューロモーフィック"処理とセンシングデバイスの採用だ。 しかし、ニューロモルフィックシステムは従来のvon neumannコンピュータやクロック駆動センサーシステムとは根本的に異なるため、既存の分散デジタル計算インフラストラクチャへのニューロモルフィックデバイスの導入や統合にいくつかの課題が提起されている。 本稿では,統合課題を提起する特徴に着目し,ニューロモルフィックコンピューティングの現状について述べる。 この分析に基づいて,システムの分散システムに必要な仮想化と通信機能を提供するニューロモーフィックシステムプロキシと,エンジニアリングプロセスの抽象化を提供する宣言型プログラミングアプローチを組み合わせた,ニューロモーフィックシステム統合のためのマイクロサービスベースのフレームワークを提案する。 また,この枠組みの実現の基盤となりうる概念を提示し,ニューロモルフィックデバイスの大規模システム統合を実現するために必要なさらなる研究の方向性を明らかにした。

Increasing complexity and data-generation rates in cyber-physical systems and the industrial Internet of things are calling for a corresponding increase in AI capabilities at the resource-constrained edges of the Internet. Meanwhile, the resource requirements of digital computing and deep learning are growing exponentially, in an unsustainable manner. One possible way to bridge this gap is the adoption of resource-efficient brain-inspired "neuromorphic" processing and sensing devices, which use event-driven, asynchronous, dynamic neurosynaptic elements with colocated memory for distributed processing and machine learning. However, since neuromorphic systems are fundamentally different from conventional von Neumann computers and clock-driven sensor systems, several challenges are posed to large-scale adoption and integration of neuromorphic devices into the existing distributed digital-computational infrastructure. Here, we describe the current landscape of neuromorphic computing, focusing on characteristics that pose integration challenges. Based on this analysis, we propose a microservice-based framework for neuromorphic systems integration, consisting of a neuromorphic-system proxy, which provides virtualization and communication capabilities required in distributed systems of systems, in combination with a declarative programming approach offering engineering-process abstraction. We also present concepts that could serve as a basis for the realization of this framework, and identify directions for further research required to enable large-scale system integration of neuromorphic devices.
翻訳日:2022-10-21 14:52:33 公開日:2022-10-20
# 医用画像セグメンテーションのためのペーシング擬似マスクを用いた非Iterative Scribble-Supervised Learning

Non-Iterative Scribble-Supervised Learning with Pacing Pseudo-Masks for Medical Image Segmentation ( http://arxiv.org/abs/2210.10956v1 )

ライセンス: Link先を確認
Zefan Yang, Di Lin, Dong Ni, and Yi Wang(参考訳) Scribble-supervised Medical Image segmentationはスパースマスクの制限に対処する。 従来のアプローチは、擬似マスクのラベル付けとネットワークパラメータの最適化である。 しかし、このような反復的な2段階のパラダイムは不利であり、ネットワークが誤った擬似マスクを好ましくないため、局所的なオプティマに閉じ込められる可能性がある。 これらの問題に対処するために,PacingPseudo という,様々な擬似マスクのストリームが整合性トレーニングを通じてネットワークを教える非定性的手法を提案する。 モチベーションは、最初に非イテレーティブなプロセスにあります。 興味深いことに、疑似マスクのストリームがトレーニング中に予測されたマスクのストリームを自然に同化するという、シアム建築によって優雅に達成できる。 次に、2つの必要な設計で整合性トレーニングを効果的に行う。 (i)効果的な指導のための高信頼擬似マスクを得るためのエントロピー正規化、 (II) 整合性正規化のための擬似マスクストリームと予測マスクストリームとの相違を生じさせるための歪曲増分 第3に,ラベル付き画素を補完する追加のアンサンブル機能を提供する,新たなメモリバンク機構を考案する。 提案したPacingPseudoの有効性は,腹部多臓器,心構造,心筋のセグメンテーションタスクを含む3つの医用画像データセットで検証された。 大規模な実験では、PacingPseudoがベースラインを大きなマージンで改善し、従来手法を一貫して上回ります。 場合によっては、PacingPseudoはその完全教師付きセグメンテーションと同等のパフォーマンスを達成しており、難解なスクリブル教師付きセグメンテーションアプリケーションの実現可能性を示している。 コードとscribbleアノテーションは公開される予定だ。

Scribble-supervised medical image segmentation tackles the limitation of sparse masks. Conventional approaches alternate between: labeling pseudo-masks and optimizing network parameters. However, such iterative two-stage paradigm is unwieldy and could be trapped in poor local optima since the networks undesirably regress to the erroneous pseudo-masks. To address these issues, we propose a non-iterative method where a stream of varying (pacing) pseudo-masks teach a network via consistency training, named PacingPseudo. Our motivation lies first in a non-iterative process. Interestingly, it can be achieved gracefully by a siamese architecture, wherein a stream of pseudo-masks naturally assimilate a stream of predicted masks during training. Second, we make the consistency training effective with two necessary designs: (i) entropy regularization to obtain high-confidence pseudo-masks for effective teaching; and (ii) distorted augmentations to create discrepancy between the pseudo-mask and predicted-mask streams for consistency regularization. Third, we devise a new memory bank mechanism that provides an extra source of ensemble features to complement scarce labeled pixels. The efficacy of the proposed PacingPseudo is validated on three public medical image datasets, including the segmentation tasks of abdominal multi-organs, cardiac structures, and myocardium. Extensive experiments demonstrate our PacingPseudo improves the baseline by large margins and consistently outcompetes several previous methods. In some cases, our PacingPseudo achieves comparable performance with its fully-supervised counterparts, showing the feasibility of our method for the challenging scribble-supervised segmentation applications. The code and scribble annotations will be publicly available.
翻訳日:2022-10-21 14:51:22 公開日:2022-10-20
# uni6dv3:6次元ポーズ推定のための5次元アンカー機構

Uni6Dv3: 5D Anchor Mechanism for 6D Pose Estimation ( http://arxiv.org/abs/2210.10959v1 )

ライセンス: Link先を確認
Jianqiu Chen, Mingshan Sun, Ye Zheng, Tianpeng Bao, Zhenyu He, Donghai Li, Guoqiang Jin, Rui Zhao, Liwei Wu(参考訳) 時間を要する間接的手法とは異なり、最近の深層学習に基づく6次元ポーズ推定法はRGB-Dデータから直接3次元回転と3次元翻訳を予測しようとする。 しかし、ポーズの絶対的な翻訳を遅らせる直接的な手法は、訓練データとテストデータの間の多様なオブジェクト翻訳の分布に悩まされ、これは通常、高価なデータ収集とアノテーションによって引き起こされる。 そこで本研究では,物理空間の3次元座標と画像平面の2次元座標でアンカーを定義することで,5次元アンカー機構を提案する。 アンカーベース物体検出法にインスパイアされた5Dアンカーは、ターゲットとアンカーの間のオフセットを後退させ、分散ギャップをなくし、回帰ターゲットを小さな範囲に変換する。 しかし、オフセットの回帰は絶対的な入力と相対的な出力のミスマッチにつながる。 絶対入力を相対入力に置き換えてアンカーに基づく投影モデルを構築し,性能をさらに向上させる。 5Dアンカーを最新の直接法に差し込むことで、Uni6Dv2とES6Dはそれぞれ38.7%と3.5%の改善が得られた。 具体的には、Uni6Dv2+5DアンカーはUni6Dv3と呼ばれ、Occlusion LineMOD (79.3%)、LineMOD (99.5%)、YCB-Video データセット (91.5%)などのデータセットに関する最先端の総合的な結果を達成する。

Unlike indirect methods that usually require time-consuming post-processing, recent deep learning-based direct methods for 6D pose estimation try to predict the 3D rotation and 3D translation from RGB-D data directly. However, direct methods, regressing the absolute translation of the pose, suffer from diverse object translation distribution between training and test data, which is usually caused by expensive data collection and annotation in practice. To this end, we propose a 5D anchor mechanism by defining the anchor with 3D coordinates in the physical space and 2D coordinates in the image plane. Inspired by anchor-based object detection methods, 5D anchor regresses the offset between the target and anchor, which eliminates the distribution gap and transforms the regression target to a small range. But regressing offset leads to the mismatch between the absolute input and relative output. We build an anchor-based projection model by replacing the absolute input with the relative one, which further improves the performance. By plugging 5D anchor into the latest direct methods, Uni6Dv2 and ES6D obtain 38.7% and 3.5% improvement, respectively. Specifically, Uni6Dv2+5D anchor, dubbed Uni6Dv3, achieves state-of-the-art overall results on datasets including Occlusion LineMOD (79.3%), LineMOD (99.5%), and YCB-Video datasets (91.5%), and requires only 10% of training data to reach comparable performance as full data.
翻訳日:2022-10-21 14:50:48 公開日:2022-10-20
# 拡散モデルはすでにセマンティック潜在空間を持っている

Diffusion Models already have a Semantic Latent Space ( http://arxiv.org/abs/2210.10960v1 )

ライセンス: Link先を確認
Mingi Kwon, Jaeseok Jeong, Youngjung Uh(参考訳) 拡散モデルは様々な領域において優れた生成性能を達成する。 その大きな成功にもかかわらず、生成過程を制御するのに不可欠な意味的潜在空間が欠如している。 そこで本研究では,凍結事前学習拡散モデルにおいて,非対称な逆過程(Asyrp)を提案する。 h-空間という名前のセマンティック潜在空間は、ホモジニティ、線形性、ロバスト性、時間ステップ間の一貫性といった、セマンティックなイメージ操作を調節するための優れた特性を持つ。 さらに,時間経過における間隔の編集強度と品質不足の定量化により,多目的編集と品質向上のための生成プロセスの原理的設計を導入する。 本手法は,各種アーキテクチャ (DDPM++, iD-DPM, ADM) およびデータセット (CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, METFACES) に適用可能である。 プロジェクトページ: https://kwonminki.github.io/asyrp/

Diffusion models achieve outstanding generative performance in various domains. Despite their great success, they lack semantic latent space which is essential for controlling the generative process. To address the problem, we propose asymmetric reverse process (Asyrp) which discovers the semantic latent space in frozen pretrained diffusion models. Our semantic latent space, named h-space, has nice properties for accommodating semantic image manipulation: homogeneity, linearity, robustness, and consistency across timesteps. In addition, we introduce a principled design of the generative process for versatile editing and quality boost ing by quantifiable measures: editing strength of an interval and quality deficiency at a timestep. Our method is applicable to various architectures (DDPM++, iD- DPM, and ADM) and datasets (CelebA-HQ, AFHQ-dog, LSUN-church, LSUN- bedroom, and METFACES). Project page: https://kwonminki.github.io/Asyrp/
翻訳日:2022-10-21 14:50:17 公開日:2022-10-20
# ssit:糖尿病網膜症格付けのための自己教師付き画像トランスフォーマ

SSiT: Saliency-guided Self-supervised Image Transformer for Diabetic Retinopathy Grading ( http://arxiv.org/abs/2210.10969v1 )

ライセンス: Link先を確認
Yijin Huang, Junyan Lyu, Pujin Cheng, Roger Tam, Xiaoying Tang(参考訳) 自己教師付き学習(ssl)はラベルのない画像を利用して画像表現を学ぶために広く利用されている。 しかし, 医用画像解析分野では完全には研究されていない。 本研究では,糖尿病網膜症 (dr) に対するssit (saliency-guided self-supervised image transformer) を提案する。 我々は,自己教師付き事前学習をドメイン固有の事前知識で導くことを目標として,ssl にサリエンシーマップを導入する。 具体的には,(1) モーメントコントラストに基づくサラマンシー誘導型コントラスト学習を行い,(2) モーメント更新キーエンコーダの入力シーケンスから自明なパッチを除去するために,基金画像のサラマンシーマップを利用する。 したがって、キーエンコーダは、正常な領域に焦点を当てたターゲット表現を提供し、クエリエンコーダに正常な特徴をキャプチャするように指示する。 2) 問合せエンコーダを訓練し, 給与区分の予測を行い, 学習表現におけるきめ細かい情報の保存を奨励する。 4つの公開アクセス可能な基礎画像データセットで大規模な実験を行う。 提案したSSiTは、すべてのデータセットおよび様々な評価設定において、他の最先端SSLメソッドよりも大幅に優れ、SSiTから学習した表現の有効性を確立する。 ソースコードはhttps://github.com/yijinhuang/ssitで入手できる。

Self-supervised learning (SSL) has been widely applied to learn image representations through exploiting unlabeled images. However, it has not been fully explored in the medical image analysis field. In this work, we propose Saliency-guided Self-Supervised image Transformer (SSiT) for diabetic retinopathy (DR) grading from fundus images. We novelly introduce saliency maps into SSL, with a goal of guiding self-supervised pre-training with domain-specific prior knowledge. Specifically, two saliency-guided learning tasks are employed in SSiT: (1) We conduct saliency-guided contrastive learning based on the momentum contrast, wherein we utilize fundus images' saliency maps to remove trivial patches from the input sequences of the momentum-updated key encoder. And thus, the key encoder is constrained to provide target representations focusing on salient regions, guiding the query encoder to capture salient features. (2) We train the query encoder to predict the saliency segmentation, encouraging preservation of fine-grained information in the learned representations. Extensive experiments are conducted on four publicly-accessible fundus image datasets. The proposed SSiT significantly outperforms other representative state-of-the-art SSL methods on all datasets and under various evaluation settings, establishing the effectiveness of the learned representations from SSiT. The source code is available at https://github.com/YijinHuang/SSiT.
翻訳日:2022-10-21 14:50:01 公開日:2022-10-20
# 乳房超音波画像のセグメンテーションの改善:半自動2点ヒストグラム分割法

Improving Segmentation of Breast Ultrasound Images: Semi Automatic Two Pointers Histogram Splitting Technique ( http://arxiv.org/abs/2210.10975v1 )

ライセンス: Link先を確認
Rasheed Abid, S. Kaisar Alam(参考訳) 乳房超音波(BUS)画像における病変領域の自動分割は, ノイズ, スペックル, アーティファクトが原因で困難である。 BUS画像のエッジマップも役に立たない。 ほぼすべてのセグメンテーション技術は、画像のエッジマップを最初のステップとしていますが、エッジマップを回避しようとするアルゴリズムもいくつかあります。 乳房超音波画像のエッジマップの改善は理論的に自動セグメンテーションの精度を向上させる。 本稿では,2つのポインターを用いた半自動ヒストグラム分割手法を提案する。 ここでユーザは、関心領域(roi)に円を示す最初の推測ポイントを2つだけ選択するだけでよい。 この方法は内部のヒストグラムを自動で研究し、2つのポインタを使って分割する。 出力バス画像はエッジマップを改善し、最終的に、同じアルゴリズムと同じ初期化を用いた正規セグメンテーションと比較した方が良い。 また,エッジマップの面積比に対するエッジピクセルの少ない処理を行い,将来,均質性とセグメント化が容易になる可能性を改善した。

Automatically segmenting lesion area in breast ultrasound (BUS) images is a challenging one due to its noise, speckle and artifacts. Edge-map of BUS images also does not help because in most cases the edge-map gives no information whatsoever. Almost all segmentation technique takes the edge-map of the image as its first step, though there are a few algorithms that try to avoid edge-maps as well. Improving the edge-map of breast ultrasound images theoretically improves the chances of automatic segmentation to be more precise. In this paper, we propose a semi-automatic technique of histogram splitting using two pointers. Here the user only has to select two initially guessed points denoting a circle on the region of interest (ROI). The method will automatically study the internal histogram and split it using two pointers. The output BUS image has improved edge-map and ultimately the segmentation on it is better compared to regular segmentation using same algorithm and same initialization. Also, we further processed the edge-map to have less edge-pixels to area ratio, improving the homogeneity and the chances of easy segmentation in the future.
翻訳日:2022-10-21 14:49:35 公開日:2022-10-20
# rais: 連続学習によるロバストで正確な対話的セグメンテーション

RAIS: Robust and Accurate Interactive Segmentation via Continual Learning ( http://arxiv.org/abs/2210.10984v1 )

ライセンス: Link先を確認
Yuying Hao and Yi Liu and Juncai Peng and Haoyi Xiong and Guowei Chen and Shiyu Tang and Zeyu Chen and Baohua Lai(参考訳) インタラクティブなイメージセグメンテーションは、人間とコンピュータのインタラクションを通じてターゲット領域をセグメンテーションすることを目的としている。 ディープラーニングに基づく最近の研究は、トレーニングセットの精度向上とテストセットの潜在的な改善の無視に焦点を当てながら、優れたパフォーマンスを達成している。 推論フェーズでは、トレーニングセットと同じようなドメインで優れたパフォーマンスを示し、ドメインシフトへの適応性が欠如しているため、満足な結果を得るためにより多くのユーザ努力が必要になる。 本研究では,対話型セグメンテーションと連続学習を併用した堅牢で正確なアーキテクチャであるRAISを提案する。 テストセット上での効率的な学習のために,グローバルパラメータとローカルパラメータをそれぞれ基本セグメンテーションモジュールと適応モジュールで更新する新しい最適化戦略を提案する。 さらに,本手法がデータ分散シフトを処理可能であり,最近の対話的セグメンテーション手法と比較してSOTA性能が向上することを示すベンチマーク実験も行った。 さらに,データ領域がトレーニングとテストで完全に異なるリモートセンシングと医療画像のデータセットにおいても,その堅牢性を示す。

Interactive image segmentation aims at segmenting a target region through a way of human-computer interaction. Recent works based on deep learning have achieved excellent performance, while most of them focus on improving the accuracy of the training set and ignore potential improvement on the test set. In the inference phase, they tend to have a good performance on similar domains to the training set, and lack adaptability to domain shift, so they require more user efforts to obtain satisfactory results. In this work, we propose RAIS, a robust and accurate architecture for interactive segmentation with continuous learning, where the model can learn from both train and test data sets. For efficient learning on the test set, we propose a novel optimization strategy to update global and local parameters with a basic segmentation module and adaptation module, respectively. Moreover, we perform extensive experiments on several benchmarks that show our method can handle data distribution shifts and achieves SOTA performance compared with recent interactive segmentation methods. Besides, our method also shows its robustness in the datasets of remote sensing and medical imaging where the data domains are completely different between training and testing.
翻訳日:2022-10-21 14:49:17 公開日:2022-10-20
# 事実的レシピ生成:リアルシナリオにおける構成的一般化の探求

Counterfactual Recipe Generation: Exploring Compositional Generalization in a Realistic Scenario ( http://arxiv.org/abs/2210.11431v1 )

ライセンス: Link先を確認
Xiao Liu, Yansong Feng, Jizhi Tang, Chengang Hu, Dongyan Zhao(参考訳) 人々は教師なしの方法で知識を入手し、知識を組み立てて新しい組み合わせを作ることができる。 本稿では,事前学習した言語モデルが,現実的な環境下で構成一般化を行うことができるかどうかを考察する。 具体的レシピ生成タスクをデザインし、モデルに対して、成分の変化に応じてベースレシピを変更するように要求する。 このタスクでは、新しい成分をベースレシピに組み込む表面レベルと、成分の変化に関連する調整アクションのより深いレベルという2つのレベルでの組成の一般化が必要である。 料理の知識を学習するためのモデルと、評価のためのアクションレベルの細かいアノテーションのサブセットを中国語で収集する。 レシピコーパス上で事前学習した言語モデルを微調整し、教師なしの偽造法を用いて修正レシピを生成する。 その結果,既存のモデルでは原文スタイルを維持しながら素材の修正が困難であり,調整が必要な動作を欠くことが多かった。 事前学習された言語モデルは、流麗なレシピテキストを生成することができるが、真の学習に失敗し、構文知識を合成的に使用できない。 コードとデータはhttps://github.com/xxxiaol/counterfactual-recipe-generationで入手できる。

People can acquire knowledge in an unsupervised manner by reading, and compose the knowledge to make novel combinations. In this paper, we investigate whether pretrained language models can perform compositional generalization in a realistic setting: recipe generation. We design the counterfactual recipe generation task, which asks models to modify a base recipe according to the change of an ingredient. This task requires compositional generalization at two levels: the surface level of incorporating the new ingredient into the base recipe, and the deeper level of adjusting actions related to the changing ingredient. We collect a large-scale recipe dataset in Chinese for models to learn culinary knowledge, and a subset of action-level fine-grained annotations for evaluation. We finetune pretrained language models on the recipe corpus, and use unsupervised counterfactual generation methods to generate modified recipes. Results show that existing models have difficulties in modifying the ingredients while preserving the original text style, and often miss actions that need to be adjusted. Although pretrained language models can generate fluent recipe texts, they fail to truly learn and use the culinary knowledge in a compositional way. Code and data are available at https://github.com/xxxiaol/counterfactual-recipe-generation.
翻訳日:2022-10-21 14:43:31 公開日:2022-10-20
# レンズを選ぶ - 性別バイアス評価の欠陥

Choose Your Lenses: Flaws in Gender Bias Evaluation ( http://arxiv.org/abs/2210.11471v1 )

ライセンス: Link先を確認
Hadas Orgad and Yonatan Belinkov(参考訳) 近年、性別バイアスを計測し緩和するための重要な取り組みは、この領域で使われるタスク、データセット、メトリクスを大量に導入することにつながっている。 本稿では,ジェンダーバイアス評価の現在のパラダイムを評価し,その欠陥をいくつか同定する。 まず、あるタスクにおけるモデルのパフォーマンスが、システムと相互作用する人々に対する特定の害に強く関係しないモデル表現の本質的な評価とは対照的に、あるタスクにおけるモデルのパフォーマンスが、ジェンダーによってどのように影響を受けるかを測定する外部バイアス指標の重要性を強調する。 ほとんどの研究で測定できるのはごくわずかだが、測定できるものは限られている。 第2に、データセットとメトリクスがしばしば結合していることを発見し、それらの結合が信頼できる結論を得る能力をどのように阻害するか、どのように分離するかを議論する。 次に、データセットの選択とその構成、およびメトリクスの選択がバイアス測定にどのように影響するかを調べ、それらのそれぞれに有意な変化を見出す。 最後に,より信頼性の高いジェンダーバイアス評価のためのガイドラインを提案する。

Considerable efforts to measure and mitigate gender bias in recent years have led to the introduction of an abundance of tasks, datasets, and metrics used in this vein. In this position paper, we assess the current paradigm of gender bias evaluation and identify several flaws in it. First, we highlight the importance of extrinsic bias metrics that measure how a model's performance on some task is affected by gender, as opposed to intrinsic evaluations of model representations, which are less strongly connected to specific harms to people interacting with systems. We find that only a few extrinsic metrics are measured in most studies, although more can be measured. Second, we find that datasets and metrics are often coupled, and discuss how their coupling hinders the ability to obtain reliable conclusions, and how one may decouple them. We then investigate how the choice of the dataset and its composition, as well as the choice of the metric, affect bias measurement, finding significant variations across each of them. Finally, we propose several guidelines for more reliable gender bias evaluation.
翻訳日:2022-10-21 14:43:11 公開日:2022-10-20
# プロジェクトスケジュールの正の現在価値を最大化する効率的なマージ探索計算論

An Efficient Merge Search Matheuristic for Maximising the Net Present Value of Project Schedules ( http://arxiv.org/abs/2210.11260v1 )

ライセンス: Link先を確認
Dhananjay R. Thiruvady, Su Nguyen, Christian Blum, Andreas T. Ernst(参考訳) 資源制約付きプロジェクトスケジューリングは、多くの実用的な応用において重要な組合せ最適化問題である。 優先順位制約、限られたリソース、金融ベースの目的といった複雑な要件により、大きな問題インスタンスに対する最適解を見つけることは、よく理解されたメタヒューリスティックや数理学でも非常に困難である。 この課題に対処するために,資源制約のあるプロジェクトスケジューリングを解決するために,マージ探索と並列計算に基づく新しい数学ヒューリスティックアルゴリズムを提案する。 本稿では,資源制約付きプロジェクトスケジューリング,マージ探索(merge search)のために設計された,制約付き混合整数プログラムを定式化するための可変分割・マージ機構を,既存の解群を改善するために考案した,新しい計算論的フレームワークを提案する。 溶液プールは、独自に高品質なソリューションを生成することができるカスタマイズされた並列antコロニー最適化アルゴリズムによって得られる。 実験の結果,提案手法は既知のベンチマーク問題インスタンス上での最先端アルゴリズムよりも優れていた。 さらに解析により,提案アルゴリズムは,複数のコアを考慮した場合の収束特性に対して,そのアルゴリズムに比べてかなり効率がよいことを示した。

Resource constrained project scheduling is an important combinatorial optimisation problem with many practical applications. With complex requirements such as precedence constraints, limited resources, and finance-based objectives, finding optimal solutions for large problem instances is very challenging even with well-customised meta-heuristics and matheuristics. To address this challenge, we propose a new math-heuristic algorithm based on Merge Search and parallel computing to solve the resource constrained project scheduling with the aim of maximising the net present value. This paper presents a novel matheuristic framework designed for resource constrained project scheduling, Merge search, which is a variable partitioning and merging mechanism to formulate restricted mixed integer programs with the aim of improving an existing pool of solutions. The solution pool is obtained via a customised parallel ant colony optimisation algorithm, which is also capable of generating high quality solutions on its own. The experimental results show that the proposed method outperforms the current state-of-the-art algorithms on known benchmark problem instances. Further analyses also demonstrate that the proposed algorithm is substantially more efficient compared to its counterparts in respect to its convergence properties when considering multiple cores.
翻訳日:2022-10-21 14:42:54 公開日:2022-10-20
# 知識グラフにおけるトランスフォーマーに基づくエンティティタイピング

Transformer-based Entity Typing in Knowledge Graphs ( http://arxiv.org/abs/2210.11151v1 )

ライセンス: Link先を確認
Zhiwei Hu, V\'ictor Guti\'errez-Basulto, Zhiliang Xiang, Ru Li, Jeff Z. Pan(参考訳) 本稿では,エンティティ型を推定することを目的とした知識グラフエンティティ型付けタスクについて検討する。 本稿では,エンティティの隣人の内容を効果的にエンコードする,トランスフォーマーベースのエンティティタイピング(TET)手法を提案する。 More precisely, TET is composed of three different mechanisms: a local transformer allowing to infer missing types of an entity by independently encoding the information provided by each of its neighbors; a global transformer aggregating the information of all neighbors of an entity into a single long sequence to reason about more complex entity types; and a context transformer integrating neighbors content based on their contribution to the type inference through information exchange between neighbor pairs. さらに、TETは型のクラスメンバシップに関する情報を使用して、エンティティの表現を意味的に強化する。 2つの実世界のデータセットの実験は、最先端のデータセットと比較してTETの優れたパフォーマンスを示している。

We investigate the knowledge graph entity typing task which aims at inferring plausible entity types. In this paper, we propose a novel Transformer-based Entity Typing (TET) approach, effectively encoding the content of neighbors of an entity. More precisely, TET is composed of three different mechanisms: a local transformer allowing to infer missing types of an entity by independently encoding the information provided by each of its neighbors; a global transformer aggregating the information of all neighbors of an entity into a single long sequence to reason about more complex entity types; and a context transformer integrating neighbors content based on their contribution to the type inference through information exchange between neighbor pairs. Furthermore, TET uses information about class membership of types to semantically strengthen the representation of an entity. Experiments on two real-world datasets demonstrate the superior performance of TET compared to the state-of-the-art.
翻訳日:2022-10-21 14:41:16 公開日:2022-10-20
# 動的拡散凝集法による深部残留GCNの重なり合うコミュニティ検出

Overlapping Community Detection using Dynamic Dilated Aggregation in Deep Residual GCN ( http://arxiv.org/abs/2210.11174v1 )

ライセンス: Link先を確認
Md Nurul Muttakin, Md Iqbal Hossain, Md Saidur Rahman(参考訳) 重複するコミュニティ検出は、グラフマイニングの重要な問題である。 グラフ畳み込みネットワーク(GCN)を用いてこの問題に取り組む研究もある。 しかし、一般的な不規則グラフの場合、深いグラフ畳み込みネットワークを組み込むことは依然として困難である。 本研究では,新しい動的拡張アグリゲーション機構と,ネットワーク内の重複するコミュニティを検出するためのエンドツーエンドエンコーダ・デコーダ・フレームワークを統一した動的残差グラフ畳み込みネットワーク(DynaResGCN)を設計する。 ディープDynaResGCNモデルはエンコーダとして、一方Bernoulli-Poisson(BP)モデルはデコーダとして使用される。 そこで,我々は,基礎的真理を持たない研究トピックスデータセット,信頼できる(ラベル付き)基盤真理を持つfacebookのネットワーク群,経験的(ラベル付きではない)基礎的真理を持つ,非常に大規模な共著者ネットワーク群に,重なり合ったコミュニティ検出フレームワークを適用する。 これらのデータセットを用いた実験により,ネットワーク上の重なり合うコミュニティを検出するための最先端手法よりも,はるかに優れた性能を示した。

Overlapping community detection is a key problem in graph mining. Some research has considered applying graph convolutional networks (GCN) to tackle the problem. However, it is still challenging to incorporate deep graph convolutional networks in the case of general irregular graphs. In this study, we design a deep dynamic residual graph convolutional network (DynaResGCN) based on our novel dynamic dilated aggregation mechanisms and a unified end-to-end encoder-decoder-based framework to detect overlapping communities in networks. The deep DynaResGCN model is used as the encoder, whereas we incorporate the Bernoulli-Poisson (BP) model as the decoder. Consequently, we apply our overlapping community detection framework in a research topics dataset without having ground truth, a set of networks from Facebook having a reliable (hand-labeled) ground truth, and in a set of very large co-authorship networks having empirical (not hand-labeled) ground truth. Our experimentation on these datasets shows significantly superior performance over many state-of-the-art methods for the detection of overlapping communities in networks.
翻訳日:2022-10-21 14:41:04 公開日:2022-10-20
# オンラインクラウドソーシングアノテーションにおける不適切かつ曖昧なスーパービジョンの問題の緩和に向けて

Towards Mitigating the Problem of Insufficient and Ambiguous Supervision in Online Crowdsourcing Annotation ( http://arxiv.org/abs/2210.11194v1 )

ライセンス: Link先を確認
Qian-Wei Wang, Bowen Zhao, Mingyan Zhu, Tianxiang Li, Zimo Liu, Shu-Tao Xia(参考訳) 実世界のクラウドソーシングアノテーションシステムでは,ユーザ知識や文化的背景の相違,アノテーション情報の取得コストの高騰などにより,得られた監視情報は不十分で曖昧である可能性がある。 本稿では, 負の影響を軽減するために, より汎用的で広く適用可能な学習問題,すなわち \emph{semi-supervised partial label learning} を調査し, 擬似ラベルとコントラスト学習に基づく新しい手法を提案する。 鍵発明の原則に従い,本手法はラベルなしデータによる部分ラベルの曖昧化を容易にすると同時に,信頼性の高い擬似ラベルを弱教師付き例に割り当てる。 具体的には,部分クロスエントロピー損失による曖昧なラベル情報から学習する。 一方、信頼度に基づくしきい値付けと、より識別的な表現のために教師なしかつ教師なしのハイブリッド方式でコントラスト学習を行い、その指導がカリキュラム的に増加することにより、部分的および無ラベルの例の両方に対して高精度な擬似ラベルを生成する。 2つの主要なコンポーネントは全体として体系的に動作し、相互に連携します。 実験では,画像ベンチマークによる半教師付き部分ラベル学習において,すべての比較手法を有意なマージンで圧倒し,最初の最先端性能を設定した。

In real-world crowdsourcing annotation systems, due to differences in user knowledge and cultural backgrounds, as well as the high cost of acquiring annotation information, the supervision information we obtain might be insufficient and ambiguous. To mitigate the negative impacts, in this paper, we investigate a more general and broadly applicable learning problem, i.e. \emph{semi-supervised partial label learning}, and propose a novel method based on pseudo-labeling and contrastive learning. Following the key inventing principle, our method facilitate the partial label disambiguation process with unlabeled data and at the same time assign reliable pseudo-labels to weakly supervised examples. Specifically, our method learns from the ambiguous labeling information via partial cross-entropy loss. Meanwhile, high-accuracy pseudo-labels are generated for both partial and unlabeled examples through confidence-based thresholding and contrastive learning is performed in a hybrid unsupervised and supervised manner for more discriminative representations, while its supervision increases curriculumly. The two main components systematically work as a whole and reciprocate each other. In experiments, our method consistently outperforms all comparing methods by a significant margin and set up the first state-of-the-art performance for semi-supervised partial label learning on image benchmarks.
翻訳日:2022-10-21 14:40:44 公開日:2022-10-20
# 分類器による法ケースベース推論のモデル化と説明

Modelling and Explaining Legal Case-based Reasoners through Classifiers ( http://arxiv.org/abs/2210.11217v1 )

ライセンス: Link先を確認
Xinghan Liu, Emiliano Lorini, Antonino Rotolo, Giovanni Sartor(参考訳) 本稿では、ケースベース推論の因子モデル(CBR)と分類器の論理的仕様の2つの研究ラインをまとめる。 分類器への論理的アプローチは、分類器システムの特徴と結果の関係を捉える。 因子に基づく推論は、AI & Lawの先例による推論に対する一般的なアプローチである。 Horty (2011) は前例の因子モデルを開発し、前例的制約の理論を作った。 本稿では,モーダル論理のアプローチ (binary-input classifier, blc) を分類器と組み合わせ, liu & lorini (2021) によって与えられたそれらの説明と因子に基づく cbr のホーティの説明を組み合わせる。 我々は,BCL言語におけるHortyのケースベースを再構成し,いくつかの表現結果を与える。 さらに,cbrの概念,例えば理由,理由間の選好を分類システムの概念によってどのように分析できるかを示す。

This paper brings together two lines of research: factor-based models of case-based reasoning (CBR) and the logical specification of classifiers. Logical approaches to classifiers capture the connection between features and outcomes in classifier systems. Factor-based reasoning is a popular approach to reasoning by precedent in AI & Law. Horty (2011) has developed the factor-based models of precedent into a theory of precedential constraint. In this paper we combine the modal logic approach (binary-input classifier, BLC) to classifiers and their explanations given by Liu & Lorini (2021) with Horty's account of factor-based CBR, since both a classifier and CBR map sets of features to decisions or classifications. We reformulate case bases of Horty in the language of BCL, and give several representation results. Furthermore, we show how notions of CBR, e.g. reason, preference between reasons, can be analyzed by notions of classifier system.
翻訳日:2022-10-21 14:40:19 公開日:2022-10-20
# 非自己回帰翻訳のための多粒度最適化

Multi-Granularity Optimization for Non-Autoregressive Translation ( http://arxiv.org/abs/2210.11017v1 )

ライセンス: Link先を確認
Yafu Li, Leyang Cui, Yongjing Yin and Yue Zhang(参考訳) 低レイテンシにもかかわらず、非自己回帰型機械翻訳(NAT)は、単純な独立仮定のため、大幅な性能劣化を被る。 この仮定はさらに、仮説とトークンによる参照トークンとの厳密な一致を促すクロスエントロピー損失によって強化される。 この問題を軽減するために,様々な粒度の翻訳セグメントのモデル挙動を収集し,バックプロパゲーションのためのフィードバックを統合するNATの多粒度最適化を提案する。 4つのWMTベンチマーク実験により、提案手法はクロスエントロピー損失で訓練されたベースラインモデルよりも大幅に優れており、WMT'16 En-RoとWMT'14 En-Deの完全非自己回帰翻訳において高い競争力を発揮することが示された。

Despite low latency, non-autoregressive machine translation (NAT) suffers severe performance deterioration due to the naive independence assumption. This assumption is further strengthened by cross-entropy loss, which encourages a strict match between the hypothesis and the reference token by token. To alleviate this issue, we propose multi-granularity optimization for NAT, which collects model behaviors on translation segments of various granularities and integrates feedback for backpropagation. Experiments on four WMT benchmarks show that the proposed method significantly outperforms the baseline models trained with cross-entropy loss, and achieves the best performance on WMT'16 En-Ro and highly competitive results on WMT'14 En-De for fully non-autoregressive translation.
翻訳日:2022-10-21 14:34:06 公開日:2022-10-20
# Doc2Bot:会話ボットによる異種ドキュメントへのアクセス

Doc2Bot: Accessing Heterogeneous Documents via Conversational Bots ( http://arxiv.org/abs/2210.11060v1 )

ライセンス: Link先を確認
Haomin Fu, Yeqin Zhang, Haiyang Yu, Jian Sun, Fei Huang, Luo Si, Yongbin Li, Cam-Tu Nguyen(参考訳) 本稿では,会話による情報検索を支援するマシン構築のための新しいデータセットであるDoc2Botを紹介する。 これは、多数のマニュアルや指導書を持っている企業や組織にとって特に関心がある。 1)文書には機械の理解を阻害する様々な構造が含まれており、(2)ユーザ情報の必要性は過小評価されることが多い。 単一の構造型にフォーカスするか、ユーザニーズを明らかにするための質問の役割を見落としている以前のデータセットと比較して、doc2botデータセットはそのような課題を体系的にターゲットするために開発されている。 当社のデータセットには、5つのドメインの中国文書に基づいて10万回以上のターンが含まれています。 本研究では,(1)ユーザの意図をトラッキングするダイアログ状態追跡,(2)システムアクションとコンテンツ計画のためのダイアログポリシー学習,(3)ダイアログポリシーの出力に基づいて応答を生成する応答生成という3つのタスクを提案する。 最新のディープラーニングモデルに基づくベースライン手法を提示し,提案するタスクが課題であり,さらなる研究に値することを示す。

This paper introduces Doc2Bot, a novel dataset for building machines that help users seek information via conversations. This is of particular interest for companies and organizations that own a large number of manuals or instruction books. Despite its potential, the nature of our task poses several challenges: (1) documents contain various structures that hinder the ability of machines to comprehend, and (2) user information needs are often underspecified. Compared to prior datasets that either focus on a single structural type or overlook the role of questioning to uncover user needs, the Doc2Bot dataset is developed to target such challenges systematically. Our dataset contains over 100,000 turns based on Chinese documents from five domains, larger than any prior document-grounded dialog dataset for information seeking. We propose three tasks in Doc2Bot: (1) dialog state tracking to track user intentions, (2) dialog policy learning to plan system actions and contents, and (3) response generation which generates responses based on the outputs of the dialog policy. Baseline methods based on the latest deep learning models are presented, indicating that our proposed tasks are challenging and worthy of further research.
翻訳日:2022-10-21 14:33:48 公開日:2022-10-20
# タイト境界による実行時間プログラム検証

Execution Time Program Verification With Tight Bounds ( http://arxiv.org/abs/2210.11105v1 )

ライセンス: Link先を確認
Ana Carolina Silva, Manuel Barbosa and Mario Florido(参考訳) 本稿では,コア命令型プログラミング言語の実行時間境界を推論するための証明システムを提案する。 証明システムは3つの異なるシナリオで定義されている: 最悪の場合の実行時間の近似、正確な時間推論、償却分析による悲観的実行時間の推定。 3つのケースに対してHoareロジックを定義し、注釈付きコスト対応操作意味論に関してその健全性を証明する。 最後に、プログラムの正確性、コスト、終了の証明に必要なゴールを生成する検証条件(VC)の生成を定義する。 それらの目標は、検証のためにeasycryptツールセットに送られる。 証明システムの実用性は,ocamlで実装したサンプルプログラムに適用するために必要なモジュールによって実証される。 私たちのケーススタディは、リアルタイムおよび暗号化ソフトウェアが動機です。

This paper presents a proof system for reasoning about execution time bounds for a core imperative programming language. Proof systems are defined for three different scenarios: approximations of the worst-case execution time, exact time reasoning, and less pessimistic execution time estimation using amortized analysis. We define a Hoare logic for the three cases and prove its soundness with respect to an annotated cost-aware operational semantics. Finally, we define a verification conditions (VC) generator that generates the goals needed to prove program correctness, cost, and termination. Those goals are then sent to the Easycrypt toolset for validation. The practicality of the proof system is demonstrated with an implementation in OCaml of the different modules needed to apply it to example programs. Our case studies are motivated by real-time and cryptographic software.
翻訳日:2022-10-21 14:33:29 公開日:2022-10-20
# 決定論的Factual Knowledgeを用いた事前学習言語モデル

Pre-training Language Models with Deterministic Factual Knowledge ( http://arxiv.org/abs/2210.11165v1 )

ライセンス: Link先を確認
Shaobo Li, Xiaoguang Li, Lifeng Shang, Chengjie Sun, Bingquan Liu, Zhenzhou Ji, Xin Jiang and Qun Liu(参考訳) 以前の研究では、事前学習言語モデル(PLM)が事実知識を捉えることができた。 しかし、plmは、事実知識を抽出する際にプロンプトの変化に敏感であるなど、堅牢に実行できないという分析もある。 この問題を軽減するため,我々はplmに対して,残りのコンテキストとマスキング内容との決定論的関係を学習させることを提案する。 決定論的関係により、マスキングされた事実内容が、文脈の既存の手がかりに基づいて決定的に推測可能であることが保証される。 PLMがランダムなマスキングよりも現実的な知識を捉えるためには、より安定したパターンを提供するだろう。 マスクを充填する際の決定論的関係に依存するために、2つの事前訓練タスクが導入されている。 具体的には,外部知識ベース(kb)を用いて決定論的関係を同定し,提案手法を用いてplmを継続的に事前学習する。 事実知識探索実験は,連続的に訓練されたplmが,事実知識獲得におけるロバスト性が向上することを示す。 質問応答データセットに関するさらなる実験は、提案手法と決定論的関係を学習しようとすることは、他の知識集約的なタスクにも役立つことを示している。

Previous works show that Pre-trained Language Models (PLMs) can capture factual knowledge. However, some analyses reveal that PLMs fail to perform it robustly, e.g., being sensitive to the changes of prompts when extracting factual knowledge. To mitigate this issue, we propose to let PLMs learn the deterministic relationship between the remaining context and the masked content. The deterministic relationship ensures that the masked factual content can be deterministically inferable based on the existing clues in the context. That would provide more stable patterns for PLMs to capture factual knowledge than randomly masking. Two pre-training tasks are further introduced to motivate PLMs to rely on the deterministic relationship when filling masks. Specifically, we use an external Knowledge Base (KB) to identify deterministic relationships and continuously pre-train PLMs with the proposed methods. The factual knowledge probing experiments indicate that the continuously pre-trained PLMs achieve better robustness in factual knowledge capturing. Further experiments on question-answering datasets show that trying to learn a deterministic relationship with the proposed methods can also help other knowledge-intensive tasks.
翻訳日:2022-10-21 14:33:17 公開日:2022-10-20
# 証拠>直観:エンコーダ選択のための伝達可能性推定

Evidence > Intuition: Transferability Estimation for Encoder Selection ( http://arxiv.org/abs/2210.11255v1 )

ライセンス: Link先を確認
Elisa Bassignana and Max M\"uller-Eberstein and Mike Zhang and Barbara Plank(参考訳) 自然言語処理(NLP)における大規模事前学習言語モデル(LM)の可用性の向上に伴い、利用可能なLMの空間全体を微調整することは、計算的に禁止され、持続不可能であるため、特定の目標タスクに適合するかどうかを評価することが重要になる。 しかし,NLPではエンコーダの転送可能性評価はほとんど注目されていない。 本稿では,モデルプール内において,全ての候補を微調整することなく,目標タスクにおいてどのLMが最善を尽くすかを予測する定量的なエビデンスを生成することを提案する。 分類と構造予測の2つの基本的な問題にまたがる10個のNLPタスクのLMランキングに関する総合的研究を行った。 我々は,コンピュータビジョン (cv) からの最先端の最大エビデンス (logme) 尺度を採用し, 94% のセットアップにおいて最終 lm 性能と正の相関を示した。 この種の最初の研究では、トランスファービリティ対策と人間の実践者ランキングのデファクトスタンダードを比較し、量的指標の証拠が純粋な直観よりも頑健であり、予期せぬLM候補を特定するのに役立つことを発見した。

With the increase in availability of large pre-trained language models (LMs) in Natural Language Processing (NLP), it becomes critical to assess their fit for a specific target task a priori - as fine-tuning the entire space of available LMs is computationally prohibitive and unsustainable. However, encoder transferability estimation has received little to no attention in NLP. In this paper, we propose to generate quantitative evidence to predict which LM, out of a pool of models, will perform best on a target task without having to fine-tune all candidates. We provide a comprehensive study on LM ranking for 10 NLP tasks spanning the two fundamental problem types of classification and structured prediction. We adopt the state-of-the-art Logarithm of Maximum Evidence (LogME) measure from Computer Vision (CV) and find that it positively correlates with final LM performance in 94% of the setups. In the first study of its kind, we further compare transferability measures with the de facto standard of human practitioner ranking, finding that evidence from quantitative metrics is more robust than pure intuition and can help identify unexpected LM candidates.
翻訳日:2022-10-21 14:32:57 公開日:2022-10-20
# 合成推論変換器を用いた言語モデルからの推論能力の分離

Disentangling Reasoning Capabilities from Language Models with Compositional Reasoning Transformers ( http://arxiv.org/abs/2210.11265v1 )

ライセンス: Link先を確認
Wanjun Zhong, Tingting Ma, Jiahai Wang, Jian Yin, Tiejun Zhao, Chin-Yew Lin and Nan Duan(参考訳) 本稿では、複雑な意思決定において、人間のモジュール的および構成的推論プロセスを反映する統一的推論フレームワークであるReasonFormerを提案する。 認知科学における二重プロセス理論にインスパイアされた表現モジュール(自動思考)と推論モジュール(制御思考)は、異なるレベルの認知を捉えるために切り離される。 表現モジュールの最上部では、事前訓練された推論モジュールはモジュールであり、特定の推論スキル(ロジック、単純なQAなど)の専門知識を持つ。 制御された構成思考過程を模倣するために、異なる推論モジュールを動的に活性化し、並列およびカスケードの両方で構成し、どの推論スキルが活性化されているか、そして現在の問題を解決するための推論プロセスの深さを制御する。 統一推論フレームワークは、複数のタスクを単一のモデルで解決し、エンドツーエンドでトレーニングおよび推論される。 異なる推論スキルと複雑さを必要とする11のデータセットで評価されたreasonformerは、かなりのパフォーマンス向上を示し、構成的推論能力を明らかにする。 限られたデータで新しいタスクに事前訓練されたスキルを組み立て、表現モジュールと推論モジュールを分離することで、より高度な一般化能力を示す実験は少ない。 さらに分析した結果、異なるタスクが異なる推論深さで異なる推論スキルを活性化させるため、推論モジュールのモジュラリティが示される。

This paper presents ReasonFormer, a unified reasoning framework for mirroring the modular and compositional reasoning process of humans in complex decision making. Inspired by dual-process theory in cognitive science, the representation module (automatic thinking) and reasoning modules (controlled thinking) are disentangled to capture different levels of cognition. Upon the top of the representation module, the pre-trained reasoning modules are modular and expertise in specific and fundamental reasoning skills (e.g., logic, simple QA, etc). To mimic the controlled compositional thinking process, different reasoning modules are dynamically activated and composed in both parallel and cascaded manners to control what reasoning skills are activated and how deep the reasoning process will be reached to solve the current problems. The unified reasoning framework solves multiple tasks with a single model,and is trained and inferred in an end-to-end manner. Evaluated on 11 datasets requiring different reasoning skills and complexity, ReasonFormer demonstrates substantial performance boosts, revealing the compositional reasoning ability. Few-shot experiments exhibit better generalization ability by learning to compose pre-trained skills for new tasks with limited data,and decoupling the representation module and the reasoning modules. Further analysis shows the modularity of reasoning modules as different tasks activate distinct reasoning skills at different reasoning depths.
翻訳日:2022-10-21 14:32:34 公開日:2022-10-20
# 遅いプロンプトチューニング:遅いプロンプトは多くのプロンプトより良いかもしれない

Late Prompt Tuning: A Late Prompt Could Be Better Than Many Prompts ( http://arxiv.org/abs/2210.11292v1 )

ライセンス: Link先を確認
Xiangyang Liu, Tianxiang Sun, Xuanjing Huang, Xipeng Qiu(参考訳) プロンプトチューニング(英: Prompt tuning)は、入力にソフトプロンプトをプリペイドし、下流タスクにPTMを適用するプロンプトのみを最適化する、事前訓練されたモデル(PTM)を利用するためのパラメータ効率のよいチューニング(PETuning)手法である。 パラメータとデプロイメント効率は高いが、パフォーマンスは他の最先端のペチュニングメソッドに及ばない。 また、モデル全体のバックプロパゲーションのため、プロンプトチューニングのトレーニングコストは大幅に削減されない。 実験的な解析により,ラベル信号から挿入されたプロンプトへの伝搬距離とモデル出力に対するプロンプトの影響のトレードオフを認識するために,プロンプトチューニングの遅延性能に光を当てた。 さらに、入力層やすべての層の代わりに遅延プロンプトをPTMの中間層に挿入するLate Prompt Tuning(LPT)を提案する。 遅延プロンプトは、プロンプト挿入層の前に隠された状態に条件付けされたニューラルプロンプト発生器によって得られ、したがってインスタンス依存である。 各種タスクや PTM にまたがる広範な実験結果から,LPT は訓練速度の高速化とメモリコストの低減を図りながら,フルモデルチューニングや他のPETuning 手法と競合する性能を実現することができることを示した。

Prompt tuning is a parameter-efficient tuning (PETuning) method for utilizing pre-trained models (PTMs) that simply prepends a soft prompt to the input and only optimizes the prompt to adapt PTMs to downstream tasks. Although it is parameter- and deployment-efficient, its performance still lags behind other state-of-the-art PETuning methods. Besides, the training cost of prompt tuning is not significantly reduced due to the back-propagation through the entire model. Through empirical analyses, we shed some light on the lagging performance of prompt tuning and recognize a trade-off between the propagation distance from label signals to the inserted prompt and the influence of the prompt on model outputs. Further, we present Late Prompt Tuning (LPT) that inserts a late prompt into an intermediate layer of the PTM instead of the input layer or all layers. The late prompt is obtained by a neural prompt generator conditioned on the hidden states before the prompt insertion layer and therefore is instance-dependent. Through extensive experimental results across various tasks and PTMs, we show that LPT can achieve competitive performance to full model tuning and other PETuning methods under both full-data and few-shot scenarios while possessing faster training speed and lower memory cost.
翻訳日:2022-10-21 14:32:08 公開日:2022-10-20
# wmt22 code-mixing shared task (mixmt) へのエディンバラ大学の提案

The University of Edinburgh's Submission to the WMT22 Code-Mixing Shared Task (MixMT) ( http://arxiv.org/abs/2210.11309v1 )

ライセンス: Link先を確認
Faheem Kirefu, Vivek Iyer, Pinzhen Chen and Laurie Burchell(参考訳) エディンバラ大学は、コード混合翻訳に関するwmt22共有タスクに参加した。 これは2つのサブタスクから成ります。 一 平行ヒンディー語及び英語文からコード混合ヒンディー語/英語(ヒンディー語)テキストを生成すること、及び 二 ヒングリッシュ語から英語への機械翻訳 どちらのサブタスクも低リソースとみなされるため、注意深いデータ生成とキュレーション、特に単言語リソースからのバックトランスレーションの利用に重点を置いています。 subtask 1では、hinglishを生成するために、制約付きデコードが英語と翻訳されたサブワードに与える影響を調査した。 サブタスク2では,既存の機械翻訳モデルからの単純な初期化とアライメントの強化など,さまざまな事前学習手法を調査した。 両方のサブタスクでは、ベースラインシステムが最善であることがわかった。 両方のサブタスク用の私たちのシステムは、全体的なトップパフォーマンスな提案の1つでした。

The University of Edinburgh participated in the WMT22 shared task on code-mixed translation. This consists of two subtasks: i) generating code-mixed Hindi/English (Hinglish) text generation from parallel Hindi and English sentences and ii) machine translation from Hinglish to English. As both subtasks are considered low-resource, we focused our efforts on careful data generation and curation, especially the use of backtranslation from monolingual resources. For subtask 1 we explored the effects of constrained decoding on English and transliterated subwords in order to produce Hinglish. For subtask 2, we investigated different pretraining techniques, namely comparing simple initialisation from existing machine translation models and aligned augmentation. For both subtasks, we found that our baseline systems worked best. Our systems for both subtasks were one of the overall top-performing submissions.
翻訳日:2022-10-21 14:31:43 公開日:2022-10-20
# ヘイトスピーチ検出を非ソース言語に拡張するデータ効率戦略

Data-Efficient Strategies for Expanding Hate Speech Detection into Under-Resourced Languages ( http://arxiv.org/abs/2210.11359v1 )

ライセンス: Link先を確認
Paul R\"ottger, Debora Nozza, Federico Bianchi, Dirk Hovy(参考訳) ヘイトスピーチは世界的な現象だが、ほとんどの場合、英語コンテンツに焦点を当てている。 これにより、世界中の何十億もの言語が話す、より効果的なヘイトスピーチ検出モデルの開発を妨げる。 より多くのデータが必要ですが、アノテータにとって有害な、憎しみのあるコンテンツは高価です。 これらの問題を緩和するために,ヘイトスピーチ検出を低リソース言語に拡張するためのデータ効率戦略を検討する。 5つの非英語言語におけるモノ言語と多言語モデルの一連の実験で、 1) 高性能を実現するには, 少量のターゲット言語微調整データが必要である。 2以上のデータを使用する利点は指数関数的に減少し、 3) 容易に利用可能な英語データの初期微調整は、部分的にターゲット言語データを置き換えることができ、モデルの汎用性が向上する。 これらの結果に基づき,低リソース言語環境におけるヘイトスピーチ検出のための行動可能な推奨事項を定式化した。

Hate speech is a global phenomenon, but most hate speech datasets so far focus on English-language content. This hinders the development of more effective hate speech detection models in hundreds of languages spoken by billions across the world. More data is needed, but annotating hateful content is expensive, time-consuming and potentially harmful to annotators. To mitigate these issues, we explore data-efficient strategies for expanding hate speech detection into under-resourced languages. In a series of experiments with mono- and multilingual models across five non-English languages, we find that 1) a small amount of target-language fine-tuning data is needed to achieve strong performance, 2) the benefits of using more such data decrease exponentially, and 3) initial fine-tuning on readily-available English data can partially substitute target-language data and improve model generalisability. Based on these findings, we formulate actionable recommendations for hate speech detection in low-resource language settings.
翻訳日:2022-10-21 14:31:31 公開日:2022-10-20
# 会議決定追跡装置:非文脈的発話による会議時間を短縮する

Meeting Decision Tracker: Making Meeting Minutes with De-Contextualized Utterances ( http://arxiv.org/abs/2210.11374v1 )

ライセンス: Link先を確認
Shumpei Inoue, Hy Nguyen, Pham Viet Hoang, Tsungwei Liu, Minh-Tien Nguyen(参考訳) ミーティングは、ビジネスとプロジェクトのコラボレーションで決定する普遍的なプロセスです。 毎日のミーティングで意思決定を自動的に項目化する機能は、過去の議論を広範囲に追跡することができる。 そこで我々は,決定発話検出装置 (DUD) と決定発話リライタ (DUR) を組み合わせた意思決定項目作成システムであるミーティング決定トラッカーを開発した。 自然会話における発話の崩壊に対処し,durがユーザエクスペリエンスの向上に多大な貢献をすることを示す。 このシステムの紹介ビデオもhttps://youtu.be/tg1pjjo0iqoで閲覧できます。

Meetings are a universal process to make decisions in business and project collaboration. The capability to automatically itemize the decisions in daily meetings allows for extensive tracking of past discussions. To that end, we developed Meeting Decision Tracker, a prototype system to construct decision items comprising decision utterance detector (DUD) and decision utterance rewriter (DUR). We show that DUR makes a sizable contribution to improving the user experience by dealing with utterance collapse in natural conversation. An introduction video of our system is also available at https://youtu.be/TG1pJJo0Iqo.
翻訳日:2022-10-21 14:31:15 公開日:2022-10-20
# 利子に基づく雑音減衰の周波数による異常検出性能の向上

Frequency of Interest-based Noise Attenuation Method to Improve Anomaly Detection Performance ( http://arxiv.org/abs/2210.11068v1 )

ライセンス: Link先を確認
YeongHyeon Park, Myung Jin Kim, Won Seok Park(参考訳) 正確な運転イベントの抽出は、タイヤ摩擦鼻による異常検出タスクにおける計算効率と異常検出性能を最大化する手段である。 本研究は,風雑音などの余分な騒音によって妨げられるイベント抽出の精度を向上させるための,簡潔で有用な手法を提案する。 提案手法のコアは,関心周波数に対応する路面摩擦音の同定と,複数の周波数フィルタによる反対特性の除去である。 本手法は,運転イベント抽出の精度を最大化し,異常検出性能を平均8.506%向上させる。 そこで本手法は,屋外エッジコンピューティング環境における路面異常検出目的に適した実用的な解である。

Accurately extracting driving events is the way to maximize computational efficiency and anomaly detection performance in the tire frictional nose-based anomaly detection task. This study proposes a concise and highly useful method for improving the precision of the event extraction that is hindered by extra noise such as wind noise, which is difficult to characterize clearly due to its randomness. The core of the proposed method is based on the identification of the road friction sound corresponding to the frequency of interest and removing the opposite characteristics with several frequency filters. Our method enables precision maximization of driving event extraction while improving anomaly detection performance by an average of 8.506%. Therefore, we conclude our method is a practical solution suitable for road surface anomaly detection purposes in outdoor edge computing environments.
翻訳日:2022-10-21 14:25:11 公開日:2022-10-20
# 医療分野における標準化された医用画像分類

Standardized Medical Image Classification across Medical Disciplines ( http://arxiv.org/abs/2210.11091v1 )

ライセンス: Link先を確認
Simone Mayer, Dominik M\"uller and Frank Kramer(参考訳) aucmediはpythonベースの医療画像分類フレームワークである。 本稿では,複数のデータセットに適用することで,AUCMEDIの能力を評価する。 データセットは、さまざまな医療分野とイメージングモダリティをカバーするために特別に選択された。 Jupyterノートブックを使って簡単なパイプラインを設計し、すべてのデータセットに適用しました。 その結果、AUCMEDIはデータセット毎の平均AUCは0.82から1.0の範囲で、平均F1スコアは0.61から1.0の範囲で、各データセットの正確な分類能力を持つモデルをトレーニングすることができた。 高い適応性と強力な性能を持つAUCMEDIは、広く適用可能なニューラルネットワークを構築するための強力な手段であることが証明されている。 ノートブックはAUCMEDIの応用例として機能する。

AUCMEDI is a Python-based framework for medical image classification. In this paper, we evaluate the capabilities of AUCMEDI, by applying it to multiple datasets. Datasets were specifically chosen to cover a variety of medical disciplines and imaging modalities. We designed a simple pipeline using Jupyter notebooks and applied it to all datasets. Results show that AUCMEDI was able to train a model with accurate classification capabilities for each dataset: Averaged AUC per dataset range between 0.82 and 1.0, averaged F1 scores range between 0.61 and 1.0. With its high adaptability and strong performance, AUCMEDI proves to be a powerful instrument to build widely applicable neural networks. The notebooks serve as application examples for AUCMEDI.
翻訳日:2022-10-21 14:24:57 公開日:2022-10-20
# 深層学習による医用画像の再現性

Reproducibility of the Methods in Medical Imaging with Deep Learning ( http://arxiv.org/abs/2210.11146v1 )

ライセンス: Link先を確認
Attila Simko, Anders Garpebring, Joakim Jonsson, Tufve Nyholm, Tommy L\"ofstedt(参考訳) ディープラーニング研究の再現性に関する懸念は、これまで以上に顕著であり、明確な解決策はない。 特に医用画像の分野では,再現性ガイドラインを取り入れた経験的厳密さを応用すれば,機械学習研究の妥当性は向上できる。 Medical Imaging with Deep Learning (MIDL)カンファレンスは、オープンアクセスを提唱することで、この方向に前進し、最近は、著者にコードを公開することを推奨している。 これにより再現性が向上するが、現時点ではこれらの補足材料のさらなる評価への支持はほとんどないし全くなく、品質の低下に弱くなり、提出全体の影響に影響を及ぼす。 我々は,2018年から2022年までのmidlへの完全提出を,再現性と公開リポジトリの品質に関する若干のガイドラインを用いて評価した。 評価の結果、リポジトリの公開や公開データセットの利用が普及し、トレーサビリティが向上しているが、リポジトリの品質は長年にわたって改善されておらず、リポジトリ設計のあらゆる面で改善の余地が残されている。 すべての投稿の22%に、私たちの評価で繰り返し可能なレポジトリが含まれています。 評価中の課題から,医療画像用機械学習関連研究のガイドラインのセットを提案し,今後のMIDLへの提出に特化して調整した。

Concerns about the reproducibility of deep learning research are more prominent than ever, with no clear solution in sight. The relevance of machine learning research can only be improved if we also employ empirical rigor that incorporates reproducibility guidelines, especially so in the medical imaging field. The Medical Imaging with Deep Learning (MIDL) conference has made advancements in this direction by advocating open access, and recently also recommending authors to make their code public - both aspects being adopted by the majority of the conference submissions. This helps the reproducibility of the methods, however, there is currently little or no support for further evaluation of these supplementary material, making them vulnerable to poor quality, which affects the impact of the entire submission. We have evaluated all accepted full paper submissions to MIDL between 2018 and 2022 using established, but slightly adjusted guidelines on reproducibility and the quality of the public repositories. The evaluations show that publishing repositories and using public datasets are becoming more popular, which helps traceability, but the quality of the repositories has not improved over the years, leaving room for improvement in every aspect of designing repositories. Merely 22% of all submissions contain a repository that were deemed repeatable using our evaluations. From the commonly encountered issues during the evaluations, we propose a set of guidelines for machine learning-related research for medical imaging applications, adjusted specifically for future submissions to MIDL.
翻訳日:2022-10-21 14:24:47 公開日:2022-10-20
# Play It Back: 音声認識のための反復的注意

Play It Back: Iterative Attention for Audio Recognition ( http://arxiv.org/abs/2210.11328v1 )

ライセンス: Link先を確認
Alexandros Stergiou and Dima Damen(参考訳) 聴覚認知の重要な機能は、特徴音とその対応する意味論を時間とともに関連付けることである。 微粒なオーディオカテゴリーを区別しようとする人間は、しばしば予測の信頼性を高めるために同じ識別音を再生する。 本稿では,音声系列の最も識別性の高い音に対して,選択的な繰り返しを通したエンドツーエンドの注意に基づくアーキテクチャを提案する。 我々のモデルは最初,全音声シーケンスを使用し,スロットアテンションに基づいて繰り返し再生される時間セグメントを改良する。 各再生では、選択されたセグメントはより小さなホップ長で再生され、これらのセグメント内の高精細な特徴を表す。 本手法は,audioset,vgg-sound,epic-kitchens-100の3つの音声分類ベンチマークにおいて,最先端の性能を一貫して達成できることを示す。

A key function of auditory cognition is the association of characteristic sounds with their corresponding semantics over time. Humans attempting to discriminate between fine-grained audio categories, often replay the same discriminative sounds to increase their prediction confidence. We propose an end-to-end attention-based architecture that through selective repetition attends over the most discriminative sounds across the audio sequence. Our model initially uses the full audio sequence and iteratively refines the temporal segments replayed based on slot attention. At each playback, the selected segments are replayed using a smaller hop length which represents higher resolution features within these segments. We show that our method can consistently achieve state-of-the-art performance across three audio-classification benchmarks: AudioSet, VGG-Sound, and EPIC-KITCHENS-100.
翻訳日:2022-10-21 14:24:24 公開日:2022-10-20
# Breaking Bad: 幾何学的破壊と再組み立てのためのデータセット

Breaking Bad: A Dataset for Geometric Fracture and Reassembly ( http://arxiv.org/abs/2210.11463v1 )

ライセンス: Link先を確認
Silvia Sell\'an, Yun-Chun Chen, Ziyi Wu, Animesh Garg, Alec Jacobson(参考訳) 破壊対象の大規模データセットであるBreaking Badを紹介する。 当社のデータセットは、1万のベースモデルからシミュレーションされた100万以上の破砕物で構成されています。 破壊シミュレーションは、物体の様々な破壊モードを効率的に生成する最近の物理的アルゴリズムによって行われる。 既存のシェープアセンブリデータセットは、意味的に意味のある部分に従ってオブジェクトを分解し、構築プロセスを効果的にモデル化する。 対照的にBreaking Badは、幾何学的物体が自然に破片に分解する過程をモデル化している。 我々のデータセットは、破壊対象の再集合の研究を可能にするベンチマークとして機能し、幾何学的形状理解のための新しい課題を示す。 いくつかの幾何学的測度を用いてデータセットを解析し、様々な条件下で3つの最先端形状の深層学習手法をベンチマークする。 大規模な実験結果から, 幾何形状の組立タスクに特化したモデル設計における今後の研究を呼び掛け, データセットの難しさが示された。 データセットはhttps://breaking-bad-dataset.github.io/でホストしています。

We introduce Breaking Bad, a large-scale dataset of fractured objects. Our dataset consists of over one million fractured objects simulated from ten thousand base models. The fracture simulation is powered by a recent physically based algorithm that efficiently generates a variety of fracture modes of an object. Existing shape assembly datasets decompose objects according to semantically meaningful parts, effectively modeling the construction process. In contrast, Breaking Bad models the destruction process of how a geometric object naturally breaks into fragments. Our dataset serves as a benchmark that enables the study of fractured object reassembly and presents new challenges for geometric shape understanding. We analyze our dataset with several geometry measurements and benchmark three state-of-the-art shape assembly deep learning methods under various settings. Extensive experimental results demonstrate the difficulty of our dataset, calling on future research in model designs specifically for the geometric shape assembly task. We host our dataset at https://breaking-bad-dataset.github.io/.
翻訳日:2022-10-21 14:24:03 公開日:2022-10-20
# 効率的なエンコーダ事前学習のための文書自動選択

Automatic Document Selection for Efficient Encoder Pretraining ( http://arxiv.org/abs/2210.10951v1 )

ライセンス: Link先を確認
Yukun Feng, Patrick Xia, Benjamin Van Durme and Jo\~ao Sedoc(参考訳) 事前訓練された言語モデルの構築は高価でデータ集約的だが、パフォーマンス向上のためにデータセットのサイズを増やしなければならないだろうか? より小さいがドメイン表現的なサブセットを自動的に識別することで、より大きなトレーニングセットの代替を提案する。 我々は,代表対象領域のコーパスに条件を付ける統計文スコアリング手法であるCynical Data Selectionを拡張した。 例えば、OntoNotesコーパスをターゲットドメインとして扱い、周期的に選択されたパイルサブセットからRoBERTaライクエンコーダを事前訓練する。 パープレキシティとターゲットドメイン内のいくつかのダウンストリームタスクの両方において、lmプリトレーニングのための自動ドキュメント選択のレシピを検証するため、データ20倍、トレーニングイテレーション3倍、推定クラウド計算コスト2倍というランダム選択を一貫して上回っています。

Building pretrained language models is considered expensive and data-intensive, but must we increase dataset size to achieve better performance? We propose an alternative to larger training sets by automatically identifying smaller yet domain-representative subsets. We extend Cynical Data Selection, a statistical sentence scoring method that conditions on a representative target domain corpus. As an example, we treat the OntoNotes corpus as a target domain and pretrain a RoBERTa-like encoder from a cynically selected subset of the Pile. On both perplexity and across several downstream tasks in the target domain, it consistently outperforms random selection with 20x less data, 3x fewer training iterations, and 2x less estimated cloud compute cost, validating the recipe of automatic document selection for LM pretraining.
翻訳日:2022-10-21 14:22:48 公開日:2022-10-20
# 文字発音予測による中国語スペルチェックの改善:適応性と粒度の影響

Improving Chinese Spelling Check by Character Pronunciation Prediction: The Effects of Adaptivity and Granularity ( http://arxiv.org/abs/2210.10996v1 )

ライセンス: Link先を確認
Jiahao Li, Quan Wang, Zhendong Mao, Junbo Guo, Yanyan Yang, Yongdong Zhang(参考訳) 中国語スペルチェック(英語: Chinese spelling check, CSC)は、中国語テキストのスペルエラーを検出し修正する基本的なNLPタスクである。 これらのスペル誤りのほとんどは音韻的類似によって引き起こされるため、漢字の発音を効果的にモデル化することがCSCの重要な要素である。 本稿では,cscを改善するための中国語発音予測(cpp)の補助タスクの導入を検討するとともに,この補助タスクの適応性と粒度を体系的に議論する。 共用エンコーダ2つの並列デコーダ上に構築されたSCOPE, 第一のCSCタスク用, 第二のCPPタスク用, 第二のCPPタスク用, 二つのタスクのバランスをとるための適応重み付け方式を提案する。 さらに, 推論中のさらなる改善のために, 繊細な反復補正戦略を考案する。 経験的評価により,SCOPEは3つのCSCベンチマークで新たな最先端性を実現し,補助的なCPPタスクの有効性と優位性を示す。 包括的アブレーション研究は、タスクの適応性と粒度の正の効果をさらに検証する。 この論文で使用されるコードとデータはhttps://github.com/jiahaozhenbang/SCOPEで公開されている。

Chinese spelling check (CSC) is a fundamental NLP task that detects and corrects spelling errors in Chinese texts. As most of these spelling errors are caused by phonetic similarity, effectively modeling the pronunciation of Chinese characters is a key factor for CSC. In this paper, we consider introducing an auxiliary task of Chinese pronunciation prediction (CPP) to improve CSC, and, for the first time, systematically discuss the adaptivity and granularity of this auxiliary task. We propose SCOPE which builds on top of a shared encoder two parallel decoders, one for the primary CSC task and the other for a fine-grained auxiliary CPP task, with a novel adaptive weighting scheme to balance the two tasks. In addition, we design a delicate iterative correction strategy for further improvements during inference. Empirical evaluation shows that SCOPE achieves new state-of-the-art on three CSC benchmarks, demonstrating the effectiveness and superiority of the auxiliary CPP task. Comprehensive ablation studies further verify the positive effects of adaptivity and granularity of the task. Code and data used in this paper are publicly available at https://github.com/jiahaozhenbang/SCOPE.
翻訳日:2022-10-21 14:22:33 公開日:2022-10-20
# 制約マルコフ決定過程における安全政策の改善

Safe Policy Improvement in Constrained Markov Decision Processes ( http://arxiv.org/abs/2210.11259v1 )

ライセンス: Link先を確認
Luigi Berducci, Radu Grosu(参考訳) 与えられた形式的要件の集合から強化学習(RL)による政策の自動合成は、報酬信号の構築に依存し、多くの政策改善ステップの反復的な適用から構成される。 合成アルゴリズムは, 目標, 安全, 快適な要件を単一目的にバランスさせ, 安全要求違反の数, 特に安全クリティカルなアプリケーションにおいて, 政策改善が増加しないことを保証する。 そこで本研究では,形式的要件と安全ポリシー更新の2つの課題を解決することで,合成問題に対する解決策を提案する。 前者に対しては,タスク仕様に準拠したスカラー報酬信号を定義する自動報酬整形手順を提案する。 後者では,高信頼度保証を伴う安全な方法でポリシーが改善されることを保証するアルゴリズムを導入する。 また、収集したデータを効率的に利用し、予測された軌道上でモデルフリーエージェントを訓練するためのモデルベースRLアルゴリズムの導入についても論じる。 最後に,ハイパーパラメータの過度な摂動下においても,学習手順が効果的で堅牢であることを示す。

The automatic synthesis of a policy through reinforcement learning (RL) from a given set of formal requirements depends on the construction of a reward signal and consists of the iterative application of many policy-improvement steps. The synthesis algorithm has to balance target, safety, and comfort requirements in a single objective and to guarantee that the policy improvement does not increase the number of safety-requirements violations, especially for safety-critical applications. In this work, we present a solution to the synthesis problem by solving its two main challenges: reward-shaping from a set of formal requirements and safe policy update. For the former, we propose an automatic reward-shaping procedure, defining a scalar reward signal compliant with the task specification. For the latter, we introduce an algorithm ensuring that the policy is improved in a safe fashion with high-confidence guarantees. We also discuss the adoption of a model-based RL algorithm to efficiently use the collected data and train a model-free agent on the predicted trajectories, where the safety violation does not have the same impact as in the real world. Finally, we demonstrate in standard control benchmarks that the resulting learning procedure is effective and robust even under heavy perturbations of the hyperparameters.
翻訳日:2022-10-21 14:16:15 公開日:2022-10-20
# MoCoDA: モデルベースの対実データ拡張

MoCoDA: Model-based Counterfactual Data Augmentation ( http://arxiv.org/abs/2210.11287v1 )

ライセンス: Link先を確認
Silviu Pitis, Elliot Creager, Ajay Mandlekar, Animesh Garg(参考訳) 動的過程における状態の数は、対象数で指数関数的であり、複雑な多目的領域において強化学習(RL)を困難にする。 エージェントが現実世界にスケールするためには、オブジェクトの目に見えない組み合わせに反応し、推論する必要がある。 遷移力学における局所因数分解の認識と利用は、多目的推論の力を解き放つ上で重要な要素であると主張する。 この目的のために,(1)環境遷移における既知の局所構造は,動力学モデルを訓練するサンプル複雑性を指数関数的に減少させるのに十分であり,(2)局所因果動力学モデルでは,未知の状態や動作への分散を明確化できることを示した。 局所構造を知ることで、このダイナミクスモデルが一般化する未認識の状態とアクションを予測できる。 我々は,これらの観測をモデルベース対実データ拡張(MoCoDA)フレームワークで活用することを提案する。 MoCoDAは、RLの反実遷移を生成するために、学習された局所因子の動的モデルを状態と行動の増大分布に適用する。 MoCoDAは、以前の作業よりも幅広いローカル構造のセットで動作し、強化されたトレーニングディストリビューションを直接制御することができる。 我々は、MoCoDAにより、RLエージェントが、目に見えない状態や行動に一般化するポリシーを学ぶことができることを示す。 我々は、オフラインのRLエージェントをトレーニングするためにMoCoDAを使用して、標準的なオフラインRLアルゴリズムが失敗する配布外ロボット操作タスクを解決する。

The number of states in a dynamic process is exponential in the number of objects, making reinforcement learning (RL) difficult in complex, multi-object domains. For agents to scale to the real world, they will need to react to and reason about unseen combinations of objects. We argue that the ability to recognize and use local factorization in transition dynamics is a key element in unlocking the power of multi-object reasoning. To this end, we show that (1) known local structure in the environment transitions is sufficient for an exponential reduction in the sample complexity of training a dynamics model, and (2) a locally factored dynamics model provably generalizes out-of-distribution to unseen states and actions. Knowing the local structure also allows us to predict which unseen states and actions this dynamics model will generalize to. We propose to leverage these observations in a novel Model-based Counterfactual Data Augmentation (MoCoDA) framework. MoCoDA applies a learned locally factored dynamics model to an augmented distribution of states and actions to generate counterfactual transitions for RL. MoCoDA works with a broader set of local structures than prior work and allows for direct control over the augmented training distribution. We show that MoCoDA enables RL agents to learn policies that generalize to unseen states and actions. We use MoCoDA to train an offline RL agent to solve an out-of-distribution robotics manipulation task on which standard offline RL algorithms fail.
翻訳日:2022-10-21 14:15:55 公開日:2022-10-20
# メタ強化学習におけるハイパーネットワーク

Hypernetworks in Meta-Reinforcement Learning ( http://arxiv.org/abs/2210.11348v1 )

ライセンス: Link先を確認
Jacob Beck, Matthew Thomas Jackson, Risto Vuorio, Shimon Whiteson(参考訳) 実世界のロボット作業における強化学習(RL)エージェントの訓練は、サンプルの非効率性のため、一般的には実行不可能である。 マルチタスクRLとメタRLは、関連するタスクの分布を一般化することで、サンプル効率を向上させることを目的としている。 マルチタスクrlでは、アートメソッドの状態が、単に各タスクを個別に学習する退化ソリューションを上回らないことが多い。 Hypernetworksは、退化ソリューションの別々のポリシーを複製し、タスクをまたいだ一般化を可能にし、メタRLに適用できる、有望な道である。 しかし、教師あり学習の証拠は、ハイパーネットワーク性能が初期化に非常に敏感であることを示している。 本稿では, 1) ハイパーネットワークの初期化もメタRLの重要な要因であり, ナイーブ初期化が性能を低下させることを示す。 2) 教師付き設定のために提案された最先端手法の性能に適合または超越した新しいハイパーネットワーク初期化方式を提案し, よりシンプルで汎用性の高いものを提案する。 3) マルチシミュレーションロボットベンチマークの評価により, ハイパーネットワークがメタrlの性能を向上させることを示すために, この手法を用いる。

Training a reinforcement learning (RL) agent on a real-world robotics task remains generally impractical due to sample inefficiency. Multi-task RL and meta-RL aim to improve sample efficiency by generalizing over a distribution of related tasks. However, doing so is difficult in practice: In multi-task RL, state of the art methods often fail to outperform a degenerate solution that simply learns each task separately. Hypernetworks are a promising path forward since they replicate the separate policies of the degenerate solution while also allowing for generalization across tasks, and are applicable to meta-RL. However, evidence from supervised learning suggests hypernetwork performance is highly sensitive to the initialization. In this paper, we 1) show that hypernetwork initialization is also a critical factor in meta-RL, and that naive initializations yield poor performance; 2) propose a novel hypernetwork initialization scheme that matches or exceeds the performance of a state-of-the-art approach proposed for supervised settings, as well as being simpler and more general; and 3) use this method to show that hypernetworks can improve performance in meta-RL by evaluating on multiple simulated robotics benchmarks.
翻訳日:2022-10-21 14:15:28 公開日:2022-10-20
# グラフガウス過程による多様体の最適化

Optimization on Manifolds via Graph Gaussian Processes ( http://arxiv.org/abs/2210.10962v1 )

ライセンス: Link先を確認
Hwanwoo Kim, Daniel Sanz-Alonso, and Ruiyi Yang(参考訳) 本稿では,多様体上の目的関数を最適化するために,<emph{Gaussian process upper confidence bound} アルゴリズム内に多様体学習技術を統合する。 我々のアプローチは、多様体の完全な表現が得られず、目的を問うのが高価であるアプリケーションによって動機付けられている。 目的のためのグラフガウス過程代理モデルを定義するために、多様体サンプルの点雲を利用する。 クエリポイントは、以前の全てのクエリに対してサロゲートモデルの後方分布を用いて順次選択される。 クエリの数とポイントクラウドのサイズに関して、後悔すべき境界を定めています。 いくつかの数値的な例がこの理論を補完し、本手法の性能を示す。

This paper integrates manifold learning techniques within a \emph{Gaussian process upper confidence bound} algorithm to optimize an objective function on a manifold. Our approach is motivated by applications where a full representation of the manifold is not available and querying the objective is expensive. We rely on a point cloud of manifold samples to define a graph Gaussian process surrogate model for the objective. Query points are sequentially chosen using the posterior distribution of the surrogate model given all previous queries. We establish regret bounds in terms of the number of queries and the size of the point cloud. Several numerical examples complement the theory and illustrate the performance of our method.
翻訳日:2022-10-21 14:14:54 公開日:2022-10-20
# 2層ニューラルネットワーク上でのSGDのグローバル収束

Global Convergence of SGD On Two Layer Neural Nets ( http://arxiv.org/abs/2210.11452v1 )

ライセンス: Link先を確認
Pulkit Gopalani and Anirbit Mukherjee(参考訳) 本稿では,sgmoid や tanh のような十分に滑らかで有界なアクティベーションを使用している場合,任意のデータと任意の数のゲートに対して$\ell_2-$empirical risk of depth$$ nets -- を適切に正規化した$\ell_2-$empirical risk of depth $2$ nets -- のグローバルミニマへの sgd の収束を示す。 我々は [1] で結果の上に構築し、適切な分布から初期重みのサンプリングとともに、重みに対するフロベニウスノルム正規化の定数量を利用する。 また、SoftPlusのようなスムーズな非有界活性化にも適用可能な連続時間SGD収束結果を与える。 私たちのキーとなるアイデアは、"ヴィラニ関数"である一定サイズのニューラルネット上の損失関数を示すことです。

In this note we demonstrate provable convergence of SGD to the global minima of appropriately regularized $\ell_2-$empirical risk of depth $2$ nets -- for arbitrary data and with any number of gates, if they are using adequately smooth and bounded activations like sigmoid and tanh. We build on the results in [1] and leverage a constant amount of Frobenius norm regularization on the weights, along with sampling of the initial weights from an appropriate distribution. We also give a continuous time SGD convergence result that also applies to smooth unbounded activations like SoftPlus. Our key idea is to show the existence loss functions on constant sized neural nets which are "Villani Functions".
翻訳日:2022-10-21 14:14:42 公開日:2022-10-20
# 大腿骨骨折の局所化のための単段階検出法に基づく半教師付き物体検出

Semi-supervised object detection based on single-stage detector for thighbone fracture localization ( http://arxiv.org/abs/2210.10998v1 )

ライセンス: Link先を確認
Jinman Wei, Jinkun Yao, Guoshan Zhanga, Bin Guan, Yueming Zhang, Shaoquan Wang(参考訳) 大腿骨は下半身を支える最大の骨である。 大腿骨骨折が時間内に治療されない場合は、生涯歩行不能となる。 整形外科では大腿骨疾患の正確な診断が重要である。 深層学習は破壊検出技術の開発を促進する。 しかし、既存のコンピュータ支援診断(CAD)手法は、大量の手動ラベル付きデータに依存しており、これらのデータのラベル付けには多くの時間とエネルギーが費やされている。 そこで本研究では,画像量に制限のある物体検出法を開発し,大腿骨骨折の局在に応用する。 本研究では,Adaptive difficult sample oriented (ADSO) module, Fusion Box, deformable expand encoder (Dex encoder)の3つのモジュールを含む,単段検出器に基づく半教師付きオブジェクト検出(SSOD)フレームワークを構築する。 ADSOモジュールは分類スコアを重み付けによるラベル信頼性評価基準として、Fusion Boxは類似の疑似ボックスをボックス回帰のための信頼性ボックスにマージするように設計され、Dexエンコーダは画像拡張の適応性を高めるために提案されている。 実験は,大腿部骨折のトレーニング画像3484例と大腿部骨折画像358例を含む大腿部骨折データセットを用いて実施した。 実験結果から, 提案手法は, 異なるラベル付きデータレート, 1%, 5%, 10%で大腿骨骨折検出における最先端APを実現することがわかった。 さらに, 知識蒸留に全データを用い, 86.2%のAP50, 52.6%のAP75を得た。

The thighbone is the largest bone supporting the lower body. If the thighbone fracture is not treated in time, it will lead to lifelong inability to walk. Correct diagnosis of thighbone disease is very important in orthopedic medicine. Deep learning is promoting the development of fracture detection technology. However, the existing computer aided diagnosis (CAD) methods baesd on deep learning rely on a large number of manually labeled data, and labeling these data costs a lot of time and energy. Therefore, we develop a object detection method with limited labeled image quantity and apply it to the thighbone fracture localization. In this work, we build a semi-supervised object detection(SSOD) framework based on single-stage detector, which including three modules: adaptive difficult sample oriented (ADSO) module, Fusion Box and deformable expand encoder (Dex encoder). ADSO module takes the classification score as the label reliability evaluation criterion by weighting, Fusion Box is designed to merge similar pseudo boxes into a reliable box for box regression and Dex encoder is proposed to enhance the adaptability of image augmentation. The experiment is conducted on the thighbone fracture dataset, which includes 3484 training thigh fracture images and 358 testing thigh fracture images. The experimental results show that the proposed method achieves the state-of-the-art AP in thighbone fracture detection at different labeled data rates, i.e. 1%, 5% and 10%. Besides, we use full data to achieve knowledge distillation, our method achieves 86.2% AP50 and 52.6% AP75.
翻訳日:2022-10-21 14:13:44 公開日:2022-10-20
# 逆降雪による攻撃動作推定

Attacking Motion Estimation with Adversarial Snow ( http://arxiv.org/abs/2210.11242v1 )

ライセンス: Link先を確認
Jenny Schmalfuss and Lukas Mehl and Andr\'es Bruhn(参考訳) 運動推定(光学フロー)に対する現在の敵攻撃は、実世界では現れない小さなピクセル当たりの摂動を最適化する。 対照的に、逆最適化雪による新しい攻撃に対して、現実の気象現象を利用する。 私たちの攻撃の核心は、写真リアルな雪片とリアルな動きを連続的に3Dシーンに統合する、微分可能なレンダラーです。 最適化により、通常の雪とは区別がつかない光流に大きな影響を及ぼす逆雪を得る。 驚くべきことに、我々の新たな攻撃がL_p摂動に強い堅牢性を示す手法に与える影響が最も大きい。

Current adversarial attacks for motion estimation (optical flow) optimize small per-pixel perturbations, which are unlikely to appear in the real world. In contrast, we exploit a real-world weather phenomenon for a novel attack with adversarially optimized snow. At the core of our attack is a differentiable renderer that consistently integrates photorealistic snowflakes with realistic motion into the 3D scene. Through optimization we obtain adversarial snow that significantly impacts the optical flow while being indistinguishable from ordinary snow. Surprisingly, the impact of our novel attack is largest on methods that previously showed a high robustness to small L_p perturbations.
翻訳日:2022-10-21 14:07:27 公開日:2022-10-20
# SS-VAERR:ビデオからの自己監督型感情反応認識

SS-VAERR: Self-Supervised Apparent Emotional Reaction Recognition from Video ( http://arxiv.org/abs/2210.11341v1 )

ライセンス: Link先を確認
Marija Jegorova, Stavros Petridis, Maja Pantic(参考訳) 本研究は,映像のみの入力からの感情的反応認識(aerr)を自己監督的に行うことに焦点を当てた。 ネットワークはまず、異なる自己教師付きプリテキストタスクで事前トレーニングされ、後に下流のターゲットタスクで微調整される。 自己教師付き学習は、対象のタスクに適さないと判断されるような事前訓練されたアーキテクチャやより大きなデータセットの使用を促進するが、情報表現の学習には有用であり、より小さなより適切なデータにさらなる微調整を行う上で有用な初期化を提供する。 提案する貢献は,(1)ビデオのみの感情的反応認識アーキテクチャのための,異なる最先端(SOTA)プレテキストタスクの解析,(2)さらなるパフォーマンス向上につながる可能性のある回帰と分類損失の様々な組み合わせの分析である。 これら2つの貢献により、連続アノテーションによるビデオのみの自発的な感情的反応認識における最先端のパフォーマンスが向上した。

This work focuses on the apparent emotional reaction recognition (AERR) from the video-only input, conducted in a self-supervised fashion. The network is first pre-trained on different self-supervised pretext tasks and later fine-tuned on the downstream target task. Self-supervised learning facilitates the use of pre-trained architectures and larger datasets that might be deemed unfit for the target task and yet might be useful to learn informative representations and hence provide useful initializations for further fine-tuning on smaller more suitable data. Our presented contribution is two-fold: (1) an analysis of different state-of-the-art (SOTA) pretext tasks for the video-only apparent emotional reaction recognition architecture, and (2) an analysis of various combinations of the regression and classification losses that are likely to improve the performance further. Together these two contributions result in the current state-of-the-art performance for the video-only spontaneous apparent emotional reaction recognition with continuous annotations.
翻訳日:2022-10-21 14:07:16 公開日:2022-10-20
# 生存分析のための深部条件変換モデル

Deep conditional transformation models for survival analysis ( http://arxiv.org/abs/2210.11366v1 )

ライセンス: Link先を確認
Gabriele Campanella, Lucas Kook, Ida H\"aggstr\"om, Torsten Hothorn, Thomas J. Fuchs(参考訳) 臨床試験の回数が増えるごとに、時間と結果が記録され、磁気共鳴画像やテキストデータなどの非タブラル患者データを電子健康記録の形で記録する。 近年、ニューラルネットワークベースのソリューションがいくつか提案されており、その一部はバイナリ分類器である。 生存時間と検閲ステータスをフル活用するパラメトリックで配布不要なアプローチはあまり注目されていない。 我々は,パラメトリックおよび半パラメトリック生存分析への統一的アプローチとして,生存結果のディープコンディショナルトランスフォーメーションモデル(dctms)を提案する。 DCTMは、表型データと表型データの両方に対して、非線形および非局所的ハザードを指定でき、あらゆる種類の検閲とトランケーションに拡張できる。 実データと半合成データから,DCTMは生存分析の最先端DLアプローチと競合することを示す。

An every increasing number of clinical trials features a time-to-event outcome and records non-tabular patient data, such as magnetic resonance imaging or text data in the form of electronic health records. Recently, several neural-network based solutions have been proposed, some of which are binary classifiers. Parametric, distribution-free approaches which make full use of survival time and censoring status have not received much attention. We present deep conditional transformation models (DCTMs) for survival outcomes as a unifying approach to parametric and semiparametric survival analysis. DCTMs allow the specification of non-linear and non-proportional hazards for both tabular and non-tabular data and extend to all types of censoring and truncation. On real and semi-synthetic data, we show that DCTMs compete with state-of-the-art DL approaches to survival analysis.
翻訳日:2022-10-21 14:06:57 公開日:2022-10-20
# 入力勾配伝達性に基づくニューラルネットワークの類似性

Similarity of Neural Architectures Based on Input Gradient Transferability ( http://arxiv.org/abs/2210.11407v1 )

ライセンス: Link先を確認
Jaehui Hwang and Dongyoon Han and Byeongho Heo and Song Park and Sanghyuk Chun and Jong-Seok Lee(参考訳) 本稿では,2つのニューラルアーキテクチャ間の定量的類似性を設計することを目的とする。 具体的には,入力勾配伝達可能性を用いたモデル類似性を定義する。 2つのネットワークの対向的サンプルを生成し,対向的サンプル上でのネットワークの平均精度を測定した。 2つのネットワークが高い相関性を持つ場合、攻撃伝達率は高くなり、高い類似性をもたらす。 類似度スコアを用いて,(1)どのネットワークコンポーネントがモデルの多様性に寄与するのか? 2)モデル多様性は実用シナリオにどのように影響するか? 特徴量分析とクラスタリング分析を提供することで、最初の質問に答える。 2つ目の質問はモデルアンサンブルと知識蒸留という2つの異なるシナリオによって検証される。 その結果,モデル多様性は,異なるニューラルアーキテクチャとのインタラクションにおいて重要な役割を担っていることがわかった。 例えば、より多くの多様性がより良いアンサンブルパフォーマンスをもたらすことが分かりました。 また, 教師と生徒のネットワークと蒸留性能の関係は, 教師と学生のネットワークの基盤構造の選択に依存することを観察した。 分析ツールは、さまざまなニューラルアーキテクチャの違いの高レベルな理解を助けるとともに、複数のアーキテクチャを使用する際の実践的なガイダンスを期待する。

In this paper, we aim to design a quantitative similarity function between two neural architectures. Specifically, we define a model similarity using input gradient transferability. We generate adversarial samples of two networks and measure the average accuracy of the networks on adversarial samples of each other. If two networks are highly correlated, then the attack transferability will be high, resulting in high similarity. Using the similarity score, we investigate two topics: (1) Which network component contributes to the model diversity? (2) How does model diversity affect practical scenarios? We answer the first question by providing feature importance analysis and clustering analysis. The second question is validated by two different scenarios: model ensemble and knowledge distillation. Our findings show that model diversity takes a key role when interacting with different neural architectures. For example, we found that more diversity leads to better ensemble performance. We also observe that the relationship between teacher and student networks and distillation performance depends on the choice of the base architecture of the teacher and student networks. We expect our analysis tool helps a high-level understanding of differences between various neural architectures as well as practical guidance when using multiple architectures.
翻訳日:2022-10-21 14:06:43 公開日:2022-10-20
# FedRecover: 歴史的情報を用いたフェデレーション学習における攻撃からの回復

FedRecover: Recovering from Poisoning Attacks in Federated Learning using Historical Information ( http://arxiv.org/abs/2210.10936v1 )

ライセンス: Link先を確認
Xiaoyu Cao, Jinyuan Jia, Zaixi Zhang and Neil Zhenqiang Gong(参考訳) フェデレーション学習は、悪意のあるクライアントがサーバに悪意のあるモデルアップデートを送信することによってグローバルモデルに毒を盛る中毒攻撃に対して脆弱である。 既存の防御策では、少数の悪意のあるクライアントが堅牢な連合学習方法を通じてグローバルモデルに毒を盛るのを防ぎ、多数の悪意のあるクライアントを検知することに焦点を当てている。 しかし、悪意のあるクライアントが検出された後、毒殺攻撃からグローバルモデルを回復する方法はまだ未解決の課題である。 検出された悪意のあるクライアントをスクラッチから取り除き、新たなグローバルモデルをトレーニングすることで、スマートフォンやiotデバイスといったリソースに制約のあるクライアントには許容できない大きなコストが発生する。 本研究はFedRecoverを提案する。これは顧客に対して低コストで毒殺攻撃から正確なグローバルモデルを復元できる。 私たちの重要なアイデアは、リカバリプロセス中にクライアントに計算と通信を求めるのではなく、サーバがクライアントのモデル更新を見積もるということです。 特に、サーバは、有毒なグローバルモデルをトレーニングする際に、グローバルモデルとクライアントのモデル更新を各ラウンドに格納する。 回復プロセスの間、サーバは保存された履歴情報を用いて各ラウンドでクライアントのモデル更新を推定する。 さらに,feedrecoverを最適化して,ウォームアップ,周期補正,異常修正,最終調整戦略を用いて,より正確なグローバルモデルを復元する。 理論的には、FedRecoverによって回収されたグローバルモデルは、いくつかの仮定の下で列車のスクラッチによって回収されたものに近いか、あるいは同じであることを示す。 実証的な評価では,4つのデータセット,3つのフェデレーション学習手法,および未標的および標的の毒殺攻撃(例:バックドア攻撃)は,FedRecoverが正確かつ効率的であることを示している。

Federated learning is vulnerable to poisoning attacks in which malicious clients poison the global model via sending malicious model updates to the server. Existing defenses focus on preventing a small number of malicious clients from poisoning the global model via robust federated learning methods and detecting malicious clients when there are a large number of them. However, it is still an open challenge how to recover the global model from poisoning attacks after the malicious clients are detected. A naive solution is to remove the detected malicious clients and train a new global model from scratch, which incurs large cost that may be intolerable for resource-constrained clients such as smartphones and IoT devices. In this work, we propose FedRecover, which can recover an accurate global model from poisoning attacks with small cost for the clients. Our key idea is that the server estimates the clients' model updates instead of asking the clients to compute and communicate them during the recovery process. In particular, the server stores the global models and clients' model updates in each round, when training the poisoned global model. During the recovery process, the server estimates a client's model update in each round using its stored historical information. Moreover, we further optimize FedRecover to recover a more accurate global model using warm-up, periodic correction, abnormality fixing, and final tuning strategies, in which the server asks the clients to compute and communicate their exact model updates. Theoretically, we show that the global model recovered by FedRecover is close to or the same as that recovered by train-from-scratch under some assumptions. Empirically, our evaluation on four datasets, three federated learning methods, as well as untargeted and targeted poisoning attacks (e.g., backdoor attacks) shows that FedRecover is both accurate and efficient.
翻訳日:2022-10-21 14:05:35 公開日:2022-10-20
# ポンプスケジューリング問題:強化学習のための実世界シナリオ

The Pump Scheduling Problem: A Real-World Scenario for Reinforcement Learning ( http://arxiv.org/abs/2210.11111v1 )

ライセンス: Link先を確認
Henrique Don\^ancio and Laurent Vercouter and Harald Roclawski(参考訳) 深層強化学習(drl)はゲームなどのシナリオで顕著な成功を収め、制御タスクの潜在的なソリューションとして浮上している。 これはスケーラビリティを活用し、複雑なダイナミクスを処理できる能力のためです。 しかし、現実の環境を対象とする作品はほとんどない。 実際、実世界のシナリオは、特に状態空間の高次元性と未知の報酬関数に直面している場合、困難である。 本研究では,環境シミュレータと実世界の給水施設のポンプスケジューリングに関する人間操作の実演による実験台を公開し,研究を容易にする。 ポンプスケジューリング問題は、電力消費や整合システムの制約を抑えつつ、ポンプの供給をいつ行うかを決定する決定過程とみなすことができる。 出発点として、よく文書化されたコードベースをリリースし、対処可能ないくつかの課題の概要を示し、問題のベースライン表現を提供します。 コードとデータセットはhttps://gitlab.com/hdonancio/pumpschedulingで入手できる。

Deep Reinforcement Learning (DRL) has achieved remarkable success in scenarios such as games and has emerged as a potential solution for control tasks. That is due to its ability to leverage scalability and handle complex dynamics. However, few works have targeted environments grounded in real-world settings. Indeed, real-world scenarios can be challenging, especially when faced with the high dimensionality of the state space and unknown reward function. We release a testbed consisting of an environment simulator and demonstrations of human operation concerning pump scheduling of a real-world water distribution facility to facilitate research. The pump scheduling problem can be viewed as a decision process to decide when to operate pumps to supply water while limiting electricity consumption and meeting system constraints. To provide a starting point, we release a well-documented codebase, present an overview of some challenges that can be addressed and provide a baseline representation of the problem. The code and dataset are available at https://gitlab.com/hdonancio/pumpscheduling.
翻訳日:2022-10-21 14:05:00 公開日:2022-10-20
# 最適輸送格差を考慮した信頼領域政策最適化--双対性と連続行動のアルゴリズム

Trust Region Policy Optimization with Optimal Transport Discrepancies: Duality and Algorithm for Continuous Actions ( http://arxiv.org/abs/2210.11137v1 )

ライセンス: Link先を確認
Antonio Terpin, Nicolas Lanzetti, Batuhan Yardim, Florian D\"orfler, Giorgia Ramponi(参考訳) ポリシー最適化(PO)アルゴリズムは、実世界の連続制御タスクの高次元性を扱うのに特に適していることが証明されている。 この文脈では、信頼地域政策最適化手法は政策更新を安定化するための一般的なアプローチである。 これらは通常、政策の変更を制限するためにKL(Kullback-Leibler)の分岐に依存する。 ワッサーシュタイン距離は、KL の発散の代わりに、信頼領域を定義したり、目的関数を正則化する自然な選択肢を表す。 しかし、最先端の作業はその近似に頼るか、連続状態作用空間のアルゴリズムを提供しないかのどちらかであり、この方法の適用性が低下する。 本稿では、信頼領域を定義するための最適輸送不一致(ワッサーシュタイン距離を含む)について検討し、連続状態空間に対する最適輸送トラスト地域政策最適化(OT-TRPO)という新しいアルゴリズムを提案する。 強い双対性を持つ一次元双対再構成を提供することにより、POの無限次元最適化問題を回避できる。 次に,双対問題の解を与えられた最適政策更新を解析的に導出する。 このようにして、最適輸送コストと最適輸送マップの計算をバイパスし、二重定式化を解くことで暗黙的に特徴づける。 最後に,様々な制御タスクに対するアプローチを実験的に評価する。 以上の結果から,輸送の相違は最先端のアプローチよりも有利であることが示唆された。

Policy Optimization (PO) algorithms have been proven particularly suited to handle the high-dimensionality of real-world continuous control tasks. In this context, Trust Region Policy Optimization methods represent a popular approach to stabilize the policy updates. These usually rely on the Kullback-Leibler (KL) divergence to limit the change in the policy. The Wasserstein distance represents a natural alternative, in place of the KL divergence, to define trust regions or to regularize the objective function. However, state-of-the-art works either resort to its approximations or do not provide an algorithm for continuous state-action spaces, reducing the applicability of the method. In this paper, we explore optimal transport discrepancies (which include the Wasserstein distance) to define trust regions, and we propose a novel algorithm - Optimal Transport Trust Region Policy Optimization (OT-TRPO) - for continuous state-action spaces. We circumvent the infinite-dimensional optimization problem for PO by providing a one-dimensional dual reformulation for which strong duality holds. We then analytically derive the optimal policy update given the solution of the dual problem. This way, we bypass the computation of optimal transport costs and of optimal transport maps, which we implicitly characterize by solving the dual formulation. Finally, we provide an experimental evaluation of our approach across various control tasks. Our results show that optimal transport discrepancies can offer an advantage over state-of-the-art approaches.
翻訳日:2022-10-21 14:04:43 公開日:2022-10-20
# 垂直フェデレーション線形コンテキストバンディット

Vertical Federated Linear Contextual Bandits ( http://arxiv.org/abs/2210.11050v1 )

ライセンス: Link先を確認
Zeyu Cao, Zhipeng Liang, Shu Zhang, Hangyu Li, Ouyang Wen, Yu Rong, Peilin Zhao, Bingzhe Wu(参考訳) 本稿では,垂直フェデレーション環境でのコンテキストバンディット構築に関する新しい問題,すなわち,異なる部門にコンテキスト情報が垂直に分散している場合について検討する。 この問題は研究コミュニティでは未解決のままである。 そこで我々は,従来の暗号手法を回避しつつ,局所的な文脈情報を暗号化するための,直交行列ベースマスク機構(o3m)と呼ばれるカスタマイズ暗号方式を慎重に設計する。 さらに,この機構をlinucbとlintsという2つの一般的なバンディットアルゴリズムに適用し,垂直フェデレーション設定下でのオンライン推薦のための2つの実用的なプロトコルをインスタンス化する。 提案プロトコルは,理論的に証明され,解析された良好な実行効率を実現しつつ,集中型帯域幅アルゴリズムのサービス品質を回復することができる。 合成データと実世界のデータセットの両方について広範な実験を行い,提案手法のプライバシ保護とレコメンデーション性能の面での優位性を示した。

In this paper, we investigate a novel problem of building contextual bandits in the vertical federated setting, i.e., contextual information is vertically distributed over different departments. This problem remains largely unexplored in the research community. To this end, we carefully design a customized encryption scheme named orthogonal matrix-based mask mechanism(O3M) for encrypting local contextual information while avoiding expensive conventional cryptographic techniques. We further apply the mechanism to two commonly-used bandit algorithms, LinUCB and LinTS, and instantiate two practical protocols for online recommendation under the vertical federated setting. The proposed protocols can perfectly recover the service quality of centralized bandit algorithms while achieving a satisfactory runtime efficiency, which is theoretically proved and analyzed in this paper. By conducting extensive experiments on both synthetic and real-world datasets, we show the superiority of the proposed method in terms of privacy protection and recommendation performance.
翻訳日:2022-10-21 13:58:36 公開日:2022-10-20
# 最適化アルゴリズムのpac-ベイズ学習

PAC-Bayesian Learning of Optimization Algorithms ( http://arxiv.org/abs/2210.11113v1 )

ライセンス: Link先を確認
Michael Sucker and Peter Ochs(参考訳) PAC-Bayes理論を学習最適化の設定に適用する。 最善の知識を得るために,我々は,証明可能な一般化保証(pac境界)と高い収束確率と高い収束速度との明示的なトレードオフを用いた最適化アルゴリズムを学習する最初のフレームワークを提案する。 収束が保証される極限の場合においても、学習した最適化アルゴリズムは、(決定論的)最悪のケース分析に基づいて、関連するアルゴリズムを確実に上回ります。 結果は指数関数族に基づく一般の非有界損失関数に対するpac-bayes境界に依存する。 既存のアイデアを一般化することにより,学習手順を1次元の最小化問題に再構成し,学習手順のアルゴリズム的実現を可能にするグローバル最小化の可能性を検討する。 概念実証として、我々は標準最適化アルゴリズムのハイパーパラメータを学習し、経験的に理論の基礎となる。

We apply the PAC-Bayes theory to the setting of learning-to-optimize. To the best of our knowledge, we present the first framework to learn optimization algorithms with provable generalization guarantees (PAC-bounds) and explicit trade-off between a high probability of convergence and a high convergence speed. Even in the limit case, where convergence is guaranteed, our learned optimization algorithms provably outperform related algorithms based on a (deterministic) worst-case analysis. Our results rely on PAC-Bayes bounds for general, unbounded loss-functions based on exponential families. By generalizing existing ideas, we reformulate the learning procedure into a one-dimensional minimization problem and study the possibility to find a global minimum, which enables the algorithmic realization of the learning procedure. As a proof-of-concept, we learn hyperparameters of standard optimization algorithms to empirically underline our theory.
翻訳日:2022-10-21 13:58:19 公開日:2022-10-20
# 有界平均を持つ非負の右重み付き観測の変動平均に対する低信頼シーケンス

A lower confidence sequence for the changing mean of non-negative right heavy-tailed observations with bounded mean ( http://arxiv.org/abs/2210.11133v1 )

ライセンス: Link先を確認
Paul Mineiro(参考訳) 信頼シーケンス(英語: confidence sequence, CS)は、時間一様カバレッジを保証する予測可能なパラメータ列に対する集合の適応シーケンスを生成する任意の値のシーケンシャル推論プリミティブである。 この研究は、非負の右重尾観測を有界平均でゼロに収束するランニング平均条件付き期待値に対して、非パラメトリック非漸近低CSを構築する。 具体的には、分散が有限であるとき、アプローチはハワードらの経験的ベルンシュタインスーパーマーチンゲールを支配する。 アル 無限分散により、既知のあるいは未知の$(1 + \delta)$-th モーメント境界に適応でき、十分な統計量のサブ線形数を用いて効率的に近似することができる。 あるケースでは、この低い cs は、幅がゼロに収束する閉インターバル cs に変換できる(例えば、任意の有界な実現や、有界な報酬と非有界な重要度重みを持つポスト・コンテクスト・バンディット推論)。 リファレンス実装とサンプルシミュレーションがこのテクニックを実証する。

A confidence sequence (CS) is an anytime-valid sequential inference primitive which produces an adapted sequence of sets for a predictable parameter sequence with a time-uniform coverage guarantee. This work constructs a non-parametric non-asymptotic lower CS for the running average conditional expectation whose slack converges to zero given non-negative right heavy-tailed observations with bounded mean. Specifically, when the variance is finite the approach dominates the empirical Bernstein supermartingale of Howard et. al.; with infinite variance, can adapt to a known or unknown $(1 + \delta)$-th moment bound; and can be efficiently approximated using a sublinear number of sufficient statistics. In certain cases this lower CS can be converted into a closed-interval CS whose width converges to zero, e.g., any bounded realization, or post contextual-bandit inference with bounded rewards and unbounded importance weights. A reference implementation and example simulations demonstrate the technique.
翻訳日:2022-10-21 13:58:05 公開日:2022-10-20
# 実例難読化によるPAC-Bayes一般化境界の高次化

Tighter PAC-Bayes Generalisation Bounds by Leveraging Example Difficulty ( http://arxiv.org/abs/2210.11289v1 )

ライセンス: Link先を確認
Felix Biggs, Benjamin Guedj(参考訳) 我々は,より厳密で高速のpac-ベイズ一般化境界を得るために使用できる過剰リスクの修正版を導入する。 この修正された過剰なリスクは、データ例の相対的硬さに関する情報を活用して、経験的な結果のばらつきを減らし、境界を締め付ける。 これを、$[-1, 1]$-valued(および潜在的に非依存的な)符号付き損失に対する新しいバウンダリと組み合わせる。 主要な新しい技術ツールは、独立興味を持つかもしれない相互依存ランダムベクトル列に対する新しい結果である。 我々は、これらの新しい境界を実世界のデータセットで実証的に評価する。

We introduce a modified version of the excess risk, which can be used to obtain tighter, fast-rate PAC-Bayesian generalisation bounds. This modified excess risk leverages information about the relative hardness of data examples to reduce the variance of its empirical counterpart, tightening the bound. We combine this with a new bound for $[-1, 1]$-valued (and potentially non-independent) signed losses, which is more favourable when they empirically have low variance around $0$. The primary new technical tool is a novel result for sequences of interdependent random vectors which may be of independent interest. We empirically evaluate these new bounds on a number of real-world datasets.
翻訳日:2022-10-21 13:57:43 公開日:2022-10-20
# 勾配ブースティング決定木のトレーニングダイナミクスによるデータ品質の向上

Improving Data Quality with Training Dynamics of Gradient Boosting Decision Trees ( http://arxiv.org/abs/2210.11327v1 )

ライセンス: Link先を確認
Moacir Antonelli Ponti and Lucas de Angelis Oliveira and Juan Mart\'in Rom\'an and Luis Argerich(参考訳) 実世界のデータセットには、モデルのパフォーマンスを阻害する誤ったラベル付きインスタンスが含まれており、特に分布から一般化する能力がある。 また、それぞれの例は学習に異なる貢献をするかもしれません。 これは、モデルにおける良いメトリクスへの貢献に関して、データインスタンスの役割をよりよく理解するために研究を動機付ける。 本稿では,GBDT(Gradient Boosting Decision Trees)のトレーニングダイナミクスから算出したメトリクスに基づいて,各トレーニング例の振る舞いを評価する手法を提案する。 我々は、主に表型データや構造化データを含むデータセットに注目し、意思決定木アンサンブルの使用は、パフォーマンスの面ではまだ最先端である。 ノイズのあるラベルを検知して削除するか、合成データセットと実際のデータセットにおけるモデルのメトリクスを改善し、生産的なデータセットを表示する。 我々の手法は、自信ある学習とヒューリスティックスと比較して総合的に最高の結果を得た。

Real world datasets contain incorrectly labeled instances that hamper the performance of the model and, in particular, the ability to generalize out of distribution. Also, each example might have different contribution towards learning. This motivates studies to better understanding of the role of data instances with respect to their contribution in good metrics in models. In this paper we propose a method based on metrics computed from training dynamics of Gradient Boosting Decision Trees (GBDTs) to assess the behavior of each training example. We focus on datasets containing mostly tabular or structured data, for which the use of Decision Trees ensembles are still the state-of-the-art in terms of performance. We show results on detecting noisy labels in order to either remove them, improving models' metrics in synthetic and real datasets, as well as a productive dataset. Our methods achieved the best results overall when compared with confident learning and heuristics.
翻訳日:2022-10-21 13:57:30 公開日:2022-10-20
# Krylov-Bellman boosting: 一般状態空間における超線形政策評価

Krylov-Bellman boosting: Super-linear policy evaluation in general state spaces ( http://arxiv.org/abs/2210.11377v1 )

ライセンス: Link先を確認
Eric Xia and Martin J. Wainwright(参考訳) 我々は、一般的な状態空間における政策評価のためのKrylov-Bellman Boosting (KBB)アルゴリズムを提示、解析する。 非パラメトリック回帰(ブースティングなど)を用いてベルマン残差を固定し、最小二乗時間差法(LSTD)を用いて値関数を時間とともに適応的に増加する特徴集合で推定する。 krylov法との接続を利用することで、この方法に2つの魅力的な保証を与える。 まず,残差フィット計算とlstd計算において,推定誤差を分離できる一般収束境界を提案する。 我々の数値実験と矛盾し、この境界は収束速度が制限されたスペクトル構造に依存し、典型的には超線形であることを示している。 第二に, このメタリサートと, 残留フィッティングとLSTD計算の信頼性を組み合わせ, 残留フィッティングに使用する関数クラスの複雑性とともに, 試料サイズに依存する具体的な統計的保証を得る。 各種政策評価問題に対するKBBアルゴリズムの挙動を概説し, 典型的には, 適合値反復の標準的なアプローチと比較して, サンプルの複雑さが大きく低下する。

We present and analyze the Krylov-Bellman Boosting (KBB) algorithm for policy evaluation in general state spaces. It alternates between fitting the Bellman residual using non-parametric regression (as in boosting), and estimating the value function via the least-squares temporal difference (LSTD) procedure applied with a feature set that grows adaptively over time. By exploiting the connection to Krylov methods, we equip this method with two attractive guarantees. First, we provide a general convergence bound that allows for separate estimation errors in residual fitting and LSTD computation. Consistent with our numerical experiments, this bound shows that convergence rates depend on the restricted spectral structure, and are typically super-linear. Second, by combining this meta-result with sample-size dependent guarantees for residual fitting and LSTD computation, we obtain concrete statistical guarantees that depend on the sample size along with the complexity of the function class used to fit the residuals. We illustrate the behavior of the KBB algorithm for various types of policy evaluation problems, and typically find large reductions in sample complexity relative to the standard approach of fitted value iterationn.
翻訳日:2022-10-21 13:57:17 公開日:2022-10-20
# MovieCLIP:映画における視覚的シーン認識

MovieCLIP: Visual Scene Recognition in Movies ( http://arxiv.org/abs/2210.11065v1 )

ライセンス: Link先を確認
Digbalay Bose, Rajat Hebbar, Krishna Somandepalli, Haoyang Zhang, Yin Cui, Kree Cole-McLaughlin, Huisheng Wang, Shrikanth Narayanan(参考訳) 映画のようなロングフォームメディアは複雑な物語構造を持ち、様々な周囲の視覚シーンにまたがるイベントがある。 映画の視覚シーンに関連するドメイン固有の課題には、移行、人物のカバレッジ、および様々な現実と架空のシナリオがある。 映画内の既存の視覚シーンデータセットには限定的な分類があり、映画クリップ内の視覚シーン遷移を考慮しない。 そこで本研究では,映画スクリプトと補助webベースの映像データセットから抽出した179のシーンラベルの新規かつ広範囲な映画中心分類を,まず自動で作成することにより,映画における視覚シーン認識の問題に対処する。 コストがかかる手動アノテーションの代わりに、CLIPを使用して、提案した分類に基づく32Kフィルムクリップから1,12万枚のショットを弱いラベル付けします。 我々は、movieclipと呼ばれる弱いラベル付きデータセットでトレーニングされたベースラインビジュアルモデルを提供し、人手によって検証された独立したデータセット上で評価する。 我々は,movieclipで事前学習したモデルの機能を活用することは,マルチレーベルシーンやwebビデオのジャンル分類,映画トレーラーといった下流タスクに有益であることを示す。

Longform media such as movies have complex narrative structures, with events spanning a rich variety of ambient visual scenes. Domain specific challenges associated with visual scenes in movies include transitions, person coverage, and a wide array of real-life and fictional scenarios. Existing visual scene datasets in movies have limited taxonomies and don't consider the visual scene transition within movie clips. In this work, we address the problem of visual scene recognition in movies by first automatically curating a new and extensive movie-centric taxonomy of 179 scene labels derived from movie scripts and auxiliary web-based video datasets. Instead of manual annotations which can be expensive, we use CLIP to weakly label 1.12 million shots from 32K movie clips based on our proposed taxonomy. We provide baseline visual models trained on the weakly labeled dataset called MovieCLIP and evaluate them on an independent dataset verified by human raters. We show that leveraging features from models pretrained on MovieCLIP benefits downstream tasks such as multi-label scene and genre classification of web videos and movie trailers.
翻訳日:2022-10-21 13:56:54 公開日:2022-10-20
# マルチハイポテーシス3次元人間のポーズ推定指標は誤校正分布を好む

Multi-hypothesis 3D human pose estimation metrics favor miscalibrated distributions ( http://arxiv.org/abs/2210.11179v1 )

ライセンス: Link先を確認
Pawe{\l} A. Pierzchlewicz, R. James Cotton, Mohammad Bashiri, Fabian H. Sinz(参考訳) 深さの曖昧さと咬合のため、2dのポーズを3dに持ち上げるのは非常に不適切な問題である。 可能なポーズの適切に調整された分布は、これらの曖昧さを明確化し、下流タスクの結果として生じる不確実性を保つことができる。 本研究は、これらの曖昧さを複数の仮説生成によって説明する以前の試みが、誤校正分布を生じさせることを示唆している。 誤校正は、minMPJPEなどのサンプルベースメトリクスの使用によるものである。 一連のシミュレーションにおいて, minMPJPE の最小化は, 一般的に行われているように, 正しい平均予測に収束することを示す。 しかし、不確かさを正しく捉えることができず、その結果、誤校正分布となる。 この問題を軽減するために,条件付きグラフ正規化フロー (CGNFs) と呼ばれる,精度よく校正されたモデルを提案する。 本モデルでは, 1つのcGNFが同一モデル内の条件密度と限界密度の両方を推定できるように構成し, ゼロショット密度推定問題を効果的に解く。 我々は,人間~3.6mデータセット上でのcgnfの評価を行い,全体のminmpjpeの観点から,cgnfが最先端の分布推定を提供することを示した。 さらに, cgnfは, 咬合関節の従来法を上回っているが, 良好な適合性が維持されている。

Due to depth ambiguities and occlusions, lifting 2D poses to 3D is a highly ill-posed problem. Well-calibrated distributions of possible poses can make these ambiguities explicit and preserve the resulting uncertainty for downstream tasks. This study shows that previous attempts, which account for these ambiguities via multiple hypotheses generation, produce miscalibrated distributions. We identify that miscalibration can be attributed to the use of sample-based metrics such as minMPJPE. In a series of simulations, we show that minimizing minMPJPE, as commonly done, should converge to the correct mean prediction. However, it fails to correctly capture the uncertainty, thus resulting in a miscalibrated distribution. To mitigate this problem, we propose an accurate and well-calibrated model called Conditional Graph Normalizing Flow (cGNFs). Our model is structured such that a single cGNF can estimate both conditional and marginal densities within the same model - effectively solving a zero-shot density estimation problem. We evaluate cGNF on the Human~3.6M dataset and show that cGNF provides a well-calibrated distribution estimate while being close to state-of-the-art in terms of overall minMPJPE. Furthermore, cGNF outperforms previous methods on occluded joints while it remains well-calibrated.
翻訳日:2022-10-21 13:56:24 公開日:2022-10-20
# アルファルファバイオマス収量予測のための機械学習技術の比較

Comparing Machine Learning Techniques for Alfalfa Biomass Yield Prediction ( http://arxiv.org/abs/2210.11226v1 )

ライセンス: Link先を確認
Jonathan Vance, Khaled Rasheed, Ali Missaoui, Frederick Maier, Christian Adkins, Chris Whitmire(参考訳) アルファルファの作物は家畜の飼料として世界的に重要であり、特に地球規模の気候変動や伝統的な方法が正確でないため、高い効率のプランテーションと収穫が多くの産業に利益をもたらす可能性がある。 近年,アルファルファなどの作物の収量予測に機械学習(ML)が用いられている。 これまではリモートセンシング、天候、植林、土壌データを使用して、収量予測のための機械学習モデルをトレーニングしていた。 しかし、リモートセンシングはうまく機能するが、モデルは大量のデータを必要とし、収穫シーズンが始まるまで予測できない。 ケンタッキーとジョージアのアルファルファ品種試験の天候と植林データを用いて、我々のこれまでの研究は、特徴選択技術を比較して、最良の技術と最高の特徴セットを見つけました。 本研究では,多種多様な機械学習モデルを訓練し,超パラメータ最適化のためのクロス検証を用いてバイオマスの収量を予測する。 我々の最良の個体モデルは、平均絶対誤差0.081トン/エーカー、R{$^2$} 0.941のランダム森林であった。 次に、このデータセットをウィスコンシン州とミシシッピ州を含むように拡張し、回帰木で0.982の最高のr{$^2$}を得る実験を繰り返しました。 次に、複数のソース状態でトレーニングし、ひとつのターゲット状態でテストしたように、テストデータセットを状態別に分離して、この問題のドメイン適応(DA)の適性を調べました。 このTrivial DA(TDA)アプローチは、今後の作業でより複雑なDAテクニックを探求することで、改善の余地を数多く残します。

The alfalfa crop is globally important as livestock feed, so highly efficient planting and harvesting could benefit many industries, especially as the global climate changes and traditional methods become less accurate. Recent work using machine learning (ML) to predict yields for alfalfa and other crops has shown promise. Previous efforts used remote sensing, weather, planting, and soil data to train machine learning models for yield prediction. However, while remote sensing works well, the models require large amounts of data and cannot make predictions until the harvesting season begins. Using weather and planting data from alfalfa variety trials in Kentucky and Georgia, our previous work compared feature selection techniques to find the best technique and best feature set. In this work, we trained a variety of machine learning models, using cross validation for hyperparameter optimization, to predict biomass yields, and we showed better accuracy than similar work that employed more complex techniques. Our best individual model was a random forest with a mean absolute error of 0.081 tons/acre and R{$^2$} of 0.941. Next, we expanded this dataset to include Wisconsin and Mississippi, and we repeated our experiments, obtaining a higher best R{$^2$} of 0.982 with a regression tree. We then isolated our testing datasets by state to explore this problem's eligibility for domain adaptation (DA), as we trained on multiple source states and tested on one target state. This Trivial DA (TDA) approach leaves plenty of room for improvement through exploring more complex DA techniques in forthcoming work.
翻訳日:2022-10-21 13:56:01 公開日:2022-10-20
# 最大エントロピー符号化による自己教師付き学習

Self-Supervised Learning via Maximum Entropy Coding ( http://arxiv.org/abs/2210.11464v1 )

ライセンス: Link先を確認
Xin Liu, Zhongdao Wang, Yali Li, Shengjin Wang(参考訳) 現在の自己教師付き学習手法の主流型は、一般にインスタンス識別のような所定の前文タスクに最適化することで、下流タスクによく移行できる汎用表現を追求している。 本研究では,既存のプレテキストタスクが学習表現に必然的にバイアスを導入し,様々な下流タスクにおけるバイアス伝達性能をもたらすことを論じる。 この問題に対処するため,より原理化された目的である最大エントロピー符号化(MEC)を提案する。 情報理論における最大エントロピーの原理に着想を得て、一般化可能な表現はすべての可算表現の中で最大エントロピーを認めるものであるべきだという仮説を立てる。 そこで本研究では,エントロピーの計算可能なサロゲートとして,損失データ符号化における最小符号化長を活用し,高速計算が可能な目標のスケーラブルな再構成を実現することを提案する。 大規模な実験により、MECは特定のプレテキストタスクに基づいて従来の方法よりもより一般化可能な表現を学習することを示した。 ImageNetリニアプローブだけでなく、半教師付き分類、オブジェクト検出、インスタンスセグメンテーション、オブジェクトトラッキングなど、さまざまなダウンストリームタスクに対して一貫して最先端のパフォーマンスを実現する。 興味深いことに、既存のバッチワイドおよびフィーチャーワイドの自己管理目的は、MECの低次近似と同等である。 コードと事前トレーニングされたモデルはhttps://github.com/xinliu20/mecで入手できる。

A mainstream type of current self-supervised learning methods pursues a general-purpose representation that can be well transferred to downstream tasks, typically by optimizing on a given pretext task such as instance discrimination. In this work, we argue that existing pretext tasks inevitably introduce biases into the learned representation, which in turn leads to biased transfer performance on various downstream tasks. To cope with this issue, we propose Maximum Entropy Coding (MEC), a more principled objective that explicitly optimizes on the structure of the representation, so that the learned representation is less biased and thus generalizes better to unseen downstream tasks. Inspired by the principle of maximum entropy in information theory, we hypothesize that a generalizable representation should be the one that admits the maximum entropy among all plausible representations. To make the objective end-to-end trainable, we propose to leverage the minimal coding length in lossy data coding as a computationally tractable surrogate for the entropy, and further derive a scalable reformulation of the objective that allows fast computation. Extensive experiments demonstrate that MEC learns a more generalizable representation than previous methods based on specific pretext tasks. It achieves state-of-the-art performance consistently on various downstream tasks, including not only ImageNet linear probe, but also semi-supervised classification, object detection, instance segmentation, and object tracking. Interestingly, we show that existing batch-wise and feature-wise self-supervised objectives could be seen equivalent to low-order approximations of MEC. Code and pre-trained models are available at https://github.com/xinliu20/MEC.
翻訳日:2022-10-21 13:50:42 公開日:2022-10-20
# VIBUS:VIewpoint Bottleneckと不確かさスペクトラムモデリングを用いたデータ効率3次元シーン解析

VIBUS: Data-efficient 3D Scene Parsing with VIewpoint Bottleneck and Uncertainty-Spectrum Modeling ( http://arxiv.org/abs/2210.11472v1 )

ライセンス: Link先を確認
Beiwen Tian, Liyi Luo, Hao Zhao, Guyue Zhou(参考訳) 近年,ディープラーニングによる3Dシーン解析が熱的話題となっている。 しかし, 完全教師付きモデルでは, 手動で注釈付きポイントワイド・インスペクションが必要であり, ユーザフレンドリで時間を要する。 このように、3Dシーン解析モデルの訓練は、興味深い代替手段である。 我々はこのタスクを,データ効率の良い3dシーン解析と表現し,膨大なラベルのない点を活用し,vibusと呼ばれる効果的な2段階フレームワークを提案する。 第1段階では,提案する視点ボトルネック損失関数を用いてラベルなし点について自己教師あり表現学習を行う。 損失関数は、異なる視点下でシーンに課される情報ボトルネック目標から導出され、表現学習の過程が劣化やサンプリングを不要にする。 第2段階では、不確実スペクトルモデルに基づいてスパースラベルから擬似ラベルを抽出する。 データ駆動不確実性測度と3次元メッシュスペクトル測度(正規方向と測地線距離に由来する)を組み合わせることにより、ロバストな局所親和性計量が得られる。 有限ガンマ/ベータ混合モデルを用いてこれらの尺度のカテゴリワイド分布を分解し、しきい値の自動選択を行う。 我々は、パブリックベンチマークScanNet上でVIBUSを評価し、検証セットとオンラインテストサーバの両方で最先端の結果を得る。 アブレーション研究は、視点ボトルネックと不確実性スペクトルモデリングの両方が大きな改善をもたらすことを示した。 コードとモデルはhttps://github.com/AIR-DISCOVER/VIBUSで公開されている。

Recently, 3D scenes parsing with deep learning approaches has been a heating topic. However, current methods with fully-supervised models require manually annotated point-wise supervision which is extremely user-unfriendly and time-consuming to obtain. As such, training 3D scene parsing models with sparse supervision is an intriguing alternative. We term this task as data-efficient 3D scene parsing and propose an effective two-stage framework named VIBUS to resolve it by exploiting the enormous unlabeled points. In the first stage, we perform self-supervised representation learning on unlabeled points with the proposed Viewpoint Bottleneck loss function. The loss function is derived from an information bottleneck objective imposed on scenes under different viewpoints, making the process of representation learning free of degradation and sampling. In the second stage, pseudo labels are harvested from the sparse labels based on uncertainty-spectrum modeling. By combining data-driven uncertainty measures and 3D mesh spectrum measures (derived from normal directions and geodesic distances), a robust local affinity metric is obtained. Finite gamma/beta mixture models are used to decompose category-wise distributions of these measures, leading to automatic selection of thresholds. We evaluate VIBUS on the public benchmark ScanNet and achieve state-of-the-art results on both validation set and online test server. Ablation studies show that both Viewpoint Bottleneck and uncertainty-spectrum modeling bring significant improvements. Codes and models are publicly available at https://github.com/AIR-DISCOVER/VIBUS.
翻訳日:2022-10-21 13:50:13 公開日:2022-10-20
# ベイズ最適化による多変量解の発見

Discovering Many Diverse Solutions with Bayesian Optimization ( http://arxiv.org/abs/2210.10953v1 )

ライセンス: Link先を確認
Natalie Maus and Kaiwen Wu and David Eriksson and Jacob Gardner(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、ブラックボックス目的関数のサンプル効率最適化のための一般的な手法である。 BOは幅広い科学的応用に応用されているが、単一目的のBOへの伝統的なアプローチは、単一の最良の解を見つけることしか求めていない。 これは、後に解が難解となるような状況において重要な制限となる。 例えば、設計された分子は最適化プロセスが終了した後にのみ合理的に評価できる制約に違反する可能性がある。 この問題に対処するために,ユーザが特定した多様性基準に従って多種多様なハイパフォーマンスソリューションのポートフォリオを見つけることを目的として,ランク順ベイズ最適化と信頼領域(ROBOT)を提案する。 我々は,複数の実世界のアプリケーション上でROBOTを評価し,高い性能の多様なソリューションを多数発見できることを示す。

Bayesian optimization (BO) is a popular approach for sample-efficient optimization of black-box objective functions. While BO has been successfully applied to a wide range of scientific applications, traditional approaches to single-objective BO only seek to find a single best solution. This can be a significant limitation in situations where solutions may later turn out to be intractable. For example, a designed molecule may turn out to violate constraints that can only be reasonably evaluated after the optimization process has concluded. To address this issue, we propose Rank-Ordered Bayesian Optimization with Trust-regions (ROBOT) which aims to find a portfolio of high-performing solutions that are diverse according to a user-specified diversity metric. We evaluate ROBOT on several real-world applications and show that it can discover large sets of high-performing diverse solutions while requiring few additional function evaluations compared to finding a single best solution.
翻訳日:2022-10-21 13:48:31 公開日:2022-10-20
# Task Phasing: デモから学ぶカリキュラムの自動化

Task Phasing: Automated Curriculum Learning from Demonstrations ( http://arxiv.org/abs/2210.10999v1 )

ライセンス: Link先を確認
Vaibhav Bajaj, Guni Sharon, Peter Stone(参考訳) 報酬領域のスパースに強化学習(RL)を適用することは、ガイド信号が不十分なため、非常に難しい。 このようなドメインに取り組む一般的なテクニックは、(1)デモから学ぶこと、(2)カリキュラム学習である。 これら2つのアプローチは詳細に研究されているが、共に検討されることはめったにない。 本稿では,実演を用いてカリキュラム列を自動的に生成する原則付きタスクファッシング手法を導入することで,その実現を目指す。 証明から逆 RL を用いることで、簡単な初期タスクを定義します。 タスク処理アプローチは、各処理イテレーションでRLエージェントを調整しながら、目標タスクまでタスクの複雑さを徐々に増加させるフレームワークを提供します。 1) rlエージェントが制御している時間ステップの割合を徐々に増加させ, (2) 誘導的情報報酬関数を強調する2つのアプローチが検討されている。 最適政策へのこれらのアプローチの収束を保証する条件を提案する。 3つのスパース報酬領域に対する実験結果から,我々の課題処理アプローチは,その漸近的性能に対して,最先端アプローチよりも優れていることが示された。

Applying reinforcement learning (RL) to sparse reward domains is notoriously challenging due to insufficient guiding signals. Common techniques for addressing such domains include (1) learning from demonstrations and (2) curriculum learning. While these two approaches have been studied in detail, they have rarely been considered together. This paper aims to do so by introducing a principled task phasing approach that uses demonstrations to automatically generate a curriculum sequence. Using inverse RL from (suboptimal) demonstrations we define a simple initial task. Our task phasing approach then provides a framework to gradually increase the complexity of the task all the way to the target task, while retuning the RL agent in each phasing iteration. Two approaches for phasing are considered: (1) gradually increasing the proportion of time steps an RL agent is in control, and (2) phasing out a guiding informative reward function. We present conditions that guarantee the convergence of these approaches to an optimal policy. Experimental results on 3 sparse reward domains demonstrate that our task phasing approaches outperform state-of-the-art approaches with respect to their asymptotic performance.
翻訳日:2022-10-21 13:48:16 公開日:2022-10-20
# オンライン知識蒸留によるGNN記述のための複数専門学習者に向けて

Toward Multiple Specialty Learners for Explaining GNNs via Online Knowledge Distillation ( http://arxiv.org/abs/2210.11094v1 )

ライセンス: Link先を確認
Tien-Cuong Bui, Van-Duc Le, Wen-syan Li, Sang Kyun Cha(参考訳) グラフニューラルネットワーク(gnns)は、多くのアプリケーションやシステムにおいてますます普及し、その予測、特に重要な決定を行う際に説明を必要としている。 しかし、グラフデータとモデル実行の複雑さのため、GNNの説明は難しい。 計算コストの増大にもかかわらず、アーキテクチャの一般化によりポストホックな説明手法が広く採用されている。 本質的に解釈可能なモデルは、インスタントな説明を提供するが、通常モデル固有のもので、特定のGNNしか説明できない。 そこで,本稿では,予測を説明するための汎用的かつ高速な新しいgnn説明フレームワークであるscaleを提案する。 SCALEは、入力グラフにおける相互作用の属性を調べるために、1つの強力な説明器を構築するため、GNNを説明するために複数の専門学習者を訓練する。 トレーニングにおいて、ブラックボックスGNNモデルは、オンライン知識蒸留パラダイムに基づいて学習者をガイドする。 説明段階では、訓練された学習者に対応する複数の説明者によって予測の説明が提供される。 具体的には、エッジマスキングと再起動手順によるランダムウォークをそれぞれ実行し、グラフレベルとノードレベルの予測に関する構造的説明を提供する。 機能帰属モジュールは、全体的な要約とインスタンスレベルの機能貢献を提供する。 我々はSCALEと最先端のベースラインを定量的かつ定性的な実験によって比較し、その説明精度と実行性能を証明する。 また,提案フレームワークの長所と短所を理解するために,一連のアブレーション研究を実施している。

Graph Neural Networks (GNNs) have become increasingly ubiquitous in numerous applications and systems, necessitating explanations of their predictions, especially when making critical decisions. However, explaining GNNs is challenging due to the complexity of graph data and model execution. Despite additional computational costs, post-hoc explanation approaches have been widely adopted due to the generality of their architectures. Intrinsically interpretable models provide instant explanations but are usually model-specific, which can only explain particular GNNs. Therefore, we propose a novel GNN explanation framework named SCALE, which is general and fast for explaining predictions. SCALE trains multiple specialty learners to explain GNNs since constructing one powerful explainer to examine attributions of interactions in input graphs is complicated. In training, a black-box GNN model guides learners based on an online knowledge distillation paradigm. In the explanation phase, explanations of predictions are provided by multiple explainers corresponding to trained learners. Specifically, edge masking and random walk with restart procedures are executed to provide structural explanations for graph-level and node-level predictions, respectively. A feature attribution module provides overall summaries and instance-level feature contributions. We compare SCALE with state-of-the-art baselines via quantitative and qualitative experiments to prove its explanation correctness and execution performance. We also conduct a series of ablation studies to understand the strengths and weaknesses of the proposed framework.
翻訳日:2022-10-21 13:47:58 公開日:2022-10-20
# 多変量センサデータを用いた異常診断のためのトレーニング可能な隣接行列付きグラフニューラルネットワーク

Graph Neural Networks with Trainable Adjacency Matrices for Fault Diagnosis on Multivariate Sensor Data ( http://arxiv.org/abs/2210.11164v1 )

ライセンス: Link先を確認
Alexander Kovalenko, Vitaliy Pozdnyakov, Ilya Makarov(参考訳) 化学技術プロセスにおけるタイムリーに検出された異常や、事故の原因の早期発見は、工場の生産コストを大幅に削減した。 技術プロセスの状況と製造設備の運用に関するデータは、多数の異なるセンサによって受信される。 プロセスと機器の挙動をより正確に予測するためには、各センサの信号の挙動を別々に考慮するだけでなく、相互の関係や隠れた関係を考慮に入れる必要がある。 グラフベースのデータ表現は、これに役立つ。 グラフノードは、異なるセンサーからのデータとして表現することができ、エッジは、これらのデータの影響を互いに表示することができる。 本研究では, 化学プロセスにおける故障診断問題にグラフニューラルネットワークを適用する可能性について検討した。 グラフニューラルネットワークのトレーニング中にグラフを構築するために提案された。 これにより、センサー間の依存関係が事前に分かっていないデータ上でモデルをトレーニングすることができる。 本研究では,隣接行列を得るためのいくつかの方法について検討し,その品質について検討した。 また、複数の隣接行列を1つのモデルで使うことも提案されている。 テネシー・イーストマン・プロセス・データセットを用いて,故障診断タスクにおける最新性能を示した。 提案するグラフニューラルネットワークは,リカレントニューラルネットワークの結果を上回った。

Timely detected anomalies in the chemical technological processes, as well as the earliest detection of the cause of the fault, significantly reduce the production cost in the industrial factories. Data on the state of the technological process and the operation of production equipment are received by a large number of different sensors. To better predict the behavior of the process and equipment, it is necessary not only to consider the behavior of the signals in each sensor separately, but also to take into account their correlation and hidden relationships with each other. Graph-based data representation helps with this. The graph nodes can be represented as data from the different sensors, and the edges can display the influence of these data on each other. In this work, the possibility of applying graph neural networks to the problem of fault diagnosis in a chemical process is studied. It was proposed to construct a graph during the training of graph neural network. This allows to train models on data where the dependencies between the sensors are not known in advance. In this work, several methods for obtaining adjacency matrices were considered, as well as their quality was studied. It has also been proposed to use multiple adjacency matrices in one model. We showed state-of-the-art performance on the fault diagnosis task with the Tennessee Eastman Process dataset. The proposed graph neural networks outperformed the results of recurrent neural networks.
翻訳日:2022-10-21 13:47:36 公開日:2022-10-20
# 手術用ファインチューニングによる配電シフト適応の改善

Surgical Fine-Tuning Improves Adaptation to Distribution Shifts ( http://arxiv.org/abs/2210.11466v1 )

ライセンス: Link先を確認
Yoonho Lee, Annie S. Chen, Fahim Tajwar, Ananya Kumar, Huaxiu Yao, Percy Liang, Chelsea Finn(参考訳) 分散シフト下での伝達学習の一般的なアプローチは、トレーニング済みモデルの最後の数層を微調整し、学習した特徴を保存し、新しいタスクにも適応させることである。 そこで本研究では, 手術用微調整と呼ばれる) レイヤのサブセットを選択的に微調整する手法が, 一般的に用いられる微調整アプローチと一致するか, 比較可能であることを示す。 さらに、分散シフトのタイプは、どのサブセットをより効果的にチューニングするかに影響します。 3種類の分散シフトにまたがる7つの実世界のデータタスクにおいて,この知見を体系的に検証した。 理論的には、理想化された2層ニューラルネットワークでは、1層チューニングが全ての層を上回ることを証明する。 直感的には、小さなターゲットデータセットでより多くのパラメータを微調整することで、事前トレーニング中に学習した情報が忘れられ、関連する情報はシフトの種類に依存する。

A common approach to transfer learning under distribution shift is to fine-tune the last few layers of a pre-trained model, preserving learned features while also adapting to the new task. This paper shows that in such settings, selectively fine-tuning a subset of layers (which we term surgical fine-tuning) matches or outperforms commonly used fine-tuning approaches. Moreover, the type of distribution shift influences which subset is more effective to tune: for example, for image corruptions, fine-tuning only the first few layers works best. We validate our findings systematically across seven real-world data tasks spanning three types of distribution shifts. Theoretically, we prove that for two-layer neural networks in an idealized setting, first-layer tuning can outperform fine-tuning all layers. Intuitively, fine-tuning more parameters on a small target dataset can cause information learned during pre-training to be forgotten, and the relevant information depends on the type of shift.
翻訳日:2022-10-21 13:47:19 公開日:2022-10-20
# 視覚空間記述:空間指向画像対テキスト生成制御

Visual Spatial Description: Controlled Spatial-Oriented Image-to-Text Generation ( http://arxiv.org/abs/2210.11109v1 )

ライセンス: Link先を確認
Yu Zhao, Jianguo Wei, Zhichao Lin, Yueheng Sun, Meishan Zhang, Min Zhang(参考訳) オープンエンド画像キャプションや制御可能な画像記述などの画像からテキストへのタスクは、数十年にわたって広く注目を集めてきた。 ここでは、空間意味論に対する画像からテキストへの新たな視点である視覚空間記述(VSD)を提示することにより、この作業の行をさらに進める。 イメージとその中の2つのオブジェクトが与えられると、vsdは2つのオブジェクト間の空間的視点に焦点を当てた1つの記述を作ることを目標としている。 そこで我々は,VL-BARTとVL-T5をバックボーンとして使用することにより,新たに導入したタスクの調査を容易にするためのデータセットを手動でアノテートし,ベンチマークエンコーダデコーダモデルを構築した。 さらに,視覚空間関係分類(VSRC)情報をモデルに組み込むためのパイプラインおよび共同エンドツーエンドアーキテクチャについて検討した。 最後に、ベンチマークデータセットで実験を行い、すべてのモデルを評価します。 その結果,我々のモデルが印象的であり,正確かつ人間的な空間指向のテキスト記述を提供することがわかった。 一方、VSRCはVSDにとって大きな可能性を秘めている。 研究目的のためにデータセットとコードを公開する。

Image-to-text tasks, such as open-ended image captioning and controllable image description, have received extensive attention for decades. Here, we further advance this line of work by presenting Visual Spatial Description (VSD), a new perspective for image-to-text toward spatial semantics. Given an image and two objects inside it, VSD aims to produce one description focusing on the spatial perspective between the two objects. Accordingly, we manually annotate a dataset to facilitate the investigation of the newly-introduced task and build several benchmark encoder-decoder models by using VL-BART and VL-T5 as backbones. In addition, we investigate pipeline and joint end-to-end architectures for incorporating visual spatial relationship classification (VSRC) information into our model. Finally, we conduct experiments on our benchmark dataset to evaluate all our models. Results show that our models are impressive, providing accurate and human-like spatial-oriented text descriptions. Meanwhile, VSRC has great potential for VSD, and the joint end-to-end architecture is the better choice for their integration. We make the dataset and codes public for research purposes.
翻訳日:2022-10-21 13:40:44 公開日:2022-10-20
# 暗黙的レイヤアンサンブルによる自然言語理解における分散検出の強化

Enhancing Out-of-Distribution Detection in Natural Language Understanding via Implicit Layer Ensemble ( http://arxiv.org/abs/2210.11034v1 )

ライセンス: Link先を確認
Hyunsoo Cho, Choonghyun Park, Jaewook Kang, Kang Min Yoo, Taeuk Kim, Sang-goo Lee(参考訳) out-of-distribution (ood) 検出は、高い信頼性と優れたユーザエクスペリエンスを維持する上で不可欠である、意図したデータ分散から異常を識別することを目的としている。 OOD検出における最近の研究は、入力が異常であるか否かを決定するために、垂直層に存在する単一の表現からの情報を利用する。 このような方法は単純であるが、中間層における多様な情報の可能性は見落としている。 本稿では,中間的特徴が階層特化表現を学習し,それらを暗黙的に単一の表現に組み立て,事前学習した言語モデルにリッチな情報を吸収する,コントラスト学習に基づく新しい枠組みを提案する。 様々な意図分類やOODデータセットの大規模な実験は、我々のアプローチが他の研究よりもはるかに効果的であることを示している。

Out-of-distribution (OOD) detection aims to discern outliers from the intended data distribution, which is crucial to maintaining high reliability and a good user experience. Most recent studies in OOD detection utilize the information from a single representation that resides in the penultimate layer to determine whether the input is anomalous or not. Although such a method is straightforward, the potential of diverse information in the intermediate layers is overlooked. In this paper, we propose a novel framework based on contrastive learning that encourages intermediate features to learn layer-specialized representations and assembles them implicitly into a single representation to absorb rich information in the pre-trained language model. Extensive experiments in various intent classification and OOD datasets demonstrate that our approach is significantly more effective than other works.
翻訳日:2022-10-21 13:39:38 公開日:2022-10-20
# 命令型言語モデルのスケーリング

Scaling Instruction-Finetuned Language Models ( http://arxiv.org/abs/2210.11416v1 )

ライセンス: Link先を確認
Hyung Won Chung, Le Hou, Shayne Longpre, Barret Zoph, Yi Tay, William Fedus, Eric Li, Xuezhi Wang, Mostafa Dehghani, Siddhartha Brahma, Albert Webson, Shixiang Shane Gu, Zhuyun Dai, Mirac Suzgun, Xinyun Chen, Aakanksha Chowdhery, Sharan Narang, Gaurav Mishra, Adams Yu, Vincent Zhao, Yanping Huang, Andrew Dai, Hongkun Yu, Slav Petrov, Ed H. Chi, Jeff Dean, Jacob Devlin, Adam Roberts, Denny Zhou, Quoc V. Le, Jason Wei(参考訳) 命令としてフレーズされたデータセットのコレクション上で言語モデルを微調整することで、モデルのパフォーマンスと未認識のタスクへの一般化が向上することが示されている。 本稿では,(1)タスク数の拡大,(2)モデルサイズの拡大,(3)チェーンオブ思考データへの微調整について,特に焦点を絞った教示微調整について検討する。 以上より,様々なモデルクラス (PaLM, T5, U-PaLM) の性能を劇的に向上させ, 設定の高速化 (ゼロショット, 少数ショット, CoT) と評価ベンチマーク (MMLU, BBH, TyDiQA, MGSM, オープンエンドジェネレーション) を実現した。 例えば、Flan-PaLM 540B命令は1.8Kタスクで調整され、PALM 540Bよりも大きなマージン(平均で9.4%)で性能が向上する。 Flan-PaLM 540Bは5ショットMMLUの75.2%など、いくつかのベンチマークで最先端のパフォーマンスを実現している。 また、我々は、PaLM 62Bのようなより大きなモデルと比較しても、強力な数ショットのパフォーマンスを実現するFlan-T5チェックポイントを公開しています。 全体として、命令微調整は事前訓練された言語モデルの性能とユーザビリティを向上させる一般的な方法である。

Finetuning language models on a collection of datasets phrased as instructions has been shown to improve model performance and generalization to unseen tasks. In this paper we explore instruction finetuning with a particular focus on (1) scaling the number of tasks, (2) scaling the model size, and (3) finetuning on chain-of-thought data. We find that instruction finetuning with the above aspects dramatically improves performance on a variety of model classes (PaLM, T5, U-PaLM), prompting setups (zero-shot, few-shot, CoT), and evaluation benchmarks (MMLU, BBH, TyDiQA, MGSM, open-ended generation). For instance, Flan-PaLM 540B instruction-finetuned on 1.8K tasks outperforms PALM 540B by a large margin (+9.4% on average). Flan-PaLM 540B achieves state-of-the-art performance on several benchmarks, such as 75.2% on five-shot MMLU. We also publicly release Flan-T5 checkpoints, which achieve strong few-shot performance even compared to much larger models, such as PaLM 62B. Overall, instruction finetuning is a general method for improving the performance and usability of pretrained language models.
翻訳日:2022-10-21 13:39:24 公開日:2022-10-20
# PSA-Det3D:3Dオブジェクト検出のためのピラーセット抽象化

PSA-Det3D: Pillar Set Abstraction for 3D object Detection ( http://arxiv.org/abs/2210.10983v1 )

ライセンス: Link先を確認
Zhicong Huang, Jingwen Zhao, Zhijie Zheng, Dihu Chena, Haifeng Hu(参考訳) 3dポイントクラウドのための小さなオブジェクト検出は、(1)小さなオブジェクトを知覚することは、有効なポイントがないため、通常のオブジェクトよりもはるかに差分的である、という2つの制限があるため、難しい問題である。 2)小さな物体は容易にブロックされ、メッシュの形状を3Dポイントクラウドで破壊する。 本稿では,柱集合抽象化 (psa) と前景点補償 (fpc) を提案し,小物体の検出性能を向上させるため,点に基づく検出ネットワーク psa-det3d を設計した。 PSAは、セット抽象化(SA)に基づいて柱クエリ操作を組み込み、ネットワークの受容領域を拡張し、ポイントワイズ機能を効果的に集約することができる。 より隠蔽されたオブジェクトを見つけるために、フォアグラウンドポイントセグメンテーションとFPCモジュールからなる提案生成層を挿入する。 前景点と推定中心の両方を最終的に融合して検出結果を生成する。 KITTI 3D 検出ベンチマーク実験の結果,提案した PSA-Det3D は他のアルゴリズムよりも高い精度で小物体検出を行うことができた。

Small object detection for 3D point cloud is a challenging problem because of two limitations: (1) Perceiving small objects is much more diffcult than normal objects due to the lack of valid points. (2) Small objects are easily blocked which breaks the shape of their meshes in 3D point cloud. In this paper, we propose a pillar set abstraction (PSA) and foreground point compensation (FPC) and design a point-based detection network, PSA-Det3D, to improve the detection performance for small object. The PSA embeds a pillar query operation on the basis of set abstraction (SA) to expand its receptive field of the network, which can aggregate point-wise features effectively. To locate more occluded objects, we persent a proposal generation layer consisting of a foreground point segmentation and a FPC module. Both the foreground points and the estimated centers are finally fused together to generate the detection result. The experiments on the KITTI 3D detection benchmark show that our proposed PSA-Det3D outperforms other algorithms with high accuracy for small object detection.
翻訳日:2022-10-21 13:38:41 公開日:2022-10-20
# ViT CLIPを用いたオープンワールド画像検索のための汎用画像記述子

General Image Descriptors for Open World Image Retrieval using ViT CLIP ( http://arxiv.org/abs/2210.11141v1 )

ライセンス: Link先を確認
Marcos V. Conde, Ivan Aerlic, Simon J\'egou(参考訳) Google Universal Image Embedding (GUIE) Challengeは、ランドマーク、アートワーク、食べ物など、幅広いオブジェクトをカバーする、野生のマルチドメインイメージ表現における最初の競争の1つである。 これは画像検索、検索エンジン、電子商取引において顕著な応用を持つ基本的なコンピュータビジョン問題である。 本稿では、GUIE Challengeの4位となるソリューションと、CLIPを用いて事前トレーニングされたゼロショットビジョントランスフォーマー(ViT)の「トリックのバグ」について説明する。

The Google Universal Image Embedding (GUIE) Challenge is one of the first competitions in multi-domain image representations in the wild, covering a wide distribution of objects: landmarks, artwork, food, etc. This is a fundamental computer vision problem with notable applications in image retrieval, search engines and e-commerce. In this work, we explain our 4th place solution to the GUIE Challenge, and our "bag of tricks" to fine-tune zero-shot Vision Transformers (ViT) pre-trained using CLIP.
翻訳日:2022-10-21 13:38:21 公開日:2022-10-20
# TANGO: ライティング分解によるテキスト駆動型フォトリアリスティックとロバスト3Dスティリゼーション

TANGO: Text-driven Photorealistic and Robust 3D Stylization via Lighting Decomposition ( http://arxiv.org/abs/2210.11277v1 )

ライセンス: Link先を確認
Yongwei Chen, Rui Chen, Jiabao Lei, Yabin Zhang, Kui Jia(参考訳) スタイリゼーションによる3Dコンテンツの作成は、コンピュータビジョンとグラフィックス研究において有望だが挑戦的な問題である。 本研究では,任意のトポロジの曲面メッシュのフォトリアリスティックな外観レンダリングのスタイリングに焦点をあてる。 コントラスト言語-画像事前学習(CLIP)モデルの近年のクロスモーダル監視の高まりに触発され,本論文では,写真リアリスティックな方法でテキストプロンプトに基づいて,与えられた3次元形状の外観スタイルを伝達するTANGOを提案する。 技術的には、空間的に変化する双方向反射率分布関数、局所幾何学的変動、およびCLIP損失の監督により共同最適化された照明条件として、球面ガウス型微分レダクタを用いて外観スタイルをアンタングルする。 そのためtangoは、タスク固有のデータセットをトレーニングすることなく、裸の低品質メッシュでも反射効果を自動的に予測することで、フォトリアリスティックな3dスタイル転送を可能にする。 広汎な実験により、TANGOは、フォトリアリスティックな品質、3D幾何の整合性、低品質メッシュをスタイリングする際の堅牢性の観点から、既存のテキスト駆動型3Dスタイル転送法よりも優れていることが示された。 私たちのコードと結果は、私たちのプロジェクトwebページhttps://cyw-3d.github.io/tango/で閲覧できます。

Creation of 3D content by stylization is a promising yet challenging problem in computer vision and graphics research. In this work, we focus on stylizing photorealistic appearance renderings of a given surface mesh of arbitrary topology. Motivated by the recent surge of cross-modal supervision of the Contrastive Language-Image Pre-training (CLIP) model, we propose TANGO, which transfers the appearance style of a given 3D shape according to a text prompt in a photorealistic manner. Technically, we propose to disentangle the appearance style as the spatially varying bidirectional reflectance distribution function, the local geometric variation, and the lighting condition, which are jointly optimized, via supervision of the CLIP loss, by a spherical Gaussians based differentiable renderer. As such, TANGO enables photorealistic 3D style transfer by automatically predicting reflectance effects even for bare, low-quality meshes, without training on a task-specific dataset. Extensive experiments show that TANGO outperforms existing methods of text-driven 3D style transfer in terms of photorealistic quality, consistency of 3D geometry, and robustness when stylizing low-quality meshes. Our codes and results are available at our project webpage https://cyw-3d.github.io/tango/.
翻訳日:2022-10-21 13:38:10 公開日:2022-10-20
# プライベート予測を用いたプライベートアルゴリズム

Private Algorithms with Private Predictions ( http://arxiv.org/abs/2210.11222v1 )

ライセンス: Link先を確認
Kareem Amin, Travis Dick, Mikhail Khodak, Sergei Vassilvitskii(参考訳) 機密データに差分プライバシを適用する場合、パフォーマンスを改善する一般的な方法は、他の機密データや公開データ、あるいは人間の先行情報といった外部情報を使用することである。 このような外部情報を活用して実用性を向上させるためのプライバシー保護手法を設計し分析する強力な方法として、予測フレームワーク(以前は時間複雑性や競争率の改善に主に適用されていた)を用いたアルゴリズムを提案する。 定量化、多重量子化への拡張、共分散推定、データリリースという4つの重要なタスクに対して、予測品質の自然な測定値と実用性を備えた予測依存の差分プライベートな方法を構築します。 分析には、データに関する最小限の仮定、ノイズ予測に堅牢性を加える自然な方法、他の(潜在的に敏感な)データから予測を学習できる新しい「メタ」アルゴリズムなど、いくつかの利点がある。 以上の結果から,様々なタスクにまたがってプライバシを保ちながら,実用性の向上を約束するノイズ予測を,微分プライベートアルゴリズムで活用し,学習する方法が示された。

When applying differential privacy to sensitive data, a common way of getting improved performance is to use external information such as other sensitive data, public data, or human priors. We propose to use the algorithms with predictions framework -- previously applied largely to improve time complexity or competitive ratios -- as a powerful way of designing and analyzing privacy-preserving methods that can take advantage of such external information to improve utility. For four important tasks -- quantile release, its extension to multiple quantiles, covariance estimation, and data release -- we construct prediction-dependent differentially private methods whose utility scales with natural measures of prediction quality. The analyses enjoy several advantages, including minimal assumptions about the data, natural ways of adding robustness to noisy predictions, and novel "meta" algorithms that can learn predictions from other (potentially sensitive) data. Overall, our results demonstrate how to enable differentially private algorithms to make use of and learn noisy predictions, which holds great promise for improving utility while preserving privacy across a variety of tasks.
翻訳日:2022-10-21 13:31:57 公開日:2022-10-20
# オープンエンド学習のための拡張的トポロジーエージェント

Augmentative Topology Agents For Open-Ended Learning ( http://arxiv.org/abs/2210.11442v1 )

ライセンス: Link先を確認
Muhammad Umair Nasir, Michael Beukman, Steven James and Christopher Wesley Cleghorn(参考訳) 本研究では,エージェントとますます困難な環境を同時に進化させる手法を導入することで,オープンディビジョン学習の課題に取り組む。 固定されたニューラルネットワークトポロジを使ってエージェントを最適化する従来のオープンディビジョンのアプローチとは異なり、エージェントのコントローラがより難しい環境に遭遇することで、一般化がより複雑になることを想定している。 我々の方法であるAugmentative Topology EPOET (ATEP)は、エージェントが時間とともに自身のニューラルネットワーク構造を進化させ、複雑さとキャパシティを必要に応じて追加することにより、EPOETアルゴリズムを拡張した。 実験の結果、ATEPは固定トポロジーベースラインよりも多くの環境を解決できる一般エージェントとなることが示された。 また,環境間でエージェントを伝達する機構を調査し,種ベースのアプローチがエージェントの性能と一般化をさらに向上させることを確認した。

In this work, we tackle the problem of open-ended learning by introducing a method that simultaneously evolves agents and increasingly challenging environments. Unlike previous open-ended approaches that optimize agents using a fixed neural network topology, we hypothesize that generalization can be improved by allowing agents' controllers to become more complex as they encounter more difficult environments. Our method, Augmentative Topology EPOET (ATEP), extends the Enhanced Paired Open-Ended Trailblazer (EPOET) algorithm by allowing agents to evolve their own neural network structures over time, adding complexity and capacity as necessary. Empirical results demonstrate that ATEP results in general agents capable of solving more environments than a fixed-topology baseline. We also investigate mechanisms for transferring agents between environments and find that a species-based approach further improves the performance and generalization of agents.
翻訳日:2022-10-21 13:31:37 公開日:2022-10-20
# 暗黙的談話関係分類のための事前学習文埋め込み

Pre-trained Sentence Embeddings for Implicit Discourse Relation Classification ( http://arxiv.org/abs/2210.11005v1 )

ライセンス: Link先を確認
Murali Raghu Babu Balusu, Yangfeng Ji and Jacob Eisenstein(参考訳) 暗黙の言説関係は、より小さな言語単位をコヒーレントなテキストに結合する。 暗黙的関係に対する自動意味予測は、リンクされた引数のセマンティクスを理解する必要があるため難しい。 さらに、注釈付きデータセットは、この現象のスケールのため、比較的少ないラベル付き例を含んでいる: 平均すると、各談話関係は数十の単語を含んでいる。 本稿では,暗黙的談話関係感覚分類のためのニューラルネットワークにおける基礎表現としての事前学習文埋め込みの有用性について検討する。 本稿では,教師付きエンドツーエンド学習モデルと事前訓練文符号化技術の両方を用いて,SkipThought,Sent2vec,Infersentを用いて実験を行った。 事前トレーニングされた組込みはエンドツーエンドモデルと競合しており、このアプローチは相補的であり、3つの評価のうち2つにおいて、組み合わせたモデルが大幅なパフォーマンス改善をもたらす。

Implicit discourse relations bind smaller linguistic units into coherent texts. Automatic sense prediction for implicit relations is hard, because it requires understanding the semantics of the linked arguments. Furthermore, annotated datasets contain relatively few labeled examples, due to the scale of the phenomenon: on average each discourse relation encompasses several dozen words. In this paper, we explore the utility of pre-trained sentence embeddings as base representations in a neural network for implicit discourse relation sense classification. We present a series of experiments using both supervised end-to-end trained models and pre-trained sentence encoding techniques - SkipThought, Sent2vec and Infersent. The pre-trained embeddings are competitive with the end-to-end model, and the approaches are complementary, with combined models yielding significant performance improvements on two of the three evaluations.
翻訳日:2022-10-21 13:30:19 公開日:2022-10-20
# wait-info policy: 同時機械翻訳のための情報レベルにおけるソースとターゲットのバランス

Wait-info Policy: Balancing Source and Target at Information Level for Simultaneous Machine Translation ( http://arxiv.org/abs/2210.11220v1 )

ライセンス: Link先を確認
Shaolei Zhang, Shoutao Guo, Yang Feng(参考訳) 同時機械翻訳(simt)は、ソース入力を受信しながら翻訳を出力し、受信したソース情報と翻訳対象情報とのバランスをとり、入力を待つか、あるいは翻訳を出力するかを合理的に決定する必要がある。 以前の方法は、常にトークンレベルでソースとターゲットの情報をバランスさせ、固定数のトークンを直接待つか、現在のトークンに基づいて待機を調整します。 本稿では,情報レベルでソースとターゲットのバランスをとるためのWait-infoポリシーを提案する。 まず、各トークンに含まれる情報量、名前付き情報を定量化する。 そして、同時翻訳中に、前回の目標出力の総情報と受信したソース入力との比較結果に基づいて、待機又は出力の決定を行う。 実験により,提案手法が強いベースラインを上回っており,提案する情報によりバランスが良くなることを示す。

Simultaneous machine translation (SiMT) outputs the translation while receiving the source inputs, and hence needs to balance the received source information and translated target information to make a reasonable decision between waiting for inputs or outputting translation. Previous methods always balance source and target information at the token level, either directly waiting for a fixed number of tokens or adjusting the waiting based on the current token. In this paper, we propose a Wait-info Policy to balance source and target at the information level. We first quantify the amount of information contained in each token, named info. Then during simultaneous translation, the decision of waiting or outputting is made based on the comparison results between the total info of previous target outputs and received source inputs. Experiments show that our method outperforms strong baselines under and achieves better balance via the proposed info.
翻訳日:2022-10-21 13:30:04 公開日:2022-10-20
# DialogUSR:多点検出のための複合対話発話分割と修正

DialogUSR: Complex Dialogue Utterance Splitting and Reformulation for Multiple Intent Detection ( http://arxiv.org/abs/2210.11279v1 )

ライセンス: Link先を確認
Haoran Meng, Zheng Xin, Tianyu Liu, Zizhen Wang, He Feng, Binghuai Lin, Xuemin Zhao, Yunbo Cao and Zhifang Sui(参考訳) チャットボットと対話しながら、ユーザーは単一の対話発話で複数の意図を引き出すことができる。 本稿では,対話発話分割・修正タスクであるDialogUSRを提案する。このタスクは,まず,複数の単一インテントサブクエリに分割し,そのサブクエリ中のコアフェラートおよび省略された情報をすべて復元する。 DialogUSRは、最小限の努力でデプロイされたチャットボットのマルチインテント検出を可能にするプラグインおよびドメインに依存しないモジュールとして機能する。 我々は、23ドメインをカバーする高品質な自然発生データセットを多段階のクラウドソーシング手順で収集する。 提案するデータセットをベンチマークするために,エンドツーエンドと2段階のトレーニングを含む複数のアクションベース生成モデルを提案し,提案するベースラインの長所と短所について詳細な分析を行う。

While interacting with chatbots, users may elicit multiple intents in a single dialogue utterance. Instead of training a dedicated multi-intent detection model, we propose DialogUSR, a dialogue utterance splitting and reformulation task that first splits multi-intent user query into several single-intent sub-queries and then recovers all the coreferred and omitted information in the sub-queries. DialogUSR can serve as a plug-in and domain-agnostic module that empowers the multi-intent detection for the deployed chatbots with minimal efforts. We collect a high-quality naturally occurring dataset that covers 23 domains with a multi-step crowd-souring procedure. To benchmark the proposed dataset, we propose multiple action-based generative models that involve end-to-end and two-stage training, and conduct in-depth analyses on the pros and cons of the proposed baselines.
翻訳日:2022-10-21 13:29:49 公開日:2022-10-20
# マルチプレイヤーゲームにおける合理的平衡の学習

Learning Rationalizable Equilibria in Multiplayer Games ( http://arxiv.org/abs/2210.11402v1 )

ライセンス: Link先を確認
Yuanhao Wang, Dingwen Kong, Yu Bai, Chi Jin(参考訳) マルチエージェント学習の自然な目標は、均衡を見つけること以外に合理的な行動を学ぶことであり、プレイヤーは反復的に支配される行動を避けることを学ぶ。 しかし、マルチプレイヤーの汎用ゲームの基本設定でさえ、既存のアルゴリズムは、バンドイットフィードバックの下で合理化可能な平衡を学習するために、プレイヤー数で指数関数的に多くのサンプルを必要とする。 本稿では,プレイヤー数を含む全ての問題パラメータにおいて,サンプルの複雑度が多項式である有理化可能な粗相関平衡 (CCE) と相関平衡 (CE) を学習するためのアルゴリズムの最初の行を開発する。 この結果を達成するために、より単純なタスクのための新しい効率的なアルゴリズム(必ずしも平衡ではない)を開発し、そのサンプルの複雑さは、wu等(2021年)の最良の結果よりも大幅に向上した。 提案アルゴリズムは合理化可能性を保証するための新しい手法をいくつか組み込んでおり, 相関探索スキームや適応学習率など, 独立性を持つかもしれない。 保証のシャープさを示す、サンプルの複雑さの低い境界で結果を補完する。

A natural goal in multiagent learning besides finding equilibria is to learn rationalizable behavior, where players learn to avoid iteratively dominated actions. However, even in the basic setting of multiplayer general-sum games, existing algorithms require a number of samples exponential in the number of players to learn rationalizable equilibria under bandit feedback. This paper develops the first line of efficient algorithms for learning rationalizable Coarse Correlated Equilibria (CCE) and Correlated Equilibria (CE) whose sample complexities are polynomial in all problem parameters including the number of players. To achieve this result, we also develop a new efficient algorithm for the simpler task of finding one rationalizable action profile (not necessarily an equilibrium), whose sample complexity substantially improves over the best existing results of Wu et al. (2021). Our algorithms incorporate several novel techniques to guarantee rationalizability and no (swap-)regret simultaneously, including a correlated exploration scheme and adaptive learning rates, which may be of independent interest. We complement our results with a sample complexity lower bound showing the sharpness of our guarantees.
翻訳日:2022-10-21 13:23:27 公開日:2022-10-20
# マルチモーダル表現学習改善のための自己指導型学習手法の検討

A survey on Self Supervised learning approaches for improving Multimodal representation learning ( http://arxiv.org/abs/2210.11024v1 )

ライセンス: Link先を確認
Naman Goyal(参考訳) 近年の自己教師型学習は、大規模データセットの注釈付けコストを回避する能力のため、さまざまな機械学習タスクで爆発的な成長と利用が見られた。 本稿では,マルチモーダル学習のための最善の自己教師あり学習手法について概説する。 提示したアプローチは、文献の広範な研究と、異なる方法で自己監督学習の応用によって集約されている。 提案手法は, クロスモーダル生成, クロスモーダル事前学習, サイクリック翻訳, および自己監督型一助ラベルの生成である。

Recently self supervised learning has seen explosive growth and use in variety of machine learning tasks because of its ability to avoid the cost of annotating large-scale datasets. This paper gives an overview for best self supervised learning approaches for multimodal learning. The presented approaches have been aggregated by extensive study of the literature and tackle the application of self supervised learning in different ways. The approaches discussed are cross modal generation, cross modal pretraining, cyclic translation, and generating unimodal labels in self supervised fashion.
翻訳日:2022-10-21 13:22:19 公開日:2022-10-20
# TTTFlow: 正規化フローによる教師なしテストタイムトレーニング

TTTFlow: Unsupervised Test-Time Training with Normalizing Flow ( http://arxiv.org/abs/2210.11389v1 )

ライセンス: Link先を確認
David Osowiechi, Gustavo A. Vargas Hakim, Mehrdad Noori, Milad Cheraghalikhani, Ismail Ben Ayed, Christian Desrosiers(参考訳) 画像分類におけるディープニューラルネットワークの大きな問題は、テスト時のドメイン変更に対する脆弱性である。 最近の手法では、主分類タスクを学ぶために2つの分岐モデルと、テスト時間適応を行うのに使用される自己教師付きタスクを訓練するttt(test-time training)によってこの問題に対処することが提案されている。 しかし、これらのテクニックはターゲットアプリケーション特有のプロキシタスクを定義する必要がある。 正規化フローに基づく教師なしヘッドを用いたy字型アーキテクチャで,潜在特徴の正規分布を学習し,テスト例でドメインシフトを検出する。 推論において、教師なしの頭部を固定する際、正規化フローのログ確率を最大化することにより、ドメインシフトした例にモデルを適応させる。 以上の結果から,本手法は従来よりも精度が向上することが示された。

A major problem of deep neural networks for image classification is their vulnerability to domain changes at test-time. Recent methods have proposed to address this problem with test-time training (TTT), where a two-branch model is trained to learn a main classification task and also a self-supervised task used to perform test-time adaptation. However, these techniques require defining a proxy task specific to the target application. To tackle this limitation, we propose TTTFlow: a Y-shaped architecture using an unsupervised head based on Normalizing Flows to learn the normal distribution of latent features and detect domain shifts in test examples. At inference, keeping the unsupervised head fixed, we adapt the model to domain-shifted examples by maximizing the log likelihood of the Normalizing Flow. Our results show that our method can significantly improve the accuracy with respect to previous works.
翻訳日:2022-10-21 13:22:09 公開日:2022-10-20
# MixMask:非対称距離におけるマスクシームの自己教師型学習の再考

MixMask: Revisiting Masked Siamese Self-supervised Learning in Asymmetric Distance ( http://arxiv.org/abs/2210.11456v1 )

ライセンス: Link先を確認
Kirill Vishniakov and Eric Xing and Zhiqiang Shen(参考訳) 近年の自己教師型学習は,Masked ModelingとSiamese Networksをひとつのフレームワークに統合し,両者の利点を完全に享受している。 しかし、マスク画像モデリングにおける過去の消去に基づくマスキング方式は、もともとシアムネットワークのために設計されていない。 既存のアプローチは、従来のシアムネットワークからデフォルトの損失設計を継承し、フレームワークでマスキング操作を採用した後の情報損失と距離変化を無視する。 本論文では,バニラマスキング法において,画像のランダム消去領域による情報損失を防止するため,mixmaskと呼ばれる充填型マスキング戦略を提案する。 さらに,MSCN(Masked Siamese ConvNets)において,統合アーキテクチャをソフト距離で適用し,変換された入力と目的とのミスマッチを回避するために,動的損失関数の設計を導入する。 提案した混合マスキング方式により動的損失距離を算出する。 CIFAR-100、Tiny-ImageNet、ImageNet-1Kの様々なデータセットで大規模な実験が行われた。 提案手法により, 線形探索, 半教師付き, 教師付き微調整の精度が向上し, 最先端のMSCNよりも大幅に向上することが実証された。 また,オブジェクト検出とセグメンテーションの下流タスクにおける優越性を示す。 ソースコードはhttps://github.com/lightnessofbeing/mixmaskで入手できます。

Recent advances in self-supervised learning integrate Masked Modeling and Siamese Networks into a single framework to fully reap the advantages of both the two techniques. However, previous erasing-based masking scheme in masked image modeling is not originally designed for siamese networks. Existing approaches simply inherit the default loss design from previous siamese networks, and ignore the information loss and distance change after employing masking operation in the frameworks. In this paper, we propose a filling-based masking strategy called MixMask to prevent information loss due to the randomly erased areas of an image in vanilla masking method. We further introduce a dynamic loss function design with soft distance to adapt the integrated architecture and avoid mismatches between transformed input and objective in Masked Siamese ConvNets (MSCN). The dynamic loss distance is calculated according to the proposed mix-masking scheme. Extensive experiments are conducted on various datasets of CIFAR-100, Tiny-ImageNet and ImageNet-1K. The results demonstrate that the proposed framework can achieve better accuracy on linear probing, semi-supervised and {supervised finetuning}, which outperforms the state-of-the-art MSCN by a significant margin. We also show the superiority on downstream tasks of object detection and segmentation. Our source code is available at https://github.com/LightnessOfBeing/MixMask.
翻訳日:2022-10-21 13:21:53 公開日:2022-10-20
# i-MAE: マスクオートエンコーダの潜在表現は線形分離可能か?

i-MAE: Are Latent Representations in Masked Autoencoders Linearly Separable? ( http://arxiv.org/abs/2210.11470v1 )

ライセンス: Link先を確認
Kevin Zhang and Zhiqiang Shen(参考訳) Masked Image Modeling (MIM) は視覚領域における自己監督型事前学習手法として、強力で一般的なものと考えられている。 しかしながら、そのようなスキームによる学習表現のメカニズムと特性の解釈は、今のところは十分に研究されていない。 本研究では,masked Autoencoders(MAE)に関する総合的な実験と実証研究を通じて,学習された表現の振る舞いを探索する2つの重要な疑問に対処する。 (i)入力が1つではなく2つの画像の混合である場合、マスケオートエンコーダの潜伏表現は線形分離可能か? これは、多くの文献で顕著に証明されているように、MAEが学習した表現が下流のタスクに優れたパフォーマンスを持つ理由を説明するための具体的な証拠である。 (ii)マスキングオートエンコーダによって潜在特徴空間にエンコードされる意味論の度合いは? これら2つの問題を探索するために,2方向画像再構成と蒸留損失を伴う潜在特徴再構成を併用した,シンプルで効果的な解釈可能なMAE(i-MAE)フレームワークを提案する。 cifar-10/100、tiny-imagenet、imagenet-1kデータセットで広範な実験を行い、観測結果の検証を行った。 さらに, 潜在表現の特徴を質的に解析することに加えて, 2つの新しい指標を提案することにより, 潜在空間における線形分離性と意味論の程度について検討する。 定性的かつ定量的な実験における驚きと一貫性のある結果は、i-MAEがMAEフレームワークの解釈可能性研究の優れたフレームワーク設計であり、表現能力の向上を図っている。 コードはhttps://github.com/vision-learning-acceleration-lab/i-maeで入手できる。

Masked image modeling (MIM) has been recognized as a strong and popular self-supervised pre-training approach in the vision domain. However, the interpretability of the mechanism and properties of the learned representations by such a scheme are so far not well-explored. In this work, through comprehensive experiments and empirical studies on Masked Autoencoders (MAE), we address two critical questions to explore the behaviors of the learned representations: (i) Are the latent representations in Masked Autoencoders linearly separable if the input is a mixture of two images instead of one? This can be concrete evidence used to explain why MAE-learned representations have superior performance on downstream tasks, as proven by many literature impressively. (ii) What is the degree of semantics encoded in the latent feature space by Masked Autoencoders? To explore these two problems, we propose a simple yet effective Interpretable MAE (i-MAE) framework with a two-way image reconstruction and a latent feature reconstruction with distillation loss to help us understand the behaviors inside MAE's structure. Extensive experiments are conducted on CIFAR-10/100, Tiny-ImageNet and ImageNet-1K datasets to verify the observations we discovered. Furthermore, in addition to qualitatively analyzing the characteristics of the latent representations, we examine the existence of linear separability and the degree of semantics in the latent space by proposing two novel metrics. The surprising and consistent results across the qualitative and quantitative experiments demonstrate that i-MAE is a superior framework design for interpretability research of MAE frameworks, as well as achieving better representational ability. Code is available at https://github.com/vision-learning-acceleration-lab/i-mae.
翻訳日:2022-10-21 13:21:30 公開日:2022-10-20
# 非IID非ラベルデータを用いた分散学習は自己監督に有利か?

Does Decentralized Learning with Non-IID Unlabeled Data Benefit from Self Supervision? ( http://arxiv.org/abs/2210.10947v1 )

ライセンス: Link先を確認
Lirui Wang, Kaiqing Zhang, Yunzhu Li, Yonglong Tian, Russ Tedrake(参考訳) 分散学習は、教師あり学習(SL)問題に重点を置き、分散データセットを効率的に活用するために広く普及してきた。 残念なことに、現実世界のデータの大部分はラベルがなく、ソース間で非常に異種である。 本研究では,非ラベルデータを用いた分散学習を自己教師あり学習(ssl)のレンズを通して慎重に研究する。 我々は、ImageNet-100、MS-COCO、および新しい現実世界のロボット倉庫データセットを含む比較的大規模なデータセットに対して、分散学習環境下でのコントラスト学習アルゴリズムの有効性を検討した。 分散ssl(dec-ssl)アプローチは,分散データセットの不均一性に頑健であり,オブジェクト分類,検出,セグメンテーションタスクに有用な表現を学習することを示す。 この堅牢性により、通信を著しく削減し、パフォーマンスが最小限に抑えられたデータソースの参加比率を削減できる。 興味深いことに、同じ量のデータを使用して、Dec-SSLで学んだ表現は、通信と過剰なデータストレージコストを必要とする集中型SSLで学んだ表現と同等に機能するだけでなく、データラベルに関する余分な知識を必要とする分散SLから抽出された表現よりも優れていることがある。 最後に,データの不均一性がDec-SSL目標に対する懸念の少ない理由の理解に関する理論的洞察を提供し,高非IIDデータに直面するパフォーマンスをさらに向上させる新しいDec-SSLアルゴリズムを開発するために,機能アライメントとクラスタリング技術を導入する。 本研究は,非ラベルデータを分散学習に取り入れる肯定的な証拠を示し,分散sslが有効かどうかについて新たな知見を提供したい。

Decentralized learning has been advocated and widely deployed to make efficient use of distributed datasets, with an extensive focus on supervised learning (SL) problems. Unfortunately, the majority of real-world data are unlabeled and can be highly heterogeneous across sources. In this work, we carefully study decentralized learning with unlabeled data through the lens of self-supervised learning (SSL), specifically contrastive visual representation learning. We study the effectiveness of a range of contrastive learning algorithms under decentralized learning settings, on relatively large-scale datasets including ImageNet-100, MS-COCO, and a new real-world robotic warehouse dataset. Our experiments show that the decentralized SSL (Dec-SSL) approach is robust to the heterogeneity of decentralized datasets, and learns useful representation for object classification, detection, and segmentation tasks. This robustness makes it possible to significantly reduce communication and reduce the participation ratio of data sources with only minimal drops in performance. Interestingly, using the same amount of data, the representation learned by Dec-SSL can not only perform on par with that learned by centralized SSL which requires communication and excessive data storage costs, but also sometimes outperform representations extracted from decentralized SL which requires extra knowledge about the data labels. Finally, we provide theoretical insights into understanding why data heterogeneity is less of a concern for Dec-SSL objectives, and introduce feature alignment and clustering techniques to develop a new Dec-SSL algorithm that further improves the performance, in the face of highly non-IID data. Our study presents positive evidence to embrace unlabeled data in decentralized learning, and we hope to provide new insights into whether and why decentralized SSL is effective.
翻訳日:2022-10-21 13:20:59 公開日:2022-10-20
# スプリアス相関の存在下での機能学習について

On Feature Learning in the Presence of Spurious Correlations ( http://arxiv.org/abs/2210.11369v1 )

ライセンス: Link先を確認
Pavel Izmailov, Polina Kirichenko, Nate Gruver, Andrew Gordon Wilson(参考訳) 深層分類器は、トレーニングデータ上のターゲットと相関するが、前景を分類する際の画像背景など学習問題に本質的に関連しない、急激な特徴である$\unicode{x2013}$パターンに依存することが知られている。 本稿では,標準経験的リスク最小化(erm)と特殊群ロバストネストレーニングによって得られた表現から復号化できるコア(非純正)機能に関する情報量を評価する。 近年のDeep Feature Reweighting (DFR) の研究に続いて, 突発的相関が壊れたホールドアウトセット上で, モデルの最後の層を再学習することで特徴表現を評価する。 複数の視覚問題とnlp問題について,単純ermによって学習された特徴は,スプリアス相関の効果低減を目的とした特殊群ロバストネス法で学習された特徴と高い競合性を示す。 さらに,学習した特徴表現の品質は,モデルアーキテクチャや事前学習戦略など,トレーニング方法を超えた設計決定に大きく影響していることを示す。 一方,高品質な特徴表現の学習には強正則化は不要であることがわかった。 最後に,本分析から得られた知見を用いて,人気のウォーターバード,CelebAヘアカラー予測,WILDS-FMOW問題に関する文献において,それぞれ97%,92%,50%の最悪群アキュラシーを達成した。

Deep classifiers are known to rely on spurious features $\unicode{x2013}$ patterns which are correlated with the target on the training data but not inherently relevant to the learning problem, such as the image backgrounds when classifying the foregrounds. In this paper we evaluate the amount of information about the core (non-spurious) features that can be decoded from the representations learned by standard empirical risk minimization (ERM) and specialized group robustness training. Following recent work on Deep Feature Reweighting (DFR), we evaluate the feature representations by re-training the last layer of the model on a held-out set where the spurious correlation is broken. On multiple vision and NLP problems, we show that the features learned by simple ERM are highly competitive with the features learned by specialized group robustness methods targeted at reducing the effect of spurious correlations. Moreover, we show that the quality of learned feature representations is greatly affected by the design decisions beyond the training method, such as the model architecture and pre-training strategy. On the other hand, we find that strong regularization is not necessary for learning high quality feature representations. Finally, using insights from our analysis, we significantly improve upon the best results reported in the literature on the popular Waterbirds, CelebA hair color prediction and WILDS-FMOW problems, achieving 97%, 92% and 50% worst-group accuracies, respectively.
翻訳日:2022-10-21 13:20:09 公開日:2022-10-20
# アクティブアテンション操作によるプルーニング

Pruning by Active Attention Manipulation ( http://arxiv.org/abs/2210.11114v1 )

ライセンス: Link先を確認
Zahra Babaiee, Lucas Liebenwein, Ramin Hasani, Daniela Rus, Radu Grosu(参考訳) CNNのフィルタプルーニングは典型的には、CNNのフィルタ重みやアクティベーションマップに離散マスクを適用することで達成される。 本稿では,pruning by active attention manipulation(paam)という,cnnのフィルタセットを訓練中に特定の注意機構を通じてスパースする新しいフィルタ-importance-scoringコンセプトを提案する。 PAAMはフィルタ重みからアナログフィルタスコアを学習し、スコアの加算項によって正規化されたコスト関数を最適化する。 フィルタは独立ではないので、注意を向けてその相関関係を動的に学習する。 さらに、すべてのレイヤのプルーニングスコアを同時にトレーニングすることにより、PAAMは、パフォーマンスの低いサブネットワークを見つける上で必須の層間依存関係を説明できる。 paamはまた、事前訓練されたネットワークを必要とせずに、簡単なワンステージトレーニングプロセスで、スクラッチからprunedネットワークをトレーニングおよび生成することもできる。 最後に、PAAMは各レイヤにおける適切なフィルタ数を暗黙的に決定できるため、レイヤ固有のハイパーパラメータや事前定義されたレイヤ予算を必要としない。 異なるネットワークアーキテクチャにおける実験結果から,PAAMは最先端構造解析法(SOTA)より優れていることが示唆された。 CIFAR-10データセットでは、トレーニング済みのベースラインネットワークを必要とせず、それぞれ ResNet56 と ResNet110 で 1.02% と 1.19% の精度向上と52.3% と 54% のパラメータ削減が得られる。 同様に、ImageNetデータセット上でPAAMは、ResNet50上のパラメータの51.1%をプルーニングしながら、1.06%の精度向上を達成した。 Cifar-10 では、それぞれ 9.5% と 6.6% のSOTA と 11% の ImageNet より優れている。

Filter pruning of a CNN is typically achieved by applying discrete masks on the CNN's filter weights or activation maps, post-training. Here, we present a new filter-importance-scoring concept named pruning by active attention manipulation (PAAM), that sparsifies the CNN's set of filters through a particular attention mechanism, during-training. PAAM learns analog filter scores from the filter weights by optimizing a cost function regularized by an additive term in the scores. As the filters are not independent, we use attention to dynamically learn their correlations. Moreover, by training the pruning scores of all layers simultaneously, PAAM can account for layer inter-dependencies, which is essential to finding a performant sparse sub-network. PAAM can also train and generate a pruned network from scratch in a straightforward, one-stage training process without requiring a pre-trained network. Finally, PAAM does not need layer-specific hyperparameters and pre-defined layer budgets, since it can implicitly determine the appropriate number of filters in each layer. Our experimental results on different network architectures suggest that PAAM outperforms state-of-the-art structured-pruning methods (SOTA). On CIFAR-10 dataset, without requiring a pre-trained baseline network, we obtain 1.02% and 1.19% accuracy gain and 52.3% and 54% parameters reduction, on ResNet56 and ResNet110, respectively. Similarly, on the ImageNet dataset, PAAM achieves 1.06% accuracy gain while pruning 51.1% of the parameters on ResNet50. For Cifar-10, this is better than the SOTA with a margin of 9.5% and 6.6%, respectively, and on ImageNet with a margin of 11%.
翻訳日:2022-10-21 13:14:20 公開日:2022-10-20
# 知識グラフに基づくコンテキスト駆動型視覚物体認識

Context-driven Visual Object Recognition based on Knowledge Graphs ( http://arxiv.org/abs/2210.11233v1 )

ライセンス: Link先を確認
Sebastian Monka, Lavdim Halilaj, Achim Rettinger(参考訳) 現在の物体認識のためのディープラーニング手法は純粋にデータ駆動であり、優れた結果を得るためには多数のトレーニングサンプルが必要である。 画像データにのみ依存するため、これらの手法は小さな偏差が生じる新しい環境に直面すると失敗する傾向にある。 しかし、人間の知覚はこのような分布シフトに対してかなり強固であることが証明されている。 未知のシナリオに対処する能力は、文脈知識の広範囲な取り込みに基づいていると推定される。 コンテキストは、シーン内のオブジェクトの共起または経験の記憶に基づいている。 そこで本研究では,知識グラフにエンコードされた外的文脈知識を用いて,異なる対象表現を形成する人間の視覚野に基づいて,深層学習手法を強化する手法を提案する。 そこで我々は,汎用知識グラフから異なるコンテキストビューを抽出し,ビューをベクトル空間に変換してDNNに注入する。 同じ画像データセットの学習対象表現に対する異なるコンテキストビューの影響を調べるために,一連の実験を行った。 実験結果から, 文脈ビューがDNN内の画像表現に異なる影響を与え, 同一画像に対して異なる予測をもたらすことを示す。 また,移動学習タスクや実世界のシナリオで通常発生する,分布外画像に対するオブジェクト認識モデルの堅牢性の向上にも寄与することを示す。

Current deep learning methods for object recognition are purely data-driven and require a large number of training samples to achieve good results. Due to their sole dependence on image data, these methods tend to fail when confronted with new environments where even small deviations occur. Human perception, however, has proven to be significantly more robust to such distribution shifts. It is assumed that their ability to deal with unknown scenarios is based on extensive incorporation of contextual knowledge. Context can be based either on object co-occurrences in a scene or on memory of experience. In accordance with the human visual cortex which uses context to form different object representations for a seen image, we propose an approach that enhances deep learning methods by using external contextual knowledge encoded in a knowledge graph. Therefore, we extract different contextual views from a generic knowledge graph, transform the views into vector space and infuse it into a DNN. We conduct a series of experiments to investigate the impact of different contextual views on the learned object representations for the same image dataset. The experimental results provide evidence that the contextual views influence the image representations in the DNN differently and therefore lead to different predictions for the same images. We also show that context helps to strengthen the robustness of object recognition models for out-of-distribution images, usually occurring in transfer learning tasks or real-world scenarios.
翻訳日:2022-10-21 13:13:47 公開日:2022-10-20
# 映画スクリプトを用いた図形文字のMBTIパーソナリティ予測

MBTI Personality Prediction for Fictional Characters Using Movie Scripts ( http://arxiv.org/abs/2210.10994v1 )

ライセンス: Link先を確認
Yisi Sang, Xiangyang Mou, Mo Yu, Dakuo Wang, Jing Li, Jeffrey Stanton(参考訳) 物語を理解するNLPモデルは、その中の文字を理解することができるべきである。 この目的のためにニューラルモデルの開発を支援するため、我々はStory2Personalityというベンチマークを構築した。 その課題は、キャラクターの物語に基づいて、映画キャラクターのmbtiまたはビッグ5のパーソナリティタイプを予測することである。 実験の結果、既存のテキスト分類モデルでは、ランダムな推測をほとんど上回らないため、タスクが困難であることが示されている。 さらに,言語的記述と非言語的記述の両方を用いたパーソナリティ予測のための多視点モデルを提案した。 我々のデータセットのユニークさと課題は、キャラクターの理解の観点から物語理解技術の発達を促す。

An NLP model that understands stories should be able to understand the characters in them. To support the development of neural models for this purpose, we construct a benchmark, Story2Personality. The task is to predict a movie character's MBTI or Big 5 personality types based on the narratives of the character. Experiments show that our task is challenging for the existing text classification models, as none is able to largely outperform random guesses. We further proposed a multi-view model for personality prediction using both verbal and non-verbal descriptions, which gives improvement compared to using only verbal descriptions. The uniqueness and challenges in our dataset call for the development of narrative comprehension techniques from the perspective of understanding characters.
翻訳日:2022-10-21 13:13:24 公開日:2022-10-20
# 0.1%余剰演算による超越スケーリング法則

Transcending Scaling Laws with 0.1% Extra Compute ( http://arxiv.org/abs/2210.11399v1 )

ライセンス: Link先を確認
Yi Tay, Jason Wei, Hyung Won Chung, Vinh Q. Tran, David R. So, Siamak Shakeri, Xavier Garcia, Huaixiu Steven Zheng, Jinfeng Rao, Aakanksha Chowdhery, Denny Zhou, Donald Metzler, Slav Petrov, Neil Houlsby, Quoc V. Le, Mostafa Dehghani(参考訳) 言語モデルのスケーリングはパフォーマンスを改善しますが、大きな計算コストを伴います。 本稿では,既存の言語モデルとそのスケーリング曲線を,比較的少量の余剰計算で大幅に改善するUL2Rを提案する。 鍵となる考え方は、最先端の大規模言語モデル(例えば PaLM など)をUL2 のミックス・オブ・デノワザーの目的で、さらに数ステップでトレーニングし続けることである。 計算コストがほぼ無視できる上に,新たなデータソースが存在しないことで,ダウンストリームメトリクスによる大規模言語モデルのスケーリング特性が大幅に向上できることを実証した。 本稿では,UL2Rを用いたPaLMのトレーニングを継続し,U-PaLMと呼ぶ8B,62B,540Bスケールで新しいモデルのセットを導入する。 興味深いことに、540Bスケールでは、U-PaLM が計算予算の約半分で最終的な PaLM 540B モデルと同じ性能を達成する約2倍の計算節約率を示す(すなわち、$\sim$4.4M TPUv4 時間)。 さらに、この改善されたスケーリング曲線は、BIG-Benchタスクに挑戦する上で「創発的な能力」をもたらすことを示しています -- 例えば、U-PaLMは、タスクにおいてPaLMよりもはるかに優れた処理を行い、より小さなスケール(540Bとは対照的に62B)で品質を実証しています。 全体として、U-PaLMは、英語のNLPタスク(例:コモンセンス推論、質問応答)、シークレットを用いた推論タスク(例:GSM8K)、多言語タスク(MGSM、TydiQA)、MMLU、BIG-Benchタスクなど、多数のショットセットにおいて、PaLMよりも優れていることを示す。 最後に,U-PaLMの単一およびマルチスパン充填における新機能を示す定性的な例を示す。

Scaling language models improves performance but comes with significant computational costs. This paper proposes UL2R, a method that substantially improves existing language models and their scaling curves with a relatively tiny amount of extra compute. The key idea is to continue training a state-of-the-art large language model (e.g., PaLM) on a few more steps with UL2's mixture-of-denoiser objective. We show that, with almost negligible extra computational costs and no new sources of data, we are able to substantially improve the scaling properties of large language models on downstream metrics. In this paper, we continue training PaLM with UL2R, introducing a new set of models at 8B, 62B, and 540B scale which we call U-PaLM. Impressively, at 540B scale, we show an approximately 2x computational savings rate where U-PaLM achieves the same performance as the final PaLM 540B model at around half its computational budget (i.e., saving $\sim$4.4 million TPUv4 hours). We further show that this improved scaling curve leads to 'emergent abilities' on challenging BIG-Bench tasks -- for instance, U-PaLM does much better than PaLM on some tasks or demonstrates better quality at much smaller scale (62B as opposed to 540B). Overall, we show that U-PaLM outperforms PaLM on many few-shot setups, i.e., English NLP tasks (e.g., commonsense reasoning, question answering), reasoning tasks with chain-of-thought (e.g., GSM8K), multilingual tasks (MGSM, TydiQA), MMLU and challenging BIG-Bench tasks. Finally, we provide qualitative examples showing the new capabilities of U-PaLM for single and multi-span infilling.
翻訳日:2022-10-21 13:13:13 公開日:2022-10-20
# 独立テストに基づく測定誤差と線形非ガウスモデルによる因果発見へのアプローチ

Independence Testing-Based Approach to Causal Discovery under Measurement Error and Linear Non-Gaussian Models ( http://arxiv.org/abs/2210.11021v1 )

ライセンス: Link先を確認
Haoyue Dai, Peter Spirtes, Kun Zhang(参考訳) 因果発見は、観測データを生成する因果構造を回復することを目的としている。 特定の問題で成功したにもかかわらず、多くの実世界のシナリオでは、観測変数は対象変数ではなく、対象変数の不完全測度である。 測定誤差による因果発見は、測定誤差による観測から観測対象変数の因果グラフを回復することを目的としている。 本研究では,非観測対象変数が線形非ガウス非巡回モデルに従い,測定過程がランダムな測定誤差モデルに従う問題の定式化を考える。 この定式化の既存の方法は、計算不能な超完全独立成分分析(OICA)に依存している。 本研究では、ある測定変数の特定の線形変換と、他の測定変数との独立性をチェックする変換独立雑音(TIN)条件を提案する。 非ガウス性および高次データ統計を利用して、TINは観測されていない対象変数のグラフ構造について情報を与える。 TINを利用することで、因果モデルの順序付き群分解を同定できる。 言い換えれば、oicaがかつて必要だった独立テストを実施するだけで達成できたということです。 合成データと実世界のデータの両方における実験結果から,本手法の有効性と信頼性が示された。

Causal discovery aims to recover causal structures generating the observational data. Despite its success in certain problems, in many real-world scenarios the observed variables are not the target variables of interest, but the imperfect measures of the target variables. Causal discovery under measurement error aims to recover the causal graph among unobserved target variables from observations made with measurement error. We consider a specific formulation of the problem, where the unobserved target variables follow a linear non-Gaussian acyclic model, and the measurement process follows the random measurement error model. Existing methods on this formulation rely on non-scalable over-complete independent component analysis (OICA). In this work, we propose the Transformed Independent Noise (TIN) condition, which checks for independence between a specific linear transformation of some measured variables and certain other measured variables. By leveraging the non-Gaussianity and higher-order statistics of data, TIN is informative about the graph structure among the unobserved target variables. By utilizing TIN, the ordered group decomposition of the causal model is identifiable. In other words, we could achieve what once required OICA to achieve by only conducting independence tests. Experimental results on both synthetic and real-world data demonstrate the effectiveness and reliability of our method.
翻訳日:2022-10-21 13:12:08 公開日:2022-10-20
# 全空間の反事実学習:調律、分析特性、産業応用

Entire Space Counterfactual Learning: Tuning, Analytical Properties and Industrial Applications ( http://arxiv.org/abs/2210.11039v1 )

ライセンス: Link先を確認
Hao Wang, Zhichao Chen, Jiajun Fan, Yuxin Huang, Weiming Liu, Xinggao Liu(参考訳) 効果的なレコメンデーションシステムを構築するための基本的な研究課題として、クリック後変換率(CVR)の推定は、長い間サンプル選択バイアスやデータ空間の問題に悩まされてきた。 データスパーシティ問題に対処するために、スペースマルチタスクモデル全体に基づく一般的なメソッドは、ユーザアクションのシーケンシャルなパターン(例えば、expert $\rightarrow$click $\rightarrow$ conversionを利用して補助学習タスクを構築する。 しかし、CVR推定の不偏性を保証するには至っていない。 本稿では,(1)cvr推定が基礎的真理よりも本質的に高いcvr推定のための固有推定バイアス (ieb) ,(2)クリックから変換までの因果関係を見落としうるctcvr推定のための潜在的独立優先度 (pip) の2つの欠陥を理論的に示す。 本稿ではさらに,ieb問題とpip問題の両方を同時処理する反事実リスク最小化器を用いた,全空間反事実マルチタスクモデル(escm$^2$)を提案する。 提案手法の有効性を実証するため,本論文では,本手法のパラメータチューニングを行い,その解析特性を導出し,escm$^2$が内在するiebおよびpip問題やベースラインモデルよりも優れる産業用cvr推定法の有効性を示す。

As a basic research problem for building effective recommender systems, post-click conversion rate (CVR) estimation has long been plagued by sample selection bias and data sparsity issues. To address the data sparsity issue, prevalent methods based on entire space multi-task model leverage the sequential pattern of user actions, i.e. exposure $\rightarrow$ click $\rightarrow$ conversion to construct auxiliary learning tasks. However, they still fall short of guaranteeing the unbiasedness of CVR estimates. This paper theoretically demonstrates two defects of these entire space multi-task models: (1) inherent estimation bias (IEB) for CVR estimation, where the CVR estimate is inherently higher than the ground truth; (2) potential independence priority (PIP) for CTCVR estimation, where the causality from click to conversion might be overlooked. This paper further proposes a principled method named entire space counterfactual multi-task model (ESCM$^2$), which employs a counterfactual risk minimizer to handle both IEB and PIP issues at once. To demonstrate the effectiveness of the proposed method, this paper explores its parameter tuning in practice, derives its analytic properties, and showcases its effectiveness in industrial CVR estimation, where ESCM$^2$ can effectively alleviate the intrinsic IEB and PIP issues and outperform baseline models.
翻訳日:2022-10-21 13:11:49 公開日:2022-10-20
# ディープラーニングモデルアーキテクチャはプライバシにどのように影響するか?

How Does a Deep Learning Model Architecture Impact Its Privacy? ( http://arxiv.org/abs/2210.11049v1 )

ライセンス: Link先を確認
Guangsheng Zhang, Bo Liu, Huan Tian, Tianqing Zhu, Ming Ding, Wanlei Zhou(参考訳) 過去10年間の急成長する研究分野として、ディープラーニング技術は前例のない規模で収集・処理されたビッグデータによって推進されてきた。 しかし、収集したトレーニングデータのセンシティブな情報はプライバシーの懸念を引き起こす。 最近の研究では、ディープラーニングモデルは、メンバシップ推論攻撃、属性推論攻撃、勾配反転攻撃など、さまざまなプライバシ攻撃に弱いことが示されている。 特筆すべきは、攻撃の性能がモデルによって異なることである。 本稿では,モデルアーキテクチャがモデルプライバシに影響を及ぼすか? CNNからTransformerへのいくつかの代表的モデルアーキテクチャを調査し、Transformerは一般的にCNNよりもプライバシー攻撃に弱いことを示す。 さらに、アクティベーション層、ステム層、バイアスパラメータのマイクロ設計が、トランスフォーマーよりもCNNがプライバシ攻撃に耐性がある主な理由であることを示す。 また、注意モジュールの存在が、Transformerがプライバシー攻撃に弱い理由でもあることもわかりました。 われわれの発見が、調査対象のプライバシー攻撃を防ぎ、コミュニティがプライバシーに親しみやすいモデルアーキテクチャを構築するのに役立つことを願っている。

As a booming research area in the past decade, deep learning technologies have been driven by big data collected and processed on an unprecedented scale. However, the sensitive information in the collected training data raises privacy concerns. Recent research indicated that deep learning models are vulnerable to various privacy attacks, including membership inference attacks, attribute inference attacks, and gradient inversion attacks. It is noteworthy that the performance of the attacks varies from model to model. In this paper, we conduct empirical analyses to answer a fundamental question: Does model architecture affect model privacy? We investigate several representative model architectures from CNNs to Transformers, and show that Transformers are generally more vulnerable to privacy attacks than CNNs. We further demonstrate that the micro design of activation layers, stem layers, and bias parameters, are the major reasons why CNNs are more resilient to privacy attacks than Transformers. We also find that the presence of attention modules is another reason why Transformers are more vulnerable to privacy attacks. We hope our discovery can shed some new light on how to defend against the investigated privacy attacks and help the community build privacy-friendly model architectures.
翻訳日:2022-10-21 13:11:24 公開日:2022-10-20
# 因果および因果変動生成モデルを用いた仮説検定

Hypothesis Testing using Causal and Causal Variational Generative Models ( http://arxiv.org/abs/2210.11275v1 )

ライセンス: Link先を確認
Jeffrey Jiang, Omead Pooladzandi, Sunay Bhat, Gregory Pottie(参考訳) 仮説テストと専門家の知識、あるいは因果関係の優先事項の使用は、生成モデルの文脈ではよく研究されていない。 本研究では,非パラメトリック構造的因果知識と深層学習関数近似を組み合わせた新しい生成型アーキテクチャであるcausal genとcausal variational genを提案する。 これらのモデルは、意図的な(非ランダムな)トレーニングデータとテストデータの分割を用いて、非因果生成モデルや変分オートエンコーダや完全連結ニューラルネットワークのような予測モデルよりも、類似しているが分布外のデータポイントをより一般化できることを示す。 この一般化誤差を因果モデル仮説テストのプロキシとして利用することを検討する。 さらに,従来の手法では学習が難しい構造モデルの機能的関係を学習するためにdropoutが利用できることを示す。 本手法は, 人工振り子データセット, 外傷手術用地上レベル落下データセットを用いて検証した。

Hypothesis testing and the usage of expert knowledge, or causal priors, has not been well explored in the context of generative models. We propose a novel set of generative architectures, Causal Gen and Causal Variational Gen, that can utilize nonparametric structural causal knowledge combined with a deep learning functional approximation. We show how, using a deliberate (non-random) split of training and testing data, these models can generalize better to similar, but out-of-distribution data points, than non-causal generative models and prediction models such as Variational autoencoders and Fully Connected Neural Networks. We explore using this generalization error as a proxy for causal model hypothesis testing. We further show how dropout can be used to learn functional relationships of structural models that are difficult to learn with traditional methods. We validate our methods on a synthetic pendulum dataset, as well as a trauma surgery ground level fall dataset.
翻訳日:2022-10-21 13:11:05 公開日:2022-10-20
# 平均場変分推論の表現について

On Representations of Mean-Field Variational Inference ( http://arxiv.org/abs/2210.11385v1 )

ライセンス: Link先を確認
Soumyadip Ghosh and Yingdong Lu and Tomasz Nowicki and Edith Zhang(参考訳) 平均場変動推論(MFVI)の定式化は、一般ベイズ推論問題を積測度の部分空間に制限する。 本稿では,MFVIアルゴリズムを解析するためのフレームワークを提案する。 我々のアプローチでは、MFVI問題をワッサーシュタイン空間上の勾配流、フォッカー・プランク型方程式の系、拡散過程の3つの異なる方法で表すことができる。 厳密な保証が確立され、測度の積 wasserstein 空間における座標上昇変分推論アルゴリズムの時間的離散化実装が極限の勾配フローをもたらすことを示した。 関連する密度に対して同様の結果が得られ、その極限は準線形偏微分方程式によって与えられる。 一般的な実用的なアルゴリズムのクラスがこのフレームワークに該当し、収束を確立するツールを提供する。 このフレームワークが、様々なアプローチにおけるアルゴリズムの収束を保証するために、古くて新しい方法で、変分推論問題を解決するために使用できることを願っている。

The mean field variational inference (MFVI) formulation restricts the general Bayesian inference problem to the subspace of product measures. We present a framework to analyze MFVI algorithms, which is inspired by a similar development for general variational Bayesian formulations. Our approach enables the MFVI problem to be represented in three different manners: a gradient flow on Wasserstein space, a system of Fokker-Planck-like equations and a diffusion process. Rigorous guarantees are established to show that a time-discretized implementation of the coordinate ascent variational inference algorithm in the product Wasserstein space of measures yields a gradient flow in the limit. A similar result is obtained for their associated densities, with the limit being given by a quasi-linear partial differential equation. A popular class of practical algorithms falls in this framework, which provides tools to establish convergence. We hope this framework could be used to guarantee convergence of algorithms in a variety of approaches, old and new, to solve variational inference problems.
翻訳日:2022-10-21 13:10:49 公開日:2022-10-20
# 成分レベルの予後・健康管理(phm)のための深部散乱スペクトルゲルマンネスと故障検出・診断

Deep Scattering Spectrum germaneness to Fault Detection and Diagnosis for Component-level Prognostics and Health Management (PHM) ( http://arxiv.org/abs/2210.09837v3 )

ライセンス: Link先を確認
Ali Rohan(参考訳) 予後・健康管理システム(PHM)の故障検出・診断において、ほとんどの手法は機械学習(ML)または深層学習(DL)を用いて、いくつかの特徴を事前に抽出する(MLの場合)か、フィルタを使用して、重要な分類タスクを実行する(DLの場合)自律的に特徴を抽出する(DLの場合)。 特に、電流、振動、または音響放射信号が主要な情報源である産業用ロボットの故障検出および診断において、異なるレベルで圧縮された情報を持つ構成要素に信号をマッピングできる特徴領域は、典型的なmlおよびdlベースのフレームワークの複雑さとサイズを減らすことができる。 ディープ散乱スペクトル(英: deep scattering spectrum、dss)は、ウェーブレット変換(wt)アナロジーを用いて、信号の様々な時間領域と周波数領域で符号化された情報を分離抽出する戦略の一つである。 その結果,本研究の焦点は,産業用ロボットの機械的構成要素に対するDSSの故障検出とデイグナシスとの関連性を検討することである。 複数の産業用ロボットと異なる機械故障を用いて,入力信号から抽出した低分散特徴を用いて故障を分類する手法を構築した。 提案手法は実用試験台に実装され, 99.7%, 88.1%の分類精度を有する単純・複雑分類問題に対して, 断層検出および診断において良好な性能を示した。

In fault detection and diagnosis of prognostics and health management (PHM) systems, most of the methodologies utilize machine learning (ML) or deep learning (DL) through which either some features are extracted beforehand (in the case of ML) or filters are used to extract features autonomously (in case of DL) to perform the critical classification task. Particularly in the fault detection and diagnosis of industrial robots where electric current, vibration or acoustic emissions signals are the primary sources of information, a feature domain that can map the signals into their constituent components with compressed information at different levels can reduce the complexities and size of typical ML and DL-based frameworks. The Deep Scattering Spectrum (DSS) is one of the strategies that use the Wavelet Transform (WT) analogy to separate and extract the information encoded in a signal's various temporal and frequency domains. As a result, the focus of this work is on the study of the DSS's relevance to fault detection and daignosis for mechanical components of industrail robots. We used multiple industrial robots and distinct mechanical faults to build an approach for classifying the faults using low-variance features extracted from the input signals. The presented approach was implemented on the practical test benches and demonstrated satisfactory performance in fault detection and diagnosis for simple and complex classification problems with a classification accuracy of 99.7% and 88.1%, respectively.
翻訳日:2022-10-21 11:00:21 公開日:2022-10-20
# Trixi (複数形 Trixis)

Trixi the Librarian ( http://arxiv.org/abs/2210.10110v2 )

ライセンス: Link先を確認
Fabian Wieczorek, Shang-Ching Liu, Bj\"orn Sygo, Mykhailo Koshil(参考訳) 本稿では,pr-2 プラットフォームを用いて棚上の書籍を自動的にソートする3部システムを提案する。 本稿では,ディープラーニングモデルと従来のコンピュータビジョンに基づく多段階視覚パイプラインを用いて,書籍を十分に検出し,認識する手法について述べる。 さらに、moveitやbioikに基づくソリューションとともに、双方向ロボットを用いた本移転の難しさが解決されている。 実験の結果、本棚に3冊の本を並べ替えるのに十分なパフォーマンスが示されました。 それにもかかわらず、さらなる改善が議論されており、より堅牢な書籍認識とより汎用的な操作技術に繋がる可能性がある。

In this work, we present a three-part system that automatically sorts books on a shelf using the PR- 2 platform. The paper describes a methodology to sufficiently detect and recognize books using a multistep vision pipeline based on deep learning models as well as conventional computer vision. Furthermore, the difficulties of relocating books using a bi-manual robot along with solutions based on MoveIt and BioIK are being addressed. Experiments show that the performance is overall good enough to repeatedly sort three books on a shelf. Nevertheless, further improvements are being discussed, potentially leading to a more robust book recognition and more versatile manipulation techniques.
翻訳日:2022-10-21 10:59:55 公開日:2022-10-20
# 教師なしGNNによるグラフ異常検出

Graph Anomaly Detection with Unsupervised GNNs ( http://arxiv.org/abs/2210.09535v2 )

ライセンス: Link先を確認
Lingxiao Zhao, Saurabh Sawlani, Arvind Srinivasan, Leman Akoglu(参考訳) グラフベースの異常検出は現実世界で多くのアプリケーションを見つける。 このように、ディープラーニングとグラフニューラルネットワーク(gnns)の進歩により、最近深層検出モデルに移行した話題に関する広範な文献が存在する。 以前の作業の大部分は、単一のグラフ内のノード/エッジ/サブグラフ異常の検出に重点を置いており、グラフデータベースにおけるグラフレベルの異常検出に関する作業ははるかに少ない。 本研究の目的は,(1)GNNに基づくエンドツーエンドのグラフレベルの異常検出モデルであるGLAMを設計すること,(2)ラベルの欠如が原因で,教師なしモデル選択に重点を置くこと,そして,特に多数のハイパーパラメータを持つディープNNベースモデルにおいて重要な2つのギャップを埋めることである。 さらに,これまで検討されなかった分布異常の検出を目的とした,mmd-poolingと呼ばれるグラフレベルの埋め込みのための新たなプーリング戦略を提案する。 実世界の15のデータセットに関する広範囲な実験を通じて (i)GLAMはノードレベルと2段階(すなわちエンドツーエンドではない)ベースラインを上回り、 (ii)モデル選択は、性能のばらつきが大きい候補のうち、期待値(平均値)よりもはるかに効果的なモデルを選ぶ。

Graph-based anomaly detection finds numerous applications in the real-world. Thus, there exists extensive literature on the topic that has recently shifted toward deep detection models due to advances in deep learning and graph neural networks (GNNs). A vast majority of prior work focuses on detecting node/edge/subgraph anomalies within a single graph, with much less work on graph-level anomaly detection in a graph database. This work aims to fill two gaps in the literature: We (1) design GLAM, an end-to-end graph-level anomaly detection model based on GNNs, and (2) focus on unsupervised model selection, which is notoriously hard due to lack of any labels, yet especially critical for deep NN based models with a long list of hyper-parameters. Further, we propose a new pooling strategy for graph-level embedding, called MMD-pooling, that is geared toward detecting distribution anomalies which has not been considered before. Through extensive experiments on 15 real-world datasets, we show that (i) GLAM outperforms node-level and two-stage (i.e. not end-to-end) baselines, and (ii) model selection picks a significantly more effective model than expectation (i.e. average) -- without using any labels -- among candidates with otherwise large variation in performance.
翻訳日:2022-10-21 10:59:44 公開日:2022-10-20
# クラスターディスクリプタによる実用的説明可能性の実現に向けて

Towards Practical Explainability with Cluster Descriptors ( http://arxiv.org/abs/2210.10662v2 )

ライセンス: Link先を確認
Xiaoyuan Liu, Ilya Tyagin, Hayato Ushijima-Mwesigwa, Indradeep Ghosh, Ilya Safro(参考訳) 機械学習の急速な発展により、その説明可能性の向上は重要な研究目標となっている。 本研究では,クラスタ記述子を調べることにより,クラスタをより説明しやすくする問題について検討する。 オブジェクトのセットに$s$、これらのオブジェクトのクラスタリングに$\pi$、クラスタリングアルゴリズムには参加していないタグのセット$t$が与えられる。 $s$のそれぞれのオブジェクトは$t$のサブセットに関連付けられる。 目標は、クラスタディスクリプタと呼ばれる各クラスタの代表的なタグセットを見つけることであり、これらのディスクリプタはペアで切り離され、すべてのディスクリプタの総サイズが最小になる。 一般に、この問題はNPハードである。 本稿では,説明可能性に寄与せず,クラスタ間を十分に区別しないタグが最適記述子に付加されないように,先行モデルを強化する新しい説明可能性モデルを提案する。 提案モデルは2次非制約二元最適化問題として定式化され、現代の最適化ハードウェアアクセラレーターの解法に適している。 本研究では,組合わせ最適化を高速化する専用ハードウェア,富士通デジタルアニーラ,実生活用twitterおよびpubmedデータセットを用いた説明可能性モデルの実現を実験的に実証する。

With the rapid development of machine learning, improving its explainability has become a crucial research goal. We study the problem of making the clusters more explainable by investigating the cluster descriptors. Given a set of objects $S$, a clustering of these objects $\pi$, and a set of tags $T$ that have not participated in the clustering algorithm. Each object in $S$ is associated with a subset of $T$. The goal is to find a representative set of tags for each cluster, referred to as the cluster descriptors, with the constraint that these descriptors we find are pairwise disjoint, and the total size of all the descriptors is minimized. In general, this problem is NP-hard. We propose a novel explainability model that reinforces the previous models in such a way that tags that do not contribute to explainability and do not sufficiently distinguish between clusters are not added to the optimal descriptors. The proposed model is formulated as a quadratic unconstrained binary optimization problem which makes it suitable for solving on modern optimization hardware accelerators. We experimentally demonstrate how a proposed explainability model can be solved on specialized hardware for accelerating combinatorial optimization, the Fujitsu Digital Annealer, and use real-life Twitter and PubMed datasets for use cases.
翻訳日:2022-10-21 10:59:24 公開日:2022-10-20
# ELASTIC:適応型シンボリックコンパイラによる数値推論

ELASTIC: Numerical Reasoning with Adaptive Symbolic Compiler ( http://arxiv.org/abs/2210.10105v2 )

ライセンス: Link先を確認
Jiaxin Zhang, Yashar Moshfeghi(参考訳) テキスト上での数値推論は人工知能(AI)の難しい課題であり、読解と数値推論能力を必要とする。 従来のアプローチでは、推論プロセスを表現するために数値推論プログラムを使用する。 しかし、ほとんどの作品は数値推論プログラムの重要な構成要素である演算子やオペランドの生成を分離していないため、複雑なタスクでそのようなプログラムを生成する能力は限られている。 本稿では,Reasoning Manager, Operator Generator, Operands Generator, および Memory Register の4つのモジュールからなるRoBERTa をエンコーダとして構成した adapTive symbolIc Compiler (ELASTIC) モデルを用いたnumEricaL reASoningを提案する。 複雑な推論を行う場合、弾力性は堅牢である。 また、包含するオペランドの数を気にせずに多様な演算子の拡張をサポートすることにより、ドメインに依存しない。 実験により、ELASTICはFinQAデータセットで68.96と65.21の実行精度とプログラム精度、MathQAデータセットで83.00のプログラム精度を達成した。

Numerical reasoning over text is a challenging task of Artificial Intelligence (AI), requiring reading comprehension and numerical reasoning abilities. Previous approaches use numerical reasoning programs to represent the reasoning process. However, most works do not separate the generation of operators and operands, which are key components of a numerical reasoning program, thus limiting their ability to generate such programs for complicated tasks. In this paper, we introduce the numEricaL reASoning with adapTive symbolIc Compiler (ELASTIC) model, which is constituted of the RoBERTa as the Encoder and a Compiler with four modules: Reasoning Manager, Operator Generator, Operands Generator, and Memory Register. ELASTIC is robust when conducting complicated reasoning. Also, it is domain agnostic by supporting the expansion of diverse operators without caring about the number of operands it contains. Experiments show that ELASTIC achieves 68.96 and 65.21 of execution accuracy and program accuracy on the FinQA dataset and 83.00 program accuracy on the MathQA dataset, outperforming previous state-of-the-art models significantly.
翻訳日:2022-10-21 10:56:41 公開日:2022-10-20
# lightea: 3視点ラベル伝搬によるスケーラブルでロバストで解釈可能なエンティティアライメントフレームワーク

LightEA: A Scalable, Robust, and Interpretable Entity Alignment Framework via Three-view Label Propagation ( http://arxiv.org/abs/2210.10436v2 )

ライセンス: Link先を確認
Xin Mao, Wenting Wang, Yuanbin Wu, Man Lan(参考訳) エンティティアライメント(EA)は、KG間の等価なエンティティペアを見つけることを目的としている。 本稿では、既存のGNNベースのEA手法が、ニューラルネットワークの系統から生まれてくる欠陥を継承していると論じる。 近年の研究に触発されて,KG上で効果的に動作するためのラベル伝搬アルゴリズムを再発明し,3つの効率的なコンポーネントからなる非神経EAフレームワーク-LightEAを提案する。 (i)ランダム直交ラベル生成、 (ii)三視点ラベル伝搬、及び (iii)スパース・シンクホーン反復。 公開データセットに関する広範な実験によると、lighteaはスケーラビリティ、堅牢性、解釈性に優れています。 ほんの10分の1の時間消費で、LightEAはすべてのデータセットにまたがる最先端のメソッドに匹敵する結果を達成し、多くのデータセットを上回ります。

Entity Alignment (EA) aims to find equivalent entity pairs between KGs, which is the core step of bridging and integrating multi-source KGs. In this paper, we argue that existing GNN-based EA methods inherit the inborn defects from their neural network lineage: weak scalability and poor interpretability. Inspired by recent studies, we reinvent the Label Propagation algorithm to effectively run on KGs and propose a non-neural EA framework -- LightEA, consisting of three efficient components: (i) Random Orthogonal Label Generation, (ii) Three-view Label Propagation, and (iii) Sparse Sinkhorn Iteration. According to the extensive experiments on public datasets, LightEA has impressive scalability, robustness, and interpretability. With a mere tenth of time consumption, LightEA achieves comparable results to state-of-the-art methods across all datasets and even surpasses them on many.
翻訳日:2022-10-21 10:56:16 公開日:2022-10-20
# 視覚計画とトークンアライメントによるキャラクター中心ストーリーの可視化

Character-Centric Story Visualization via Visual Planning and Token Alignment ( http://arxiv.org/abs/2210.08465v3 )

ライセンス: Link先を確認
Hong Chen, Rujun Han, Te-Lin Wu, Hideki Nakayama and Nanyun Peng(参考訳) ストーリービジュアライゼーションは、完全なストーリーに基づいた複数の画像生成を可能にすることで、従来のテキスト・画像生成を前進させる。 このタスクには機械が必要です 1)長文入力を理解して 2) ストーリーの内容を説明するグローバルに一貫性のあるイメージシークエンスを作成する。 一貫したストーリー視覚化の重要な課題は、ストーリーに不可欠なキャラクターを保存することです。 そこで本稿では,Vector-Quantized Variational Autoencoders (VQ-VAE) をテキスト・tovisual-token (transformer) アーキテクチャで拡張する手法を提案する。 具体的には、2段階のフレームワークでtext-to-visual-tokenモジュールを変更します。 1) 文字のみの視覚的トークンを予測する文字トークン計画モデル 2)残余の視覚トークンシーケンスを生成する視覚トークン補完モデルをVQ-VAEに送信し,画像生成を確定する。 キャラクタが画像に現れるように促すため,キャラクタトケアライメント目標を用いて,さらに2段階の枠組みを訓練する。 広範な実験と評価により,提案手法は文字の保存に優れ,強いベースラインに比べて高品質な画像シーケンスを生成できることが証明された。 コードはhttps://github.com/sairin1202/VP-CSVにある。

Story visualization advances the traditional text-to-image generation by enabling multiple image generation based on a complete story. This task requires machines to 1) understand long text inputs and 2) produce a globally consistent image sequence that illustrates the contents of the story. A key challenge of consistent story visualization is to preserve characters that are essential in stories. To tackle the challenge, we propose to adapt a recent work that augments Vector-Quantized Variational Autoencoders (VQ-VAE) with a text-tovisual-token (transformer) architecture. Specifically, we modify the text-to-visual-token module with a two-stage framework: 1) character token planning model that predicts the visual tokens for characters only; 2) visual token completion model that generates the remaining visual token sequence, which is sent to VQ-VAE for finalizing image generations. To encourage characters to appear in the images, we further train the two-stage framework with a character-token alignment objective. Extensive experiments and evaluations demonstrate that the proposed method excels at preserving characters and can produce higher quality image sequences compared with the strong baselines. Codes can be found in https://github.com/sairin1202/VP-CSV
翻訳日:2022-10-21 10:56:01 公開日:2022-10-20
# ニューラルテキスト著者の帰属と難読化--データマイニングの視点から

Attribution and Obfuscation of Neural Text Authorship: A Data Mining Perspective ( http://arxiv.org/abs/2210.10488v2 )

ライセンス: Link先を確認
Adaku Uchendu and Thai Le and Dongwon Lee(参考訳) プライバシ研究における関心の高まりと重要性に関する2つのインターロック研究は、authorship attribution(aa)とauthorship obfuscation(ao)である。 問題のあるアーティファクト、特にテキストtが与えられた場合、AAソリューションは、多くの候補著者の中から、tを真の著者に正確に属性することを目的としており、AOソリューションは、tを変更して真の著者性を隠そうとしている。 伝統的に、著者の概念とそれに伴うプライバシーに関する懸念は、人間の著作者のみに限られる。 しかし、近年のNLPにおけるNTG(Neural Text Generation)技術の爆発的な進歩により、人間の質の高いオープンエンドテキスト(いわゆる「ニューラルテキスト」)を合成できるようになり、人間、機械、またはそれらの組み合わせによる著作を考慮せざるを得なくなった。 悪意ある使用時のニューラルテキストの意味と潜在的な脅威のため、従来のAA/AOソリューションの限界を理解し、ニューラルテキストを扱う新しいAA/AOソリューションを開発することが重要になっている。 そこで本研究では,データマイニングの観点から,ニューラルネットワーク著者の帰属と難読化に関する最近の文献を総合的にレビューし,その限界と有望な研究方向性について考察する。

Two interlocking research questions of growing interest and importance in privacy research are Authorship Attribution (AA) and Authorship Obfuscation (AO). Given an artifact, especially a text t in question, an AA solution aims to accurately attribute t to its true author out of many candidate authors while an AO solution aims to modify t to hide its true authorship. Traditionally, the notion of authorship and its accompanying privacy concern is only toward human authors. However, in recent years, due to the explosive advancements in Neural Text Generation (NTG) techniques in NLP, capable of synthesizing human-quality open-ended texts (so-called "neural texts"), one has to now consider authorships by humans, machines, or their combination. Due to the implications and potential threats of neural texts when used maliciously, it has become critical to understand the limitations of traditional AA/AO solutions and develop novel AA/AO solutions in dealing with neural texts. In this survey, therefore, we make a comprehensive review of recent literature on the attribution and obfuscation of neural text authorship from a Data Mining perspective, and share our view on their limitations and promising research directions.
翻訳日:2022-10-21 10:55:39 公開日:2022-10-20
# UniTune:単一画像上の画像生成モデルを微調整したテキスト駆動画像編集

UniTune: Text-Driven Image Editing by Fine Tuning an Image Generation Model on a Single Image ( http://arxiv.org/abs/2210.09477v3 )

ライセンス: Link先を確認
Dani Valevski, Matan Kalman, Yossi Matias, Yaniv Leviathan(参考訳) 本稿では,汎用テキスト編集のための簡易かつ新規な方法であるunituneを提案する。 unituneは任意の画像とテキスト編集記述を入力として取得し、入力画像に対する高い意味と視覚的忠実性を維持しながら編集を実行する。 UniTuneは、アート指向のための直感的なインターフェースであるテキストを使用し、マスクやスケッチなどの追加入力を必要としない。 提案手法の核心は,パラメータの選択が適切であれば,単一の画像上で大きなテキストから画像への拡散モデルを微調整できるという観察である。 私たちはImagenをテキスト・画像モデルとして使用しましたが、UniTuneは他の大規模モデルとも連携することを期待しています。 本手法をさまざまなユースケースでテストし,その適用性を示す。

We present UniTune, a simple and novel method for general text-driven image editing. UniTune gets as input an arbitrary image and a textual edit description, and carries out the edit while maintaining high semantic and visual fidelity to the input image. UniTune uses text, an intuitive interface for art-direction, and does not require additional inputs, like masks or sketches. At the core of our method is the observation that with the right choice of parameters, we can fine-tune a large text-to-image diffusion model on a single image, encouraging the model to maintain fidelity to the input image while still allowing expressive manipulations. We used Imagen as our text-to-image model, but we expect UniTune to work with other large-scale models as well. We test our method in a range of different use cases, and demonstrate its wide applicability.
翻訳日:2022-10-21 10:55:15 公開日:2022-10-20
# 一部の言語は他の言語よりも等しく、nlp世界の言語格差をより深く調査する

Some Languages are More Equal than Others: Probing Deeper into the Linguistic Disparity in the NLP World ( http://arxiv.org/abs/2210.08523v2 )

ライセンス: Link先を確認
Surangika Ranathunga and Nisansa de Silva(参考訳) NLP世界の言語格差は近年広く認識されている問題である。 しかし、この問題の異なる側面、あるいはこの格差の背景にある理由は、NLPコミュニティ内ではほとんど議論されない。 本稿では,世界の言語に存在する不一致の包括的分析を行う。 データアベイラビリティを考慮した言語分類が必ずしも正しいとは限らない。 話者人口と活力に基づく既存の言語分類を用いて、言語データ資源の分布、NLP/CL研究の量、多言語Webベースプラットフォームへの含意、事前学習された多言語モデルへの含意を分析する。 多くの言語がこれらのリソースやプラットフォームでカバーされていないことを示し、同じ言語グループに属する言語であっても、大きな違いがある。 我々は、家族、地理的な位置、GDP、言語話者の人口の影響を分析し、同じことを克服するいくつかの提案とともに、この格差の可能性を秘めている。

Linguistic disparity in the NLP world is a problem that has been widely acknowledged recently. However, different facets of this problem, or the reasons behind this disparity are seldom discussed within the NLP community. This paper provides a comprehensive analysis of the disparity that exists within the languages of the world. We show that simply categorising languages considering data availability may not be always correct. Using an existing language categorisation based on speaker population and vitality, we analyse the distribution of language data resources, amount of NLP/CL research, inclusion in multilingual web-based platforms and the inclusion in pre-trained multilingual models. We show that many languages do not get covered in these resources or platforms, and even within the languages belonging to the same language group, there is wide disparity. We analyse the impact of family, geographical location, GDP and the speaker population of languages and provide possible reasons for this disparity, along with some suggestions to overcome the same.
翻訳日:2022-10-21 10:54:59 公開日:2022-10-20
# チャフから穀物を分離する: ローソースアフリカの言語のための多言語翻訳を改善するためにデータフィルタリングを使用する

Separating Grains from the Chaff: Using Data Filtering to Improve Multilingual Translation for Low-Resourced African Languages ( http://arxiv.org/abs/2210.10692v2 )

ライセンス: Link先を確認
Idris Abdulmumin, Michael Beukman, Jesujoba O. Alabi, Chris Emezue, Everlyn Asiko, Tosin Adewumi, Shamsuddeen Hassan Muhammad, Mofetoluwa Adeyemi, Oreen Yousuf, Sahib Singh, Tajuddeen Rabiu Gwadabe(参考訳) 我々は,WMT 2022のアフリカ言語共有タスクにおける大規模機械翻訳評価に参加した。 本研究は,事前学習した言語モデルを微調整した文音分類器を用いて,与えられた雑音データをフィルタリングする手法について述べる。 分類器を訓練するために、ゴールド標準キュレートされたデータセットから正のサンプル(高品質並列文)を取得し、低アライメントスコアの文を選択して自動的に一致した並列データから負のサンプル(低品質並列文)を抽出する。 最終的な機械翻訳モデルは、ノイズの多いデータセット全体ではなく、フィルタリングデータに基づいてトレーニングされました。 2つの共通のデータセットから評価することで、我々のアプローチを実証的に検証し、データフィルタリングが一般的に全体的な翻訳品質を改善することを示す。

We participated in the WMT 2022 Large-Scale Machine Translation Evaluation for the African Languages Shared Task. This work describes our approach, which is based on filtering the given noisy data using a sentence-pair classifier that was built by fine-tuning a pre-trained language model. To train the classifier, we obtain positive samples (i.e. high-quality parallel sentences) from a gold-standard curated dataset and extract negative samples (i.e. low-quality parallel sentences) from automatically aligned parallel data by choosing sentences with low alignment scores. Our final machine translation model was then trained on filtered data, instead of the entire noisy dataset. We empirically validate our approach by evaluating on two common datasets and show that data filtering generally improves overall translation quality, in some cases even significantly.
翻訳日:2022-10-21 10:54:43 公開日:2022-10-20
# 言語を使って見えないドメインに拡張する

Using Language to Extend to Unseen Domains ( http://arxiv.org/abs/2210.09520v2 )

ライセンス: Link先を確認
Lisa Dunlap, Clara Mohri, Devin Guillory, Han Zhang, Trevor Darrell, Joseph E. Gonzalez, Aditi Raghunathan, Anja Rohrbach(参考訳) ビジョンモデルがデプロイ時に遭遇する可能性のあるすべてのドメインのトレーニングデータを集めることは、費用がかかる。 代わりに、訓練領域(例えば「鳥の写真」)と拡張したいがデータを持たない領域(例えば「鳥の絵」)がいかに堅牢性を向上させるかを考える。 共同画像と言語埋め込み空間を備えたマルチモーダルモデルを用いて、LADSは、タスク関連情報を保存しながら、トレーニング領域から各未確認テスト領域への画像埋め込みの変換を学習する。 未確認テストドメインからのイメージを一切使用せずに、トレーニングドメインと未確認テストドメインの両方を含む拡張ドメイン上で、LADSは、ドメイン適応とデータセットバイアスをターゲットとする4つのベンチマークのスイートに対して、標準的な微調整とアンサンブルアプローチより優れていることを示す。

It is expensive to collect training data for every possible domain that a vision model may encounter when deployed. We instead consider how simply verbalizing the training domain (e.g. "photos of birds") as well as domains we want to extend to but do not have data for (e.g. "paintings of birds") can improve robustness. Using a multimodal model with a joint image and language embedding space, our method LADS learns a transformation of the image embeddings from the training domain to each unseen test domain, while preserving task relevant information. Without using any images from the unseen test domain, we show that over the extended domain containing both training and unseen test domains, LADS outperforms standard fine-tuning and ensemble approaches over a suite of four benchmarks targeting domain adaptation and dataset bias
翻訳日:2022-10-21 10:54:28 公開日:2022-10-20
# 遠近法とパノラマ深度画像登録による360度パノラマの高解像度深度推定

High-Resolution Depth Estimation for 360-degree Panoramas through Perspective and Panoramic Depth Images Registration ( http://arxiv.org/abs/2210.10414v2 )

ライセンス: Link先を確認
Chi-Han Peng and Jiayao Zhang(参考訳) 本研究では,パノラマの高分解能(2048×1024以上)深度を計算する新しい手法を提案する。 従来のニューラルネットワークベースの手法では、gpuメモリの制約による出力画像サイズ(最大1024x512)が制限されているため、360monodepthと我々の手法は、複数の視点の差や深度画像を縫い合わせることで、統一されたパノラマ深度マップを生成する。 しかし、360MonoDepthは、グローバルに一貫した縫合を実現するために、広範囲な不均一マップアライメントとPoissonベースのブレンディング問題を解くことに頼り、高い計算時間を生み出した。 そこで我々は,既存のパノラマ深度マップ(任意のパノラマ方式でリアルタイムに計算)を,個々の視点深度マップが登録する共通のターゲットとして用いることを提案する。 このキーとなるアイデアは、単純なタスクからグローバルに一貫した縫合結果を生み出しました。 実験の結果,既存のパノラマ法よりも定性的に優れた結果が得られた。

We propose a novel approach to compute high-resolution (2048x1024 and higher) depths for panoramas that is significantly faster and qualitatively and qualitatively more accurate than the current state-of-the-art method (360MonoDepth). As traditional neural network-based methods have limitations in the output image sizes (up to 1024x512) due to GPU memory constraints, both 360MonoDepth and our method rely on stitching multiple perspective disparity or depth images to come out a unified panoramic depth map. However, to achieve globally consistent stitching, 360MonoDepth relied on solving extensive disparity map alignment and Poisson-based blending problems, leading to high computation time. Instead, we propose to use an existing panoramic depth map (computed in real-time by any panorama-based method) as the common target for the individual perspective depth maps to register to. This key idea made producing globally consistent stitching results from a straightforward task. Our experiments show that our method generates qualitatively better results than existing panorama-based methods, and further outperforms them quantitatively on datasets unseen by these methods.
翻訳日:2022-10-21 10:54:11 公開日:2022-10-20
# ダイナミクス強化ニューラル物体の微分物理シミュレーション

Differentiable Physics Simulation of Dynamics-Augmented Neural Objects ( http://arxiv.org/abs/2210.09420v2 )

ライセンス: Link先を確認
Simon Le Cleac'h, Hong-Xing Yu, Michelle Guo, Taylor A. Howell, Ruohan Gao, Jiajun Wu, Zachary Manchester, Mac Schwager(参考訳) 深層ネットワークとしてパラメータ化された連続密度場としてそれらの幾何学を表現する物体の動きをシミュレートするための微分可能なパイプラインを提案する。 これにはNeural Radiance Fields(NeRF)やその他の関連するモデルが含まれる。 密度場から、その質量、質量の中心、慣性行列を含む物体の力学特性を推定する。 次に, 衝突によって生じる通常の力と摩擦力を計算するための密度場に基づく異種接触モデルを提案する。 これによりロボットは、動いている物体の静止画像やビデオから視覚的かつ動的に正確な物体モデルを構築することができる。 その結果生まれたDynamics-Augmented Neural Objects (DANO) は、既存の差別化可能なシミュレーションエンジンであるDojoでシミュレートされ、球体、平面、URDFとして指定されたロボットなど、他の標準的なシミュレーションオブジェクトと相互作用する。 ロボットは、このシミュレーションを使って神経オブジェクトの把握と操作を最適化したり、勾配に基づく実シミュレーション転送によって神経オブジェクトモデルを改善することができる。 本研究では,石けんの摩擦係数を,石けんがテーブルの上を滑る実際の映像から学習するパイプラインを実演する。 我々はまた、合成データからパンダロボットアームとの相互作用を通じて、スタンフォード・バニーの摩擦と質量の係数を学習し、パンダアームのシミュレーションにおける軌道を最適化し、バニーを目標地点まで押し出す。

We present a differentiable pipeline for simulating the motion of objects that represent their geometry as a continuous density field parameterized as a deep network. This includes Neural Radiance Fields (NeRFs), and other related models. From the density field, we estimate the dynamical properties of the object, including its mass, center of mass, and inertia matrix. We then introduce a differentiable contact model based on the density field for computing normal and friction forces resulting from collisions. This allows a robot to autonomously build object models that are visually and dynamically accurate from still images and videos of objects in motion. The resulting Dynamics-Augmented Neural Objects (DANOs) are simulated with an existing differentiable simulation engine, Dojo, interacting with other standard simulation objects, such as spheres, planes, and robots specified as URDFs. A robot can use this simulation to optimize grasps and manipulation trajectories of neural objects, or to improve the neural object models through gradient-based real-to-simulation transfer. We demonstrate the pipeline to learn the coefficient of friction of a bar of soap from a real video of the soap sliding on a table. We also learn the coefficient of friction and mass of a Stanford bunny through interactions with a Panda robot arm from synthetic data, and we optimize trajectories in simulation for the Panda arm to push the bunny to a goal location.
翻訳日:2022-10-21 10:53:50 公開日:2022-10-20