このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221004となっている論文です。

PDF登録状況(公開日: 20221004)

TitleAuthorsAbstract論文公表日・翻訳日
# 二面体隠れ部分群問題

The dihedral hidden subgroup problem ( http://arxiv.org/abs/2106.09907v2 )

ライセンス: Link先を確認
Imin Chen and David Sun(参考訳) 有限群に対する標準隠れ部分群量子アルゴリズムの観点から、二面体群に対する隠れ部分群問題の表現を与える。 特に、強いフーリエサンプリングが成功する障害を思い出すが、同時に、標準アルゴリズムが多項式量子クエリの複雑性を確立するためにどのように修正されるかを示す。 最後に,双面体コセット問題と量子状態のクローニングとの関係について述べる。

We give an exposition of the hidden subgroup problem for dihedral groups from the point of view of the standard hidden subgroup quantum algorithm for finite groups. In particular, we recall the obstructions for strong Fourier sampling to succeed, but at the same time, show how the standard algorithm can be modified to establish polynomial quantum query complexity. Finally, we explain a new connection between the dihedral coset problem and cloning of quantum states.
翻訳日:2023-03-26 08:32:35 公開日:2022-10-04
# u(1)対称モニター量子回路における絡み合いと電荷強調遷移

Entanglement and charge-sharpening transitions in U(1) symmetric monitored quantum circuits ( http://arxiv.org/abs/2107.10279v2 )

ライセンス: Link先を確認
Utkarsh Agrawal, Aidan Zabalo, Kun Chen, Justin H. Wilson, Andrew C. Potter, J. H. Pixley, Sarang Gopalakrishnan, and Romain Vasseur(参考訳) モニターされた量子回路は、一様運動学と無絡射影測度との競合から生じる測定速度の関数として絡み合う遷移を示すことができる。 拘束されたハードコアランダムウォーカの統計力学モデルへの正確な数値とマッピングを組み合わせることで,非ユニタリ量子回路における絡み合いのダイナミクスを電荷保存の存在下で強化する方法について検討した。 エンタングルメントの体積則スケーリングにより異なるスクランブル位相を分離する電荷拡大遷移を,測定値がシステムの総電荷を効率的に明らかにできるかどうかで明らかにする。 r\'enyiエントロピーは測定がなければ$\sqrt{t}$となるが、無限小の値でも平均的なr\'enyiエントロピーはすべて、時間$\sim t$で弾道的に成長する。 u(1)回路における電荷増感と絡み合い遷移の臨界挙動を数値的に検討し,創発的ローレンツ不変性を示し,スケーラブルな局所ancillaプローブを用いて診断できることを示した。 統計的機械写像法は任意のアーベル群に容易に一般化でき、散逸安定対称性の破れと位相的順序を研究するための一般的な枠組みを提供する。

Monitored quantum circuits can exhibit an entanglement transition as a function of the rate of measurements, stemming from the competition between scrambling unitary dynamics and disentangling projective measurements. We study how entanglement dynamics in non-unitary quantum circuits can be enriched in the presence of charge conservation, using a combination of exact numerics and a mapping onto a statistical mechanics model of constrained hard-core random walkers. We uncover a charge-sharpening transition that separates different scrambling phases with volume-law scaling of entanglement, distinguished by whether measurements can efficiently reveal the total charge of the system. We find that while R\'enyi entropies grow sub-ballistically as $\sqrt{t}$ in the absence of measurement, for even an infinitesimal rate of measurements, all average R\'enyi entropies grow ballistically with time $\sim t$. We study numerically the critical behavior of the charge-sharpening and entanglement transitions in U(1) circuits, and show that they exhibit emergent Lorentz invariance and can also be diagnosed using scalable local ancilla probes. Our statistical mechanical mapping technique readily generalizes to arbitrary Abelian groups, and offers a general framework for studying dissipatively-stabilized symmetry-breaking and topological orders.
翻訳日:2023-03-21 07:30:27 公開日:2022-10-04
# 確率的リセットを受ける開量子系の量子ジャンプ軌道の熱力学

Thermodynamics of quantum-jump trajectories of open quantum systems subject to stochastic resetting ( http://arxiv.org/abs/2112.05078v3 )

ライセンス: Link先を確認
Gabriele Perfetto, Federico Carollo and Igor Lesanovsky(参考訳) マルコフ開量子系は確率的再設定の対象であり、散逸時間発展はランダムに分布した時間に初期状態にリセットされる。 続く力学は非マルコフ的であり、一般化リンドブラッド方程式の形式を持つことを示す。 興味深いことに、量子ジャンプの統計は正確に導出できる。 これは量子ジャンプ軌道の熱力学からリセットダイナミクスの更新構造への技術を組み合わせたものである。 我々は,本分析の応用として,駆動型2レベルと断続型3レベルシステムを考える。 この結果から,確率的リセットは量子ジャンプ軌道の統計と開量子系の動的位相を調整するためのツールとして利用される可能性が示唆された。

We consider Markovian open quantum systems subject to stochastic resetting, which means that the dissipative time evolution is reset at randomly distributed times to the initial state. We show that the ensuing dynamics is non-Markovian and has the form of a generalized Lindblad equation. Interestingly, the statistics of quantum-jumps can be exactly derived. This is achieved by combining techniques from the thermodynamics of quantum-jump trajectories with the renewal structure of the resetting dynamics. We consider as an application of our analysis a driven two-level and an intermittent three-level system. Our findings show that stochastic resetting may be exploited as a tool to tailor the statistics of the quantum-jump trajectories and the dynamical phases of open quantum systems.
翻訳日:2023-03-05 00:59:18 公開日:2022-10-04
# 広帯域量子メモリ用超輝度光子ストレージ

Superradiance-Mediated Photon Storage for Broadband Quantum Memory ( http://arxiv.org/abs/2112.09261v3 )

ライセンス: Link先を確認
Anindya Rastogi, Erhan Saglamyurek, Taras Hrushevskyi, Lindsay J. LeBlanc(参考訳) 超放射能は、励起されたエミッタのアンサンブルからの光の集合的コヒーレント発光によって特徴づけられ、個々の原子の自然寿命よりも早く時間スケールで光信号を生成する。 超ラジアント系における原子放出体と光電場とのコヒーレンスな交換は、高速でブロードバンドな量子メモリを実現する。 この超ラジアンメモリ機構をコールドルビジウム原子のアンサンブルで実証し、このプロトコルが原子の自然寿命よりも短い時間スケールのパルスに適していることを検証した。 シミュレーションの結果,スーパーラジアンスメモリプロトコルは,同一システム内のプロトコル間において,最大帯域幅のストレージを発生させることがわかった。 これらの高帯域量子メモリは、光およびマイクロ波フォトニック信号の高速処理にユニークな機会を与え、大規模量子通信や量子コンピューティング技術に応用する。

Superradiance, characterized by the collective, coherent emission of light from an excited ensemble of emitters, generates photonic signals on timescales faster than the natural lifetime of an individual atom. The rapid exchange of coherence between atomic emitters and photonic fields in the superradiant regime enables a fast, broadband quantum memory. We demonstrate this superradiance memory mechanism in an ensemble of cold rubidium atoms and verify that this protocol is suitable for pulses on timescales shorter than the atoms' natural lifetime. Our simulations show that the superradiance memory protocol yields the highest bandwidth storage among protocols in the same system. These high-bandwidth quantum memories provide unique opportunities for fast processing of optical and microwave photonic signals, with applications in large-scale quantum communication and quantum computing technologies.
翻訳日:2023-03-04 07:26:28 公開日:2022-10-04
# 状態空間における有限温度量子凝縮

Finite temperature quantum condensations in the space of states ( http://arxiv.org/abs/2203.05803v2 )

ライセンス: Link先を確認
Massimo Ostilli and Carlo Presilla(参考訳) 孤立量子系が状態空間の分割を2つの部分空間に分割すると、$\mathcal{H}_\mathrm{cond}$と$\mathcal{H}_\mathrm{norm}$は、熱力学極限において、$\dim \mathcal{H}_\mathrm{cond}/ \dim \mathcal{H} \to 0$と、これらの部分空間に制限された系の基底状態エネルギーがハミルトンパラメータの値によって相互に交差するので、システムはそのパラメータによって駆動される第1次量子遷移を行う。 量子状態の空間における凝縮を表すこの一般的な相転移の証明は、最近ゼロ温度で提供された。 上記の凝縮量子相転移を、対応する自由エネルギーに基底状態エネルギーを置換することにより有限温度に拡張することは合理的である。 ここでは、この基準を2つの異なるシステムで示します。 解析的には、Groverモデルの位相図と、一次元の非均質格子における自由フェルミオン系の位相図を導出し、縮合を空間凝縮として実現する。 これらの位相図は、現在の相転移の普遍的な特徴と一致して、構造的に類似している。 最後に, ヘテロ構造超格子によるフェルミオン系の実験的実現を提案する。

If an isolated quantum system admits a partition of its space of states $\mathcal{H}$ into two subspaces, $\mathcal{H}_\mathrm{cond}$ and $\mathcal{H}_\mathrm{norm}$, such that, in the thermodynamic limit, $\dim \mathcal{H}_\mathrm{cond}/ \dim \mathcal{H} \to 0$ and the ground state energies of the system restricted to these subspaces cross each other for some value of the Hamiltonian parameters, then, the system undergoes a first-order quantum phase transition driven by that parameter. A proof of this general class of phase transitions, which represent a condensation in the space of quantum states, was recently provided at zero temperature. It is reasonable to extend the above condensation quantum phase transitions to finite temperature by substituting the ground state energies with the corresponding free energies. Here, we illustrate this criterion in two different systems. We derive, analytically, the phase diagram of the paradigmatic Grover model and, numerically, that of a system of free fermions in a one-dimensional inhomogeneous lattice, where the condensation realizes as a spatial condensation. These phase diagrams are structurally similar, in agreement with the universal features of the present class of phase transitions. Finally, we suggest an experimental realization of the fermionic system in terms of heterostructure superlattices.
翻訳日:2023-02-22 09:40:04 公開日:2022-10-04
# 多量子ビット制御ゲートの線形深さ量子回路

Linear-depth quantum circuits for multiqubit controlled gates ( http://arxiv.org/abs/2203.11882v2 )

ライセンス: Link先を確認
Adenilton J. da Silva and Daniel K. Park(参考訳) 量子回路深度最小化は、回路ベースの量子計算の実用化に不可欠である。 本研究では,多くの量子アルゴリズムにおいて必須であるマルチキュービット制御ユニタリゲートを,量子回路の深さが制御キュービットの数に比例して線形に増加する制御NOTおよび単一キュービットゲートに分解する方式を提案する。 本アルゴリズムは, 量子ビットを必要とせず, 既知の手法に対する回路深度の2次還元を実現する。 我々は,IBM量子クラウドプラットフォーム上での実証実験によるアルゴリズムの利点を示す。

Quantum circuit depth minimization is critical for practical applications of circuit-based quantum computation. In this work, we present a systematic procedure to decompose multiqubit controlled unitary gates, which is essential in many quantum algorithms, to controlled-NOT and single-qubit gates with which the quantum circuit depth only increases linearly with the number of control qubits. Our algorithm does not require any ancillary qubits and achieves a quadratic reduction of the circuit depth against known methods. We show the advantage of our algorithm with proof-of-principle experiments on the IBM quantum cloud platform.
翻訳日:2023-02-21 02:48:52 公開日:2022-10-04
# コーディネート・サイエンス・ラボラトリー70周年記念シンポジウム:コンピューティングの未来

Coordinated Science Laboratory 70th Anniversary Symposium: The Future of Computing ( http://arxiv.org/abs/2210.08974v1 )

ライセンス: Link先を確認
Klara Nahrstedt, Naresh Shanbhag, Vikram Adve, Nancy Amato, Romit Roy Choudhury, Carl Gunter, Nam Sung Kim, Olgica Milenkovic, Sayan Mitra, Lav Varshney, Yurii Vlasov, Sarita Adve, Rashid Bashir, Andreas Cangellaris, James DiCarlo, Katie Driggs-Campbell, Nick Feamster, Mattia Gazzola, Karrie Karahalios, Sanmi Koyejo, Paul Kwiat, Bo Li, Negar Mehr, Ravish Mehra, Andrew Miller, Daniela Rus, Alex Schwing, and Anshumali Shrivastava(参考訳) 2021年、イリノイ大学アーバナ・シャンペーン校の学際研究ユニットであるCoordinated Science Laboratory CSLが、70周年を記念してFuture of Computing Symposiumを開催した。 CSLの研究は、完全なコンピューティングスタック、社会に対するコンピューティングの影響、社会的責任の必要性をカバーしている。 本稿では,「未来コンピューティングシンポジウム」で講演者が提示した主要な技術的ポイント,洞察,方向性について要約する。 参加者は、新しいコンピューティングパラダイム、技術、アルゴリズム、行動、そして将来予想される研究課題に関するトピックについて議論した。 このシンポジウムは、従来のコンピューティングを超える新しいコンピューティングパラダイムと、その実現を支援するために必要な研究に焦点を当てた。 これらのニーズには、セキュリティとプライバシの強化、人間のサイバー物理システムの終了、そしてそれらとともに、エンドツーエンドの人工知能のニーズの分析が含まれる。 さらに、ユーザのための没入環境を可能にする進歩により、人間と機械の境界がぼやけ、シームレスになる。 自動運転、ロボタクシー、歩行者、将来の都市の統合に関する最終議論において、特に統合の課題が明らかにされた。 これらの課題に取り組むための次世代の研究者を動機付けるために、革新的なアプローチが概説された。 この議論は、個々の研究分野だけでなく、コンピューティング研究と医療、輸送、エネルギーシステム、製造業といった関連する応用分野の交差点におけるイノベーションも考慮することの重要性を浮き彫りにした。

In 2021, the Coordinated Science Laboratory CSL, an Interdisciplinary Research Unit at the University of Illinois Urbana-Champaign, hosted the Future of Computing Symposium to celebrate its 70th anniversary. CSL's research covers the full computing stack, computing's impact on society and the resulting need for social responsibility. In this white paper, we summarize the major technological points, insights, and directions that speakers brought forward during the Future of Computing Symposium. Participants discussed topics related to new computing paradigms, technologies, algorithms, behaviors, and research challenges to be expected in the future. The symposium focused on new computing paradigms that are going beyond traditional computing and the research needed to support their realization. These needs included stressing security and privacy, the end to end human cyber physical systems and with them the analysis of the end to end artificial intelligence needs. Furthermore, advances that enable immersive environments for users, the boundaries between humans and machines will blur and become seamless. Particular integration challenges were made clear in the final discussion on the integration of autonomous driving, robo taxis, pedestrians, and future cities. Innovative approaches were outlined to motivate the next generation of researchers to work on these challenges. The discussion brought out the importance of considering not just individual research areas, but innovations at the intersections between computing research efforts and relevant application domains, such as health care, transportation, energy systems, and manufacturing.
翻訳日:2023-02-19 11:46:27 公開日:2022-10-04
# より健康的なフィードの構築:プライベートな位置追跡交差点駆動フィードレコメンデーション

Building a healthier feed: Private location trace intersection driven feed recommendations ( http://arxiv.org/abs/2210.01927v1 )

ライセンス: Link先を確認
Tobin South, Nick Lothian, Alex "Sandy" Pentland(参考訳) ナビゲートする物理的な環境は、どのコミュニティや人々が最も重要かを強く決定します。 これらの効果は、地域社会の機会と社会資本への個人的アクセスを誘導し、個人のモビリティトレースでしばしば観察される。 従来のソーシャルメディアフィードは、これらのモビリティベースの機能を利用していない。 本稿では、ユーザの個人個人データからソーシャルフィードを駆動するための同意第一のプライベート情報共有パラダイムを提案する。 このアプローチは、既存のまたは潜在的な現実世界のソーシャルコネクションのプロキシとしてモビリティトレースのオーバーラップを活用し、ユーザーがフィードで見ているものと、ユーザーが直接見る可能性が高いものとの比例関係を生み出すことにより、ユーザーをローカルコミュニティとソーシャルキャピタルビルディングに統合するためのフィードを明示的に設計する。 これらの主張は既存の社会運動データに対して検証され、提案アルゴリズムの参照実装が実証のために構築されている。 本研究は, 第三者や公開データの露出を必要とせず, プライベートセットの交差点を介し, オフラインのソーシャル接続を表現できるフィードを設計するための新しい手法を提案する。

The physical environment you navigate strongly determines which communities and people matter most to individuals. These effects drive both personal access to opportunities and the social capital of communities, and can often be observed in the personal mobility traces of individuals. Traditional social media feeds underutilize these mobility-based features, or do so in a privacy exploitative manner. Here we propose a consent-first private information sharing paradigm for driving social feeds from users' personal private data, specifically using mobility traces. This approach designs the feed to explicitly optimize for integrating the user into the local community and for social capital building through leveraging mobility trace overlaps as a proxy for existing or potential real-world social connections, creating proportionality between whom a user sees in their feed, and whom the user is likely to see in person. These claims are validated against existing social-mobility data, and a reference implementation of the proposed algorithm is built for demonstration. In total, this work presents a novel technique for designing feeds that represent real offline social connections through private set intersections requiring no third party, or public data exposure.
翻訳日:2023-02-19 11:30:03 公開日:2022-10-04
# アクセシビリティによるデータエクイティの増大

Increasing Data Equity Through Accessibility ( http://arxiv.org/abs/2210.01902v1 )

ライセンス: Link先を確認
Frank Elavsky, Jennifer Mankoff, Arvind Satyanarayan(参考訳) このポジションステートメントは、科学技術政策局の「適切なデータエンゲージメントと説明責任」に関する情報要求に対する対応である。 この回答は、特に障害者のためのデータエクイティを考慮に入れている。 RFIは「連邦機関が、他のレベルの政府、市民社会、および公正なデータの作成と利用に関する研究コミュニティとの協力をより良く支援できるか」を問う。 データエクイティという文脈において、批判的に控えめなコミュニティは障害を持つ人々だと主張する。 今日のツールは、障害者が(1)データやデータの視覚化と対話し、(2)データを扱い、視覚化する仕事を取るのを非常に困難にします。 しかし、このようなデータへのアクセスは、政府や市民社会との関わりにおいてますます重要で不可欠なものになっている。 データプラクティスに関する標準と期待を、障害者を含むように変更し、その目標を達成するために必要な研究をサポートする必要があります。

This position statement is a response to the Office of Science and Technology Policy's Request for Information on "Equitable Data Engagement and Accountability." This response considers data equity specifically for people with disabilities. The RFI asks "how Federal agencies can better support collaboration with other levels of government, civil society, and the research community around the production and use of equitable data." We argue that one critically underserved community in the context of data equity is people with disabilities. Today's tools make it extremely difficult for disabled people to (1) interact with data and data visualizations and (2) take jobs that involve working with and visualizing data. Yet access to such data is increasingly critical, and integral, to engaging with government and civil society. We must change the standards and expectations around data practices to include disabled people and support the research necessary to achieve those goals.
翻訳日:2023-02-19 11:29:41 公開日:2022-10-04
# グラフ分割をサンプリングするためのスパンディングツリー法

Spanning tree methods for sampling graph partitions ( http://arxiv.org/abs/2210.01401v1 )

ライセンス: Link先を確認
Sarah Cannon, Moon Duchin, Dana Randall, and Parker Rule(参考訳) 過去10年間、グラフ分割に対する計算的アプローチは、米国法裁判所を含む政治再編成の分析に大きな影響を与えてきた。 数学的には、分割計画(英語版)はグラフの連結部分集合への平衡分割と見なすことができる。 有効な代替地区計画の大規模なサンプルを調べることは、適切な中立ベースラインに対するジェリーマンダーの認識に役立ちます。 リコンビネーション (recombination, ReCom) と呼ばれるマルコフ連鎖は、隣接する地区を何度も融合させ、それらのユニオンのスパンニングツリーを形成し、バランスの取れたカットで木を分割して新しい地区を形成する。 1つの欠点は、このチェーンの定常分布が3つ以上の地区がある場合、閉形式が知られていないことである。 本稿では、ReComを少し修正して可逆性(reversibility)と呼ばれる特性を与え、その結果、新しいマルコフチェーンRevReComが誕生する。 この新しい連鎖は、もともとReComが近似するために設計された単純で自然な分布に収束する: 計画の定常確率は、各地区の散在木数の積に比例する。 このスパンニングツリースコアは、ネットワーク科学からのコミュニティ構造の概念とも一致している地区の「コンパクト性」(または形)の尺度である。 定常状態の導出後, 本手法が実用に有用であることを示す診断的証拠を提示し, フルサイズの問題に対する高品質な試料を数時間以内に提供した。 再制限計画のベンチマーク(統計の通常の範囲を記述する)の第一の応用に加えて、この連鎖は、散在する木の分布を狙う他の方法を検証するためにも用いられる。

In the last decade, computational approaches to graph partitioning have made a major impact in the analysis of political redistricting, including in U.S. courts of law. Mathematically, a districting plan can be viewed as a balanced partition of a graph into connected subsets. Examining a large sample of valid alternative districting plans can help us recognize gerrymandering against an appropriate neutral baseline. One algorithm that is widely used to produce random samples of districting plans is a Markov chain called recombination (or ReCom), which repeatedly fuses adjacent districts, forms a spanning tree of their union, and splits that spanning tree with a balanced cut to form new districts. One drawback is that this chain's stationary distribution has no known closed form when there are three or more districts. In this paper, we modify ReCom slightly to give it a property called reversibility, resulting in a new Markov chain, RevReCom. This new chain converges to the simple, natural distribution that ReCom was originally designed to approximate: a plan's stationary probability is proportional to the product of the number of spanning trees of each district. This spanning tree score is a measure of district "compactness" (or shape) that is also aligned with notions of community structure from network science. After deriving the steady state formally, we present diagnostic evidence that the convergence is efficient enough for the method to be practically useful, giving high-quality samples for full-sized problems within several hours. In addition to the primary application of benchmarking of redistricting plans (i.e., describing a normal range for statistics), this chain can also be used to validate other methods that target the spanning tree distribution.
翻訳日:2023-02-19 11:28:25 公開日:2022-10-04
# 口紅読解のためのmoocに向けて--合成音声頭を用いた口唇読解における人間訓練

Towards MOOCs for Lipreading: Using Synthetic Talking Heads to Train Humans in Lipreading at Scale ( http://arxiv.org/abs/2208.09796v2 )

ライセンス: Link先を確認
Aditya Agarwal, Bipasha Sen, Rudrabha Mukhopadhyay, Vinay Namboodiri, C.V Jawahar(参考訳) ある種の聴覚障害を持つ多くの人々は、リップリーディングを日々のコミュニケーションの第一のモードとみなしている。 しかし、リップリードスキルを習得または改善するためのリソースを見つけることは困難である。 新型コロナウイルスのパンデミックでは、ピアやスピーチセラピストとの直接の交流が制限され、さらに悪化している。 今日、courseraやudemyといったオンラインmoocsプラットフォームは、様々なタイプのスキル開発において、最も効果的なトレーニング形式となっている。 しかし、このようなリソースを作成するには、何ヶ月もの手作業が必要であり、オンラインのリップリーダーリソースは乏しい。 手動パイプラインのため、このようなプラットフォームは語彙、サポート言語、アクセント、スピーカーにも制限があり、高い使用コストがかかる。 本研究では,人間の会話映像を合成生成ビデオに置き換える可能性について検討する。 合成データは、より大きな語彙、アクセントのバリエーション、さらには地元の言語や多くの話者を組み込むことができる。 本稿では,最先端の対話型ヘッドビデオ生成ネットワーク,テキスト音声モデル,コンピュータビジョン技術を用いたエンドツーエンド自動パイプラインを提案する。 次に、慎重に検討したリップリーディング演習を用いて、既存のリップリーディングプラットフォームに対する設計プラットフォームの品質評価を行う。 本研究は,聴力障害のある何百万人もの人に影響を及ぼす大規模口唇読取型MOOCプラットフォームの開発において,我々のアプローチの可能性を具体的に示すものである。

Many people with some form of hearing loss consider lipreading as their primary mode of day-to-day communication. However, finding resources to learn or improve one's lipreading skills can be challenging. This is further exacerbated in the COVID19 pandemic due to restrictions on direct interactions with peers and speech therapists. Today, online MOOCs platforms like Coursera and Udemy have become the most effective form of training for many types of skill development. However, online lipreading resources are scarce as creating such resources is an extensive process needing months of manual effort to record hired actors. Because of the manual pipeline, such platforms are also limited in vocabulary, supported languages, accents, and speakers and have a high usage cost. In this work, we investigate the possibility of replacing real human talking videos with synthetically generated videos. Synthetic data can easily incorporate larger vocabularies, variations in accent, and even local languages and many speakers. We propose an end-to-end automated pipeline to develop such a platform using state-of-the-art talking head video generator networks, text-to-speech models, and computer vision techniques. We then perform an extensive human evaluation using carefully thought out lipreading exercises to validate the quality of our designed platform against the existing lipreading platforms. Our studies concretely point toward the potential of our approach in developing a large-scale lipreading MOOC platform that can impact millions of people with hearing loss.
翻訳日:2023-02-19 10:38:00 公開日:2022-10-04
# NISQ用高忠実かつ大規模再構成可能なフォトニックプロセッサ

A high-fidelity and large-scale reconfigurable photonic processor for NISQ applications ( http://arxiv.org/abs/2205.01704v3 )

ライセンス: Link先を確認
A. Cavaill\`es, P. Boucher, L. Daudet, I. Carron, S. Gigan, and K. M\"uller(参考訳) 再構成可能な線形光ネットワークは、NISQ以降の光量子情報処理プラットフォームの開発において重要な要素である。 本稿では,マルチモードファイバのモード混合とslmのプログラム可能なウェーブフロント形状を併用した,革新的な設計に基づくデバイスの実装について報告する。 プラットフォームの能力は古典的な体制で検討されている。 最大8回の入力と38回の出力で、93%以上の忠実さと6.5dB未満の損失を達成する。 このデバイスは標準的なサーバーラック内に構築され、現実世界での使用を可能にし、再校正なしで10日間の2x8回路の一貫性のある性能を示す。

Reconfigurable linear optical networks are a key component for the development of optical quantum information processing platforms in the NISQ era and beyond. We report the implementation of such a device based on an innovative design that uses the mode mixing of a multimode fiber in combination with the programmable wavefront shaping of a SLM. The capabilities of the platform are explored in the classical regime. For up to 8 inputs and a record number of 38 outputs, we achieve fidelities in excess of 93%, and losses below 6.5dB. The device was built inside a standard server rack to allow for real world use and shows consistent performance for 2x8 circuits over a period of 10 days without re-calibration.
翻訳日:2023-02-14 11:41:02 公開日:2022-10-04
# 状態分解非線形分光法による衝突誘起c_60振動緩和

Collision-induced C_60 rovibrational relaxation probed by state-resolved nonlinear spectroscopy ( http://arxiv.org/abs/2206.02381v2 )

ライセンス: Link先を確認
Lee R. Liu, P. Bryan Changala, Marissa L. Weichman, Qizhong Liang, Jutta Toscano, Jacek Klos, Svetlana Kotochigova, David J. Nesbitt, Jun Ye(参考訳) バッファガス衝突により冷却され、中赤外周波数コムでプローブされたC60分子に対して、量子状態分解分光が最近達成された。 記録上の最大の分子に対するこの可視的量子状態分解は、C60の顕著な対称性と剛性によって促進され、この多原子系における量子状態間のエネルギー移動を探求する新たな機会と課題が提示される。 ここでは, 状態特異的光ポンピング, バッファガス衝突, および超感度共振器内非線形分光を組み合わせ, 回転振動エネルギー移動と緩和の開始と探究を行う。 このアプローチは、様々な衝突相手に対してC60衝突エネルギー伝達の詳細な特性を初めて提供し、回転および振動非弾性衝突断面積を決定する。 これらの結果は、衝突の理論的モデリングとよく比較され、前例のない大きな分子の量子状態制御への道が確立された。

Quantum state-resolved spectroscopy was recently achieved for C60 molecules when cooled by buffer gas collisions and probed with a midinfrared frequency comb. This rovibrational quantum state resolution for the largest molecule on record is facilitated by the remarkable symmetry and rigidity of C60, which also present new opportunities and challenges to explore energy transfer between quantum states in this many-atom system. Here we combine state-specific optical pumping, buffer gas collisions, and ultrasensitive intracavity nonlinear spectroscopy to initiate and probe the rotation-vibration energy transfer and relaxation. This approach provides the first detailed characterization of C60 collisional energy transfer for a variety of collision partners, and determines the rotational and vibrational inelastic collision cross sections. These results compare well with our theoretical modeling of the collisions, and establish a route towards quantum state control of a new class of unprecedentedly large molecules.
翻訳日:2023-02-10 09:49:28 公開日:2022-10-04
# 説明可能なAIメソッドは必要か? ポストホックxai評価法をインタラクティブ・多次元ベンチマークに統一する

Do We Need Another Explainable AI Method? Toward Unifying Post-hoc XAI Evaluation Methods into an Interactive and Multi-dimensional Benchmark ( http://arxiv.org/abs/2207.14160v2 )

ライセンス: Link先を確認
Mohamed Karim Belaid, Eyke H\"ullermeier, Maximilian Rabus, Ralf Krestel(参考訳) 近年、説明可能なAI(xAI)は、さまざまな国で説明が法的権利に変わったため、多くの注目を集めている。 xAIは、学習したパターンをデバッグし、AIの振る舞いを模倣することで、精度メトリックを超えてモデルを改善することができる。 xAIの普及は新たな課題をもたらした。 一方で、xaiアルゴリズムの公開数が急増し、実践者が適切なツールを選択することが困難になった。 一方、いくつかの実験では、データサイエンティストがxAIアルゴリズムを誤用し、結果を誤解釈することの容易さを強調した。 特徴量xaiアルゴリズムを正しく比較・活用する問題に取り組むため,我々は,xaiアルゴリズムに適用されるすべての排他的機能テスト手法を統合するベンチマークであるcompe-xaiを提案する。 論文から非冗長な機能テスト,すなわちモデルの説明において,特定のエンドユーザ要求を対象とする選択プロトコルを提案する。 このベンチマークは、xAIメソッドを評価する複雑さを3つの階層的なスコア(すなわち、xAIの研究者、実践者、およびレイメンの3つのエンドユーザグループ)にカプセル化する。 最も詳細なレベルは、テスト毎に1つのスコアを提供する。 第2段階はテストを5つのカテゴリ(忠実さ、脆弱さ、安定性、単純さ、ストレステスト)に分類する。 最後のレベルは集約された理解度スコアであり、これはアルゴリズムの出力を1つの簡単に比較できる値で正しく解釈することの容易さをカプセル化する。 Compare-xAIのインタラクティブなユーザインターフェースは、各MLタスクとその現在の制限に対する推奨のxAIソリューションを素早くリストすることによって、xAI結果の解釈におけるエラーを軽減する。 ベンチマークはhttps://karim-53.github.io/cxai/で利用可能である。

In recent years, Explainable AI (xAI) attracted a lot of attention as various countries turned explanations into a legal right. xAI allows for improving models beyond the accuracy metric by, e.g., debugging the learned pattern and demystifying the AI's behavior. The widespread use of xAI brought new challenges. On the one hand, the number of published xAI algorithms underwent a boom, and it became difficult for practitioners to select the right tool. On the other hand, some experiments did highlight how easy data scientists could misuse xAI algorithms and misinterpret their results. To tackle the issue of comparing and correctly using feature importance xAI algorithms, we propose Compare-xAI, a benchmark that unifies all exclusive functional testing methods applied to xAI algorithms. We propose a selection protocol to shortlist non-redundant functional tests from the literature, i.e., each targeting a specific end-user requirement in explaining a model. The benchmark encapsulates the complexity of evaluating xAI methods into a hierarchical scoring of three levels, namely, targeting three end-user groups: researchers, practitioners, and laymen in xAI. The most detailed level provides one score per test. The second level regroups tests into five categories (fidelity, fragility, stability, simplicity, and stress tests). The last level is the aggregated comprehensibility score, which encapsulates the ease of correctly interpreting the algorithm's output in one easy to compare value. Compare-xAI's interactive user interface helps mitigate errors in interpreting xAI results by quickly listing the recommended xAI solutions for each ML task and their current limitations. The benchmark is made available at https://karim-53.github.io/cxai/
翻訳日:2023-02-10 04:02:04 公開日:2022-10-04
# Maxwellの2段式エンジンは純粋にデファッショナリングノイズ下での動作

Maxwell's two-demon engine under pure dephasing noise ( http://arxiv.org/abs/2206.05921v2 )

ライセンス: Link先を確認
Feng-Jui Chan, Yi-Te Huang, Jhen-Dong Lin, Huan-Yu Ku, Jui-Sheng Chen, Hong-Bin Chen and Yueh-Nan Chen(参考訳) 熱機械と量子相関の相互作用は、量子熱力学と量子情報科学の両方に大きな関心を持っている。 近年,量子szil\'ardエンジンが提案され,マクスウェルのデーモンと作業媒体間の量子ステアビリティが作業抽出タスクに有益であることが示されている。 それでも、この種の量子燃料機械は、デコヒーレンス効果がある場合、通常は脆弱である。 我々は,エンジンの量子性が低下することを示す純粋デファージングプロセスの例を示す。 そこで本研究では,制御系にアクセス可能な2番目のデーモンを導入し,量子重ね合わせ方式で2つのデファスチャネルをワーク媒体に通過させることにより,この問題に取り組む。 さらに、提案した概念をシミュレートし、IBMQおよびIonQ量子コンピュータ上でテストするための量子回路を提供する。

The interplay between thermal machines and quantum correlations is of great interest in both quantum thermodynamics and quantum information science. Recently, a quantum Szil\'ard engine has been proposed, showing that the quantum steerability between a Maxwell's demon and a work medium can be beneficial to a work extraction task. Nevertheless, this type of quantum-fueled machine is usually fragile in the presence of decoherence effects. We provide an example of the pure dephasing process, showing that the engine's quantumness can be degraded. Therefore, in this work, we tackle this question by introducing a second demon who can access a control system and make the work medium pass through two dephasing channels in a manner of quantum superposition. Furthermore, we provide a quantum circuit to simulate our proposed concept and test it on IBMQ and IonQ quantum computers.
翻訳日:2023-02-09 12:54:46 公開日:2022-10-04
# 非等距離符号のブラックホール内部と複雑性

The black hole interior from non-isometric codes and complexity ( http://arxiv.org/abs/2207.06536v2 )

ライセンス: Link先を確認
Chris Akers, Netta Engelhardt, Daniel Harlow, Geoff Penington, Shreya Vardhan(参考訳) 量子誤差補正により、時空の出現の自然な言語が得られたが、ブラックホールの内部は、この枠組みに挑戦している。最近になって、有効場理論における内的自由度が真の自由度を超えることが明らかになったため、前者から後者への等尺的(すなわち内的積保存)な符号化は存在しない。 本稿では、「計算複雑性によって保護される非等方性符号」という概念を用いて、ブラックホール内部の出現を説明するために量子誤差補正をどのように利用できるかを説明する。 多くの「無効状態」の存在、指数的複雑性の操作のための実効場理論の分解、ページ曲線の量子極値表面計算、選択後の「状態依存/状態特異的」作用素再構成、および「単純なエントロピー」による複雑性粗粒化のアプローチが、全てこの枠組みに自然に適合することを示すとともに、これら全ての現象を可溶性モデルで同時に示す。

Quantum error correction has given us a natural language for the emergence of spacetime, but the black hole interior poses a challenge for this framework: at late times the apparent number of interior degrees of freedom in effective field theory can vastly exceed the true number of fundamental degrees of freedom, so there can be no isometric (i.e. inner-product preserving) encoding of the former into the latter. In this paper we explain how quantum error correction nonetheless can be used to explain the emergence of the black hole interior, via the idea of "non-isometric codes protected by computational complexity". We show that many previous ideas, such as the existence of a large number of "null states", a breakdown of effective field theory for operations of exponential complexity, the quantum extremal surface calculation of the Page curve, post-selection, "state-dependent/state-specific" operator reconstruction, and the "simple entropy" approach to complexity coarse-graining, all fit naturally into this framework, and we illustrate all of these phenomena simultaneously in a soluble model.
翻訳日:2023-02-05 06:40:43 公開日:2022-10-04
# 二重超伝導キャビティにおける光子発生と絡み合い

Photon generation and entanglement in a double superconducting cavity ( http://arxiv.org/abs/2207.08747v2 )

ライセンス: Link先を確認
Cruz I. Velasco, Nicol\'as F. Del Grosso, Fernando C. Lombardo, Alejandro Soba, and Paula I. Villar(参考訳) 回路量子電気力学アーキテクチャにおける二重超伝導キャビティにおけるカシミールの動的効果について検討した。 量子回路のパラメータは、超伝導キャビティが2つの完全導電性外壁と誘電体壁からなる二重キャビティを模倣し、任意の誘電率を両ハーフを分離する方法で選択される。 キャビティのスペクトル分析を行い、誘電体ミラーの感受性値と両キャビティの相対的長さによってスペクトルが著しく変化することを示した。 壁が小さな振幅で調和的に振動する時、光子の生成を研究する。 さらに,2つの未結合キャビティを対称な二重空洞から切り離し,その2つのハーフが後に与えられた瞬間にアンカップリングされる可能性を探る。 どちらのケースも考慮します (i) フィールドが最初に真空状態にあるとき、及び (ii)動力学的カシミール効果による光子生成はすでに行われている。 いずれの場合においてもキャビティが絡み合うことが示されているが、後者では、ほとんどの対のモード間の絡み合いを減少させるコストで、個々のモード間の量子相関を大きく増加させることができる。

We study the dynamical Casimir effect in a double superconducting cavity in a circuit quantum electrodynamics architecture. Parameters in the quantum circuit are chosen in such a way the superconducting cavity can mimic a double cavity, formed by two perfectly conducting outer walls and a dielectric one, with arbitrary permittivity separating both halves. We undertake a spectral analysis of the cavity, showing that the spectrum varies significantly depending on the values of the susceptibility of the dielectric mirror and the relative lengths of both cavities. We study the creation of photons when the walls oscillate harmonically with a small amplitude. Furthermore, we explore the possibility of entangling two uncoupled cavities, starting from a symmetric double cavity and having both of its halves become uncoupled at a later given instant. We consider both cases: (i) when the field is initially in a vacuum state and (ii) the situation in which photon creation via the dynamical Casimir effect has already taken place. We show that the cavities become entangled in both cases but, in the latter, the quantum correlation between individual modes can be greatly increased at the cost of diminishing the entanglement between most pairs of modes.
翻訳日:2023-02-04 15:39:37 公開日:2022-10-04
# 量子とクープマンダイナミクスにおける自由調和ユニタリ変換

Free to Harmonic Unitary Transformations in Quantum and Koopman Dynamics ( http://arxiv.org/abs/2207.09515v2 )

ライセンス: Link先を確認
Gerard McCaul, Denys I. Bondar(参考訳) 長い間、量子自由粒子を量子調和振動子に正確にマッピングする座標変換が存在することが知られている。 ここでは、この結果を単位演算として再構成し、時間座標変換により拡張する。 我々は、koopman von-neumann (kvn) ダイナミクスの文脈において、古典的システムに対して等価な変換ができることを実証する。 このマッピングを量子と古典の両方のケースにおける散逸的進化にさらに拡張し、このマッピングが両方のタイプのダイナミクスの散逸パラメータに同じ時間依存スケーリングを与えることを示した。 導出された古典的手続きは、古典的体制に従属する量子プロシージャ(ハミルトン増幅など)を輸入する多くの機会を与える。

It has long been known that there exists a coordinate transformation which exactly maps the quantum free particle to the quantum harmonic oscillator. Here we extend this result by reformulating it as a unitary operation followed by a time coordinate transformation. We demonstrate that an equivalent transformation can be performed for classical systems in the context of Koopman von-Neumann (KvN) dynamics. We further extend this mapping to dissipative evolutions in both the quantum and classical cases, and show that this mapping imparts an identical time-dependent scaling on the dissipation parameters for both types of dynamics. The derived classical procedure presents a number of opportunities to import squeezing dependent quantum procedures (such as Hamiltonian amplification) into the classical regime.
翻訳日:2023-02-04 12:53:27 公開日:2022-10-04
# フェルミオン非可逆境界によるモジュラー・ウォーカー・ワングモデル

Disentangling modular Walker-Wang models via fermionic invertible boundaries ( http://arxiv.org/abs/2208.03397v2 )

ライセンス: Link先を確認
Andreas Bauer(参考訳) walker-wangモデルは、ブレンド核融合圏から構築された3+1ドルの次元の位相次数の固定点モデルである。 モジュラーな入力圏 $\mathcal m$ に対して、モデルそのものは可逆であり、自明な位相相であると信じられているが、標準境界は2+1ドルのカイラル位相を表す。 この研究では、$\mathcal m$ がドリンフェルド中心である場合、真空に可逆な領域壁を構築して局所ユニタリ回路を構築することで、モデルの自明さを明示的に示します。 さらに,分離領域壁や回路内でフェルミオン(補助的)自由度を許容するならば,Ising UMTC によって生成される Witt クラスのより大規模なモジュラー融合カテゴリに対しては,モデルが自明になることを示す。 付録では、一般ウォーカー・ワングモデルの一般(非可逆)境界についても論じ、テンソルの観点から拡張TQFTの簡単な公理化を記述する。

Walker-Wang models are fixed-point models of topological order in $3+1$ dimensions constructed from a braided fusion category. For a modular input category $\mathcal M$, the model itself is invertible and is believed to be in a trivial topological phase, whereas its standard boundary is supposed to represent a $2+1$-dimensional chiral phase. In this work we explicitly show triviality of the model by constructing an invertible domain wall to vacuum as well as a disentangling local unitary circuit in the case where $\mathcal M$ is a Drinfeld center. Moreover, we show that if we allow for fermionic (auxiliary) degrees of freedom inside the disentangling domain wall or circuit, the model becomes trivial for a larger class of modular fusion categories, namely those in the Witt classes generated by the Ising UMTC. In the appendices, we also discuss general (non-invertible) boundaries of general Walker-Wang models and describe a simple axiomatization of extended TQFT in terms of tensors.
翻訳日:2023-02-02 04:37:28 公開日:2022-10-04
# テンソルネットワークを用いたスケーラブルでフレキシブルな古典影トモグラフィ

Scalable and Flexible Classical Shadow Tomography with Tensor Networks ( http://arxiv.org/abs/2209.02093v2 )

ライセンス: Link先を確認
Ahmed A. Akhtar, Hong-Ye Hu, Yi-Zhuang You(参考訳) 古典的シャドウトモグラフィーは量子状態の多くの特性をほとんど測定せずに予測するための強力なランダム化測定プロトコルである。 2つの古典的なシャドープロトコルは、局所作用素の予測には適しているが大きな作用素には非効率な単一量子ビット(局所)パウリ測定と、広いゲートオーバヘッドのため短期量子デバイスでは実現不可能である低ランク作用素にとって効率的であるグローバルクリフォード測定である。 本研究では, 有限深部局所クリフォードランダムユニタリ回路を用いて, パウリとクリフォード測定の限界を補間する汎用ランダム化計測のためのスケーラブルな古典的シャドウトモグラフィー手法を実証する。 この手法は,最近提案された局所スクランブル型古典影トモグラフィフレームワークとテンソルネットワーク技術を組み合わせて,古典影再構成マップの計算と様々な物理特性の評価を行う。 従来のシャドウトモグラフィーは、サンプリング効率が優れ、ゲートオーバーヘッドが最小であり、ノイズの多い中間スケール量子(NISQ)デバイスに親しみやすい浅い量子回路上で行うことができる。 浅回路計測プロトコルは,準局所作用素予測のためのpauli測定プロトコルよりも,即時かつ指数関数的に有利であることを示す。 また、パウリの測定よりも効率的な忠実度推定を可能にする。

Classical shadow tomography is a powerful randomized measurement protocol for predicting many properties of a quantum state with few measurements. Two classical shadow protocols have been extensively studied in the literature: the single-qubit (local) Pauli measurement, which is well suited for predicting local operators but inefficient for large operators; and the global Clifford measurement, which is efficient for low-rank operators but infeasible on near-term quantum devices due to the extensive gate overhead. In this work, we demonstrate a scalable classical shadow tomography approach for generic randomized measurements implemented with finite-depth local Clifford random unitary circuits, which interpolates between the limits of Pauli and Clifford measurements. The method combines the recently proposed locally-scrambled classical shadow tomography framework with tensor network techniques to achieve scalability for computing the classical shadow reconstruction map and evaluating various physical properties. The method enables classical shadow tomography to be performed on shallow quantum circuits with superior sample efficiency and minimal gate overhead and is friendly to noisy intermediate-scale quantum (NISQ) devices. We show that the shallow-circuit measurement protocol provides immediate, exponential advantages over the Pauli measurement protocol for predicting quasi-local operators. It also enables a more efficient fidelity estimation compared to the Pauli measurement.
翻訳日:2023-01-27 20:48:20 公開日:2022-10-04
# ジョセフソンミキサーを用いた量子貯留層ニューラルネットワークの実装

Quantum reservoir neural network implementation on a Josephson mixer ( http://arxiv.org/abs/2209.03221v2 )

ライセンス: Link先を確認
Julien Dudas, Erwan Plouet, Alice Mizrahi, Julie Grollier, and Danijela Markovi\'c(参考訳) 量子貯水池コンピューティングは、古典的および量子的入力データの両方のハードラーニングタスクを解くことができる量子ニューラルネットワークに対する有望なアプローチである。 しかし、現在のqubitsのアプローチは低接続性によって制限されている。 物理結合量子ビットの代わりにパラメトリック結合量子発振器を用いて、多数の密結合ニューロンを得る量子貯水池の実装を提案する。 超伝導回路に基づく特定のハードウェア実装を解析する。 その結果,システム内の結合と散逸の要件が得られ,量子貯留層の性能にどのように影響するかを示す。 量子貯水池の計算以外にも、パラメトリック結合ボソニックモードの使用は、大規模な量子ニューラルネットワークアーキテクチャの実現を約束する。

Quantum reservoir computing is a promising approach to quantum neural networks capable of solving hard learning tasks on both classical and quantum input data. However, current approaches with qubits are limited by low connectivity. We propose an implementation for quantum reservoir that obtains a large number of densely connected neurons by using parametrically coupled quantum oscillators instead of physically coupled qubits. We analyse a specific hardware implementation based on superconducting circuits. Our results give the coupling and dissipation requirements in the system and show how they affect the performance of the quantum reservoir. Beyond quantum reservoir computation, the use of parametrically coupled bosonic modes holds promise for realizing large quantum neural network architectures.
翻訳日:2023-01-27 15:40:14 公開日:2022-10-04
# 光ポンピングによる強結合三量子導波路系における擬似状態と量子非線形性

Probing dressed states and quantum nonlinearities in a strongly coupled three-qubit waveguide system under optical pumping ( http://arxiv.org/abs/2209.10403v2 )

ライセンス: Link先を確認
Sofia Arranz Regidor and Stephen Hughes(参考訳) 光ポンピングにおける3量子導波路系について検討し, サイドキュービットが原子状ミラーとして機能し, 強い光物質結合状態を示す。 量子ビットはフェルミオン二準位系としてモデル化され、重要な飽和効果と量子非線形性を説明する。 この系における光ポンピングは、放出されたスペクトルで見ることができる有着状態のリッチな多様体につながり、マルコフ極限における物質マスター方程式モデルとマルコフ近似を起こさずに行列積状態を用いる2つの異なる理論解を示す。 ミラー量子ビットの相対減衰率と空間分離を変動させることにより、リッチ非線形スペクトルがどのように得られるかを示し、マルコフマスター方程式を用いることの限界を示す。 我々のモデルは、重要な非破壊効果や多光子非線形性を含む巨大原子現象を直接モデル化することができる。

We study a three-qubit waveguide system in the presence of optical pumping, when the side qubits act as atomlike mirrors, manifesting in a strong light-matter coupling regime. The qubits are modelled as Fermionic two-level systems, where we account for important saturation effects and quantum nonlinearities. Optical pumping in this system is shown to lead to a rich manifold of dressed states that can be seen in the emitted spectrum, and we show two different theoretical solutions using a material master equation model in the Markovian limit, as well as using matrix products states without invoking any Markov approximations. We show how a rich nonlinear spectrum is obtained by varying the relative decay rates of the mirror qubits as well as their spatial separation, and demonstrate the limitations of using a Markovian master equation. Our model allows one to directly model giant atom phenomena, including important non-retardation effects and multi-photon nonlinearities.
翻訳日:2023-01-25 20:47:55 公開日:2022-10-04
# 非エルミート二次ハミルトンの代数解析

Algebraic analysis of non-Hermitian quadratic Hamiltonians ( http://arxiv.org/abs/2209.14749v2 )

ライセンス: Link先を確認
Francisco M. Fern\'andez(参考訳) 我々は、$\mathcal{PT}$-対称性を示さない一般の1モード非エルミート二次ハミルトニアンを研究する。 代数的手法により、実固有値の存在条件と例外点の位置を決定する。 また、二次作用素を元の生成と消滅作用素の観点でより単純な形式に変換できる一般化されたボゴリューボフ変換の代数的代替案も提案する。 2つの同一の1モード発振器を2次項で結合した2モード発振器の同様の解析を行う。

We study a general one-mode non-Hermitian quadratic Hamiltonian that does not exhibit $\mathcal{PT}$-symmetry. By means of an algebraic method we determine the conditions for the existence of real eigenvalues as well as the location of the exceptional points. We also put forward an algebraic alternative to the generalized Bogoliubov transformation that enables one to convert the quadratic operator into a simpler form in terms of the original creation and annihilation operators. We carry out a similar analysis of a two-mode oscillator that consists of two identical one-mode oscillators coupled by a quadratic term.
翻訳日:2023-01-24 19:18:29 公開日:2022-10-04
# 量子プロセッサ上での量子ゼノダイナミクスによるポートフォリオ最適化

Portfolio Optimization via Quantum Zeno Dynamics on a Quantum Processor ( http://arxiv.org/abs/2209.15024v3 )

ライセンス: Link先を確認
Dylan Herman, Ruslan Shaydulin, Yue Sun, Shouvanik Chakrabarti, Shaohan Hu, Pierre Minssen, Arthur Rattew, Romina Yalovetzky, Marco Pistoia(参考訳) ポートフォリオ最適化は数学的ファイナンスにおいて重要な問題であり、量子最適化アルゴリズムの有望なターゲットである。 金融機関で日々解決されるユースケースには、ビジネス上の目的や規制要件から生じる多くの制約があり、量子コンピュータで解決するのが困難である。 量子ゼノダイナミクスを用いて、不等式を含む複数の任意の制約で最適化問題を解く手法を提案する。 量子最適化のダイナミクスは、連続する射影的測定によって、コンストラクション内の部分空間に効率的に制限され、少数の補助量子ビットとポスト選択を必要としないことを示す。 本手法は、量子近似最適化アルゴリズム(qaoa)と変分量子回路に組み込んで最適化し、幅広い適用性を有する。 我々は、QAOAにおける一定の最小成功確率を達成するには、ミキサー演算子の特定の選択に対する問題サイズに依存しない多くの測定が必要であることを解析的に示す。 提案手法は,複数の現実的な制約を伴ってポートフォリオ最適化の問題を数値的に評価し,目的にペナルティを導入することにより制約を強制する最先端技術よりも優れた解質と制約内確率を観察する。 提案手法は量子化H1-2トラップイオン量子プロセッサにおいて,2量子ゲート深さ最大148の回路の性能向上を観測する。

Portfolio optimization is an important problem in mathematical finance, and a promising target for quantum optimization algorithms. The use cases solved daily in financial institutions are subject to many constraints that arise from business objectives and regulatory requirements, which make these problems challenging to solve on quantum computers. We introduce a technique that uses quantum Zeno dynamics to solve optimization problems with multiple arbitrary constraints, including inequalities. We show that the dynamics of the quantum optimization can be efficiently restricted to the in-constraint subspace via repeated projective measurements, requiring only a small number of auxiliary qubits and no post-selection. Our technique has broad applicability, which we demonstrate by incorporating it into the quantum approximate optimization algorithm (QAOA) and variational quantum circuits for optimization. We analytically show that achieving a constant minimum success probability in QAOA requires a number of measurements that is independent of the problem size for a specific choice of mixer operator. We evaluate our method numerically on the problem of portfolio optimization with multiple realistic constraints, and observe better solution quality and higher in-constraint probability than the state-of-the-art technique of enforcing constraints by introducing a penalty into the objective. We demonstrate the proposed method on the Quantinuum H1-2 trapped-ion quantum processor, observing performance improvements from circuits with two-qubit gate depths of up to 148.
翻訳日:2023-01-24 10:05:23 公開日:2022-10-04
# 差分行列による無バイアス最大絡み合い基底

Mutually unbiased maximally entangled bases from difference matrices ( http://arxiv.org/abs/2210.01517v1 )

ライセンス: Link先を確認
Yajuan Zang, Zihong Tian, Hui-Juan Zuo, and Shao-Ming Fei(参考訳) 最大絡み合った状態に基づいて、二部量子系における相互に偏りのない基底の構成を探索する。 組合せ設計理論における差分行列による相互に偏りのない基底を構成する新しい方法を提案する。 特に、任意の素数 $q$ に対して、$q-1$ の互いに偏りのない基底と、$\mathbb{c}^q\otimes \mathbb{c}^q$ の積基底を成立させる。 例えば、$\mathbb{c}^{12}\otimes \mathbb{c}^{12}$ と $\mathbb{c}^{21}\otimes\mathbb{c}^{21}$ の5つの最大絡み合った基底は、$d=3m$の既知の下限を改善し、$(3,m)=1$ in $(3,m)=1 in $\mathbb{c}^{d}\otimes \mathbb{c}^{d}$ である。 さらに、任意の素数$p$に対して、$p+1$を最大絡み合う基底と$\mathbb{C}^p\otimes \mathbb{C}^{p^2}$の積基底で相互に偏りのない基底を構成する。

Based on maximally entangled states, we explore the constructions of mutually unbiased bases in bipartite quantum systems. We present a new way to construct mutually unbiased bases by difference matrices in the theory of combinatorial designs. In particular, we establish $q$ mutually unbiased bases with $q-1$ maximally entangled bases and one product basis in $\mathbb{C}^q\otimes \mathbb{C}^q$ for arbitrary prime power $q$. In addition, we construct maximally entangled bases for dimension of composite numbers of non-prime power, such as five maximally entangled bases in $\mathbb{C}^{12}\otimes \mathbb{C}^{12}$ and $\mathbb{C}^{21}\otimes\mathbb{C}^{21}$, which improve the known lower bounds for $d=3m$, with $(3,m)=1$ in $\mathbb{C}^{d}\otimes \mathbb{C}^{d}$. Furthermore, we construct $p+1$ mutually unbiased bases with $p$ maximally entangled bases and one product basis in $\mathbb{C}^p\otimes \mathbb{C}^{p^2}$ for arbitrary prime number $p$.
翻訳日:2023-01-23 22:13:43 公開日:2022-10-04
# 確率電磁力学で説明される光学的サイドバンド非対称性

Optomechanical sideband asymmetry explained by stochastic electrodynamics ( http://arxiv.org/abs/2210.01486v1 )

ライセンス: Link先を確認
Lukas Novotny, Martin Frimmer, Andrei Militaru, Andreas Norrman, Oriol Romero-Isart, Patrick Maurer(参考訳) 確率的電気力学の枠組みにおいて、懸濁鏡から反射されるレーザ光の雑音スペクトルを導出する。 電磁場はマクスウェルの方程式に従い、レーザー場と熱とゼロ点背景のゆらぎを考慮に入れた確率的部分から説明され、ミラー運動はニュートンの運動方程式を満足し、ランゲヴィン方程式と同様の決定論的および確率的部分で構成されている。 周波数シフト基準ビーム(ヘテロダイン干渉法)と干渉するミラーから反射される磁場のパワーを記録する光検出器を考える。 理論的には、光検出器信号のパワースペクトル密度は4つの部分からなる。 (i)ビート音符による決定論的用語 (ii)ショットノイズ。 (iii)鏡の運動の実際のヘテロダイン信号と (iv)測定ノイズ(ショットノイズ)とバックアクションノイズ(放射圧ショットノイズ)との相関から生じるクロス項。 後者は、超低温原子、キャビティ・オプティメカニクス、および浮遊ナノ粒子で観察されるラマン側帯非対称性をもたらす。 我々の古典理論は実験的な観測を完全に再現し、量子論的処理によって得られた結果と一致する。

Within the framework of stochastic electrodynamics we derive the noise spectrum of a laser beam reflected from a suspended mirror. The electromagnetic field follows Maxwell's equations and is described by a deterministic part that accounts for the laser field and a stochastic part that accounts for thermal and zero-point background fluctuations.Likewise, the mirror motion satisfies Newton's equation of motion and is composed of deterministic and stochastic parts, similar to a Langevin equation. We consider a photodetector that records the power of the field reflected from the mirror interfering with a frequency-shifted reference beam (heterodyne interferometry). We theoretically show that the power spectral density of the photodetector signal is composed of four parts: (i) a deterministic term with beat notes, (ii) shot noise, (iii) the actual heterodyne signal of the mirror motion and (iv) a cross term resulting from the correlation between measurement noise (shot noise) and backaction noise (radiation pressure shot noise). The latter gives rise to the Raman sideband asymmetry observed with ultracold atoms, cavity optomechanics and with levitated nanoparticles. Our classical theory fully reproduces experimental observations and agrees with the results obtained by a quantum theoretical treatment.
翻訳日:2023-01-23 22:13:10 公開日:2022-10-04
# 恒星ネットワークにおける量子ステアリング

Quantum steering in a star network ( http://arxiv.org/abs/2210.01430v1 )

ライセンス: Link先を確認
Guangming Jiang, Xiaohua Wu, and Tao Zhou(参考訳) この作業では、中央の当事者が信頼され、すべてのエッジパーティ(数ドル)が信頼されないスターネットワークのシナリオを検討する。 ネットワークステアリングは、特別な種類の$n$ローカル隠れ変数モデルと見なすことができる$n$ローカル隠れ状態モデルで定義される。 非線形ステアリング不等式、線形ステアリング不等式、ベル不等式という3つの異なる基準がスターネットワーク内の量子ステアリングを検証するために構築される。 線形ステアリングの不等式に基づいて,信頼関係者が一定の測定を行った場合でも,ネットワークステアリングを実演できることが判明した。

In this work, we will consider the star network scenario where the central party is trusted while all the edge parties (with a number of $n$) are untrusted. Network steering is defined with an $n$ local hidden state model which can be viewed as a special kind of $n$ local hidden variable model. Three different types of sufficient criteria, nonlinear steering inequality, linear steering inequality, and Bell inequality, will be constructed to verify the quantum steering in a star network. Based on the linear steering inequality, it is found that the network steering can be demonstrated even though the trusted party performs a fixed measurement.
翻訳日:2023-01-23 22:12:36 公開日:2022-10-04
# 分散量子インタラクティブな証明

Distributed Quantum Interactive Proofs ( http://arxiv.org/abs/2210.01390v1 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall, Masayuki Miyamoto, Harumichi Nishimura(参考訳) 分散対話型証明の研究は、kol, oshman, saxena [podc 2018] によって、分散決定機構(証明ラベル方式など)の一般化として開始され、近年多くの注目を集めている。 分散インタラクティブな証明では、$n$ノードネットワークのノード$g$は、強力な証明者と短いメッセージ(証明書と呼ばれる)を交換できる。 目標は、入力($G$自身を含む)が何らかの言語に属しているかどうかを判断し、対話のターンがほとんどなく、ノードと証明者の間でできる限りビットを交換することである。 非インタラクティブな分散証明と比較して, 一定数の相互作用で証明書のサイズを劇的に削減できることを示す結果がいくつかある。 本稿では,分散対話型証明の量子対について紹介する:証明書は量子ビットとなり,ネットワークのノードは量子計算を行うことができる。 本研究の最初の結果は,量子分散対話型証明を用いることで,対話の回数を大幅に削減できることを示す。 より正確には、任意の定数~$k$に対して、$k$ターン古典(すなわち、$f(n)$-bit証明書サイズを持つ分散対話プロトコルによって決定できる言語のクラスは、$O(f(n)$-bit証明書サイズを持つ5$ターン分散量子対話プロトコルによって決定できる言語のクラスに含まれることを示す。 また,共有ランダム性の利用を許せば,ターン数を3ターンに減らすことができることを示した。 この結果から, 分散対話型証明の設定において, 量子計算のパワーを証明できる可能性が示唆された。

The study of distributed interactive proofs was initiated by Kol, Oshman, and Saxena [PODC 2018] as a generalization of distributed decision mechanisms (proof-labeling schemes, etc.), and has received a lot of attention in recent years. In distributed interactive proofs, the nodes of an $n$-node network $G$ can exchange short messages (called certificates) with a powerful prover. The goal is to decide if the input (including $G$ itself) belongs to some language, with as few turns of interaction and as few bits exchanged between nodes and the prover as possible. There are several results showing that the size of certificates can be reduced drastically with a constant number of interactions compared to non-interactive distributed proofs. In this paper, we introduce the quantum counterpart of distributed interactive proofs: certificates can now be quantum bits, and the nodes of the network can perform quantum computation. The first result of this paper shows that by using quantum distributed interactive proofs, the number of interactions can be significantly reduced. More precisely, our result shows that for any constant~$k$, the class of languages that can be decided by a $k$-turn classical (i.e., non-quantum) distributed interactive protocol with $f(n)$-bit certificate size is contained in the class of languages that can be decided by a $5$-turn distributed quantum interactive protocol with $O(f(n))$-bit certificate size. We also show that if we allow to use shared randomness, the number of turns can be reduced to 3-turn. Since no similar turn-reduction \emph{classical} technique is currently known, our result gives evidence of the power of quantum computation in the setting of distributed interactive proofs as well.
翻訳日:2023-01-23 22:12:23 公開日:2022-10-04
# 量子状態の分散merlin-arthur合成とその応用

Distributed Merlin-Arthur Synthesis of Quantum States and Its Applications ( http://arxiv.org/abs/2210.01389v1 )

ライセンス: Link先を確認
Fran\c{c}ois Le Gall, Masayuki Miyamoto, Harumichi Nishimura(参考訳) 量子状態の生成と検証は、最近イラン、ナタラジャン、ニヘ、ラオ、ユエン(CCC 2022)、ローゼンタール、ユエン(ITCS 2022)によって研究された量子情報処理の基本的なタスクである。 本稿では,量子分散コンピューティング,特に分散量子Merlin-Arthur(dQMA)プロトコルの観点から,この概念を考察する。 まず,分散入力を用いた状態生成(SGDI)と呼ばれる新しいタスクを導入する。 このタスクでは、行の右端にある量子状態 $U\ket{\psi}$ を生成することを目標とし、$\ket{\psi}$ は左端のノードで与えられる量子状態であり、$U$ は行のノードに分布するユニタリ行列である。 我々は、SGDIのためのdQMAプロトコルを提供し、このプロトコルを利用して、Naor, Parter and Yogev (SODA 2020) が研究したセット平等問題のためのdQMAプロトコルを構築する。 第2のコントリビューションは、ZhuとHaashiによる最近の研究(Physical Review A, 2019)に基づいて、量子通信のないネットワークの隣接ノード間のEPRペアを作成するテクニックです。 本手法の適用例として、任意のネットワーク上の任意のdQMAプロトコルを、検証段階が量子通信を必要としない別のdQMAプロトコルに変換する方法を示す一般的な結果を示す。

The generation and verification of quantum states are fundamental tasks for quantum information processing that have recently been investigated by Irani, Natarajan, Nirkhe, Rao and Yuen [CCC 2022] and Rosenthal and Yuen [ITCS 2022] under the term \emph{state synthesis}. This paper studies this concept from the viewpoint of quantum distributed computing, and especially distributed quantum Merlin-Arthur (dQMA) protocols. We first introduce a novel task, on a line, called state generation with distributed inputs (SGDI). In this task, the goal is to generate the quantum state $U\ket{\psi}$ at the rightmost node of the line, where $\ket{\psi}$ is a quantum state given at the leftmost node and $U$ is a unitary matrix whose description is distributed over the nodes of the line. We give a dQMA protocol for SGDI and utilize this protocol to construct a dQMA protocol for the Set Equality problem studied by Naor, Parter and Yogev [SODA 2020]. Our second contribution is a technique, based on a recent work by Zhu and Hayashi [Physical Review A, 2019], to create EPR-pairs between adjacent nodes of a network without quantum communication. As an application of this technique, we prove a general result showing how to convert any dQMA protocol on an arbitrary network into another dQMA protocol where the verification stage does not require any quantum communication.
翻訳日:2023-01-23 22:11:52 公開日:2022-10-04
# Jaynes-Cummings-HubbardモデルとDickeモデルにおけるクエンチダイナミクス

Quench dynamics in the Jaynes-Cummings-Hubbard and Dicke models ( http://arxiv.org/abs/2210.01355v1 )

ライセンス: Link先を確認
Andrew R. Hogan and Andy M. Martin(参考訳) Jaynes-Cummings-Hubbard (JCH) モデルとDickeモデルの両方は、量子バッテリーの理想的なモデルと考えることができる。 本稿では,両モデルの帯電特性について数値解析を行った。 2つのモデルは、キャビティに含まれる2レベルシステムが異なる。 ディックモデルでは、$N$2レベルのシステムは単一の空洞に含まれ、JCHモデルでは、それぞれがそれぞれの空洞を持ち、それらの間に光子を渡すことができる。 それぞれのモデルにおいて、2レベル系が基底状態から開始し、光子と2レベル系の結合パラメータがクエンチされるシナリオを考える。 これらのモデルはそれぞれ、最大充電電力を表示し、バッテリーサイズはn$で、スーパー充電は見つからなかった。 充電電力は、両方のモデルで2レベルシステム$m$当たりの平均光子の平方根でスケールする。 最後に、JCHモデルにおいて、パワーは光子空洞結合の平方根と逆向きに充電されることが判明した。

Both the Jaynes-Cummings-Hubbard (JCH) and Dicke models can be thought of as idealised models of a quantum battery. In this paper we numerically investigate the charging properties of both of these models. The two models differ in how the two-level systems are contained in cavities. In the Dicke model, the $N$ two-level systems are contained in a single cavity, while in the JCH model the two-level systems each have their own cavity and are able to pass photons between them. In each of these models we consider a scenario where the two-level systems start in the ground state and the coupling parameter between the photon and the two-level systems is quenched. Each of these models display a maximum charging power that scales with the size of the battery $N$ and no super charging was found. Charging power also scales with the square root of the average number of photons per two-level system $m$ for both models. Finally, in the JCH model, the power was found to charge inversely with the square root of the photon-cavity coupling $\kappa$.
翻訳日:2023-01-23 22:11:11 公開日:2022-10-04
# 量子アドバンテージに向けた量子ビットマッピング

Qubit Mapping Toward Quantum Advantage ( http://arxiv.org/abs/2210.01306v1 )

ライセンス: Link先を確認
Chin-Yi Cheng, Chien-Yi Yang, Ren-Chu Wang, Yi-Hsiang Kuo, Hao-Chung Cheng, Chung-Yang (Ric) Huang(参考訳) 量子ビットマッピングは、量子コンパイルフローの重要な段階である。 その目標は、論理回路を物理回路に変換し、実世界の非完全接続量子デバイス上で量子アルゴリズムを実行できるようにすることである。 量子ビットマッピング技術は、現在でも量子アドバンテージ、スケーラビリティの鍵を欠いている。 いくつかの研究により、量子計算の利点を達成するために少なくとも数千の論理量子ビットが必要であることが証明されている。 しかしながら、我々の最善の知識では、量子アドバンテージに必要な量子ビット数で量子ビットマッピング問題を解決する能力を持つ以前の研究は存在しない。 本研究では,量子優位性を実現するための拡張性を備えた最初の量子ビットマッピングフレームワークを提供する。 このフレームワークは、異なる特性の量子回路にも柔軟性がある。 実験の結果,提案手法は,プログラム実行時間の10分の1でコスト複雑性の5%以上を改善することで,量子回路ベンチマークの最先端手法を上回っていることがわかった。 さらに,11,969量子量子フーリエ変換を5時間以内にマッピングすることで,本手法のスケーラビリティを示す。

Qubit Mapping is a pivotal stage in quantum compilation flow. Its goal is to convert logical circuits into physical circuits so that a quantum algorithm can be executed on real-world non-fully connected quantum devices. Qubit Mapping techniques nowadays still lack the key to quantum advantage, scalability. Several studies have proved that at least thousands of logical qubits are required to achieve quantum computational advantage. However, to our best knowledge, there is no previous research with the ability to solve the qubit mapping problem with the necessary number of qubits for quantum advantage in a reasonable time. In this work, we provide the first qubit mapping framework with the scalability to achieve quantum advantage while accomplishing a fairly good performance. The framework also boasts its flexibility for quantum circuits of different characteristics. Experimental results show that the proposed mapping method outperforms the state-of-the-art methods on quantum circuit benchmarks by improving over 5% of the cost complexity in one-tenth of the program running time. Moreover, we demonstrate the scalability of our method by accomplishing mapping of an 11,969-qubit Quantum Fourier Transform within five hours.
翻訳日:2023-01-23 22:10:53 公開日:2022-10-04
# マクロ共振トンネルによるフラックスと電荷ノイズの検出

Probing flux and charge noise with macroscopic resonant tunneling ( http://arxiv.org/abs/2210.01714v1 )

ライセンス: Link先を確認
Alexander M. Whiticar, Anatoly Y. Smirnov, Trevor Lanting, Jed Whittaker, Fabio Altomare, Teresa Medina, Rahul Deshpande, Sara Ejtemaee, Emile Hoskinson, Michael Babcock, Mohammad H. Amin(参考訳) マクロ共鳴トンネル (MRT) を用いたrf-SQUIDフラックス量子ビットにおけるフラックスと電荷ノイズの測定について報告する。 我々は,初期井戸の最低エネルギー状態から地上までの非一貫性トンネル速度と目標井戸の初励起状態を測定した。 測定結果は2つのピークから成っている。 第1ピークは、目標井戸の基底状態へのトンネルに対応し、フラックスノイズによって支配される。 第2のピークは、励起状態へのトンネルによるものであり、電荷ノイズが支配する内部緩和過程のためより広い。 本研究では, フラックスおよび荷電騒音に関する情報を1つの実験装置で抽出できる理論モデルを構築した。 このモデルは、広いダイナミックレンジにわたる実験データとよく一致し、電荷とフラックスノイズを特徴づけるパラメータを提供する。

We report on measurements of flux and charge noise in an rf-SQUID flux qubit using macroscopic resonant tunneling (MRT). We measure rates of incoherent tunneling from the lowest energy state in the initial well to the ground and first excited states in the target well. The result of the measurement consists of two peaks. The first peak corresponds to tunneling to the ground state of the target well, and is dominated by flux noise. The second peak is due to tunneling to the excited state and is wider due to an intrawell relaxation process dominated by charge noise. We develop a theoretical model that allows us to extract information about flux and charge noise within one experimental setup. The model agrees very well with experimental data over a wide dynamic range and provides parameters that characterize charge and flux noise.
翻訳日:2023-01-23 22:04:07 公開日:2022-10-04
# 丸め約束による熱状態形成

Thermal State Preparation via Rounding Promises ( http://arxiv.org/abs/2210.01670v1 )

ライセンス: Link先を確認
Patrick Rall, Chunhao Wang, Pawel Wocjan(参考訳) 量子コンピュータ上でギブス状態を作るための有望な道は、物理的熱化過程をシミュレートすることである。 デイヴィス発生器は、熱浴と接触する開放量子系のダイナミクスを記述する。 重要なのは、熱浴自体のシミュレーションは必要ありません。 リンドブラッド方程式の量子シミュレーションのための最先端技術を用いて,デイビース生成器で指定された熱分解によるギブス状態の合成法を考案する。 デイビー発電機の実装には、システムのエネルギーを曖昧に見積もる能力が必要です。 すなわち、システムの各エネルギーは決定論的に一意な推定にマッピングされなければならない。 以前の研究は、システムが非物理的な「周囲の約束」の仮定を満たす場合にのみ可能であることを示していた。 まず,3つの問題を同時に解決するラウンド約束のランダムアンサンブルを設計することにより,この問題を解決する。 第二に、これらのデイヴィス発電機は理想のデイヴィス発電機と同様の混合時間を持つ。 第三に、これらの約束された熱状態の平均は理想的な熱状態に近い。

A promising avenue for the preparation of Gibbs states on a quantum computer is to simulate the physical thermalization process. The Davies generator describes the dynamics of an open quantum system that is in contact with a heat bath. Crucially, it does not require simulation of the heat bath itself, only the system we hope to thermalize. Using the state-of-the-art techniques for quantum simulation of the Lindblad equation, we devise a technique for the preparation of Gibbs states via thermalization as specified by the Davies generator. In doing so, we encounter a severe technical challenge: implementation of the Davies generator demands the ability to estimate the energy of the system unambiguously. That is, each energy of the system must be deterministically mapped to a unique estimate. Previous work showed that this is only possible if the system satisfies an unphysical 'rounding promise' assumption. We solve this problem by engineering a random ensemble of rounding promises that simultaneously solves three problems: First, each rounding promise admits preparation of a 'promised' thermal state via a Davies generator. Second, these Davies generators have a similar mixing time as the ideal Davies generator. Third, the average of these promised thermal states approximates the ideal thermal state.
翻訳日:2023-01-23 22:03:18 公開日:2022-10-04
# 線形回帰の量子通信複雑性

Quantum communication complexity of linear regression ( http://arxiv.org/abs/2210.01601v1 )

ライセンス: Link先を確認
Ashley Montanaro and Changpeng Shao(参考訳) 量子化アルゴリズムは、時間とクエリの複雑さの観点から、多くの線形代数問題に対して指数関数的なスピードアップを持たないことを示す。 本研究では,量子コンピュータが基本的な線形代数問題に対して,通信複雑性の観点から指数関数的に高速化できることを示す。 主に線形回帰とハミルトンシミュレーションの解法に焦点をあてる。 量子の場合、タスクは結果の量子状態を準備することである。 公正な比較を可能にするために、古典的な場合、タスクは結果からサンプルを取ることである。 本研究では,これら2つの問題を二元モデルと多元モデルで検討し,準最適量子プロトコルを提案し,量子・古典下界を証明した。 本研究では,量子アルゴリズム設計のための強力な手法である量子特異値変換のための効率的な量子プロトコルを提案する。 結果として、量子コンピュータが時間とクエリの複雑さの点で指数的なスピードアップを失う多くの線形代数問題に対して、通信複雑性の点で指数的なスピードアップが可能である。

Dequantized algorithms show that quantum computers do not have exponential speedups for many linear algebra problems in terms of time and query complexity. In this work, we show that quantum computers can have exponential speedups in terms of communication complexity for some fundamental linear algebra problems. We mainly focus on solving linear regression and Hamiltonian simulation. In the quantum case, the task is to prepare the quantum state of the result. To allow for a fair comparison, in the classical case the task is to sample from the result. We investigate these two problems in two-party and multiparty models, propose near-optimal quantum protocols and prove quantum/classical lower bounds. In this process, we propose an efficient quantum protocol for quantum singular value transformation, which is a powerful technique for designing quantum algorithms. As a result, for many linear algebra problems where quantum computers lose exponential speedups in terms of time and query complexity, it is possible to have exponential speedups in terms of communication complexity.
翻訳日:2023-01-23 22:02:34 公開日:2022-10-04
# 双極子ボース-アインシュタイン凝縮相における超放射の観測

Observation of superradiance in a phase fluctuating dipolar Bose-Einstein condensate ( http://arxiv.org/abs/2210.01586v1 )

ライセンス: Link先を確認
Bojeong Seo, Mingchen Huang, Ziting Chen, Mithilesh K. Parit, Yifei He, Peng Chen, and Gyu-Boong Jo(参考訳) ボース・アインシュタイン凝縮体(BEC)における物質-波超放射能の研究は独特なコヒーレンス特性を用いたが、これまでは異方性接触相互作用を持つ相-コヒーレント凝縮体を利用して超ラジカル過程の制御性は限られていた。 ここでは、可変s波散乱と双極子相互作用を、超放射能の非対称性としきい値が独立に制御される$^{168}$Er原子のBECで組み合わせる。 フェッシュバッハ共鳴近傍のs波散乱長を変化させ、位相変動の増加とともに超放射閾値をチューニングする。 凝縮体からの集合光散乱は接触相互作用のみと対照的に、外部磁場の向きを変化させることで、双極性BECにおける非対称超放射能ピークを観測する。 これは双極子-双極子相互作用によって引き起こされる異方性励起スペクトルの結果である。 我々の観測は、物質波の放射制御につながる物質波光学の先例のない応用をもたらすことが期待されている。

Despite the extensive study of matter-wave superradiance in a Bose-Einstein condensate (BEC) using its unique coherence property, the controllability of superradiant process has remained limited in the previous studies exploiting a phase-coherent condensate with isotropic contact interactions. Here, we combine tunable s-wave scattering with dipolar interactions in a BEC of $^{168}$Er atoms wherein the asymmetry and threshold of superradiance are independently controlled. By changing the s-wave scattering length near the Feshbach resonance, we tune the superradiance threshold with increasing phase fluctuations. In contrast to collective light scattering from a condensate only with contact interactions, we observe an asymmetric superradiant peak in a dipolar BEC by changing the direction of external magnetic field. This results from the anisotropic excitation spectrum induced by the dipole-dipole interaction. Our observation is expected to bring forth unprecedented application of matter-wave optics leading to controlled emission of matter wave.
翻訳日:2023-01-23 22:02:18 公開日:2022-10-04
# 動的ゲージ場からの相互作用誘起非エルミート位相

Interaction-induced non-Hermitian topological phases from a dynamical gauge field ( http://arxiv.org/abs/2210.01572v1 )

ライセンス: Link先を確認
William N Faugno and Tomoki Ozawa(参考訳) 位相的に非自明な複素エネルギースペクトルが粒子間相互作用によって誘導される最小非エルミートモデルを提案する。 我々のモデルは密度依存を持つ動的非エルミートゲージ場を持つ一次元鎖からなる。 このモデルは単一粒子系では位相的に自明であるが、2つ以上の粒子が存在する場合、点ギャップを持つ非自明な非エルミート位相を示す。 2つの粒子の存在下での非自明なトポロジーを記述するために有効な二重双対モデルを構築し、全相互作用モデルと定量的に一致する。 提案手法は,Hatano-Nelsonモデルのホッピングを変調することで実現可能であり,原子及び光学的設定でモデルを実現するための具体的なFloquetプロトコルを提供する。

We present a minimal non-Hermitian model where a topologically nontrivial complex energy spectrum is induced by inter-particle interactions. Our model consists of a one-dimensional chain with a dynamical non-Hermitian gauge field with density dependence. The model is topologically trivial for a single particle system, but exhibits nontrivial non-Hermitian topology with a point gap when two or more particles are present in the system. We construct an effective doublon model to describe the nontrivial topology in the presence of two particles, which quantitatively agrees with the full interacting model. Our model can be realized by modulating hoppings of the Hatano-Nelson model; we provide a concrete Floquet protocol to realize the model in atomic and optical settings.
翻訳日:2023-01-23 22:01:56 公開日:2022-10-04
# 最弱メンバーへの報酬による協力のインセンティブ

Incentivising cooperation by rewarding the weakest member ( http://arxiv.org/abs/2212.00119v1 )

ライセンス: Link先を確認
Jory Schossau, Bamshad Shirmohammadi, Arend Hintze(参考訳) 人間に代わって互いに行動する自律エージェントは、カスタマーサービス、輸送、医療など多くの社会ドメインで一般的になってきている。 このような社会的状況において、欲求戦略は、高速道路での停車や通信路でのサービス拒否など、全てのエージェントのポジティブな結果を減らすことができる。 代わりに、これらの落とし穴を避けるためにグループの公平性を考慮しながら、効率的なパフォーマンスのために自律的な意思決定を望んでいます。 残念ながら、複雑な状況では、公平な振る舞いよりも利己的な戦略のために機械学習の目的を設計するのがずっと簡単です。 本稿では,進化領域と強化学習領域の両方におけるエージェント群を,最も弱いメンバのパフォーマンスによって報奨する簡単な方法を提案する。 また, グループレベルの選択と包括的適合性理論の生物学的選択機構との関連性を示した。

Autonomous agents that act with each other on behalf of humans are becoming more common in many social domains, such as customer service, transportation, and health care. In such social situations greedy strategies can reduce the positive outcome for all agents, such as leading to stop-and-go traffic on highways, or causing a denial of service on a communications channel. Instead, we desire autonomous decision-making for efficient performance while also considering equitability of the group to avoid these pitfalls. Unfortunately, in complex situations it is far easier to design machine learning objectives for selfish strategies than for equitable behaviors. Here we present a simple way to reward groups of agents in both evolution and reinforcement learning domains by the performance of their weakest member. We show how this yields ``fairer'' more equitable behavior, while also maximizing individual outcomes, and we show the relationship to biological selection mechanisms of group-level selection and inclusive fitness theory.
翻訳日:2023-01-23 21:56:02 公開日:2022-10-04
# Pseudoharmonic-およびMie型ポテンシャルを持つAB-Flux場における非相対論的固有値解の位相効果

Topological Effects on Non-Relativistic Eigenvalue Solutions Under AB-Flux Field with Pseudoharmonic- and Mie-type Potentials ( http://arxiv.org/abs/2210.04617v1 )

ライセンス: Link先を確認
Faizuddin Ahmed(参考訳) 本稿では,Aharonov-Bohmフラックス場に閉じ込められたSchr\"{o}dinger粒子の量子力学と,点状大域単極子によって生じる位相的欠陥の下での擬調和型ポテンシャルについて検討する。 三次元ラジアルSchr\"{o}dinger波動方程式を解析的に解き、量子系の正確な固有値解を決定する。 その後、量子系における三重型ポテンシャルを考察し、ラジアルschr\"{o}dinger方程式を解析的に解く。 次に,これらのポテンシャルを用いた幾何および磁束場の位相的欠陥が固有値解に与える影響を解析する。 固有値解は, 境界状態に対するアハロノフ・ボーム効果の類似性を与えるトポロジカルな欠陥に加えて, 磁束によってより変化することを示す。 最後に, 物理的興味を持つ2分子ポテンシャルに対する固有値解を用いて, トポロジカル効果と磁束場の解析を行う。

In this paper, we investigate the quantum dynamics of a Schr\"{o}dinger particle confined by the Aharonov-Bohm flux field with pseudoharmonic-type potential under topological defects produced by a point-like global monopole. We solve the three-dimensional radial Schr\"{o}dinger wave equation analytically and determine the exact eigenvalue solution of the quantum system. Afterwards, we consider Mie-type potential in the quantum system and solve the radial Schr\"{o}dinger equation analytically. We then analyze the effects of topological defects of the geometry and the magnetic flux field with these potentials on the eigenvalue solutions. We show that the eigenvalue solutions shift more due to the magnetic flux in addition to the topological defects which gives an analogue of the Aharonov-Bohm effect for the bound state. Finally, we utilize the eigenvalue solutions to some diatomic molecular potentials of physical interest and analyze the topological effects and the magnetic flux field on them.
翻訳日:2023-01-23 21:55:47 公開日:2022-10-04
# スクリュー転位存在下での非相対論的量子調和振動子に対する非慣性効果

Non-inertial effects on a non-relativistic quantum harmonic oscillator in the presence of a screw dislocation ( http://arxiv.org/abs/2210.02559v1 )

ライセンス: Link先を確認
L. C. N. Santos, F. M. da Silva, C. E. Mota, V. B. Bezerra(参考訳) 本研究では,非相対論的量子調和振動子に対する回転フレームによる非慣性効果と,垂直直線の垂直スパイラルへの歪みに対応するねじ転位に関連する位相について検討する。 これを実現するために、この背景にある調和振動子ポテンシャルに対する時間に依存しないシュリンガー方程式の解析解を得る。 エネルギースペクトルの式が得られ、4つの量子状態、すなわち$n=0,1,2$および$3$の解が解析される。 以上の結果から, トポロジカルな欠陥(スクリュー転位)の存在と, 回転フレームの観点から系の解析を行っているという事実が, シュリンガー方程式と対応するスペクトルの解を変化させていることが示唆された。 現在、これらの量は回転するフレームの角速度である$\Omega$と、スクリュー転位の存在を表わすパラメータ$\beta$にも依存している。 特に、システムのエネルギースペクトルに関しての変化は、$\omega$が増加すると、角モーメントと線形モーメントの固有値に割り当てる値に応じてエネルギーが増減する。 さらに,スクリュー転位を特徴付けるパラメータ$\beta$の値がエネルギースペクトルのシフトを引き起こすことを観測した。

We investigate non-inertial effects induced by a rotating frame on a non-relativistic quantum harmonic oscillator as well as of the topology associated to a screw dislocation, which corresponds to a distortion of a vertical line into a vertical spiral. To do this, we obtain the analytical solutions of the time-independent Schr\"odinger equation for this harmonic oscillator potential in this background. The expressions for the energy spectrum are obtained and the solutions for four quantum states, namely $n=0,1,2$ and $3$, are analysed. Our results show that the presence of the topological defect (screw dislocation) as well the fact that we are analysing the system from the point of view of a rotating frame, changes the solutions of Schr\"odinger equation and the corresponding spectrum. Now these quantities depend on the angular velocity of the rotating frame, $\Omega$, and also on the parameter $\beta$, which codifies the presence of the screw dislocation. Particularly, with respect to the energy spectrum of the system the changing is such that when $\Omega$ increases, the energy can increase or decrease depending on the values we assign to the eigenvalues of the angular and linear momenta. Additionally, we observe that the values of the parameter $\beta$ that characterizes the screw dislocation causes a shift in the energy spectrum.
翻訳日:2023-01-23 21:55:28 公開日:2022-10-04
# 円筒型磁場の積分可能・超積分システム

Integrable and superintegrable systems of cylindrical type in magnetic fields ( http://arxiv.org/abs/2210.02393v1 )

ライセンス: Link先を確認
Ond\v{r}ej Kub\r{u}(参考訳) この論文の目標は磁場を持つ可積分・超可積分系の探索である。 円柱座標における2次運動積分に対する量子力学的決定方程式を定式化し、円柱型の全ての二次可積分系を見いだす。 それらのうち、追加の運動積分を許容するシステムを探します。 古典力学と量子力学の両方において、追加の一階積分を持つ全ての系を見つける。 これらのシステムはすべてすでに知られており、他のシステムは存在していないことが判明した。 また、それぞれ$L^2+\ldots$, $L_y p_y-L_x p_y+\ldots$の積分が加わった全ての系が、文献に新しい。 すべての超可積分系は、L_z$ の第一次積分を許容し、そのハミルトン-ヤコビ方程式とシュル・オーディンガー方程式は、円筒座標における変数の分離によって解かれる。

The goal of this thesis is the search for integrable and superintegrable systems with magnetic field. We formulate the quantum mechanical determining equations for second order integrals of motion in the cylindrical coordinates and we find all quadratically integrable systems of the cylindrical type. Among them we search for systems admitting additional integrals of motion. We find all systems with an additional first order integral both in classical and quantum mechanics. It turns out that all these systems have already been known and no other exist. We also find all systems with an additional integral of type $L^2+\ldots$, respectively $L_y p_y-L_x p_y+\ldots$, of which the majority is new to the literature. All found superintegrable systems admit the first order integral $L_z$ and we solve their Hamilton-Jacobi and Schr\"odinger equations by separation of variables in the cylindrical coordinates, for the first order systems in the Cartesian coordinates as well.
翻訳日:2023-01-23 21:55:02 公開日:2022-10-04
# 量子ハミルトン-ヤコビ方程式によるファインマンのプロパゲータの評価

Evaluation of the Feynman's propagator by means of the quantum Hamilton-Jacobi equation ( http://arxiv.org/abs/2210.02185v1 )

ライセンス: Link先を確認
Mario Fusco Girard(参考訳) ファインマンプロパゲーターの複素位相は、量子ハミルトンジャコビ方程式の解であることが示されている。

It is shown that the complex phase of the Feynman propagator is a solution of the quantum Hamilton Jacobi equation
翻訳日:2023-01-23 21:54:43 公開日:2022-10-04
# 1550nmアバランシェフォトダイオードによる暗電流と単一光子検出:デッドタイム補正確率分布とエントロピー率

Dark Current and Single Photon Detection by 1550nm Avalanche Photodiodes: Dead Time Corrected Probability Distributions and Entropy Rates ( http://arxiv.org/abs/2210.01921v1 )

ライセンス: Link先を確認
Nicole Menkart, Joseph D. Hart, Thomas E. Murphy, and Rajarshi Roy(参考訳) 単一光子検出器は、検出器操作のバイアスレベルに強く依存する暗数率を持つ。 新規レーザーや単一光子エミッタのような弱い光源の場合、光源によるカウント率は検出器のダークカウントと同等である。 そのような場合、ダークカウントの統計的性質を特徴づける必要がある。 暗黒数はしばしば、入射光子数とは統計的に独立なポアソン過程に従うと仮定される。 この仮定は特定の種類の光検出器で検証されなければならない。 本研究では、1550nmの単光子アバランシェフォトダイオード(SPAD)に着目した。 InGaAs検出器の場合、測定された分布がポアソンと大きく異なるのは、デッドタイムの存在と、バイアスレベルの差が増加すると後押しされるためである。 残脈の影響を取り除くためにデッドタイムが増加すると、デッドタイムの影響について測定された分布を補正する必要がある。 そこで本研究では,ダークカウントの確率分布からデッドタイム効果を除去するために反復アルゴリズムを適用し,外部弱いレーザー源(ポアソンとして知られる)からの光がダークカウントとともに検出される場合に適用する。 このアルゴリズムを実データに包括的に適用した最初の事例であると我々は信じており、訂正された確率分布はどちらの場合もポアソン分布である。 さらに, ダークカウント過程のエントロピー生成率を推定するためにグラスベルガー・プロパシアアルゴリズムを用い, ダークカウント間の時間的相関と分布の形状を特徴付ける1つの指標を提供した。 そこで我々は,1550nmスペードのデータを取り込んで,新しい光源を調べるための正確な光数統計を得るための体系的な手法を開発した。

Single photon detectors have dark count rates that depend strongly on the bias level for detector operation. In the case of weak light sources such as novel lasers or single-photon emitters, the rate of counts due to the light source can be comparable to that of the detector dark counts. In such cases, a characterization of the statistical properties of the dark counts is necessary. The dark counts are often assumed to follow a Poisson process that is statistically independent of the incident photon counts. This assumption must be validated for specific types of photodetectors. In this work, we focus on single-photon avalanche photodiodes (SPADs) made for 1550nm. For the InGaAs detectors used, we find the measured distributions often differ significantly from Poisson due to the presence of dead time and afterpulsing with the difference increasing with the bias level. When the dead time is increased to remove the effects of afterpulsing, it is necessary to correct the measured distributions for the effects of the dead time. To this end, we apply an iterative algorithm to remove dead time effects from the probability distribution for dark counts as well as for the case where light from an external weak laser source (known to be Poisson) is detected together with the dark counts. We believe this to be the first instance of the comprehensive application of this algorithm to real data and find that the corrected probability distributions are Poisson distributions in both cases. We additionally use the Grassberger-Procaccia algorithm to estimate the entropy production rates of the dark count processes, which provides a single metric that characterizes the temporal correlations between dark counts as well as the shape of the distribution. We have thus developed a systematic procedure for taking data with 1550nm SPADs and obtaining accurate photocount statistics to examine novel light sources.
翻訳日:2023-01-23 21:54:39 公開日:2022-10-04
# 量子力学の「どの経路」実験の文脈における光子の線形および角モーメント

Linear and angular momenta of photons in the context of "which path" experiments of quantum mechanics ( http://arxiv.org/abs/2210.01890v1 )

ライセンス: Link先を確認
Masud Mansuripur(参考訳) 光学系を介して代替経路を取る単一の光子を含む光学実験(例えば、ヤングの二重スリット実験、マッハ・ツェンダー干渉計、サニャック干渉計)では、片方の手には光子の線形モーメントと角運動量計の間に基本的なつながりがあり、もう一方の手には観測者が光子の経路を決定する能力がある。 本稿では、光子モータを(ハイゼンベルクの不確実性原理を通じて)量子力学の中心にある「どの経路」(ドイツ語: welcher Weg)問題に関連づける議論について検討する。 開口や鏡に付与された線形モーメント、あるいは、システム内の戦略的に配置されたウェーブプレートによって選択された角モーメントは、対応する干渉効果を破壊することだけを犠牲にして、光子の経路の同定に繋がることを示した。 また, 円偏光子を互いに一定の距離に保持した一対の微粒子から散乱させる思考実験についても述べる。 この例における光子と散乱粒子の間の角運動量の交換は、必然的に対応する干渉縞を消さなければならない「どの経路」情報を提供するように見えるが、フリンジワイプアウト機構は不確実性原理を如何なる明白な方法でも含まないようである。

In optical experiments involving a single photon that takes alternative paths through an optical system and ultimately interferes with itself (e.g., Young's double-slit experiment, Mach-Zehnder interferometer, Sagnac interferometer), there exist fundamental connections between the linear and angular momenta of the photon on the one hand, and the ability of an observer to determine the photon's path through the system on the other hand. This paper examines the arguments that relate the photon momenta (through the Heisenberg uncertainty principle) to the "which path" (German: welcher Weg) question at the heart of quantum mechanics. We show that the linear momenta imparted to apertures or mirrors, or the angular momenta picked up by strategically placed wave-plates in a system, could lead to an identification of the photon's path only at the expense of destroying the corresponding interference effects. We also describe a thought experiment involving the scattering of a circularly-polarized photon from a pair of small particles kept at a fixed distance from one another. The exchange of angular momentum between the photon and the scattering particle in this instance appears to provide the "which path" information that must, of necessity, wipe out the corresponding interference fringes, although the fringe-wipe-out mechanism does not seem to involve the uncertainty principle in any obvious way.
翻訳日:2023-01-23 21:54:11 公開日:2022-10-04
# 位相変調光格子によるアルカリリドバーグ転移の駆動

Driving alkali Rydberg transitions with a phase-modulated optical lattice ( http://arxiv.org/abs/2210.01874v1 )

ライセンス: Link先を確認
Ryan Cardman, Georg Raithel(参考訳) 我々は, 位相制御型, 変調型, 定常波レーザー場を用いたRydberg-Rydberg遷移の分光法を開発し, 実験を行った。 この方法は、リドバーグ電子が電気双極子カップリングよりも制限的な選択規則を満たしていないことを考慮し、一階の遷移において、$ns_{1/2}\rightarrow np_{1/2}$ と $ns_{1/2}\rightarrow (n+1)s_{1/2}$ の両方を調べることができる。 レーザーパワーを増大させる必要がなく、第3および第4次サブハーモニックドライブは、Kuバンド(12から18GHz)で広く利用可能な光位相変調器を用いて40から70GHzの周波数範囲でライドバーグ遷移にアクセスするために使用される。 測定は、我々が開発するモデルに基づくシミュレーションとよく一致する。 スペクトルはドップラーフリーでフーリエリミテッドな成分を持つ。 この方法は、rydberg-rydberg遷移の光学ドップラーフリーの高精度分光と、rydbergベースのシミュレータと量子コンピュータにおける$\mu$mスケールの空間選択的量子ビット操作への道を開く。

We develop and demonstrate a spectroscopic method for Rydberg-Rydberg transitions using a phase-controlled and -modulated, standing-wave laser field focused on a cloud of cold $^{85}$Rb Rydberg atoms. The method is based on the ponderomotive (${\bf{A}}^2$) interaction of the Rydberg electron, which has less-restrictive selection rules than electric-dipole couplings, allowing us to probe both $nS_{1/2}\rightarrow nP_{1/2}$ and $nS_{1/2}\rightarrow (n+1)S_{1/2}$ transitions in first-order. Without any need to increase laser power, third and fourth-order sub-harmonic drives are employed to access Rydberg transitions in the 40 to 70 GHz frequency range using widely-available optical phase modulators in the Ku-band (12 to 18 GHz). Measurements agree well with simulations based on the model we develop. The spectra have prominent Doppler-free, Fourier-limited components. The method paves the way for optical Doppler-free high-precision spectroscopy of Rydberg-Rydberg transitions and for spatially-selective qubit manipulation with $\mu$m-scale resolution in Rydberg-based simulators and quantum computers.
翻訳日:2023-01-23 21:53:45 公開日:2022-10-04
# ファインマンの量子電気力学へのアプローチから得られた光学系の挙動に関する洞察

Insights into the behavior of certain optical systems gleaned from Feynman's approach to quantum electrodynamics ( http://arxiv.org/abs/2210.01870v1 )

ライセンス: Link先を確認
Masud Mansuripur(参考訳) リチャード・ファインマンの経路積分法は、a点からb点に到達する系がa点からb点までの全ての可能な経路を持ち、それぞれの経路が自身の(複素)確率振幅を寄与するという基本的な仮定に基づいている。 これらすべての経路の振幅の総和は、a で始まる系が b で終わる全体的な確率振幅を与える。ファインマンの手法をいくつかの実用的関心のある光学系に適用し、この方法のニュアンスや予測結果が古典的光学理論と一致する、あるいは一致しない例について議論する。 例えば、ビーム・スプリッターの性質、マッハ・ツェンダーとサニャックの干渉計による単一光子通過、電気・磁気双極子散乱、相互性、時間反転対称性、光学定理、エヴァルト・オーゼン絶滅定理、遠方回折、ホン・ウー・マンデル効果として知られる2光子干渉現象などがある。

Richard Feynman's method of path integrals is based on the fundamental assumption that a system starting at a point A and arriving at a point B takes all possible paths from A to B, with each path contributing its own (complex) probability amplitude. The sum of the amplitudes over all these paths then yields the overall probability amplitude that the system starting at A would end up at B. We apply Feynman's method to several optical systems of practical interest and discuss the nuances of the method as well as instances where the predicted outcomes agree or disagree with those of classical optical theory. Examples include the properties of beam-splitters, passage of single photons through Mach-Zehnder and Sagnac interferometers, electric and magnetic dipole scattering, reciprocity, time-reversal symmetry, the optical theorem, the Ewald-Oseen extinction theorem, far field diffraction, and the two-photon interference phenomenon known as the Hong-Ou-Mandel effect.
翻訳日:2023-01-23 21:53:15 公開日:2022-10-04
# Auto-Sklearn 2.0:メタラーニングによるハンズフリーAutoML

Auto-Sklearn 2.0: Hands-free AutoML via Meta-Learning ( http://arxiv.org/abs/2007.04074v3 )

ライセンス: Link先を確認
Matthias Feurer, Katharina Eggensperger, Stefan Falkner, Marius Lindauer and Frank Hutter(参考訳) automated machine learning (automl)は、マシンラーニングパイプラインの設計という面倒なタスクを実践者や研究者に提供する。 本稿では,第2回ChaLearn AutoMLチャレンジへの勝利を動機とした,新しいAutoMLアプローチを紹介する。 本研究では,新しい単純でメタ機能のないメタラーニング手法と,予算配分に有効なバンディット戦略を用いることにより,大規模データセットに対して厳格な時間制限下でうまく動作するposh auto-sklearnを開発した。 しかし、PoSH Auto-sklearnは、さらに多くのAutoMLの実行方法を導入し、ユーザーが正しく設定することを難しくする可能性がある。 したがって、さらに一歩進んでAutoML自体の設計空間を研究し、真にハンズフリーなAutoMLへのソリューションを提案します。 これらの変更によって、次世代のAutoMLシステムであるAuto-sklearn 2.0が生まれます。 39のAutoMLベンチマークデータセットに関する広範な実験的研究において、これらの追加による改善を検証する。 論文は、他の一般的なautomlフレームワークやauto-sklearn 1.0と比較し、相対エラーを4.5倍まで削減し、auto-sklearn 1.0が1時間以内に達成したものよりも大幅に優れた10分でパフォーマンスを向上した。

Automated Machine Learning (AutoML) supports practitioners and researchers with the tedious task of designing machine learning pipelines and has recently achieved substantial success. In this paper, we introduce new AutoML approaches motivated by our winning submission to the second ChaLearn AutoML challenge. We develop PoSH Auto-sklearn, which enables AutoML systems to work well on large datasets under rigid time limits by using a new, simple and meta-feature-free meta-learning technique and by employing a successful bandit strategy for budget allocation. However, PoSH Auto-sklearn introduces even more ways of running AutoML and might make it harder for users to set it up correctly. Therefore, we also go one step further and study the design space of AutoML itself, proposing a solution towards truly hands-free AutoML. Together, these changes give rise to the next generation of our AutoML system, Auto-sklearn 2.0. We verify the improvements by these additions in an extensive experimental study on 39 AutoML benchmark datasets. We conclude the paper by comparing to other popular AutoML frameworks and Auto-sklearn 1.0, reducing the relative error by up to a factor of 4.5, and yielding a performance in 10 minutes that is substantially better than what Auto-sklearn 1.0 achieves within an hour.
翻訳日:2022-11-12 10:11:16 公開日:2022-10-04
# グラフ生成のための深部生成モデルに関する系統的調査

A Systematic Survey on Deep Generative Models for Graph Generation ( http://arxiv.org/abs/2007.06686v3 )

ライセンス: Link先を確認
Xiaojie Guo, Liang Zhao(参考訳) グラフは、オブジェクトとその関係を記述するための重要なデータ表現である。 この領域における重要な問題の1つとして、グラフ生成は与えられたグラフの分布を学習し、より新しいグラフを生成することを考える。 しかし、その幅広い応用により、グラフの豊かな歴史を持つ生成モデルは伝統的に手作りであり、グラフのいくつかの統計的性質をモデル化できるのみである。 グラフ生成のための深部生成モデルの最近の進歩は、生成したグラフの忠実性を改善するための重要なステップであり、新しい種類のアプリケーションへの道を開く。 本稿では,グラフ生成のための深部生成モデル分野における文献の概要を紹介する。 まず、グラフ生成のための深部生成モデルの形式的定義と予備知識を提供する。 次に,非条件グラフ生成と条件グラフ生成の両方の深部生成モデルの分類をそれぞれ提案し,既存の研究結果を比較分析した。 その後、この特定のドメインにおける評価メトリクスの概要が提供されます。 最後に、ディープグラフ生成を可能にするアプリケーションを要約し、5つの将来的な研究方向性を強調した。

Graphs are important data representations for describing objects and their relationships, which appear in a wide diversity of real-world scenarios. As one of a critical problem in this area, graph generation considers learning the distributions of given graphs and generating more novel graphs. Owing to their wide range of applications, generative models for graphs, which have a rich history, however, are traditionally hand-crafted and only capable of modeling a few statistical properties of graphs. Recent advances in deep generative models for graph generation is an important step towards improving the fidelity of generated graphs and paves the way for new kinds of applications. This article provides an extensive overview of the literature in the field of deep generative models for graph generation. Firstly, the formal definition of deep generative models for the graph generation and the preliminary knowledge are provided. Secondly, taxonomies of deep generative models for both unconditional and conditional graph generation are proposed respectively; the existing works of each are compared and analyzed. After that, an overview of the evaluation metrics in this specific domain is provided. Finally, the applications that deep graph generation enables are summarized and five promising future research directions are highlighted.
翻訳日:2022-11-10 23:04:10 公開日:2022-10-04
# 視覚慣性オドメトリーのための多状態制約カルマンフィルタの改良

An Improved Multi-State Constraint Kalman Filter for Visual-Inertial Odometry ( http://arxiv.org/abs/2210.08117v1 )

ライセンス: Link先を確認
M.R. Abdollahi, Seid H. Pourtakdoust, M.H. Yoosefian Nooshabadi and H.N. Pishkenari(参考訳) 高速ポーズ推定(PE)は、アジャイル自律ロボットのミッションパフォーマンスの成功に不可欠である。 gpsやgnsのようなグローバル測位システムは、通常、peの慣性航法システム(ins)と融合して用いられる。 しかし、更新率の低さと適切な信号の欠如は、屋内や都市での利用には実用的でない。 一方,視覚慣性オドメトリー(VIO)は,GPSを用いた環境下でのGNSS/INSシステムの実用的な代替手段として人気を集めている。 多くのVIOベースの手法の中で、MSCKF(Multi-State Constraint Kalman Filter)はその堅牢性、速度、精度から注目されている。 この目的のために,MSCKFを資源制約車にリアルタイムに実装するための画像処理に係わる計算コストは,いまだに困難な研究である。 本稿では,MSCKFの改良版を提案する。 この目的のために、異なる特徴のマージン化と状態のプルーニング戦略が提案され、より高速なアルゴリズムとなる。 提案アルゴリズムは,オープンソースデータセットと実世界の検証実験の両方で検証される。 提案したFast-MSCKF (FMSCKF) は標準MSCKFアルゴリズムよりも約6倍高速で、最終位置推定において少なくとも20%精度が高いことが実証された。

Fast pose estimation (PE) is of vital importance for successful mission performance of agile autonomous robots. Global Positioning Systems such as GPS and GNSS have been typically used in fusion with Inertial Navigation Systems (INS) for PE. However, the low update rate and lack of proper signals make their utility impractical for indoor and urban applications. On the other hand, Visual-Inertial Odometry (VIO) is gaining popularity as a practical alternative for GNSS/INS systems in GPS-denied environments. Among the many VIO-based methods, the Multi-State Constraint Kalman Filter (MSCKF) has received a greater attention due to its robustness, speed and accuracy. To this end, the high computational cost associated with image processing for real-time implementation of MSCKF on resource-constrained vehicles is still a challenging ongoing research. In this paper, an enhanced version of the MSCKF is proposed. To this aim, different feature marginalization and state pruning strategies are suggested that result in a much faster algorithm. The proposed algorithm is tested both on an open-source dataset and in real-world experiments for validation. It is demonstrated that the proposed Fast-MSCKF (FMSCKF) is about six times faster and at least 20% more accurate in final position estimation than the standard MSCKF algorithm.
翻訳日:2022-10-23 20:53:57 公開日:2022-10-04
# 植物害虫認識のための二重注意型軽量ネットワーク

Double Attention-based Lightweight Network for Plant Pest Recognition ( http://arxiv.org/abs/2210.09956v1 )

ライセンス: Link先を確認
Sivasubramaniam Janarthan, Selvarajah Thuseethan, Sutharshan Rajasegarar and John Yearwood(参考訳) 被写界画像からの植物害虫のタイムリーな認識は、作物収量の潜在的損失を避けるために重要である。 従来の畳み込みニューラルネットワークベースのディープラーニングモデルは高い計算能力を必要とし、訓練にはペストタイプごとに大きなラベル付きサンプルを必要とする。 一方、既存の軽量ネットワークベースのアプローチは、複数の害虫間の共通特性と高い類似性のため、害虫を正しく分類するに苦しむ。 本研究では,異なる植物害虫を自動的に認識する,二重注意に基づく軽量ディープラーニングアーキテクチャを提案する。 軽量ネットワークは、より高速で小さなデータトレーニングを容易にし、ダブルアテンションモジュールは、最も関連する情報に焦点を当てることで、パフォーマンスを向上させる。 提案手法は, 5869, 545, 500の3種類の公開データセットに対して, 96.61%, 99.08%, 91.60%を達成した。 さらに,提案手法は,小規模データセットと大規模データセットの両方において,既存のアプローチを一貫して上回ることを示す。

Timely recognition of plant pests from field images is significant to avoid potential losses of crop yields. Traditional convolutional neural network-based deep learning models demand high computational capability and require large labelled samples for each pest type for training. On the other hand, the existing lightweight network-based approaches suffer in correctly classifying the pests because of common characteristics and high similarity between multiple plant pests. In this work, a novel double attention-based lightweight deep learning architecture is proposed to automatically recognize different plant pests. The lightweight network facilitates faster and small data training while the double attention module increases performance by focusing on the most pertinent information. The proposed approach achieves 96.61%, 99.08% and 91.60% on three variants of two publicly available datasets with 5869, 545 and 500 samples, respectively. Moreover, the comparison results reveal that the proposed approach outperforms existing approaches on both small and large datasets consistently.
翻訳日:2022-10-23 20:34:00 公開日:2022-10-04
# Raspberry Piを用いた障害者支援のための低コストヒューマノイドプロトタイプ

A Low-cost Humanoid Prototype Intended to assist people with disability using Raspberry Pi ( http://arxiv.org/abs/2210.08116v1 )

ライセンス: Link先を確認
Md. Nayem Hasan Muntasir, Tariqul Islam Siam, Md. Kamruzzaman Sarker(参考訳) 本稿では,障害者支援を目的としたヒューマノイドの試作機(PWD)の開発について述べる。 このプロトタイプが提供する支援は、かなり初歩的なものだ。 しかし、我々の主な焦点は、そのヒューマノイドのような機能に関して、プロトタイプをコストに優しくすることである。 ロボットのニーズが高まる中、このプロジェクトでは機能追加のための設備が利用可能になっている。 プロトタイプは、ANN(Artificial Neural Network)のパワーを利用してユーザと会話するヒューマノイド形状である。 試作機はラズベリー pi を用いており、ラズベリー pi の計算能力は最小限であるので、最後の性能低下を抑えるためにコーナーを切断し、できるだけ効率的にする。

This paper will try to delineate the making of a Humanoid prototype intended to assist people with disability (PWD). The assistance that this prototype will offer is rather rudimentary. However, our key focus is to make the prototype cost-friendly while pertaining to its humanoid-like functionalities. Considering growing needs of Robots, facilities for further installment of features have been made available in this project. The prototype will be of humanoid shape harnessing the power of Artificial Neural Network (ANN) to converse with the users. The prototype uses a raspberry pi and as the computational capability of a raspberry pi is minimal, we cut corners to squeeze the last drop of performance and make it as efficient as possible.
翻訳日:2022-10-23 20:33:45 公開日:2022-10-04
# ニューラルネットワークを用いた予測イベントセグメンテーションと表現:心理的実験による自己教師ありモデル

Predictive Event Segmentation and Representation with Neural Networks: A Self-Supervised Model Assessed by Psychological Experiments ( http://arxiv.org/abs/2210.05710v1 )

ライセンス: Link先を確認
Hamit Basgol, Inci Ayhan, Emre Ugur(参考訳) 複雑で、常に変化し、継続的な経験を、イベントと呼ばれる、基本的な、安定した、離散的な時空間経験単位に分割する。 イベントセグメンテーションの文献は、人々がイベントを抽出できるメカニズムを調査します。 イベントセグメンテーション理論では、人々は進行中のアクティビティを予測し、予測エラー信号を観察し、イベントを区別するイベント境界を見つける。 本研究では,この能力を生み出すメカニズムを計算モデルと心理学実験を用いて検討した。 イベントセグメンテーション理論と予測処理から着想を得て,イベントセグメンテーションの自己教師モデルを導入した。 このモデルは、次のタイミングで知覚信号を予測して異なる事象を表現するニューラルネットワークと、これらのネットワークを予測エラーに基づいて制御する認知モデルから構成される。 モデルがイベントをセグメンテーションし、受動的観察中に学習し、その内部表現空間で表現する能力を検証するために、ポイントライトディスプレイで表現された人間の行動を描写した映像を作成した。 参加者とモデルのイベントセグメンテーションの挙動を,2つの階層的なイベントセグメンテーションレベルで比較した。 ポイントバイセリアル相関法を用いて,モデルのイベントセグメンテーション決定と参加者の反応との関係を実証した。 さらに、類似性に基づく手法により参加者の表現空間を近似することにより、我々のモデルは参加者と類似した表現空間を形成することを示した。 その結果,予測誤り信号を追跡するモデルでは,人間のような事象境界や事象表現を生成できる可能性が示唆された。 最後に,イベント認知の文献への貢献と,イベントセグメンテーションが脳にどのように実装されているかの理解について考察した。

People segment complex, ever-changing and continuous experience into basic, stable and discrete spatio-temporal experience units, called events. Event segmentation literature investigates the mechanisms that allow people to extract events. Event segmentation theory points out that people predict ongoing activities and observe prediction error signals to find event boundaries that keep events apart. In this study, we investigated the mechanism giving rise to this ability by a computational model and accompanying psychological experiments. Inspired from event segmentation theory and predictive processing, we introduced a self-supervised model of event segmentation. This model consists of neural networks that predict the sensory signal in the next time-step to represent different events, and a cognitive model that regulates these networks on the basis of their prediction errors. In order to verify the ability of our model in segmenting events, learning them during passive observation, and representing them in its internal representational space, we prepared a video that depicts human behaviors represented by point-light displays. We compared event segmentation behaviors of participants and our model with this video in two hierarchical event segmentation levels. By using point-biserial correlation technique, we demonstrated that event segmentation decisions of our model correlated with the responses of participants. Moreover, by approximating representation space of participants by a similarity-based technique, we showed that our model formed a similar representation space with those of participants. The result suggests that our model that tracks the prediction error signals can produce human-like event boundaries and event representations. Finally, we discussed our contribution to the literature of event cognition and our understanding of how event segmentation is implemented in the brain.
翻訳日:2022-10-16 16:04:11 公開日:2022-10-04
# カメラモーション平滑化による視覚知覚モデルのロバスト性認証

Robustness Certification of Visual Perception Models via Camera Motion Smoothing ( http://arxiv.org/abs/2210.04625v1 )

ライセンス: Link先を確認
Hanjiang Hu, Zuxin Liu, Linyi Li, Jiacheng Zhu, Ding Zhao(参考訳) 広義の文献では、学習に基づく視覚知覚モデルは敵のノイズに敏感であるが、ロボットの知覚モデルの頑健性を考慮する研究はほとんどない。 本研究では,カメラ動作の摂動下での視覚知覚モデルのロバスト性について検討し,カメラ動作がロボットの知覚に与える影響について検討する。 具体的には,カメラ動作の摂動下でのロバスト性が検証できる任意の画像分類モデルに対する動き平滑化手法を提案する。 カメラモーションの平滑化に基づくロバストネス認証フレームワークは,視覚知覚モジュールに対して,広義のロボットアプリケーションに適用可能な密でスケーラブルなロバストネス保証を提供する。 認識している限りでは、これはカメラの動きに対する深い知覚モジュールのロバスト性認定を提供する最初の仕事であり、ロボットの知覚の信頼性を向上させる。 部屋全体の密集点クラウドマップを備えたリアルな屋内ロボットデータセット、MetaRoomは、困難な証明可能な堅牢な認識タスクのために導入された。 本研究では,カメラ動作の摂動に対する運動平滑化による認証手法の検証を行う。 本フレームワークは,深度0.1m ` 0.1m以内のカメラ翻訳摂動に対して81.7%の精度を保証する。 また,眼球カメラを用いたロボットアームのハードウェア実験により,実世界のロボットに対する本手法の有効性を検証した。 コードはhttps://github.com/hanjianghu/camera-motion-smoothingで入手できる。

A vast literature shows that the learning-based visual perception model is sensitive to adversarial noises but few works consider the robustness of robotic perception models under widely-existing camera motion perturbations. To this end, we study the robustness of the visual perception model under camera motion perturbations to investigate the influence of camera motion on robotic perception. Specifically, we propose a motion smoothing technique for arbitrary image classification models, whose robustness under camera motion perturbations could be certified. The proposed robustness certification framework based on camera motion smoothing provides tight and scalable robustness guarantees for visual perception modules so that they are applicable to wide robotic applications. As far as we are aware, this is the first work to provide the robustness certification for the deep perception module against camera motions, which improves the trustworthiness of robotic perception. A realistic indoor robotic dataset with the dense point cloud map for the entire room, MetaRoom, is introduced for the challenging certifiable robust perception task. We conduct extensive experiments to validate the certification approach via motion smoothing against camera motion perturbations. Our framework guarantees the certified accuracy of 81.7% against camera translation perturbation along depth direction within -0.1m ` 0.1m. We also validate the effectiveness of our method on the real-world robot by conducting hardware experiment on the robotic arm with an eye-in-hand camera. The code is available on https://github.com/HanjiangHu/camera-motion-smoothing.
翻訳日:2022-10-16 16:03:14 公開日:2022-10-04
# NeuDep: ニューラルバイナリメモリ依存分析

NeuDep: Neural Binary Memory Dependence Analysis ( http://arxiv.org/abs/2210.02853v1 )

ライセンス: Link先を確認
Kexin Pei, Dongdong She, Michael Wang, Scott Geng, Zhou Xuan, Yaniv David, Junfeng Yang, Suman Jana, Baishakhi Ray(参考訳) 複数の命令が同じメモリにアクセスできるかどうかを決定することは、バイナリ解析において重要なタスクである。 正確なエイリアス情報を静的に計算することは理論的には決定不可能である。 この問題は、コンパイラの最適化の存在とシンボルや型がないことによってバイナリレベルで悪化する。 既存のアプローチは、保守的な分析のために重大な急激な依存関係を生み出すか、複雑なバイナリに対して不十分にスケールする。 本稿では,バイナリプログラムの実行方法に関するモデルの学習知識を活用し,メモリ依存性を予測するための新しい機械学習手法を提案する。 アプローチの特徴 一 神経網を二進法上の推論のために事前訓練し、その動的値がメモリアドレスを流れる自己監督的手順 (ii) メモリ依存性を静的に推測するための教師付き微調整。 効率的な学習を容易にするために,我々は,ヘテロジニアス入力(すなわち,トレースからのコード,データ値,メモリアドレス)を特定のモジュールにエンコードし,合成学習戦略と融合する専用ニューラルアーキテクチャを開発した。 このアプローチをneudepで実装し,コンパイラ2つ,最適化4つ,難読化パス4つでコンパイルした41の人気のあるソフトウェアプロジェクトで評価した。 我々はNeuDepが現在の最先端技術よりも正確(1.5倍)で高速(3.5倍)であることを示した。 セキュリティクリティカルなリバースエンジニアリングタスクに関する広範な調査研究は、neudepがメモリアクセスパターンを理解し、関数シグネチャを学び、間接呼び出しをマッチングできることを示唆している。 これらのタスクはすべて、メモリ依存の推論を支援するか、恩恵を受ける。 とくに、NeuDepは、これらのタスクの現在の最先端も上回っている。

Determining whether multiple instructions can access the same memory location is a critical task in binary analysis. It is challenging as statically computing precise alias information is undecidable in theory. The problem aggravates at the binary level due to the presence of compiler optimizations and the absence of symbols and types. Existing approaches either produce significant spurious dependencies due to conservative analysis or scale poorly to complex binaries. We present a new machine-learning-based approach to predict memory dependencies by exploiting the model's learned knowledge about how binary programs execute. Our approach features (i) a self-supervised procedure that pretrains a neural net to reason over binary code and its dynamic value flows through memory addresses, followed by (ii) supervised finetuning to infer the memory dependencies statically. To facilitate efficient learning, we develop dedicated neural architectures to encode the heterogeneous inputs (i.e., code, data values, and memory addresses from traces) with specific modules and fuse them with a composition learning strategy. We implement our approach in NeuDep and evaluate it on 41 popular software projects compiled by 2 compilers, 4 optimizations, and 4 obfuscation passes. We demonstrate that NeuDep is more precise (1.5x) and faster (3.5x) than the current state-of-the-art. Extensive probing studies on security-critical reverse engineering tasks suggest that NeuDep understands memory access patterns, learns function signatures, and is able to match indirect calls. All these tasks either assist or benefit from inferring memory dependencies. Notably, NeuDep also outperforms the current state-of-the-art on these tasks.
翻訳日:2022-10-07 18:05:02 公開日:2022-10-04
# 凸・非凸サブ線形回帰とリーチ集合のデータ駆動学習への応用

Convex and Nonconvex Sublinear Regression with Application to Data-driven Learning of Reach Sets ( http://arxiv.org/abs/2210.01919v1 )

ライセンス: Link先を確認
Shadi Haddad and Abhishek Halder(参考訳) 有限データからその集合の支持関数を線形回帰を用いて近似することによりコンパクト集合を推定する。 サポート関数は、凸化の閉包を構成するコンパクト集合を一意的に特徴付け、部分線型である(凸と次数 1 の正等質)。 逆に、任意の部分線型函数はコンパクト集合の支持函数である。 この特性を利用して、コンパクトな集合を学習するタスクを、そのサポート関数を学ぶタスクに書き起こす。 本研究では,非凸計画による部分線形回帰を行う2つのアルゴリズムを提案する。 凸プログラミングのアプローチは、二次プログラム(QP)を解き、次いで線形プログラム(LP)を解き、QP-LPと呼ばれる。 非凸プログラミングアプローチでは、入力サブ線形ニューラルネットワークをトレーニングする。 提案手法は,軌道データから設定値の入力不確実性を受ける制御力学の到達集合を学習するための数値例を用いて記述する。

We consider estimating a compact set from finite data by approximating the support function of that set via sublinear regression. Support functions uniquely characterize a compact set up to closure of convexification, and are sublinear (convex as well as positive homogeneous of degree one). Conversely, any sublinear function is the support function of a compact set. We leverage this property to transcribe the task of learning a compact set to that of learning its support function. We propose two algorithms to perform the sublinear regression, one via convex and another via nonconvex programming. The convex programming approach involves solving a quadratic program (QP) followed by a linear program (LP), and is referred to as QP-LP. The nonconvex programming approach involves training a input sublinear neural network. We illustrate the proposed methods via numerical examples on learning the reach sets of controlled dynamics subject to set-valued input uncertainties from trajectory data.
翻訳日:2022-10-07 16:08:51 公開日:2022-10-04
# ステートフルアクティブファシリテータ:協調多エージェント強化学習におけるコーディネーションと環境不均一性

Stateful active facilitator: Coordination and Environmental Heterogeneity in Cooperative Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2210.03022v1 )

ライセンス: Link先を確認
Dianbo Liu, Vedant Shah, Oussama Boussif, Cristian Meo, Anirudh Goyal, Tianmin Shu, Michael Mozer, Nicolas Heess, Yoshua Bengio(参考訳) 協調型マルチエージェント強化学習では、エージェントのチームが協力して共通の目標を達成する。 異なる環境やタスクは、最適な方法で目標を達成するために、エージェント間の調整の程度を変える必要がある。 調整の性質は環境の特性(空間的レイアウト、障害物の分布、ダイナミクスなど)に依存します。 この性質の変化を異質性(heregeneity)と呼ぶ。 既存の文献は、異なる環境が異質性のレベルが異なるという事実に十分対応していない。 環境の調整レベルと不均一性レベルの概念を定式化し、環境の調整レベルと不均一性レベルを定量的に制御することで、異なる調整レベルと環境不均一性の異なるMARLアプローチの実験的評価を容易にするマルチエージェントRL環境のスイートであるHECOGridを提示する。 さらに, エージェントが高コーディネーション環境と高ヘテロジニティ環境において, 共有ポリシープールからの動的選択と学習に使用する知識ソースを識別し, 効率よく作業できる, ステートフルアクティブファシリテータ (SAF) と呼ばれる集中型訓練分散実行学習手法を提案する。 我々はSAFを評価し,HECOGrid上のベースラインIPPOとMAPPOを比較した。 以上の結果から,SAFは,タスクや不均一性,調整レベルの相違により,基準線を一貫して上回ることがわかった。

In cooperative multi-agent reinforcement learning, a team of agents works together to achieve a common goal. Different environments or tasks may require varying degrees of coordination among agents in order to achieve the goal in an optimal way. The nature of coordination will depend on properties of the environment -- its spatial layout, distribution of obstacles, dynamics, etc. We term this variation of properties within an environment as heterogeneity. Existing literature has not sufficiently addressed the fact that different environments may have different levels of heterogeneity. We formalize the notions of coordination level and heterogeneity level of an environment and present HECOGrid, a suite of multi-agent RL environments that facilitates empirical evaluation of different MARL approaches across different levels of coordination and environmental heterogeneity by providing a quantitative control over coordination and heterogeneity levels of the environment. Further, we propose a Centralized Training Decentralized Execution learning approach called Stateful Active Facilitator (SAF) that enables agents to work efficiently in high-coordination and high-heterogeneity environments through a differentiable and shared knowledge source used during training and dynamic selection from a shared pool of policies. We evaluate SAF and compare its performance against baselines IPPO and MAPPO on HECOGrid. Our results show that SAF consistently outperforms the baselines across different tasks and different heterogeneity and coordination levels.
翻訳日:2022-10-07 15:42:42 公開日:2022-10-04
# 分布シフト下での無線局所化を学習するベンチマーク

Benchmarking Learnt Radio Localisation under Distribution Shift ( http://arxiv.org/abs/2210.01930v1 )

ライセンス: Link先を確認
Maximilian Arnold, Mohammed Alloulah(参考訳) 無線周波数(RF)ローカライゼーションシステムの展開は、特に最新の学習ベースの品種において、必然的な努力を必要とする。 実世界のRF分布シフトの下で、学習したローカライザネットワークが現場にどのように展開できるかを特徴付け、比較する作業はほとんど行われていない。 本稿では,RadioBenchについて紹介する。RadioBench: 最先端技術から学習した8つのローカライザネットを用いて,その実環境のデプロイ性を調査し,ベンチマークする。 学習したローカライザネットの内部動作を分析して,3つのパフォーマンス軸の異なる動作を明らかにするために,10kモデルをトレーニングする。 学習; 学習; 学習 (ii)流通シフトの傾向、及び (iii)ローカライズ。 この分析から得られた知見を用いて,実践的制約下での学習に基づくRFローカライゼーションの展開性に関するベストプラクティスを推奨する。

Deploying radio frequency (RF) localisation systems invariably entails non-trivial effort, particularly for the latest learning-based breeds. There has been little prior work on characterising and comparing how learnt localiser networks can be deployed in the field under real-world RF distribution shifts. In this paper, we present RadioBench: a suite of 8 learnt localiser nets from the state-of-the-art to study and benchmark their real-world deployability, utilising five novel industry-grade datasets. We train 10k models to analyse the inner workings of these learnt localiser nets and uncover their differing behaviours across three performance axes: (i) learning, (ii) proneness to distribution shift, and (iii) localisation. We use insights gained from this analysis to recommend best practices for the deployability of learning-based RF localisation under practical constraints.
翻訳日:2022-10-06 15:31:07 公開日:2022-10-04
# ロバストフェアクラスタリング - 新たなフェアネス攻撃と防御フレームワーク

Robust Fair Clustering: A Novel Fairness Attack and Defense Framework ( http://arxiv.org/abs/2210.01953v1 )

ライセンス: Link先を確認
Anshuman Chhabra, Peizhao Li, Prasant Mohapatra, Hongfu Liu(参考訳) クラスタリングアルゴリズムは、ローン承認や候補者採用など、多くの社会的リソース割り当てアプリケーションで広く使われているため、バイアスや不公平なモデル出力は、これらのアプリケーションに依存する個人に悪影響を及ぼす可能性がある。 この目的のために、この問題に対応するために多くの公正クラスタリングアプローチが最近提案されている。 重大な害の可能性があるため、公正なクラスタリングアルゴリズムが逆の影響下でも一貫して公平なアウトプットを提供することが不可欠である。 しかし、対向攻撃の観点からは、公正クラスタリングアルゴリズムは研究されていない。 従来の研究とは対照的に、我々はこのギャップを橋渡し、新しいブラックボックスフェアネス攻撃を提案し、フェアクラスタリングに対するロバストネス分析を行う。 総合的な実験を通して、最先端のモデルが我々の攻撃に対して非常に影響を受けやすいことが判明した。 最後に,コンセンサスクラスタリングを公正グラフ分割問題に変換する最初の堅牢な公正クラスタリングアプローチであるコンセンサスフェアクラスタリング(cfc)を提案する。 実験では,提案する攻撃に対してcfcは高いロバスト性を有するため,真にロバストなフェアクラスタリングの代替手段であることを確認した。

Clustering algorithms are widely used in many societal resource allocation applications, such as loan approvals and candidate recruitment, among others, and hence, biased or unfair model outputs can adversely impact individuals that rely on these applications. To this end, many fair clustering approaches have been recently proposed to counteract this issue. Due to the potential for significant harm, it is essential to ensure that fair clustering algorithms provide consistently fair outputs even under adversarial influence. However, fair clustering algorithms have not been studied from an adversarial attack perspective. In contrast to previous research, we seek to bridge this gap and conduct a robustness analysis against fair clustering by proposing a novel black-box fairness attack. Through comprehensive experiments, we find that state-of-the-art models are highly susceptible to our attack as it can reduce their fairness performance significantly. Finally, we propose Consensus Fair Clustering (CFC), the first robust fair clustering approach that transforms consensus clustering into a fair graph partitioning problem, and iteratively learns to generate fair cluster outputs. Experimentally, we observe that CFC is highly robust to the proposed attack and is thus a truly robust fair clustering alternative.
翻訳日:2022-10-06 15:30:50 公開日:2022-10-04
# バイオプロセス開発における機械学習: 約束から実践へ

Machine learning in bioprocess development: From promise to practice ( http://arxiv.org/abs/2210.02200v1 )

ライセンス: Link先を確認
Laura Marie Helleckes, Johannes Hemmerich, Wolfgang Wiechert, Eric von Lieres and Alexander Gr\"unberger(参考訳) 新たな分析技術、デジタル化と自動化により、現代のバイオプロセス開発は、貴重なプロセス情報を含む大量の異種実験データを提供する。 この文脈では、機械学習(ML)アプローチのようなデータ駆動手法は、実験施設を最も効率的に活用しながら、大きな設計空間を合理的に探索する可能性が高い。 本研究の目的は, バイオプロセス開発において, 特にひずみ工学と選択, バイオプロセス最適化, スケールアップ, 監視, 制御において, ML手法が適用されていることを実証することである。 各トピックについて、成功したアプリケーションケース、現在の課題を強調し、技術移転とML分野のさらなる進歩の恩恵を受ける可能性のあるドメインを指摘します。

Fostered by novel analytical techniques, digitalization and automation, modern bioprocess development provides high amounts of heterogeneous experimental data, containing valuable process information. In this context, data-driven methods like machine learning (ML) approaches have a high potential to rationally explore large design spaces while exploiting experimental facilities most efficiently. The aim of this review is to demonstrate how ML methods have been applied so far in bioprocess development, especially in strain engineering and selection, bioprocess optimization, scale-up, monitoring and control of bioprocesses. For each topic, we will highlight successful application cases, current challenges and point out domains that can potentially benefit from technology transfer and further progress in the field of ML.
翻訳日:2022-10-06 15:23:10 公開日:2022-10-04
# サブサンプリングによる差分プライバシー・プライバシー増幅の構成

Composition of Differential Privacy & Privacy Amplification by Subsampling ( http://arxiv.org/abs/2210.00597v2 )

ライセンス: Link先を確認
Thomas Steinke(参考訳) この章は、"Differential Privacy for Artificial Intelligence Applications"という本の一部である。 私たちは、差分プライバシーの最も重要な特性について紹介します -- 構成: 一連の人のデータに対して複数の独立した分析を実行することは、それぞれの分析が単独でプライベートである限り、相変わらず個人的になるでしょう。 この章では、基本的な概念を紹介し、これらのツールを実践するのに必要な重要な結果を示す。

This chapter is meant to be part of the book "Differential Privacy for Artificial Intelligence Applications." We give an introduction to the most important property of differential privacy -- composition: running multiple independent analyses on the data of a set of people will still be differentially private as long as each of the analyses is private on its own -- as well as the related topic of privacy amplification by subsampling. This chapter introduces the basic concepts and gives proofs of the key results needed to apply these tools in practice.
翻訳日:2022-10-06 15:19:54 公開日:2022-10-04
# ガイドガンを用いた不整合環境における音響特徴変換の効率化

Efficient acoustic feature transformation in mismatched environments using a Guided-GAN ( http://arxiv.org/abs/2210.00721v2 )

ライセンス: Link先を確認
Walter Heymans, Marelie H. Davel, Charl van Heerden(参考訳) 本稿では,音声入力機能を利用するGAN(Generative Adversarial Network)を用いて,資源共有環境における自動音声認識(ASR)システムを改善するフレームワークを提案する。 GANは復号に先立ってミスマッチしたデータの特徴を強化するために使用され、音響モデルを微調整するために任意に使用できる。 マルチスタイルトレーニング(MTR)に匹敵する改善を実現するが、計算コストは低い。 1時間未満のデータで、良質なデータに基づいて訓練され、ミスマッチされたオーディオで評価されるasrシステムは、11.5%から19.7%の相対的単語誤り率(wer)で改善される。 実験により、このフレームワークはトレーニングデータと計算リソースが限られている非リソース環境で非常に有用であることが示されている。 GANは、ベースライン音響モデルを利用して、ジェネレータにベースラインによってよりよく分類された音響特徴を作成するための損失項を提供するため、並列トレーニングデータを必要としない。

We propose a new framework to improve automatic speech recognition (ASR) systems in resource-scarce environments using a generative adversarial network (GAN) operating on acoustic input features. The GAN is used to enhance the features of mismatched data prior to decoding, or can optionally be used to fine-tune the acoustic model. We achieve improvements that are comparable to multi-style training (MTR), but at a lower computational cost. With less than one hour of data, an ASR system trained on good quality data, and evaluated on mismatched audio is improved by between 11.5% and 19.7% relative word error rate (WER). Experiments demonstrate that the framework can be very useful in under-resourced environments where training data and computational resources are limited. The GAN does not require parallel training data, because it utilises a baseline acoustic model to provide an additional loss term that guides the generator to create acoustic features that are better classified by the baseline.
翻訳日:2022-10-06 15:19:44 公開日:2022-10-04
# マイクロコントローラによる分割フェデレーション学習:キーワードスポッティングショーケース

Split Federated Learning on Micro-controllers: A Keyword Spotting Showcase ( http://arxiv.org/abs/2210.01961v1 )

ライセンス: Link先を確認
Jingtao Li, Runcong Kuang(参考訳) 現在、AI企業は、エッジデバイスによって生成されるユーザのデータを積極的に収集することで、サービス品質を改善している。 これを防ぐために,ユーザが生データをサーバに収集することなくモデルをローカルにトレーニングできる,プライベート学習方式として連合学習が提案されている。 しかし、ハードメモリ制約のあるエッジデバイス上の機械学習アプリケーションでは、FLを用いた大規模モデルの実装は不可能である。 メモリ要件を満たすために、スプリットフェデラルラーニングと呼ばれる最近の協調学習方式は、デバイス上に小さなモデルを保持し、残りのモデルをサーバ上に保持するため、潜在的な解決策である。 本研究では,Arduinoボード上に単純なSFLフレームワークを実装し,90%以上の精度でキーワードスポッティングアプリケーションのための中国語桁音声データセットの正確性を検証する。 さらに、英語桁音声データセットにおいて、SFL実装は最先端のFL実装と比較して13.89%高い精度を実現している。

Nowadays, AI companies improve service quality by aggressively collecting users' data generated by edge devices, which jeopardizes data privacy. To prevent this, Federated Learning is proposed as a private learning scheme, using which users can locally train the model without collecting users' raw data to servers. However, for machine-learning applications on edge devices that have hard memory constraints, implementing a large model using FL is infeasible. To meet the memory requirement, a recent collaborative learning scheme named split federal learning is a potential solution since it keeps a small model on the device and keeps the rest of the model on the server. In this work, we implement a simply SFL framework on the Arduino board and verify its correctness on the Chinese digits audio dataset for keyword spotting application with over 90% accuracy. Furthermore, on the English digits audio dataset, our SFL implementation achieves 13.89% higher accuracy compared to a state-of-the-art FL implementation.
翻訳日:2022-10-06 15:14:20 公開日:2022-10-04
# DISCOVER:強化強化学習によるシンボル型オープンフォームPDEの同定

DISCOVER: Deep identification of symbolic open-form PDEs via enhanced reinforcement-learning ( http://arxiv.org/abs/2210.02181v1 )

ライセンス: Link先を確認
Mengge Du, Yuntian Chen, Dongxiao Zhang(参考訳) 複素自然システムの作用機構は、簡潔な偏微分方程式(pdes)によって従う傾向がある。 データから直接方程式を採掘する手法はPDE発見と呼ばれ、一貫した物理法則を明らかにし、自然界との相互作用を促進する。 本稿では,事前知識の少ないシンボリックオープンフォームpdesを明らかにするために,深層強化学習フレームワークを提案する。 具体的には,(1)最初にシンボルライブラリを構築し,PDEを木構造として表現できることを定義する。 次に,構造的入力と単調な注意を組み合わせることで,pde表現木のプレオーダートラバーサルを生成する構造認識型リカレントニューラルネットワークエージェントを設計する。 表現木は関数項に分割され、それらの係数はスパース回帰法によって計算できる。 3) 生成された全てのpde候補は,まず物理および数学の制約によりフィルタされ,その後,データへの適合度と方程式のパシモニーを考慮した細心の注意深い報酬関数によって評価される。 (4) リスク・サーキング・ポリシー・グラデーションを採用し, エージェントを反復的に更新し, ベストケースの性能を向上させる。 実験により,我々のフレームワークは,高効率かつ拡張性で複数の標準系の支配方程式をマイニングできることを示した。

The working mechanisms of complex natural systems tend to abide by concise and profound partial differential equations (PDEs). Methods that directly mine equations from data are called PDE discovery, which reveals consistent physical laws and facilitates our interaction with the natural world. In this paper, an enhanced deep reinforcement-learning framework is proposed to uncover symbolic open-form PDEs with little prior knowledge. Specifically, (1) we first build a symbol library and define that a PDE can be represented as a tree structure. Then, (2) we design a structure-aware recurrent neural network agent by combining structured inputs and monotonic attention to generate the pre-order traversal of PDE expression trees. The expression trees are then split into function terms, and their coefficients can be calculated by the sparse regression method. (3) All of the generated PDE candidates are first filtered by some physical and mathematical constraints, and then evaluated by a meticulously designed reward function considering the fitness to data and the parsimony of the equation. (4) We adopt the risk-seeking policy gradient to iteratively update the agent to improve the best-case performance. The experiment demonstrates that our framework is capable of mining the governing equations of several canonical systems with great efficiency and scalability.
翻訳日:2022-10-06 15:11:43 公開日:2022-10-04
# 到達可能性目標よりも不完全な選好をもつ確率システムにおける日和見的質的計画

Opportunistic Qualitative Planning in Stochastic Systems with Incomplete Preferences over Reachability Objectives ( http://arxiv.org/abs/2210.01878v1 )

ライセンス: Link先を確認
Abhishek N. Kulkarni and Jie Fu(参考訳) 優先順位は、すべての制約が同時に満たされない場合に、どの目標/制約を満たすかを決定する上で重要な役割を果たします。 本稿では,時間的に拡張された目標に対する(おそらく不完全な)組合せ的選好モデルから,確率的システムにおける選好満足プランの合成方法を検討する。 まず、確率システムの無限の再生に対する嗜好を解釈する新しい意味論を導入する。 次に,無限の遊びの2つの接頭辞の比較を可能にする新しい改良概念を提案する。 そこで本研究では,SPI(Safe and positively improve)とSASI(Bass and almost-surely improve)という,それぞれ正の確率で改善を強制する2つのソリューション概念を定義した。 我々は、改善MDPと呼ばれるモデルを構築し、少なくとも1つの改善を保証するSPIとSASI戦略の合成は、MDPにおける正およびほぼ確実な勝利戦略に還元される。 本稿では,SPIとSASIの戦略を合成し,複数の逐次改善を実現するアルゴリズムを提案する。 ロボットの動き計画問題を用いて提案手法を実証する。

Preferences play a key role in determining what goals/constraints to satisfy when not all constraints can be satisfied simultaneously. In this paper, we study how to synthesize preference satisfying plans in stochastic systems, modeled as an MDP, given a (possibly incomplete) combinative preference model over temporally extended goals. We start by introducing new semantics to interpret preferences over infinite plays of the stochastic system. Then, we introduce a new notion of improvement to enable comparison between two prefixes of an infinite play. Based on this, we define two solution concepts called safe and positively improving (SPI) and safe and almost-surely improving (SASI) that enforce improvements with a positive probability and with probability one, respectively. We construct a model called an improvement MDP, in which the synthesis of SPI and SASI strategies that guarantee at least one improvement reduces to computing positive and almost-sure winning strategies in an MDP. We present an algorithm to synthesize the SPI and SASI strategies that induce multiple sequential improvements. We demonstrate the proposed approach using a robot motion planning problem.
翻訳日:2022-10-06 15:05:55 公開日:2022-10-04
# フェデレーションバックドア攻撃に対する不変アグリゲータ

Invariant Aggregator for Defending Federated Backdoor Attacks ( http://arxiv.org/abs/2210.01834v1 )

ライセンス: Link先を確認
Xiaoyang Wang, Dimitrios Dimitriadis, Sanmi Koyejo, Shruti Tople(参考訳) プライベートデータを直接共有することなく、複数のクライアント間で高可用性モデルのトレーニングを可能にするため、フェデレーション学習が人気を集めている。 マイナス面として、フェデレーション設定は、悪意のあるクライアントの存在下で、様々な敵の攻撃に対して、モデルを脆弱にする。 具体的には、敵はトレーニングデータセットをトリガーで毒殺することで、モデル予測を制御するためにバックドア攻撃を行うことができる。 本研究では,連合学習環境におけるバックドア攻撃の軽減策を提案する。 我々のソリューションは、モデル最適化の軌道を、ユーティリティに一般的に有用な不変方向に集中させ、悪意のあるクライアントがほとんどいないかもしれない方向を選択することを避けます。 具体的には、擬似勾配(クライアント更新)の符号一貫性を不変性の推定として考慮する。 これに続いて,我々は,符号一貫性の低い擬似勾配要素を除去するため,次元的にフィルタリングを行う。 そして、ロバスト平均推定器は、残りの次元の外れ値を排除する。 理論解析により,防御結合の必要性がさらに示され,提案手法がフェデレーション学習モデルをどのように防御するかが示されている。 異なるモダリティと異なる数のクライアントを持つ3つのデータセットに対する実験結果から、我々のアプローチはモデルユーティリティに無視できるコストでバックドア攻撃を緩和することを示している。

Federated learning is gaining popularity as it enables training of high-utility models across several clients without directly sharing their private data. As a downside, the federated setting makes the model vulnerable to various adversarial attacks in the presence of malicious clients. Specifically, an adversary can perform backdoor attacks to control model predictions via poisoning the training dataset with a trigger. In this work, we propose a mitigation for backdoor attacks in a federated learning setup. Our solution forces the model optimization trajectory to focus on the invariant directions that are generally useful for utility and avoid selecting directions that favor few and possibly malicious clients. Concretely, we consider the sign consistency of the pseudo-gradient (the client update) as an estimation of the invariance. Following this, our approach performs dimension-wise filtering to remove pseudo-gradient elements with low sign consistency. Then, a robust mean estimator eliminates outliers among the remaining dimensions. Our theoretical analysis further shows the necessity of the defense combination and illustrates how our proposed solution defends the federated learning model. Empirical results on three datasets with different modalities and varying number of clients show that our approach mitigates backdoor attacks with a negligible cost on the model utility.
翻訳日:2022-10-06 15:05:12 公開日:2022-10-04
# ディープラーニングフレームワークにおける非Functional Bugsの多面的階層的レポート識別

Multifaceted Hierarchical Report Identification for Non-Functional Bugs in Deep Learning Frameworks ( http://arxiv.org/abs/2210.01855v1 )

ライセンス: Link先を確認
Guoming Long, Tao Chen, Georgina Cosma(参考訳) ディープラーニング(DL)フレームワークの非機能バグ(例えば、パフォーマンスや精度に関するバグ)は、最も破壊的な結果をもたらす可能性がある。 GitHubのようなリポジトリにバグを報告することは、修正するための標準的な方法である。 しかし、DLフレームワークに関するGitHubの新しいレポートが増えていることを考えると、開発者が機能しないバグを他のものと区別し、タイムリーに調査のために適切なコントリビュータに割り当てることは本質的に困難である。 本稿では,DLフレームワークの非機能バグ関連レポートを自動的に識別するエンドツーエンドツールであるMHNurfを提案する。 mhnurfの中核は多面的階層的注意ネットワーク(mhan)であり、(1)意味的知識を学ぶが、(2)階層(例えば、文/文中の単語/分岐)を考慮し、githubレポートの重要な部分(言葉、トークン、文、文)に集中し、(3)異なる種類の特徴、すなわちコンテンツ、コメント、コード、コマンド、ラベルから情報を抽出する。 MHNurfを評価するために、5つのDLフレームワークから3,721のGitHubレポートを活用して実験を行った。 その結果、MHNurfはコンテンツ、コメント、コードの組み合わせでベストに機能し、コンテンツのみを使用する古典的HANよりもかなり優れています。 MHNurfは他の9つの最先端の分類器よりもはるかに正確な結果、すなわち71% AUCの改善、そして4つのフレームワークで最高のScott-Knottランクを持つ。 再現と今後の研究を促進するため、データセット、コード、詳細な補足結果をhttps://github.com/ideas-labo/apsec2022-mhnurfで公開しました。

Non-functional bugs (e.g., performance- or accuracy-related bugs) in Deep Learning (DL) frameworks can lead to some of the most devastating consequences. Reporting those bugs on a repository such as GitHub is a standard route to fix them. Yet, given the growing number of new GitHub reports for DL frameworks, it is intrinsically difficult for developers to distinguish those that reveal non-functional bugs among the others, and assign them to the right contributor for investigation in a timely manner. In this paper, we propose MHNurf - an end-to-end tool for automatically identifying non-functional bug related reports in DL frameworks. The core of MHNurf is a Multifaceted Hierarchical Attention Network (MHAN) that tackles three unaddressed challenges: (1) learning the semantic knowledge, but doing so by (2) considering the hierarchy (e.g., words/tokens in sentences/statements) and focusing on the important parts (i.e., words, tokens, sentences, and statements) of a GitHub report, while (3) independently extracting information from different types of features, i.e., content, comment, code, command, and label. To evaluate MHNurf, we leverage 3,721 GitHub reports from five DL frameworks for conducting experiments. The results show that MHNurf works the best with a combination of content, comment, and code, which considerably outperforms the classic HAN where only the content is used. MHNurf also produces significantly more accurate results than nine other state-of-the-art classifiers with strong statistical significance, i.e., up to 71% AUC improvement and has the best Scott-Knott rank on four frameworks while 2nd on the remaining one. To facilitate reproduction and promote future research, we have made our dataset, code, and detailed supplementary results publicly available at: https://github.com/ideas-labo/APSEC2022-MHNurf.
翻訳日:2022-10-06 15:04:51 公開日:2022-10-04
# リサイクルスクラップ:中間チェックポイントを活用した個人学習の改善

Recycling Scraps: Improving Private Learning by Leveraging Intermediate Checkpoints ( http://arxiv.org/abs/2210.01864v1 )

ライセンス: Link先を確認
Virat Shejwalkar, Arun Ganesh, Rajiv Mathews, Om Thakkar, Abhradeep Thakurta(参考訳) 最先端(SOTA)のすべてのプライベート機械学習(DP ML)メソッドは本質的に反復的であり、そのプライバシ分析によって中間トレーニングチェックポイントを公開することができる。 しかし、DP MLベンチマークや実践的なデプロイメントでさえ、予測のために最終的なトレーニングチェックポイントのみを使用するのが一般的である。 本稿では,dpトレーニングの有用性を向上させるために,中間チェックポイントを集約する様々な手法を初めて総合的に検討する。 実証的に、チェックポイント集約は、cifar10とstackoverflowデータセットの既存のsataよりも、予測精度が大幅に向上することを示し、これらの向上は、定期的に異なるトレーニングデータ分布を持つ設定で拡大されることを示した。 例えば、SOTA StackOverflowの精度を$\epsilon=8.2$で22.7%(+0.43%絶対)、$\epsilon=18.9$で23.84%(+0.43%)に改善する。 理論的には、チェックポイントの均一なテール平均化は、DP-SGDの最終チェックポイントと比較して経験的リスク最小化を改善する。 最後に,DP MLモデルの予測においてDPノイズが付加する不確かさを推定する調査を開始する。 損失関数の標準仮定の下では、最後のいくつかのチェックポイントからのサンプル分散がdp実行の最終モデルの分散のよい近似となることが証明される。 実験により,最後の数個のチェックポイントが収束されたDPモデルの分散に対して妥当な下界を与えることを示す。

All state-of-the-art (SOTA) differentially private machine learning (DP ML) methods are iterative in nature, and their privacy analyses allow publicly releasing the intermediate training checkpoints. However, DP ML benchmarks, and even practical deployments, typically use only the final training checkpoint to make predictions. In this work, for the first time, we comprehensively explore various methods that aggregate intermediate checkpoints to improve the utility of DP training. Empirically, we demonstrate that checkpoint aggregations provide significant gains in the prediction accuracy over the existing SOTA for CIFAR10 and StackOverflow datasets, and that these gains get magnified in settings with periodically varying training data distributions. For instance, we improve SOTA StackOverflow accuracies to 22.7% (+0.43% absolute) for $\epsilon=8.2$, and 23.84% (+0.43%) for $\epsilon=18.9$. Theoretically, we show that uniform tail averaging of checkpoints improves the empirical risk minimization bound compared to the last checkpoint of DP-SGD. Lastly, we initiate an exploration into estimating the uncertainty that DP noise adds in the predictions of DP ML models. We prove that, under standard assumptions on the loss function, the sample variance from last few checkpoints provides a good approximation of the variance of the final model of a DP run. Empirically, we show that the last few checkpoints can provide a reasonable lower bound for the variance of a converged DP model.
翻訳日:2022-10-06 15:04:13 公開日:2022-10-04
# アフリカにおけるcovid-19対応分析への協調的アプローチ

A Collaborative Approach to the Analysis of the COVID-19 Response in Africa ( http://arxiv.org/abs/2210.01882v1 )

ライセンス: Link先を確認
Sharon Okwako, Irene Wanyana, Alice Namale, Betty Kivumbi Nannyonga, Sekou L. Remy, William Ogallo, Susan Kizito, Aisha Walcott-Bryant, Rhoda Wanyenze(参考訳) 新型コロナウイルス(covid-19)の危機は、パンデミックに対する解決策の発見を早めるために、機械学習のような科学的手法の必要性を強調している。 機械学習技術には、品質データ、熟練した人材、高度な計算インフラが必要である。 しかしアフリカでは、機械学習能力と計算インフラは限られている。 本稿では,covid-19問題に対する回答発見における機械学習手法の適用について,クロスボーダ協調キャパシティ構築手法を提案する。

The COVID-19 crisis has emphasized the need for scientific methods such as machine learning to speed up the discovery of solutions to the pandemic. Harnessing machine learning techniques requires quality data, skilled personnel and advanced compute infrastructure. In Africa, however, machine learning competencies and compute infrastructures are limited. This paper demonstrates a cross-border collaborative capacity building approach to the application of machine learning techniques in discovering answers to COVID-19 questions.
翻訳日:2022-10-06 15:03:44 公開日:2022-10-04
# 優先マトロイド中央値に対するbicriteria近似アルゴリズム

Bicriteria Approximation Algorithms for Priority Matroid Median ( http://arxiv.org/abs/2210.01888v1 )

ライセンス: Link先を確認
Tanvi Bajpai and Chandra Chekuri(参考訳) フェアネスの考慮は近年、新しいクラスタリング問題とアルゴリズムを動機付けている。 本稿では,最近研究されている優先度 $k$-median 問題を一般化した優先度マトロイド中央値問題を考える。 入力は、一連の施設$\mathcal{F}$と、計量空間$(\mathcal{F} \cup \mathcal{C},d)$にあるクライアント$\mathcal{C}$と、その施設上のマトロイド$\mathcal{M}=(\mathcal{F},\mathcal{I})$からなる。 さらに、各クライアント$j$ は特定の半径 $r_j \ge 0$ を持ち、各施設 $i \in \mathcal{F}$ は開封コスト $f_i$ を持つ。 目的は、$\sum_{i \in \mathcal{F}} f_i + \sum_{j \in \mathcal{C}} d(j,S)$ を最小化する施設のサブセット $S \subseteq \mathcal{F}$ を選択することである。 (i)$S$は$\mathcal{M}$の独立集合である(つまり$S \in \mathcal{I}$)。 (ii) 各クライアント$j$に対して、開施設までの距離は最大$r_j$(つまり$d(j,S) \le r_j$)である。 この問題に対して、最初のbicriteria $(c_1,c_2)$の固定定数に対する近似を記述する: クライアントの半径制約は、少なくとも$c_1$の係数で破られ、目的コストは最適なコストの最大$c_2$倍である。 また、一様半径設定(r_j := L$ $\forall j \in \mathcal{C}$)に対する既知双基準近似も改善する。

Fairness considerations have motivated new clustering problems and algorithms in recent years. In this paper we consider the Priority Matroid Median problem which generalizes the Priority $k$-Median problem that has recently been studied. The input consists of a set of facilities $\mathcal{F}$ and a set of clients $\mathcal{C}$ that lie in a metric space $(\mathcal{F} \cup \mathcal{C},d)$, and a matroid $\mathcal{M}=(\mathcal{F},\mathcal{I})$ over the facilities. In addition each client $j$ has a specified radius $r_j \ge 0$ and each facility $i \in \mathcal{F}$ has an opening cost $f_i$. The goal is to choose a subset $S \subseteq \mathcal{F}$ of facilities to minimize the $\sum_{i \in \mathcal{F}} f_i + \sum_{j \in \mathcal{C}} d(j,S)$ subject to two constraints: (i) $S$ is an independent set in $\mathcal{M}$ (that is $S \in \mathcal{I}$) and (ii) for each client $j$, its distance to an open facility is at most $r_j$ (that is, $d(j,S) \le r_j$). For this problem we describe the first bicriteria $(c_1,c_2)$ approximations for fixed constants $c_1,c_2$: the radius constraints of the clients are violated by at most a factor of $c_1$ and the objective cost is at most $c_2$ times the optimum cost. We also improve the previously known bicriteria approximation for the uniform radius setting ($r_j := L$ $\forall j \in \mathcal{C}$).
翻訳日:2022-10-06 15:03:38 公開日:2022-10-04
# ニューラルネットワークによる解釈可能な分類のための学習信号時相論理

Learning Signal Temporal Logic through Neural Network for Interpretable Classification ( http://arxiv.org/abs/2210.01910v1 )

ライセンス: Link先を確認
Danyang Li, Mingyu Cai, Cristian-Ioan Vasile, Roberto Tron(参考訳) ニューラルネットワークを用いた機械学習技術は時系列データ分類において有望な成功を収めた。 しかし、それらが生成するモデルは検証と解釈が難しい。 本稿では,時系列行動の分類のための説明可能なニューラルシンボリック・フレームワークを提案する。 特に,信号時相論理(signal temporal logic:stl)という表現論的形式言語を用いて,ニューラルネットワークの計算グラフの探索を制約する。 ニューラルSTLフレームワークの音質と精度を向上させるために,新しい時間関数と疎ソフトマックス関数を設計する。 その結果,市販の勾配型ツールを用いて,時系列データの分類のためのコンパクトなstl式を効率的に学習できる。 提案手法の計算効率, コンパクト性, 解釈可能性について, 現状のベースラインと比較して, シナリオの駆動と海軍の監視事例研究による検証を行った。

Machine learning techniques using neural networks have achieved promising success for time-series data classification. However, the models that they produce are challenging to verify and interpret. In this paper, we propose an explainable neural-symbolic framework for the classification of time-series behaviors. In particular, we use an expressive formal language, namely Signal Temporal Logic (STL), to constrain the search of the computation graph for a neural network. We design a novel time function and sparse softmax function to improve the soundness and precision of the neural-STL framework. As a result, we can efficiently learn a compact STL formula for the classification of time-series data through off-the-shelf gradient-based tools. We demonstrate the computational efficiency, compactness, and interpretability of the proposed method through driving scenarios and naval surveillance case studies, compared with state-of-the-art baselines.
翻訳日:2022-10-06 15:02:49 公開日:2022-10-04
# 時系列解析のための非パラメトリックおよび正規化動的waserstein重心

Non-Parametric and Regularized Dynamical Wasserstein Barycenters for Time-Series Analysis ( http://arxiv.org/abs/2210.01918v1 )

ライセンス: Link先を確認
Kevin C. Cheng, Shuchin Aeron, Michael C. Hughes, Eric L. Miller(参考訳) このような遷移が突然あるいは即時である場合とは対照的に、有限個の状態の間で徐々に遷移する系の確率論的時系列モデルを考える。 観察された時系列は、走ったり歩いたりといった異なる活動を表すセグメントと、これらの状態間の連続的な遷移を特徴とするセグメントを含む。 したがって、2021年にchengらによって導入された力学式wasserstein barycenter(dwb)モデルは、我々が純粋状態と呼ぶ各状態、その自身の確率分布と関連付けられ、これらの連続遷移をwasserstein barycenterを経由する純粋状態分布を結合した重心重みのダイナミクスとモデル化する。 これは、これらの遷移を純粋な状態分布の混合でモデル化する手法とは対照的である。 ここで、wasserstein距離とbarycenterが閉じた形で計算できる不定値の場合に焦点を当て、dwbモデルを学ぶことに関連する2つの課題と2つの改善について論じる。 まず、モデルパラメータの識別における特異性の問題を強調します。 次に,限られたサンプル数で動的に進化する分布を推定する課題について考察する。 この推定に関連する不確実性は、モデルの学習したダイナミクスがシステムの段階的な遷移特性を反映しない可能性がある。 最初の改善は、問題の非特異性を理解しながら、重心重みの力学に時間的滑らかさを課すことで、この不確実性に対処する正規化フレームワークの導入である。 第2の改良は、クオンティルに基づく非パラメトリック表現の提案により、[1] における純粋状態分布のガウス的仮定を解除する。

We consider probabilistic time-series models for systems that gradually transition among a finite number of states, in contrast to the more commonly considered case where such transitions are abrupt or instantaneous. We are particularly motivated by applications such as human activity analysis where the observed time-series contains segments representing distinct activities such as running or walking as well as segments characterized by continuous transition among these states. Accordingly, the dynamical Wasserstein barycenter (DWB) model introduced in Cheng et al. in 2021 [1] associates with each state, which we call a pure state, its own probability distribution, and models these continuous transitions with the dynamics of the barycentric weights that combine the pure state distributions via the Wasserstein barycenter. This is in contrast to methods that model these transitions with a mixture of the pure state distributions. Here, focusing on the univariate case where Wasserstein distances and barycenters can be computed in closed form, we extend [1] by discussing two challenges associated with learning a DWB model and two improvements. First, we highlight the issue of uniqueness in identifying the model parameters. Secondly, we discuss the challenge of estimating a dynamically evolving distribution given a limited number of samples. The uncertainty associated with this estimation may cause a model's learned dynamics to not reflect the gradual transitions characteristic of the system. The first improvement introduces a regularization framework that addresses this uncertainty by imposing temporal smoothness on the dynamics of the barycentric weights while leveraging the understanding of the non-uniqueness of the problem. Our second improvement lifts the Gaussian assumption on the pure states distributions in [1] by proposing a quantile-based non-parametric representation.
翻訳日:2022-10-06 15:02:36 公開日:2022-10-04
# 大規模合成グラフデータセット生成のためのフレームワーク

A Framework for Large Scale Synthetic Graph Dataset Generation ( http://arxiv.org/abs/2210.01944v1 )

ライセンス: Link先を確認
Sajad Darabi, Piotr Bigaj, Dawid Majchrowski, Pawel Morkisz, Alex Fit-Florea(参考訳) 近年,ノードやエッジの分類,リンクの予測,クラスタリングといった多くのグラフ解析タスクに対して,不正検出や薬物発見,レコメンダシステムなど,多数の実用的な応用によるディープグラフ学習アルゴリズムの開発や展開への関心が高まっている。 一般に利用可能なグラフ構造データセットは限られており、そのほとんどが数十兆のエッジと数十億のノードを持つ実運用規模のアプリケーションと比べて小さなものだ。 さらに、同様の特性を持つ類似データセット間で、新しいアルゴリズムとモデルがベンチマークされる。 本研究では,実世界のグラフの本来のデータ分布を模倣し,任意のサイズにスケール可能な,スケーラブルな合成グラフ生成ツールを提案する。 このツールは、プロプライエタリなデータセットからパラメトリックモデルのセットを学習するために使用され、その後研究者にリリースされ、プロトタイプ開発と新規アプリケーションの増加する合成データに関する様々なグラフメソッドを研究することができる。 最後に、グラフ学習アルゴリズムの性能は、サイズだけでなく、データセットの構造にも依存する。 我々のフレームワークがデータセットの集合をまたいでどのように一般化し、構造的および特徴的分布と、さまざまなデータセットサイズにまたがるスケーラビリティの両方を模倣するかを示します。

Recently there has been increasing interest in developing and deploying deep graph learning algorithms for many graph analysis tasks such as node and edge classification, link prediction, and clustering with numerous practical applications such as fraud detection, drug discovery, or recommender systems. Allbeit there is a limited number of publicly available graph-structured datasets, most of which are tiny compared to production-sized applications with trillions of edges and billions of nodes. Further, new algorithms and models are benchmarked across similar datasets with similar properties. In this work, we tackle this shortcoming by proposing a scalable synthetic graph generation tool that can mimic the original data distribution of real-world graphs and scale them to arbitrary sizes. This tool can be used then to learn a set of parametric models from proprietary datasets that can subsequently be released to researchers to study various graph methods on the synthetic data increasing prototype development and novel applications. Finally, the performance of the graph learning algorithms depends not only on the size but also on the dataset's structure. We show how our framework generalizes across a set of datasets, mimicking both structural and feature distributions as well as its scalability across varying dataset sizes.
翻訳日:2022-10-06 15:02:03 公開日:2022-10-04
# モノクロビデオによる身体と衣服のキャプチャとアニメーション

Capturing and Animation of Body and Clothing from Monocular Video ( http://arxiv.org/abs/2210.01868v1 )

ライセンス: Link先を確認
Yao Feng, Jinlong Yang, Marc Pollefeys, Michael J. Black, Timo Bolkart(参考訳) 近年の研究では、1枚の画像、ビデオ、あるいは一連の3Dスキャンから布張りの人間のアバターを抽出する研究が進んでいるが、いくつかの制限が残っている。 ほとんどの方法は、身体と衣服を共同でモデル化するために全体表現を用いるため、仮想試着のようなアプリケーションでは衣服と身体は分離できない。 他の方法は体と衣服を別々にモデル化するが、3D/4Dスキャナーや物理シミュレーションから得られた大きな3D布のメッシュのトレーニングが必要である。 私たちの洞察では、体と衣服は異なるモデリング要件を持っています。 身体はメッシュベースのパラメトリック3dモデルでよく表現されているが、暗黙的な表現と神経放射野は衣服に存在する多種多様な形状と外観を捉えるのに適している。 この知見に基づいて、メッシュベースの体とニューラルな放射場を組み合わせたハイブリッドモデルであるSCARF(Segmented Clothed Avatar Radiance Field)を提案する。 メッシュをボリュームレンダリングに統合し、差別化可能なラスタライザと組み合わせることで、3D監督なしにモノクロビデオから直接SCARFを最適化できる。 ハイブリッドモデリングはSCARFを可能にする 一 身体のポーズ(手話、表情を含む。)を変えて着物用アバターをアニメーションすること。 (ii)アバターの新しい視点を合成し、 (iii)仮想試着におけるアバター間の衣料の移動 スカーフは,既存の方法よりも高い視覚品質で衣服を再構築し,身体の姿勢や体形が変化して衣料が変形し,異なる被写体のアバター間で衣服がうまく移動できることを実証する。 コードとモデルはhttps://github.com/yadiraf/scarfで入手できる。

While recent work has shown progress on extracting clothed 3D human avatars from a single image, video, or a set of 3D scans, several limitations remain. Most methods use a holistic representation to jointly model the body and clothing, which means that the clothing and body cannot be separated for applications like virtual try-on. Other methods separately model the body and clothing, but they require training from a large set of 3D clothed human meshes obtained from 3D/4D scanners or physics simulations. Our insight is that the body and clothing have different modeling requirements. While the body is well represented by a mesh-based parametric 3D model, implicit representations and neural radiance fields are better suited to capturing the large variety in shape and appearance present in clothing. Building on this insight, we propose SCARF (Segmented Clothed Avatar Radiance Field), a hybrid model combining a mesh-based body with a neural radiance field. Integrating the mesh into the volumetric rendering in combination with a differentiable rasterizer enables us to optimize SCARF directly from monocular videos, without any 3D supervision. The hybrid modeling enables SCARF to (i) animate the clothed body avatar by changing body poses (including hand articulation and facial expressions), (ii) synthesize novel views of the avatar, and (iii) transfer clothing between avatars in virtual try-on applications. We demonstrate that SCARF reconstructs clothing with higher visual quality than existing methods, that the clothing deforms with changing body pose and body shape, and that clothing can be successfully transferred between avatars of different subjects. The code and models are available at https://github.com/YadiraF/SCARF.
翻訳日:2022-10-06 14:56:36 公開日:2022-10-04
# ビデオフレーム補間のための知覚的品質基準

A Perceptual Quality Metric for Video Frame Interpolation ( http://arxiv.org/abs/2210.01879v1 )

ライセンス: Link先を確認
Qiqi Hou, Abhijay Ghildyal, Feng Liu(参考訳) 近年,映像フレーム補間の研究は大きな進歩を遂げている。 しかし、既存の手法では、時間を要するユーザスタディを採用するいくつかの方法を除いて、主に棚外のメトリクスを使用して補間結果の質を測定する。 映像フレーム補間結果がユニークなアーティファクトを示すことが多いため、既存の品質指標は補間結果を測定する際に人間の知覚と一致しない場合がある。 最近の深層学習に基づく知覚品質指標は、人間の判断とより整合性を示すが、時間的情報を考慮していないため、ビデオ上でのパフォーマンスは損なわれる。 本稿では,映像フレーム補間結果を測定するための知覚品質指標を提案する。 本手法は,個々のフレームではなく映像から直接知覚特徴を学習する。 ビデオフレームから抽出されたピラミッドの特徴を比較し、スウィントランスブロックベースの時空間モジュールを用いて時空間情報を抽出する。 測定基準をトレーニングするために,新しいビデオフレーム補間品質評価データセットを収集した。 実験では,映像フレーム補間結果の測定において,品質指標が最先端手法よりも優れていることを示す。 私たちのコードとモデルは、 \url{https://github.com/hqqxyy/VFIPS}で公開されています。

Research on video frame interpolation has made significant progress in recent years. However, existing methods mostly use off-the-shelf metrics to measure the quality of interpolation results with the exception of a few methods that employ user studies, which is time-consuming. As video frame interpolation results often exhibit unique artifacts, existing quality metrics sometimes are not consistent with human perception when measuring the interpolation results. Some recent deep learning-based perceptual quality metrics are shown more consistent with human judgments, but their performance on videos is compromised since they do not consider temporal information. In this paper, we present a dedicated perceptual quality metric for measuring video frame interpolation results. Our method learns perceptual features directly from videos instead of individual frames. It compares pyramid features extracted from video frames and employs Swin Transformer blocks-based spatio-temporal modules to extract spatio-temporal information. To train our metric, we collected a new video frame interpolation quality assessment dataset. Our experiments show that our dedicated quality metric outperforms state-of-the-art methods when measuring video frame interpolation results. Our code and model are made publicly available at \url{https://github.com/hqqxyy/VFIPS}.
翻訳日:2022-10-06 14:56:07 公開日:2022-10-04
# 自己管理型職業予測のための難読性レイキャスト

Dfferentiable Raycasting for Self-supervised Occupancy Forecasting ( http://arxiv.org/abs/2210.01917v1 )

ライセンス: Link先を確認
Tarasha Khurana, Peiyun Hu, Achal Dave, Jason ZIglar, David Held, Deva Ramanan(参考訳) 安全な自動運転のためのモーションプランニングには、エゴ車周りの環境が時間とともにどのように進化するかを学ぶ必要がある。 エゴ中心の場面での駆動可能な領域の知覚は、環境における俳優の動きとともに変化するだけでなく、エゴ車自体の運動によっても変化する。 ego中心の自由空間のような大規模計画のために提案された自己監督表現は、これら2つの動きを結合し、下流の運動プランナーに使用するのが困難である。 本稿では,自由空間のようなビュー依存表現の自然な代替手段として,幾何学的占有を用いる。 活動地図は自然にエゴ車の動きから環境の動きを遠ざけている。 しかし、シーンの3D占有率を直接観察することはできない(閉塞のため)ため、学習の信号としての使用は困難である。 我々の重要な洞察は、将来の占有予測を将来のlidarスイープ予測に「反映」するために微分可能なレイキャストを使用することです。 微分可能なレイキャスティングを使用することで、占有者は予測ネットワーク内の内部表現として現れる。 地中接点がない場合, レイキャストしたLiDARスイープの予測を定量的に評価し, 最大15F1点の改善を示した。 非駆動領域の誘導に創発的占有が直接使用できる下流運動プランナーの場合、この表現は自由空間中心の運動プランナーと比較して物体との衝突回数を最大17%減少させる。

Motion planning for safe autonomous driving requires learning how the environment around an ego-vehicle evolves with time. Ego-centric perception of driveable regions in a scene not only changes with the motion of actors in the environment, but also with the movement of the ego-vehicle itself. Self-supervised representations proposed for large-scale planning, such as ego-centric freespace, confound these two motions, making the representation difficult to use for downstream motion planners. In this paper, we use geometric occupancy as a natural alternative to view-dependent representations such as freespace. Occupancy maps naturally disentangle the motion of the environment from the motion of the ego-vehicle. However, one cannot directly observe the full 3D occupancy of a scene (due to occlusion), making it difficult to use as a signal for learning. Our key insight is to use differentiable raycasting to "render" future occupancy predictions into future LiDAR sweep predictions, which can be compared with ground-truth sweeps for self-supervised learning. The use of differentiable raycasting allows occupancy to emerge as an internal representation within the forecasting network. In the absence of groundtruth occupancy, we quantitatively evaluate the forecasting of raycasted LiDAR sweeps and show improvements of upto 15 F1 points. For downstream motion planners, where emergent occupancy can be directly used to guide non-driveable regions, this representation relatively reduces the number of collisions with objects by up to 17% as compared to freespace-centric motion planners.
翻訳日:2022-10-06 14:55:49 公開日:2022-10-04
# クラッタ環境における知覚を学習するアジャイルフライト

Learning Perception-Aware Agile Flight in Cluttered Environments ( http://arxiv.org/abs/2210.01841v1 )

ライセンス: Link先を確認
Yunlong Song, Kexin Shi, Robert Penicka, and Davide Scaramuzza(参考訳) 近年、ニューラルコントロールポリシは、散らばった環境を最小時間で自律的にナビゲートする既存のモデルベースプランニング・アンド・コントロール手法よりも優れています。 しかし、カメラの視野が限られており、四角子の性質が不活性化しているため、視覚ベースのナビゲーションにおける重要な要件は認識されていない。 乱雑な環境下での知覚に敏感で最小時間飛行を実現するニューラルネットワークポリシーを学習する手法を提案する。 本手法は,模擬学習と強化学習(RL)を組み合わせて,特権学習の枠組みを活用する。 rlを用いて,完全な状態情報を含む知覚認識型教師ポリシーを学習し,混乱した環境中を最小時間飛行する。 次に、模倣学習を用いて、その知識を、カメラを通して環境を知覚するだけの視覚ベースの学生ポリシーに絞り込む。 我々のアプローチは知覚と制御を密に結合し、計算速度(10倍)と成功率に大きな利点を示します。 本研究では, クローズドループ制御性能を最大50km/hの速さで実演する。

Recently, neural control policies have outperformed existing model-based planning-and-control methods for autonomously navigating quadrotors through cluttered environments in minimum time. However, they are not perception aware, a crucial requirement in vision-based navigation due to the camera's limited field of view and the underactuated nature of a quadrotor. We propose a method to learn neural network policies that achieve perception-aware, minimum-time flight in cluttered environments. Our method combines imitation learning and reinforcement learning (RL) by leveraging a privileged learning-by-cheating framework. Using RL, we first train a perception-aware teacher policy with full-state information to fly in minimum time through cluttered environments. Then, we use imitation learning to distill its knowledge into a vision-based student policy that only perceives the environment via a camera. Our approach tightly couples perception and control, showing a significant advantage in computation speed (10x faster) and success rate. We demonstrate the closed-loop control performance using a physical quadrotor and hardware-in-the-loop simulation at speeds up to 50km/h.
翻訳日:2022-10-06 14:45:52 公開日:2022-10-04
# コントラスト学習は概観不変関数の最適基底を見つけることができる

Contrastive Learning Can Find An Optimal Basis For Approximately View-Invariant Functions ( http://arxiv.org/abs/2210.01883v1 )

ライセンス: Link先を確認
Daniel D. Johnson, Ayoub El Hanchi, Chris J. Maddison(参考訳) コントラスト学習は、下流の教師付きタスクにうまく一般化する自己教師付き表現を学習するための強力なフレームワークである。 本稿では,複数の既存コントラスト学習手法を,固定正対カーネルを近似した学習カーネル関数として再解釈できることを示す。 次に、このカーネルとPCAを組み合わせることで得られる単純な表現が、正のペアが同様のラベルを持つという単純な仮定の下で、線形予測器の最悪のケース近似誤差を確実に最小化することを示す。 本解析は,正ペアマルコフ鎖の固有関数による対象関数の分解と,これらの固有関数とカーネルpcaの出力との驚くべき等価性に基づく。 我々は,Kernel PCA表現を用いた下流線形予測の一般化バウンダリを与え,比較学習モデルにKernel PCAを適用した一連の合成タスクに対して,その精度はカーネルパラメータ化と拡張強度に依存するが,マルコフ連鎖固有関数をほぼ復元することができることを実証的に示す。

Contrastive learning is a powerful framework for learning self-supervised representations that generalize well to downstream supervised tasks. We show that multiple existing contrastive learning methods can be reinterpreted as learning kernel functions that approximate a fixed positive-pair kernel. We then prove that a simple representation obtained by combining this kernel with PCA provably minimizes the worst-case approximation error of linear predictors, under a straightforward assumption that positive pairs have similar labels. Our analysis is based on a decomposition of the target function in terms of the eigenfunctions of a positive-pair Markov chain, and a surprising equivalence between these eigenfunctions and the output of Kernel PCA. We give generalization bounds for downstream linear prediction using our Kernel PCA representation, and show empirically on a set of synthetic tasks that applying Kernel PCA to contrastive learning models can indeed approximately recover the Markov chain eigenfunctions, although the accuracy depends on the kernel parameterization as well as on the augmentation strength.
翻訳日:2022-10-06 14:28:07 公開日:2022-10-04
# 再現可能なバンド

Reproducible Bandits ( http://arxiv.org/abs/2210.01898v1 )

ライセンス: Link先を確認
Hossein Esfandiari, Alkis Kalavasis, Amin Karbasi, Andreas Krause, Vahab Mirrokni, Grigoris Velegkas(参考訳) 本稿では,対話型学習における標準問題の一つとして,確率的バンディットの文脈における再現可能なポリシーの概念を紹介する。 バンディット環境におけるポリシーは、2つの異なる独立した実行(すなわち、独立報酬実現の下で)において、高い確率で \emph{exact} の同じ武器列を引くと再現可能と呼ばれる。 我々は、再現可能なポリシーが存在するだけでなく、時間軸の観点でほぼ同じ最適(非再現可能)の後悔の限界を達成することを示した。 より具体的には、確率的マルチアームバンディット設定において、再現性パラメータへの依存も最適である最適な問題依存リセット境界を持つポリシーを開発する。 同様に、確率線型包帯(有限かつ無限の腕を持つ)に対しては、再現可能性パラメータに最適な依存を持つ最もよく知られた問題非依存の後悔境界を達成する再現可能なポリシーを開発する。 以上の結果から,探索・探索のトレードオフにはランダム化が不可欠であるが,2つの異なる実行ラウンドで全く同じアームを引っ張りながら,最適なバランスが達成できることが示された。

In this paper, we introduce the notion of reproducible policies in the context of stochastic bandits, one of the canonical problems in interactive learning. A policy in the bandit environment is called reproducible if it pulls, with high probability, the \emph{exact} same sequence of arms in two different and independent executions (i.e., under independent reward realizations). We show that not only do reproducible policies exist, but also they achieve almost the same optimal (non-reproducible) regret bounds in terms of the time horizon. More specifically, in the stochastic multi-armed bandits setting, we develop a policy with an optimal problem-dependent regret bound whose dependence on the reproducibility parameter is also optimal. Similarly, for stochastic linear bandits (with finitely and infinitely many arms) we develop reproducible policies that achieve the best-known problem-independent regret bounds with an optimal dependency on the reproducibility parameter. Our results show that even though randomization is crucial for the exploration-exploitation trade-off, an optimal balance can still be achieved while pulling the exact same arms in two different rounds of executions.
翻訳日:2022-10-06 14:27:48 公開日:2022-10-04
# 極性符号化による欠落値の表現

Representing missing values through polar encoding ( http://arxiv.org/abs/2210.01905v1 )

ライセンス: Link先を確認
Oliver Urs Lenz, Daniel Peralta, Chris Cornelis(参考訳) 本研究では, 欠落値の分布にエンコードされた情報を保存し, 欠落値を持つ, カテゴリーと数値の$[0,1]$-valued属性の表現である極性符号化を提案する。 既存の欠落指示子アプローチとは異なり、これはインプテーションを必要としない。 私たちは3つの異なる議論で提案を支持します。 第一に、極符号化は、欠落した値がすべての非欠落値から同値であることを保証する。 第二に、極性符号化により、決定木は値の分割方法を選択することができ、属性(MIA)に組み込まれた欠落を現実的に実現することができる。 最後に、極性符号化は、従来のバリ中心座標に基づく新しい概念であるバリ中心属性と見なすと、カテゴリー的および$[0,1]$値属性の正規化表現に対応する。 特に, 偏心属性はファジィ化された分類属性であり, 正規化表現は1ホット符号化を一般化し, $[0, 1]$値属性の極符号化は2値属性の1ホット符号化と類似していることを示す。 実生活における20個のデータ集合の欠落値に基づく実験により, 極性符号化は, 結果の分類性能の点で, 欠落指標法と同等かそれ以上の性能を示す。

We propose polar encoding, a representation of categorical and numerical $[0,1]$-valued attributes with missing values that preserves the information encoded in the distribution of the missing values. Unlike the existing missing-indicator approach, this does not require imputation. We support our proposal with three different arguments. Firstly, polar encoding ensures that missing values become equidistant from all non-missing values by mapping the latter onto the unit circle. Secondly, polar encoding lets decision trees choose how missing values should be split, providing a practical realisation of the missingness incorporated in attributes (MIA) proposal. And lastly, polar encoding corresponds to the normalised representation of categorical and $[0,1]$-valued attributes when viewed as barycentric attributes, a new concept based on traditional barycentric coordinates. In particular, we show that barycentric attributes are fuzzified categorical attributes, that their normalised representation generalises one-hot encoding, and that the polar encoding of $[0, 1]$-valued attributes is analogous to the one-hot encoding of binary attributes. With an experiment based on twenty real-life datasets with missing values, we show that polar encoding performs about as well or better than the missing-indicator approach in terms of the resulting classification performance.
翻訳日:2022-10-06 14:27:29 公開日:2022-10-04
# 弾性曲線の形状空間における回帰に基づく弾性計量学習

Regression-Based Elastic Metric Learning on Shape Spaces of Elastic Curves ( http://arxiv.org/abs/2210.01932v1 )

ライセンス: Link先を確認
Adele Myers and Nina Miolane(参考訳) 離散曲線多様体上の多様体回帰に対する弾性計量を最適化する新しい計量学習パラダイムである回帰に基づく弾性計量学習(reml)を提案する。 本手法は,「理想」計量が軌道依存であることを認識し,曲線の軌跡に適応する回帰改善の機会を創出する。 細胞形状軌道でテストすると、remlの学習されたメトリックは、従来の四角根速度srvメトリックよりも適切な回帰を生成する。

We propose a new metric learning paradigm, Regression-based Elastic Metric Learning (REML), which optimizes the elastic metric for manifold regression on the manifold of discrete curves. Our method recognizes that the "ideal" metric is trajectory-dependent and thus creates an opportunity for improved regression fit on trajectories of curves. When tested on cell shape trajectories, REML's learned metric generates a better regression fit than the conventionally used square-root-velocity SRV metric.
翻訳日:2022-10-06 14:27:00 公開日:2022-10-04
# cfl-net: コントラスト学習を用いた画像偽造定位

CFL-Net: Image Forgery Localization Using Contrastive Learning ( http://arxiv.org/abs/2210.02182v1 )

ライセンス: Link先を確認
Fahim Faisal Niloy, Kishor Kumar Bhaumik, Simon S. Woo(参考訳) 従来の偽造ローカライズ手法は通常、jpegアーティファクト、エッジの不整合、カメラノイズなどの異なる偽造フットプリントに依存し、クロスエントロピー損失により操作された領域を特定する。 しかし、これらの手法は過剰フィッティングの欠点があり、特定の偽造の足跡にのみ焦点を合わせている。 一方で、実際の操作された画像は、様々な偽造操作によって生成されるため、様々な偽造の足跡を残している。 したがって,様々な偽造条件にうまく対応できる画像偽造ローカライズに対して,より汎用的なアプローチが必要である。 基礎となる鍛造領域のローカライゼーションにおける重要な前提は、偽造型に関係なく、各鍛造画像サンプルにおいて、改ざんされた領域と操作された領域の特徴分布の相違が残っていることである。 本稿では,この特徴分布の差を利用して画像のフォージェリローカライゼーションを支援することを目的とする。 具体的には、対比損失を用いて、各画像に対してアンスタンプ領域と操作領域間の特徴をうまく分離した特徴空間へのマッピングを学ぶ。 また,forgery型に関する事前知識や仮定を必要とせず,操作された領域を局所化する利点がある。 我々は,3つのベンチマーク画像操作データセットにおいて,既存の手法よりも優れていることを示す。 コードはhttps://github.com/niloy193/CFLNetで入手できる。

Conventional forgery localizing methods usually rely on different forgery footprints such as JPEG artifacts, edge inconsistency, camera noise, etc., with cross-entropy loss to locate manipulated regions. However, these methods have the disadvantage of over-fitting and focusing on only a few specific forgery footprints. On the other hand, real-life manipulated images are generated via a wide variety of forgery operations and thus, leave behind a wide variety of forgery footprints. Therefore, we need a more general approach for image forgery localization that can work well on a variety of forgery conditions. A key assumption in underlying forged region localization is that there remains a difference of feature distribution between untampered and manipulated regions in each forged image sample, irrespective of the forgery type. In this paper, we aim to leverage this difference of feature distribution to aid in image forgery localization. Specifically, we use contrastive loss to learn mapping into a feature space where the features between untampered and manipulated regions are well-separated for each image. Also, our method has the advantage of localizing manipulated region without requiring any prior knowledge or assumption about the forgery type. We demonstrate that our work outperforms several existing methods on three benchmark image manipulation datasets. Code is available at https://github.com/niloy193/CFLNet.
翻訳日:2022-10-06 14:08:55 公開日:2022-10-04
# MOAT: モバイルの進化と注意の代替が強力なビジョンモデルをもたらす

MOAT: Alternating Mobile Convolution and Attention Brings Strong Vision Models ( http://arxiv.org/abs/2210.01820v1 )

ライセンス: Link先を確認
Chenglin Yang, Siyuan Qiao, Qihang Yu, Xiaoding Yuan, Yukun Zhu, Alan Yuille, Hartwig Adam, Liang-Chieh Chen(参考訳) 本稿では、モビレ畳み込み(すなわち逆残差ブロック)とアテンションの上に構築されるニューラルネットワークのファミリーであるMOATについて述べる。 モバイルの畳み込みとトランスフォーマーブロックを分離する現在の作業とは異なり、効果的にMOATブロックにマージします。 標準のTransformerブロックから始め、マルチ層パーセプトロンを移動式畳み込みブロックに置き換え、自己注意操作の前にさらに並べ替える。 モバイル畳み込みブロックは、ネットワーク表現能力を向上させるだけでなく、より優れたダウンサンプリング機能を生み出す。 概念的には単純なMOATネットワークは驚くほど有効であり、ImageNet-22KプリトレーニングでImageNet-1Kで89.1%の精度を実現している。 さらに、MOATは、グローバルアテンションをウィンドウアテンションに変換するだけで、大規模な解像度入力を必要とするダウンストリームタスクにシームレスに適用できる。 ピクセル間のローカル情報(つまりクロスウィンドウ)を効果的に交換するモバイル畳み込みのおかげで、moatは追加のウィンドウシフト機構を必要としない。 その結果、COCOオブジェクト検出では、227Mモデルパラメータを持つ59.2%のボックスAP(シングルスケール推論とハードNMS)を獲得し、ADE20Kセマンティックセグメンテーションでは、496Mモデルパラメータを持つ57.6%のmIoUを達成した。 最後に、チャンネルサイズを単純に減らした小さなMOATファミリは、ImageNet上でモバイル固有のトランスフォーマーベースのモデルよりも驚くほど優れています。 シンプルで効果的なMOATが、畳み込みと自己意識のよりシームレスな統合を促すことを願っています。 コードは公開されている。

This paper presents MOAT, a family of neural networks that build on top of MObile convolution (i.e., inverted residual blocks) and ATtention. Unlike the current works that stack separate mobile convolution and transformer blocks, we effectively merge them into a MOAT block. Starting with a standard Transformer block, we replace its multi-layer perceptron with a mobile convolution block, and further reorder it before the self-attention operation. The mobile convolution block not only enhances the network representation capacity, but also produces better downsampled features. Our conceptually simple MOAT networks are surprisingly effective, achieving 89.1% top-1 accuracy on ImageNet-1K with ImageNet-22K pretraining. Additionally, MOAT can be seamlessly applied to downstream tasks that require large resolution inputs by simply converting the global attention to window attention. Thanks to the mobile convolution that effectively exchanges local information between pixels (and thus cross-windows), MOAT does not need the extra window-shifting mechanism. As a result, on COCO object detection, MOAT achieves 59.2% box AP with 227M model parameters (single-scale inference, and hard NMS), and on ADE20K semantic segmentation, MOAT attains 57.6% mIoU with 496M model parameters (single-scale inference). Finally, the tiny-MOAT family, obtained by simply reducing the channel sizes, also surprisingly outperforms several mobile-specific transformer-based models on ImageNet. We hope our simple yet effective MOAT will inspire more seamless integration of convolution and self-attention. Code is made publicly available.
翻訳日:2022-10-06 14:03:08 公開日:2022-10-04
# 室内シーンにおけるセマンティックセグメンテーションのための自己指導型プレトレーニング

Self-supervised Pre-training for Semantic Segmentation in an Indoor Scene ( http://arxiv.org/abs/2210.01884v1 )

ライセンス: Link先を確認
Sulabh Shrestha, Yimeng Li, Jana Kosecka(参考訳) 屋内シーンの地図に意味情報を与える能力は、ターゲット駆動ナビゲーション、オブジェクト探索、オブジェクト再構成といった様々なタスクを実行するロボットエージェントの不可欠な部分である。 最先端の手法では、Deep Convolutional Neural Networks(DCNN)を使用して、画像の意味的セグメンテーションをこれらのタスクに有用な表現として予測する。 セマンティクスのセグメンテーションの正確性は、ターゲット環境からのラベル付きデータの可用性と量、あるいはテスト環境とトレーニング環境の間のドメイン間ギャップを埋める能力に依存する。 本稿では,セマンティックセグメンテーションモデルの自己教師型事前学習手法であるRegConsistを提案する。 画素レベルのデータアソシエーションに使用される空間的・時間的一貫性を考慮し,対象環境におけるRGBビューからのセマンティックセグメンテーションを予測するためのDCNNモデルを訓練するために,コントラスト学習の変種を用いる。 提案手法はimagenetで事前トレーニングされたモデルよりも優れており、全く同じタスクに対して異なるデータセットでトレーニングされたモデルを使用する場合の競合性能を実現する。 また,提案手法の有効性を解析・実証するために,様々なアブレーション研究を行った。

The ability to endow maps of indoor scenes with semantic information is an integral part of robotic agents which perform different tasks such as target driven navigation, object search or object rearrangement. The state-of-the-art methods use Deep Convolutional Neural Networks (DCNNs) for predicting semantic segmentation of an image as useful representation for these tasks. The accuracy of semantic segmentation depends on the availability and the amount of labeled data from the target environment or the ability to bridge the domain gap between test and training environment. We propose RegConsist, a method for self-supervised pre-training of a semantic segmentation model, exploiting the ability of the agent to move and register multiple views in the novel environment. Given the spatial and temporal consistency cues used for pixel level data association, we use a variant of contrastive learning to train a DCNN model for predicting semantic segmentation from RGB views in the target environment. The proposed method outperforms models pre-trained on ImageNet and achieves competitive performance when using models that are trained for exactly the same task but on a different dataset. We also perform various ablation studies to analyze and demonstrate the efficacy of our proposed method.
翻訳日:2022-10-06 14:02:35 公開日:2022-10-04
# パズル作品の収集:テクスチャの交換による不連続な自己駆動型人間のポーズ伝達

Collecting The Puzzle Pieces: Disentangled Self-Driven Human Pose Transfer by Permuting Textures ( http://arxiv.org/abs/2210.01887v1 )

ライセンス: Link先を確認
Nannan Li, Kevin J. Shih, Bryan A. Plummer(参考訳) 人間のポーズ転送は、所定のポーズの下で人の新しい視点を合成することを目的としています。 近年の研究では、人物像からポーズとテクスチャの特徴を区別し、2つの特徴を組み合わせる自己再構成によってこれを実現している。 このような機能レベルの絡み合いは困難で不明確な問題であり、詳細や不要なアーティファクトが失われる可能性がある。 本稿では,ランダムにテクスチャを置換し,画像レベルの不連続と細部保存テクスチャ転送を実現するために,二枝注意で画像を再構成する自己駆動型ポーズ伝達法を提案する。 特徴レベルのゆがみと比較して、画像レベルのゆがみはより制御可能で信頼性が高い。 さらに, 知覚場の大きさの異なる2重カーネルエンコーダを導入し, 順応によるノイズを低減し, ポーズやテクスチャを調整しながら衣料品の細部を復元する。 deepfashionとmarket-1501に関する広範な実験により,fid,lpip,ssimを用いて生成した画像の品質を,他の自己駆動型手法よりも向上させるとともに,教師付き手法を上回ることも示された。 ユーザスタディでは, 自己駆動型アプローチでは, 従来の作業よりも72%のケースで生成した画像が好まれている。

Human pose transfer aims to synthesize a new view of a person under a given pose. Recent works achieve this via self-reconstruction, which disentangles pose and texture features from the person image, then combines the two features to reconstruct the person. Such feature-level disentanglement is a difficult and ill-defined problem that could lead to loss of details and unwanted artifacts. In this paper, we propose a self-driven human pose transfer method that permutes the textures at random, then reconstructs the image with a dual branch attention to achieve image-level disentanglement and detail-preserving texture transfer. We find that compared with feature-level disentanglement, image-level disentanglement is more controllable and reliable. Furthermore, we introduce a dual kernel encoder that gives different sizes of receptive fields in order to reduce the noise caused by permutation and thus recover clothing details while aligning pose and textures. Extensive experiments on DeepFashion and Market-1501 shows that our model improves the quality of generated images in terms of FID, LPIPS and SSIM over other self-driven methods, and even outperforming some fully-supervised methods. A user study also shows that among self-driven approaches, images generated by our method are preferred in 72% of cases over prior work.
翻訳日:2022-10-06 14:02:12 公開日:2022-10-04
# 抽象要約における忠実性向上に向けて

Towards Improving Faithfulness in Abstractive Summarization ( http://arxiv.org/abs/2210.01877v1 )

ライセンス: Link先を確認
Xiuying Chen, Mingzhe Li, Xin Gao, Xiangliang Zhang(参考訳) 事前訓練された言語モデルに基づく神経抽象的要約の成功にもかかわらず、未解決の問題は、生成された要約が入力文書に常に忠実であるとは限らないことである。 不適切な問題の原因は2つある:(1)要約モデルは入力テキストの要点を理解したり捉えたりできなかったり、(2)言語モデル上で過度に応答して不適切な単語を生成する。 本研究では、これらの2つの問題に対処し、抽象的な要約における忠実性を改善するために設計されたFES(Fithfulness Enhanced Summarization model)を提案する。 最初の問題として,エンコーダが入力文書を十分に把握し,入力のキー情報に関する質問に答えられるかどうかを調べるために質問回答(QA)を提案する。 適切な入力語に対するQAの注意は、デコーダがソースにどのように参加すべきかを規定するためにも使用できる。 2つ目の問題として,言語モデルと要約モデルの違いに基づいて,言語モデルの過度な信頼を抑えるために,最大マージン損失を導入する。 CNN/DMとXSumの2つのベンチマーク要約データセットに対する大規模な実験により、我々のモデルは強いベースラインを著しく上回ることを示した。 事実整合性の評価は,本モデルがベースラインよりも忠実な要約を生成することを示している。

Despite the success achieved in neural abstractive summarization based on pre-trained language models, one unresolved issue is that the generated summaries are not always faithful to the input document. There are two possible causes of the unfaithfulness problem: (1) the summarization model fails to understand or capture the gist of the input text, and (2) the model over-relies on the language model to generate fluent but inadequate words. In this work, we propose a Faithfulness Enhanced Summarization model (FES), which is designed for addressing these two problems and improving faithfulness in abstractive summarization. For the first problem, we propose to use question-answering (QA) to examine whether the encoder fully grasps the input document and can answer the questions on the key information in the input. The QA attention on the proper input words can also be used to stipulate how the decoder should attend to the source. For the second problem, we introduce a max-margin loss defined on the difference between the language and the summarization model, aiming to prevent the overconfidence of the language model. Extensive experiments on two benchmark summarization datasets, CNN/DM and XSum, demonstrate that our model significantly outperforms strong baselines. The evaluation of factual consistency also shows that our model generates more faithful summaries than baselines.
翻訳日:2022-10-06 13:52:35 公開日:2022-10-04
# 胸部X線写真を用いたCOVID-19分類作業のための汎用人工知能モデル:15,097例の臨床データを用いた評価

A Generalizable Artificial Intelligence Model for COVID-19 Classification Task Using Chest X-ray Radiographs: Evaluated Over Four Clinical Datasets with 15,097 Patients ( http://arxiv.org/abs/2210.02189v1 )

ライセンス: Link先を確認
Ran Zhang, Xin Tie, John W. Garrett, Dalton Griner, Zhihua Qi, Nicholas B. Bevins, Scott B. Reeder and Guang-Hong Chen(参考訳) 目的: 1つの臨床現場から訓練されたモデルが外部サイトに一般化できるかどうかという長年の疑問に答えること。 材料と方法:3,264人の新型コロナウイルス陽性患者と4,802人の新型コロナウイルス陰性患者から17,537個の胸部X線写真(CXR)を収集した。 15,097例(3,277 COVID-19陽性)のCXRの合計26,633例の4つの臨床データセットを用いて、トレーニングモデルの一般化性を評価した。 診断性能の評価には受信機動作特性曲線(auc)の下の領域を用いた。 結果: 単一ソースの臨床データセットを用いてトレーニングしたAIモデルは、内部時間テストセットに適用した場合、AUCが0.82(95% CI: 0.80, 0.84)に達した。 2つの臨床施設のデータセットに適用すると、AUCは0.81(95% CI: 0.80, 0.82)と0.82(95% CI: 0.80, 0.84)である。 auc 0.79 (95% ci: 0.77, 0.81) を医療画像・データ資源センター(midrc)が収集した多施設のcovid-19データセットに適用した。 パワーロー依存 n^(k )(k は経験的に -0.21 から -0.25 と示される)は、トレーニングデータサイズに比較的弱いパフォーマンス依存を示す。 結論: 1つの臨床現場から正確なデータを用いて訓練された新型コロナウイルス分類AIモデルは、パフォーマンスが著しく低下することなく、外部臨床現場に一般化可能である。

Purpose: To answer the long-standing question of whether a model trained from a single clinical site can be generalized to external sites. Materials and Methods: 17,537 chest x-ray radiographs (CXRs) from 3,264 COVID-19-positive patients and 4,802 COVID-19-negative patients were collected from a single site for AI model development. The generalizability of the trained model was retrospectively evaluated using four different real-world clinical datasets with a total of 26,633 CXRs from 15,097 patients (3,277 COVID-19-positive patients). The area under the receiver operating characteristic curve (AUC) was used to assess diagnostic performance. Results: The AI model trained using a single-source clinical dataset achieved an AUC of 0.82 (95% CI: 0.80, 0.84) when applied to the internal temporal test set. When applied to datasets from two external clinical sites, an AUC of 0.81 (95% CI: 0.80, 0.82) and 0.82 (95% CI: 0.80, 0.84) were achieved. An AUC of 0.79 (95% CI: 0.77, 0.81) was achieved when applied to a multi-institutional COVID-19 dataset collected by the Medical Imaging and Data Resource Center (MIDRC). A power-law dependence, N^(k )(k is empirically found to be -0.21 to -0.25), indicates a relatively weak performance dependence on the training data sizes. Conclusion: COVID-19 classification AI model trained using well-curated data from a single clinical site is generalizable to external clinical sites without a significant drop in performance.
翻訳日:2022-10-06 13:42:57 公開日:2022-10-04
# ゼロサムマルコフゲームのためのセルフプレイ後続サンプリングアルゴリズム

A Self-Play Posterior Sampling Algorithm for Zero-Sum Markov Games ( http://arxiv.org/abs/2210.01907v1 )

ライセンス: Link先を確認
Wei Xiong, Han Zhong, Chengshuai Shi, Cong Shen, Tong Zhang(参考訳) マルコフゲーム(MG)の証明可能な効率的なアルゴリズムに関する研究は、ほぼ独占的に「不確実性に直面した最適化」(OFU)原理に基づいている。 本研究は,多くのバンドイットや強化学習設定で祝われる後方サンプリングの異なるアプローチに焦点をあてるが,MGには未探索のままである。 具体的には, 2-player 0-sum MG に対して, 一般関数近似を用いた新しい後方サンプリングアルゴリズムを開発した。 理論的解析により、後方サンプリングアルゴリズムは、mgsの新しい複雑性尺度である低マルチエージェントデカップリング係数の問題に対して、$\sqrt{t}$-regretバインドを認め、$t$はエピソード数を表す。 線形MGに特化すると、得られた後悔境界は最先端の結果と一致する。 我々の知る限り、このアルゴリズムはMGのためのツールボックスを充実させ、後方サンプリングの幅広い適用性を促進する、頻繁な後悔の保証を持つMGに対する最初の証明可能な効率の良い後方サンプリングアルゴリズムである。

Existing studies on provably efficient algorithms for Markov games (MGs) almost exclusively build on the "optimism in the face of uncertainty" (OFU) principle. This work focuses on a different approach of posterior sampling, which is celebrated in many bandits and reinforcement learning settings but remains under-explored for MGs. Specifically, for episodic two-player zero-sum MGs, a novel posterior sampling algorithm is developed with general function approximation. Theoretical analysis demonstrates that the posterior sampling algorithm admits a $\sqrt{T}$-regret bound for problems with a low multi-agent decoupling coefficient, which is a new complexity measure for MGs, where $T$ denotes the number of episodes. When specialized to linear MGs, the obtained regret bound matches the state-of-the-art results. To the best of our knowledge, this is the first provably efficient posterior sampling algorithm for MGs with frequentist regret guarantees, which enriches the toolbox for MGs and promotes the broad applicability of posterior sampling.
翻訳日:2022-10-06 13:34:58 公開日:2022-10-04
# 深部クラスタリングモデルのロバスト性について:敵攻撃と防御

On the Robustness of Deep Clustering Models: Adversarial Attacks and Defenses ( http://arxiv.org/abs/2210.01940v1 )

ライセンス: Link先を確認
Anshuman Chhabra, Ashwin Sekhari, Prasant Mohapatra(参考訳) クラスタリングモデルは、多数のアプリケーションパイプラインで使用される教師なし機械学習メソッドのクラスを構成し、現代のデータサイエンスにおいて重要な役割を果たす。 ディープラーニングの最近の進歩により、深層クラスタリングモデルは従来のクラスタリングアプローチ、特に高次元画像データセットよりも最先端のものとして登場してきた。 従来のクラスタリングアプローチはロバストネスの観点から分析されてきたが,従来の研究では,深いクラスタリングモデルに対する敵攻撃やロバストネスを原則的に検討することはなかった。 このギャップを埋めるために,敵がどのディープクラスタリングモデルを使っているのかを知らないが,出力にクエリできるgan(generative adversarial networks)を用いたブラックボックス攻撃を提案する。 我々は,最先端のディープクラスタリングモデルと実世界のデータセットに対する攻撃を分析し,その成功を見出す。 その後、我々は、自然に監視されていない防御アプローチを採用するが、これらが我々の攻撃を緩和できないことに気付く。 最後に、プロダクションレベルの顔クラスタリングAPIサービスであるFace++を攻撃し、パフォーマンスも大幅に削減できることがわかった。 この作業を通じて、真に堅牢なディープクラスタリングモデルの必要性を動機付けることを目標としています。

Clustering models constitute a class of unsupervised machine learning methods which are used in a number of application pipelines, and play a vital role in modern data science. With recent advancements in deep learning -- deep clustering models have emerged as the current state-of-the-art over traditional clustering approaches, especially for high-dimensional image datasets. While traditional clustering approaches have been analyzed from a robustness perspective, no prior work has investigated adversarial attacks and robustness for deep clustering models in a principled manner. To bridge this gap, we propose a blackbox attack using Generative Adversarial Networks (GANs) where the adversary does not know which deep clustering model is being used, but can query it for outputs. We analyze our attack against multiple state-of-the-art deep clustering models and real-world datasets, and find that it is highly successful. We then employ some natural unsupervised defense approaches, but find that these are unable to mitigate our attack. Finally, we attack Face++, a production-level face clustering API service, and find that we can significantly reduce its performance as well. Through this work, we thus aim to motivate the need for truly robust deep clustering models.
翻訳日:2022-10-06 13:34:40 公開日:2022-10-04
# IGNiteR:マイクロブログアプリケーションにおけるニュースレコメンデーション(拡張版)

IGNiteR: News Recommendation in Microblogging Applications (Extended Version) ( http://arxiv.org/abs/2210.01942v1 )

ライセンス: Link先を確認
Yuting Feng, Bogdan Cautis(参考訳) ニュースレコメンデーション(ニュースレコメンデーション)は、レコメンデーションシステムにおいて最も困難なタスクの1つであり、主にユーザーにニュースが短命に関連しているためである。 ソーシャルメディア、特にTwitterやWeiboのようなマイクロブログアプリケーションがニュース配信プラットフォームとして人気を集めている中、パーソナライズされたニュースレコメンデーションがこの状況で重要な課題となっている。 我々は,マイクロブログシナリオにおけるニュースレコメンデーションを再検討し,基礎となるネットワーク内でレコメンデーションに必要な情報がどのように拡散するかを追跡するソーシャルインタラクションと観察を考察する。 本稿では,インフルエンスグラフニュースレコメンダ(IGNiteR)と呼ばれる,拡散と影響を意識したディープラーニングに基づくアプローチを提案する。 コンテンツベースのディープリコメンデーションモデルであり、導入決定に影響を及ぼす可能性のあるすべてのデータファセット(セマンティクス、ユーザ間の局所的およびグローバル的影響に関連する拡散関連機能、時間的魅力、タイムライン、動的ユーザの好みなど)を共同で活用する。 ニュースを表現するために、マルチレベルアテンションベースのエンコーダを使用して、ユーザの異なる関心事を明らかにする。 このニュースエンコーダは、ニュースコンテンツのCNNと拡散トレースの注意深いLSTMに依存している。 後者は、マイクロブロッギング媒体で以前に観測されたニュース拡散(カスケード)を利用して、利用者を潜伏空間にマッピングし、他者への潜在的な影響や、ニュース導入に影響を及ぼす恐れを捉えている。 同様に、時間に敏感なユーザエンコーダは、注意に基づく双方向LSTMを用いて、ユーザの動的嗜好をキャプチャできる。 実世界の2つのデータセットに対して広範な実験を行い、IGNiteRが最先端のディープラーニングベースのニュースレコメンデーション手法より優れていることを示す。

News recommendation is one of the most challenging tasks in recommender systems, mainly due to the ephemeral relevance of news to users. As social media, and particularly microblogging applications like Twitter or Weibo, gains popularity as platforms for news dissemination, personalized news recommendation in this context becomes a significant challenge. We revisit news recommendation in the microblogging scenario, by taking into consideration social interactions and observations tracing how the information that is up for recommendation spreads in an underlying network. We propose a deep-learning based approach that is diffusion and influence-aware, called Influence-Graph News Recommender (IGNiteR). It is a content-based deep recommendation model that jointly exploits all the data facets that may impact adoption decisions, namely semantics, diffusion-related features pertaining to local and global influence among users, temporal attractiveness, and timeliness, as well as dynamic user preferences. To represent the news, a multi-level attention-based encoder is used to reveal the different interests of users. This news encoder relies on a CNN for the news content and on an attentive LSTM for the diffusion traces. For the latter, by exploiting previously observed news diffusions (cascades) in the microblogging medium, users are mapped to a latent space that captures potential influence on others or susceptibility of being influenced for news adoptions. Similarly, a time-sensitive user encoder enables us to capture the dynamic preferences of users with an attention-based bidirectional LSTM. We perform extensive experiments on two real-world datasets, showing that IGNiteR outperforms the state-of-the-art deep-learning based news recommendation methods.
翻訳日:2022-10-06 13:34:19 公開日:2022-10-04
# AdaWAC : 容積医用画像分割のための適応重み付き拡張整合規則化

AdaWAC: Adaptively Weighted Augmentation Consistency Regularization for Volumetric Medical Image Segmentation ( http://arxiv.org/abs/2210.01891v1 )

ライセンス: Link先を確認
Yijun Dong, Yuege Xie, Rachel Ward(参考訳) サンプルの重み付けは、サブ集団の混合から来るトレーニングデータから学習するための効果的な戦略である。 ボリューム画像分割では、データ入力も同様に分散されるが、関連するデータラベルは、ボリュームスキャンの開始/終了付近にデータイメージが発生するか、あるいはその中間に発生するかによって、2つのサブポピュレーション("label-sparse"と"label-dense")に分類される。 既存の重み付けアルゴリズムは、ラベルスパースデータのハードとソフトの閾値付けに重点を置いており、その結果、貴重なデータ入力を破棄することで、情報の損失とサンプル効率の低下をもたらす。 そこで我々は,AdaWACを適応重み付けアルゴリズムとして提案し,学習対象のサドルポイントにおいて,ラベル密度サンプルを教師付きクロスエントロピー損失,ラベルスパースサンプルを教師なし整合正則化に割り当てる。 我々は,AdaWACに対して,サドル点問題に対するオンラインミラー降下として最適化を再キャストすることで収束を保証する。 さらに,AdaWACはセグメンテーション性能とサンプル効率を向上するだけでなく,ラベルのサブポピュレーションシフトに対するロバスト性も向上することを示した。

Sample reweighting is an effective strategy for learning from training data coming from a mixture of subpopulations. In volumetric medical image segmentation, the data inputs are similarly distributed, but the associated data labels fall into two subpopulations -- "label-sparse" and "label-dense" -- depending on whether the data image occurs near the beginning/end of the volumetric scan or the middle. Existing reweighting algorithms have focused on hard- and soft- thresholding of the label-sparse data, which results in loss of information and reduced sample efficiency by discarding valuable data input. For this setting, we propose AdaWAC as an adaptive weighting algorithm that introduces a set of trainable weights which, at the saddle point of the underlying objective, assigns label-dense samples to supervised cross-entropy loss and label-sparse samples to unsupervised consistency regularization. We provide a convergence guarantee for AdaWAC by recasting the optimization as online mirror descent on a saddle point problem. Moreover, we empirically demonstrate that AdaWAC not only enhances segmentation performance and sample efficiency but also improves robustness to the subpopulation shift in labels.
翻訳日:2022-10-06 13:27:04 公開日:2022-10-04
# 文脈類似性最適化による検索のための教師付きメトリック学習

Supervised Metric Learning for Retrieval via Contextual Similarity Optimization ( http://arxiv.org/abs/2210.01908v1 )

ライセンス: Link先を確認
Christopher Liao, Theodoros Tsiligkaridis, Brian Kulis(参考訳) 既存のメトリクス学習アプローチは、コントラスト学習、平均精度(AP)最大化、分類の3つの一般的なカテゴリに分類される。 本稿では、教師なしメトリック学習の研究に触発された新しい代替手法である「emph{contextual similarity Optimization」を提案する。 文脈的類似性は、近傍集合間の関係に基づく離散的類似性測度であり、教師なし設定において擬似スーパービジョンとして広く使われている。 この成功に触発されて、コンテキストとコサインの類似点の組み合わせを最適化するフレームワークを提案する。 文脈的類似性計算は、ヘビーサイド関数や集合の交叉を含むいくつかの非微分演算を含む。 文脈的類似性を明示的に最適化するために非微分可能性を回避する方法を示し、さらに、新しいメトリック学習損失を得るための適切な類似性規則化を組み込む。 その結果得られた損失関数は、標準的なコントラスト損失と組み合わせると、標準的な教師付き画像検索ベンチマークで最先端のリコール@1精度を達成する。 コードはここでリリースされる。 \url{https://github.com/chris210634/metric-learning-using-contextual- similarity}

Existing deep metric learning approaches fall into three general categories: contrastive learning, average precision (AP) maximization, and classification. We propose a novel alternative approach, \emph{contextual similarity optimization}, inspired by work in unsupervised metric learning. Contextual similarity is a discrete similarity measure based on relationships between neighborhood sets, and is widely used in the unsupervised setting as pseudo-supervision. Inspired by this success, we propose a framework which optimizes \emph{a combination of contextual and cosine similarities}. Contextual similarity calculation involves several non-differentiable operations, including the heaviside function and intersection of sets. We show how to circumvent non-differentiability to explicitly optimize contextual similarity, and we further incorporate appropriate similarity regularization to yield our novel metric learning loss. The resulting loss function achieves state-of-the-art Recall @ 1 accuracy on standard supervised image retrieval benchmarks when combined with the standard contrastive loss. Code is released here: \url{https://github.com/Chris210634/metric-learning-using-contextual-similarity}
翻訳日:2022-10-06 13:26:35 公開日:2022-10-04
# フェデレーション学習におけるモデル集約のためのドメイン不一致認識

Domain Discrepancy Aware Distillation for Model Aggregation in Federated Learning ( http://arxiv.org/abs/2210.02190v1 )

ライセンス: Link先を確認
Shangchao Su and Bin Li and Xiangyang Xue(参考訳) 近年,連合学習のためのサーバ上でのモデル集約方法として,知識蒸留が普及している。 一般に、サーバー上には公開されていないデータが豊富にあると仮定される。 しかし、実際には、サーバドメインのデータセットとクライアントドメインの間にドメインの相違があり、これは知識蒸留の性能を制限します。 このようなドメインの不一致設定下でのアグリゲーションの改善方法はまだ未解決の問題である。 本稿では,まず,クライアントドメインの知識蒸留から生成された集約モデルの一般化バウンダリを解析し,サーバ間差分とクライアント間差分という2つの課題について述べる。 そこで本研究では,領域差を考慮した蒸留に基づく適応的知識集約アルゴリズムFedD3Aを提案する。 FedD3AはFLの各ラウンドのサンプルレベルで適応重み付けを行う。 サーバドメインの各サンプルについて、教師の役割を演じるために、同様のドメインのクライアントモデルのみが選択されます。 これを実現するために,サーバサイドサンプルとクライアントドメインの差を,クライアントの生データにアクセスせずに各クライアントで計算した部分空間投影行列を用いて大まかに測定できることを示す。 これにより、サーバは複数のクライアントからのプロジェクション行列を利用して、サーバ側のサンプルごとに対応する教師モデルに重みを割り当てることができる。 我々はFedD3Aを2つの一般的なクロスドメインデータセットで検証し、クロスサイロとクロスデバイス両方のFL設定で比較した競合よりも優れていることを示す。

Knowledge distillation has recently become popular as a method of model aggregation on the server for federated learning. It is generally assumed that there are abundant public unlabeled data on the server. However, in reality, there exists a domain discrepancy between the datasets of the server domain and a client domain, which limits the performance of knowledge distillation. How to improve the aggregation under such a domain discrepancy setting is still an open problem. In this paper, we first analyze the generalization bound of the aggregation model produced from knowledge distillation for the client domains, and then describe two challenges, server-to-client discrepancy and client-to-client discrepancy, brought to the aggregation model by the domain discrepancies. Following our analysis, we propose an adaptive knowledge aggregation algorithm FedD3A based on domain discrepancy aware distillation to lower the bound. FedD3A performs adaptive weighting at the sample level in each round of FL. For each sample in the server domain, only the client models of its similar domains will be selected for playing the teacher role. To achieve this, we show that the discrepancy between the server-side sample and the client domain can be approximately measured using a subspace projection matrix calculated on each client without accessing its raw data. The server can thus leverage the projection matrices from multiple clients to assign weights to the corresponding teacher models for each server-side sample. We validate FedD3A on two popular cross-domain datasets and show that it outperforms the compared competitors in both cross-silo and cross-device FL settings.
翻訳日:2022-10-06 13:18:03 公開日:2022-10-04
# MTSMAE:多変量時系列予測のためのマスク付きオートエンコーダ

MTSMAE: Masked Autoencoders for Multivariate Time-Series Forecasting ( http://arxiv.org/abs/2210.02199v1 )

ライセンス: Link先を確認
Peiwang Tang and Xianchao Zhang(参考訳) 大規模自己教師型事前学習型トランスフォーマーアーキテクチャは、自然言語処理(NLP)やコンピュータビジョン(CV)における様々なタスクのパフォーマンスを大幅に向上させた。 しかし、事前学習型トランスフォーマーによる多変量時系列処理の研究は乏しく、特に、自己教師型学習のためのマスキング時間系列の研究は依然としてギャップである。 言語や画像処理とは異なり、時系列の情報密度は研究の難しさを増す。 この問題は、以前のパッチ埋め込みとマスクメソッドの無効性によってさらに進展する。 本稿では,多変量時系列のデータ特性に基づいてパッチ埋め込み手法を提案し,MTSMAEと呼ばれるMasked Autoencoders(MAE)に基づく自己教師型事前学習手法を提案する。 異なるフィールドと異なる特性を持つ複数の多変量時系列データセットを用いて本手法の評価を行い,本手法が現在利用可能な最良の手法よりも優れていることを示す。

Large-scale self-supervised pre-training Transformer architecture have significantly boosted the performance for various tasks in natural language processing (NLP) and computer vision (CV). However, there is a lack of researches on processing multivariate time-series by pre-trained Transformer, and especially, current study on masking time-series for self-supervised learning is still a gap. Different from language and image processing, the information density of time-series increases the difficulty of research. The challenge goes further with the invalidity of the previous patch embedding and mask methods. In this paper, according to the data characteristics of multivariate time-series, a patch embedding method is proposed, and we present an self-supervised pre-training approach based on Masked Autoencoders (MAE), called MTSMAE, which can improve the performance significantly over supervised learning without pre-training. Evaluating our method on several common multivariate time-series datasets from different fields and with different characteristics, experiment results demonstrate that the performance of our method is significantly better than the best method currently available.
翻訳日:2022-10-06 13:17:38 公開日:2022-10-04
# 有限時間保証による最大類似逆強化学習

Maximum-Likelihood Inverse Reinforcement Learning with Finite-Time Guarantees ( http://arxiv.org/abs/2210.01808v1 )

ライセンス: Link先を確認
Siliang Zeng, Chenliang Li, Alfredo Garcia, Mingyi Hong(参考訳) 逆強化学習(IRL)は、専門家が実施した状態や行動の観測シーケンスに最も適した報酬関数と関連する最適ポリシーを回復することを目的としている。 多くのirlのアルゴリズムは本質的に入れ子構造を持ち、内側ループはパラメータ化された報酬が与えられた最適ポリシーを見つけ、外側ループは適合尺度の最適化のために推定値を更新する。 高次元環境では、ネストループ構造は大きな計算負担を伴う。 ネストループの計算負担を軽減するため、SQIL [1] やIQ-Learn [2] のような新しい手法では、報酬推定精度を犠牲にして政策推定を強調する。 しかし、正確な推定報酬がなければ、異なる環境ダイナミクスの下で最適な政策を予測したり、新しいタスクを学習したりといった対実的な分析はできない。 本稿では、報酬推定精度を損なわないIRLのための新しいシングルループアルゴリズムを開発する。 提案アルゴリズムでは,各ポリシー改善ステップを確率的勾配ステップで追従し,最大化を行う。 提案アルゴリズムは有限時間保証付き定常解に確実に収束することを示す。 報酬が線形にパラメータ化されている場合、同定された解は最大エントロピーirl問題の解に対応する。 最後に、MuJoCoにおけるロボット制御問題とその転送設定を用いて、提案アルゴリズムが他のIRLや模倣学習ベンチマークと比較して優れた性能を達成することを示す。

Inverse reinforcement learning (IRL) aims to recover the reward function and the associated optimal policy that best fits observed sequences of states and actions implemented by an expert. Many algorithms for IRL have an inherently nested structure: the inner loop finds the optimal policy given parametrized rewards while the outer loop updates the estimates towards optimizing a measure of fit. For high dimensional environments such nested-loop structure entails a significant computational burden. To reduce the computational burden of a nested loop, novel methods such as SQIL [1] and IQ-Learn [2] emphasize policy estimation at the expense of reward estimation accuracy. However, without accurate estimated rewards, it is not possible to do counterfactual analysis such as predicting the optimal policy under different environment dynamics and/or learning new tasks. In this paper we develop a novel single-loop algorithm for IRL that does not compromise reward estimation accuracy. In the proposed algorithm, each policy improvement step is followed by a stochastic gradient step for likelihood maximization. We show that the proposed algorithm provably converges to a stationary solution with a finite-time guarantee. If the reward is parameterized linearly, we show the identified solution corresponds to the solution of the maximum entropy IRL problem. Finally, by using robotics control problems in MuJoCo and their transfer settings, we show that the proposed algorithm achieves superior performance compared with other IRL and imitation learning benchmarks.
翻訳日:2022-10-06 13:16:28 公開日:2022-10-04
# グループ個人化フェデレーションラーニング

Group Personalized Federated Learning ( http://arxiv.org/abs/2210.01863v1 )

ライセンス: Link先を確認
Zhe Liu, Yue Hui, Fuchun Peng(参考訳) フェデレートラーニング(FL)は、クライアントの物理デバイス上で分散的な方法で共有モデルをトレーニングすることで、データのプライバシ向上を支援する。 ローカルデータの非常に不均一な分布が存在する場合、パーソナライズされたfl戦略は潜在的なクライアントドリフトを緩和しようとする。 本稿では,異なるクライアント間に固有の分割が存在するflのアプリケーションに対するグループパーソナライズ手法を提案する。 本手法では,グローバルFLモデルを各クライアントの同種グループ上で別のFLトレーニングプロセスを通じて微調整し,その後,各グループ固有のFLモデルを任意のクライアントに対してさらに適応・パーソナライズする。 提案手法はベイズ的階層的モデリングの観点からよく解釈できる。 2つの実世界のデータセットを実験することで、このアプローチが他のflデータセットよりも優れたパーソナライズ性能を実現することを実証する。

Federated learning (FL) can help promote data privacy by training a shared model in a de-centralized manner on the physical devices of clients. In the presence of highly heterogeneous distributions of local data, personalized FL strategy seeks to mitigate the potential client drift. In this paper, we present the group personalization approach for applications of FL in which there exist inherent partitions among clients that are significantly distinct. In our method, the global FL model is fine-tuned through another FL training process over each homogeneous group of clients, after which each group-specific FL model is further adapted and personalized for any client. The proposed method can be well interpreted from a Bayesian hierarchical modeling perspective. With experiments on two real-world datasets, we demonstrate this approach can achieve superior personalization performance than other FL counterparts.
翻訳日:2022-10-06 13:16:05 公開日:2022-10-04
# Tree Moverの距離:グラフメトリックのブリッジングとグラフニューラルネットワークの安定性

Tree Mover's Distance: Bridging Graph Metrics and Stability of Graph Neural Networks ( http://arxiv.org/abs/2210.01906v1 )

ライセンス: Link先を確認
Ching-Yao Chuang, Stefanie Jegelka(参考訳) 機械学習モデルの一般化と堅牢性を理解するには、データ空間に適切なメトリックを仮定することが必要だ。 このようなメトリックを特定することは、グラフのような非ユークリッドデータにとって特に難しい。 本稿では,属性グラフの擬測度,ツリー・モーバー距離(TMD)を提案し,その一般化との関係について検討する。 階層的最適輸送問題を通じて、tmdはノード属性の局所分布と、グラフニューラルネットワーク(gnns)の学習行動に決定的であることが知られている局所計算木の分布を反映している。 まず、TMDはグラフ分類に関連する特性をキャプチャし、単純なTMD-SVMは標準のGNNと競合することを示す。 第2に,分布シフト下でのgnnの一般化にtmdを関連づけ,そのようなシフト下での性能低下とよく相関することを示す。

Understanding generalization and robustness of machine learning models fundamentally relies on assuming an appropriate metric on the data space. Identifying such a metric is particularly challenging for non-Euclidean data such as graphs. Here, we propose a pseudometric for attributed graphs, the Tree Mover's Distance (TMD), and study its relation to generalization. Via a hierarchical optimal transport problem, TMD reflects the local distribution of node attributes as well as the distribution of local computation trees, which are known to be decisive for the learning behavior of graph neural networks (GNNs). First, we show that TMD captures properties relevant to graph classification: a simple TMD-SVM performs competitively with standard GNNs. Second, we relate TMD to generalization of GNNs under distribution shifts, and show that it correlates well with performance drop under such shifts.
翻訳日:2022-10-06 13:15:52 公開日:2022-10-04
# triplee:エピソディックリプレイによる容易なドメイン一般化

TripleE: Easy Domain Generalization via Episodic Replay ( http://arxiv.org/abs/2210.01807v1 )

ライセンス: Link先を確認
Xiaomeng Li, Hongyu Ren, Huifeng Yao, Ziwei Liu(参考訳) モデルを未発見の領域に一般化する方法を学ぶことは重要な研究分野である。 本稿では,TripleEを提案するとともに,ネットワークがサブセットのトレーニング(リプレイによる学習)に集中し,サブセットの学習においてデータ空間を拡大することが主な目的である。 replayを使った学習には、バッチとデータセットでそれぞれリプレイスキーマを実行するereplaybとereplaydの2つのコア設計が含まれている。 これにより、ネットワークは、一目でグローバルセットを訪れるのではなく、サブセットで学ぶことに集中でき、アンサンブルにおけるモデルの多様性を拡大できる。 サブセットを学習する際のデータ空間を拡大するため,リプレイ中のデータ空間の拡大において,徹底的かつ特異な拡張(ESAug)が驚くほど有効であることを確認した。 TripleEと呼ばれる私たちのモデルは、単純な拡張とアンサンブルに基づいて、非常に簡単です。 ベルとホイッスルがなければ、TripleE法は6つの領域一般化ベンチマークの先行技術を超え、この手法が将来の領域一般化研究の足掛かりとなることを示している。

Learning how to generalize the model to unseen domains is an important area of research. In this paper, we propose TripleE, and the main idea is to encourage the network to focus on training on subsets (learning with replay) and enlarge the data space in learning on subsets. Learning with replay contains two core designs, EReplayB and EReplayD, which conduct the replay schema on batch and dataset, respectively. Through this, the network can focus on learning with subsets instead of visiting the global set at a glance, enlarging the model diversity in ensembling. To enlarge the data space in learning on subsets, we verify that an exhaustive and singular augmentation (ESAug) performs surprisingly well on expanding the data space in subsets during replays. Our model dubbed TripleE is frustratingly easy, based on simple augmentation and ensembling. Without bells and whistles, our TripleE method surpasses prior arts on six domain generalization benchmarks, showing that this approach could serve as a stepping stone for future research in domain generalization.
翻訳日:2022-10-06 13:08:40 公開日:2022-10-04
# 自己のモノのインターネットを用いたスマートビル内の異常検出

Detecting Anomalies within Smart Buildings using Do-It-Yourself Internet of Things ( http://arxiv.org/abs/2210.01840v1 )

ライセンス: Link先を確認
Yasar Majib, Mahmoud Barhamgi, Behzad Momahed Heravi, Sharadha Kariyawasam, Charith Perera(参考訳) 発生時の異常を検出することは、ビルや住宅などの環境において、サイバー攻撃の可能性を特定するために不可欠である。 本稿では,異常を発生した直後に検出する様々なメカニズムについて論じる。 マシンラーニングモデルを構築する上で,重要な考慮事項に光を当てています。 我々は、複数の自作(DIY)IoTデバイスからさまざまなセンサーを使ってデータを構築、収集し、ポイント、コンテキスト、および異常の組合せを見つける効果的な方法を発見した。 我々はまた、異なるサンプリングレートでデータを生成するセンサーデバイスを扱う際のいくつかの課題と潜在的な解決策、そして機械学習モデルでそれらを前処理する方法についても論じた。 本稿では,環境条件に基づくサブデータセット抽出の長所と短所についても考察する。

Detecting anomalies at the time of happening is vital in environments like buildings and homes to identify potential cyber-attacks. This paper discussed the various mechanisms to detect anomalies as soon as they occur. We shed light on crucial considerations when building machine learning models. We constructed and gathered data from multiple self-build (DIY) IoT devices with different in-situ sensors and found effective ways to find the point, contextual and combine anomalies. We also discussed several challenges and potential solutions when dealing with sensing devices that produce data at different sampling rates and how we need to pre-process them in machine learning models. This paper also looks at the pros and cons of extracting sub-datasets based on environmental conditions.
翻訳日:2022-10-06 13:08:18 公開日:2022-10-04
# 不確実性を考慮したマルチモーダルタスク分布のメタラーニング

Uncertainty-Aware Meta-Learning for Multimodal Task Distributions ( http://arxiv.org/abs/2210.01881v1 )

ライセンス: Link先を確認
Cesar Almecija, Apoorva Sharma and Navid Azizan(参考訳) メタラーニング(meta-learning)やラーニング・トゥ・ラーニング(learning to learning)は、異なるタスク間の共通性を活用し、限られたデータ(すなわち、わずかな学習)で新しいタスクを学習するための一般的なアプローチである。 しかし、メタ学習モデルは、コンテキストデータが限られている場合や、オフ・オブ・ディストリビューション(OoD)タスクからデータが引き出される場合、パフォーマンスが悪くなる。 特に安全クリティカルな環境では、これはメタ学習に対する不確実性を認識したアプローチを必要とする。 さらに、しばしばタスク分布のマルチモーダルな性質は、メタ学習法に固有の課題をもたらす可能性がある。 本研究では,(1)分散タスクの確率的予測を効率的に行うこと,(2)テスト時にoodコンテキストデータを検出できること,(3)不均質なマルチモーダルタスク分布で実行するメタラーニング手法であるunlimitd(uncertainty-aware meta-learning for multimodal task distributions)を提案する。 この目的を達成するために、確率論的視点を採り、メタデータセット上のタスクに対するパラメトリックで調整可能な分布を訓練する。 我々は、ガウス過程理論を利用して線形化ニューラルネットワーク上でベイズ推定を行い、この分布を構築する。 我々は、UnLiMiTDの予測が、ほとんどの場合、標準ベースライン、特に低データ体制と好意的に比較し、性能的に優れていることを示した。 さらに,UnLiMiTDはOoDタスクからデータを検出するのに有効であることを示す。 最後に,これら2つの発見がマルチモーダルなタスク分散環境においても継続していることを確認した。

Meta-learning or learning to learn is a popular approach for learning new tasks with limited data (i.e., few-shot learning) by leveraging the commonalities among different tasks. However, meta-learned models can perform poorly when context data is limited, or when data is drawn from an out-of-distribution (OoD) task. Especially in safety-critical settings, this necessitates an uncertainty-aware approach to meta-learning. In addition, the often multimodal nature of task distributions can pose unique challenges to meta-learning methods. In this work, we present UnLiMiTD (uncertainty-aware meta-learning for multimodal task distributions), a novel method for meta-learning that (1) makes probabilistic predictions on in-distribution tasks efficiently, (2) is capable of detecting OoD context data at test time, and (3) performs on heterogeneous, multimodal task distributions. To achieve this goal, we take a probabilistic perspective and train a parametric, tuneable distribution over tasks on the meta-dataset. We construct this distribution by performing Bayesian inference on a linearized neural network, leveraging Gaussian process theory. We demonstrate that UnLiMiTD's predictions compare favorably to, and outperform in most cases, the standard baselines, especially in the low-data regime. Furthermore, we show that UnLiMiTD is effective in detecting data from OoD tasks. Finally, we confirm that both of these findings continue to hold in the multimodal task-distribution setting.
翻訳日:2022-10-06 13:08:08 公開日:2022-10-04
# SIMPLE:$k$-subsetサンプリングのための勾配推定器

SIMPLE: A Gradient Estimator for $k$-Subset Sampling ( http://arxiv.org/abs/2210.01941v1 )

ライセンス: Link先を確認
Kareem Ahmed, Zhe Zeng, Mathias Niepert, Guy Van den Broeck(参考訳) $k$-subsetサンプリングは機械学習においてユビキタスであり、スパーシティによる正規化と解釈を可能にする。 この課題は、エンドツーエンドの学習に適した$k$-subsetサンプリングのレンダリングにある。 これは典型的には、再パラメータ化されたサンプルを緩和してバックプロパゲーションを可能にし、高いバイアスと高い分散をもたらすリスクがある。 この作業では、フォワードパスで個別の$k$-subsetサンプリングにフォールバックします。 これは、真の勾配のプロキシとして効率的に計算された、正確な辺辺に関する勾配と結合する。 勾配推定器 SIMPLE は,k = 1$ のときのストレートスルー Gumbel 推定器を含む最先端推定器と比較して,バイアスやばらつきが低いことを示す。 実験の結果,線形回帰を説明・スパースする学習性能が向上した。 我々は,$k$-subset分布の正確なELBOを計算し,SOTAと比較して損失を著しく低減するアルゴリズムを提案する。

$k$-subset sampling is ubiquitous in machine learning, enabling regularization and interpretability through sparsity. The challenge lies in rendering $k$-subset sampling amenable to end-to-end learning. This has typically involved relaxing the reparameterized samples to allow for backpropagation, with the risk of introducing high bias and high variance. In this work, we fall back to discrete $k$-subset sampling on the forward pass. This is coupled with using the gradient with respect to the exact marginals, computed efficiently, as a proxy for the true gradient. We show that our gradient estimator, SIMPLE, exhibits lower bias and variance compared to state-of-the-art estimators, including the straight-through Gumbel estimator when $k = 1$. Empirical results show improved performance on learning to explain and sparse linear regression. We provide an algorithm for computing the exact ELBO for the $k$-subset distribution, obtaining significantly lower loss compared to SOTA.
翻訳日:2022-10-06 13:07:31 公開日:2022-10-04
# サンプル効率強化学習のための動的抽象表現の学習

Learning Dynamic Abstract Representations for Sample-Efficient Reinforcement Learning ( http://arxiv.org/abs/2210.01955v1 )

ライセンス: Link先を確認
Mehdi Dadvar, Rashmeet Kaur Nayyar, Siddharth Srivastava(参考訳) 現実世界の多くの問題において、学習エージェントは問題の抽象化と解決策を同時に学ぶ必要がある。 しかし、そのような抽象化のほとんどは、異なる問題やアプリケーションのドメインに対して手動で設計、洗練する必要があります。 本稿では,強化学習を行いながら状態抽象化を構築するための新しいトップダウン手法を提案する。 状態変数とシミュレーターから始め、エージェントが行動し学習を続けるときに、抽象状態におけるq値の分散に基づく抽象化を動的に計算するための新しいドメイン独立アプローチを提案する。 複数の領域や問題に対する広範な経験的評価は、このアプローチが問題に微調整された抽象化を自動的に学習し、強力なサンプル効率をもたらし、その結果、RLエージェントが既存のアプローチを大幅に上回ることを示す。

In many real-world problems, the learning agent needs to learn a problem's abstractions and solution simultaneously. However, most such abstractions need to be designed and refined by hand for different problems and domains of application. This paper presents a novel top-down approach for constructing state abstractions while carrying out reinforcement learning. Starting with state variables and a simulator, it presents a novel domain-independent approach for dynamically computing an abstraction based on the dispersion of Q-values in abstract states as the agent continues acting and learning. Extensive empirical evaluation on multiple domains and problems shows that this approach automatically learns abstractions that are finely-tuned to the problem, yield powerful sample efficiency, and result in the RL agent significantly outperforming existing approaches.
翻訳日:2022-10-06 13:07:16 公開日:2022-10-04
# 多視点人体メッシュトランスレータ

Multi-view Human Body Mesh Translator ( http://arxiv.org/abs/2210.01886v1 )

ライセンス: Link先を確認
Xiangjian Jiang, Xuecheng Nie, Zitian Wang, Luoqi Liu, Si Liu(参考訳) 既存のヒューマンメッシュリカバリの方法は、主に単一ビューフレームワークに重点を置いているが、設定が不適切なため、正確な結果が得られないことが多い。 本稿では,多視点モーションキャプチャシステムの成熟度を考慮し,異なる視点からの複数の画像を活用することで,従来の不適切な問題を解決することを提案する。 特に、視覚変換器の助けを借りて人体メッシュを推定するための、新規な \textbf{M}ulti-view human body \textbf{M}esh \textbf{T}ranslator (MMT) モデルを提案する。 具体的には、マルチビュー画像を入力として、単一のフォワードでターゲットメッシュに変換する。 MMTは、エンコーディングフェーズとデコードフェーズの両方で異なるビューの特徴を融合させ、グローバル情報に埋め込まれた表現をもたらす。 さらに、トークンが人間の姿勢や形状に集中的に焦点を合わせるために、MTTは、各ビューに3Dキーポイント位置を投影し、それらの整合性を幾何制約で強制することにより、特徴レベルでクロスビューアライメントを行う。 総合的な実験により、MTTは既存の単一または複数ビューモデルよりも、人間のメッシュ回復タスクにおいて大きなマージンで、特に、挑戦的なHUMBIデータセットに関する現在の最先端手法よりも28.8%改善されていることが示されている。 質的評価はまた、高品質ヒトメッシュの再構築におけるmmtの有効性を検証する。 コードは受理時に利用可能になる。

Existing methods for human mesh recovery mainly focus on single-view frameworks, but they often fail to produce accurate results due to the ill-posed setup. Considering the maturity of the multi-view motion capture system, in this paper, we propose to solve the prior ill-posed problem by leveraging multiple images from different views, thus significantly enhancing the quality of recovered meshes. In particular, we present a novel \textbf{M}ulti-view human body \textbf{M}esh \textbf{T}ranslator (MMT) model for estimating human body mesh with the help of vision transformer. Specifically, MMT takes multi-view images as input and translates them to targeted meshes in a single-forward manner. MMT fuses features of different views in both encoding and decoding phases, leading to representations embedded with global information. Additionally, to ensure the tokens are intensively focused on the human pose and shape, MMT conducts cross-view alignment at the feature level by projecting 3D keypoint positions to each view and enforcing their consistency in geometry constraints. Comprehensive experiments demonstrate that MMT outperforms existing single or multi-view models by a large margin for human mesh recovery task, notably, 28.8\% improvement in MPVE over the current state-of-the-art method on the challenging HUMBI dataset. Qualitative evaluation also verifies the effectiveness of MMT in reconstructing high-quality human mesh. Codes will be made available upon acceptance.
翻訳日:2022-10-06 13:00:16 公開日:2022-10-04
# すべての損失は平等である:ニューラル・クラッシュ・パースペクティブ

Are All Losses Created Equal: A Neural Collapse Perspective ( http://arxiv.org/abs/2210.02192v1 )

ライセンス: Link先を確認
Jinxin Zhou, Chong You, Xiao Li, Kangning Liu, Sheng Liu, Qing Qu, Zhihui Zhu(参考訳) クロスエントロピー(CE)は、分類タスクのためにディープニューラルネットワークを訓練するのに最も一般的に使用される損失であるが、より優れた経験的性能を得るために多くの代替的な損失が開発された。 それは、データセットの特性、ネットワークアーキテクチャの選択など、その答えに影響を及ぼす複数の要因があるように見えるからです。 本稿では,CEの最適解と平均二乗誤差(MSE)損失がニューラル崩壊現象を示すことを示す最近のラインワークからインスピレーションを得て,ディープネットワークの最終層の特徴を調べることにより,損失関数の選択について検討する。 つまり、十分に大きなネットワークが収束するまで訓練されるということです。 (i)同じクラスのすべての特徴が対応するクラス平均に崩壊し、 (ii)異なるクラスに関連する手段は、ペアワイズ距離が全て等しく最大化された構成にある。 これらの結果を拡張し,大域的解法と景観解析を通して,一般的に使用されているラベルスムーシング (LS) や焦点損失 (FL) を含む幅広い損失関数がニューラル崩壊を示すことを示す。 したがって、関連するすべての損失(CE、LS、FL、MSE)は、トレーニングデータに等価な特徴をもたらす。 制約のない特徴モデル仮定に基づいて、LS損失のグローバルランドスケープ解析またはFL損失のローカルランドスケープ解析を行い、(ただ!)大域最小化器が神経崩壊解であることを示し、他のすべての臨界点は、LS損失のグローバルスコープまたは最適解の近くのFL損失のローカルスコープにおいて負の曲率方向を示す厳密なサドルであることを示す。 実験により、関連するすべての損失から得られた神経崩壊機能は、テストデータ上でもほぼ同じパフォーマンスをもたらすことが示され、ネットワークが十分に大きく、収束するまで訓練されることが示されている。

While cross entropy (CE) is the most commonly used loss to train deep neural networks for classification tasks, many alternative losses have been developed to obtain better empirical performance. Among them, which one is the best to use is still a mystery, because there seem to be multiple factors affecting the answer, such as properties of the dataset, the choice of network architecture, and so on. This paper studies the choice of loss function by examining the last-layer features of deep networks, drawing inspiration from a recent line work showing that the global optimal solution of CE and mean-square-error (MSE) losses exhibits a Neural Collapse phenomenon. That is, for sufficiently large networks trained until convergence, (i) all features of the same class collapse to the corresponding class mean and (ii) the means associated with different classes are in a configuration where their pairwise distances are all equal and maximized. We extend such results and show through global solution and landscape analyses that a broad family of loss functions including commonly used label smoothing (LS) and focal loss (FL) exhibits Neural Collapse. Hence, all relevant losses(i.e., CE, LS, FL, MSE) produce equivalent features on training data. Based on the unconstrained feature model assumption, we provide either the global landscape analysis for LS loss or the local landscape analysis for FL loss and show that the (only!) global minimizers are neural collapse solutions, while all other critical points are strict saddles whose Hessian exhibit negative curvature directions either in the global scope for LS loss or in the local scope for FL loss near the optimal solution. The experiments further show that Neural Collapse features obtained from all relevant losses lead to largely identical performance on test data as well, provided that the network is sufficiently large and trained until convergence.
翻訳日:2022-10-06 12:51:39 公開日:2022-10-04
# 人間の記憶と深層言語モデル--モデル拡張のための仮説のリンク

Memory in humans and deep language models: Linking hypotheses for model augmentation ( http://arxiv.org/abs/2210.01869v1 )

ライセンス: Link先を確認
Omri Raccah, Pheobe Chen, Ted L. Willke, David Poeppel, and Vy A. Vo(参考訳) トランスフォーマーモデルにおける自己保持機構の計算複雑性は、長期にわたる一般化能力を著しく制限する。 メモリ拡張(英: Memory-augmentation)は、後続の予測のために外部メモリに過去の情報を明示的に保存することである。 メモリ拡張トランスフォーマーは、人間の記憶文学からの洞察から大きく恩恵を受けることができる。 本稿では,ヒューマンメモリシステムからのエビデンスを,クロスドメインリンク仮説の仕様を通じて統合するアプローチについて詳述する。 次に,リンク仮説としてサプリサルの使用を評価するための実証実験を行い,今後の研究へのアプローチの限界を明らかにする。

The computational complexity of the self-attention mechanism in Transformer models significantly limits their ability to generalize over long temporal durations. Memory-augmentation, or the explicit storing of past information in external memory for subsequent predictions, has become a constructive avenue for mitigating this limitation. We argue that memory-augmented Transformers can benefit substantially from considering insights from the memory literature in humans. We detail an approach to integrating evidence from the human memory system through the specification of cross-domain linking hypotheses. We then provide an empirical demonstration to evaluate the use of surprisal as a linking hypothesis, and further identify the limitations of this approach to inform future research.
翻訳日:2022-10-06 12:51:06 公開日:2022-10-04
# Affection: 実世界のビジュアルデータに対する感情的説明の学習

Affection: Learning Affective Explanations for Real-World Visual Data ( http://arxiv.org/abs/2210.01946v1 )

ライセンス: Link先を確認
Panos Achlioptas, Maks Ovsjanikov, Leonidas Guibas and Sergey Tulyakov(参考訳) 本研究では,ある視覚刺激に対する感情応答の背景にある理性を表現するために,自然言語を媒体として実世界のイメージが引き起こす感情反応について検討する。 この旅に乗じて,85,007枚の公開画像に対して,感情反応と自由形式のテキストによる説明を含む大規模データセットを導入し,その分析を行った6,283名のアノテータが,特定の画像の観察において,どのように,なぜ,どのように感じられたのかを指示し,説明し,合計526,749件の回答を生成する。 感情反応は、主観的で、文脈(個人の気分、社会的地位、過去の経験)に敏感であるにもかかわらず、被験者の集団に大きな支持を得て、潜在的に有望な感情反応を捉えるための重要な共通基盤があることが示される。 この重要な観察を踏まえて、私たちは以下の質問をします。 i) 実世界の視覚データに対して合理的な感情応答を提供するマルチモーダルニューラルネットワークの開発は可能か? 二 このような方法により、語学的な言葉の度合いの異なる説明や、基礎となる視覚刺激に適応しながら異なる感情反応を正当化することができるか。 最後に iii)この新たな課題に対して,これらの手法の性能を評価するにはどうすればよいか? この研究で、私たちはこれらの疑問に対処する第一歩を踏み出し、より豊かで人間中心で感情に敏感な画像分析システムへの道を開いた。 導入したデータセットと開発済みのメソッドはすべて、https://affective-explanations.orgで利用可能です。

In this work, we explore the emotional reactions that real-world images tend to induce by using natural language as the medium to express the rationale behind an affective response to a given visual stimulus. To embark on this journey, we introduce and share with the research community a large-scale dataset that contains emotional reactions and free-form textual explanations for 85,007 publicly available images, analyzed by 6,283 annotators who were asked to indicate and explain how and why they felt in a particular way when observing a specific image, producing a total of 526,749 responses. Even though emotional reactions are subjective and sensitive to context (personal mood, social status, past experiences) - we show that there is significant common ground to capture potentially plausible emotional responses with a large support in the subject population. In light of this crucial observation, we ask the following questions: i) Can we develop multi-modal neural networks that provide reasonable affective responses to real-world visual data, explained with language? ii) Can we steer such methods towards producing explanations with varying degrees of pragmatic language or justifying different emotional reactions while adapting to the underlying visual stimulus? Finally, iii) How can we evaluate the performance of such methods for this novel task? With this work, we take the first steps in addressing all of these questions, thus paving the way for richer, more human-centric, and emotionally-aware image analysis systems. Our introduced dataset and all developed methods are available on https://affective-explanations.org
翻訳日:2022-10-06 12:50:02 公開日:2022-10-04
# オーバーヘッド画像に必要なのはセンターポイント

Centerpoints Are All You Need in Overhead Imagery ( http://arxiv.org/abs/2210.01857v1 )

ライセンス: Link先を確認
James Mason Inder, Mark Lowell, Andrew J. Maltenfort(参考訳) オブジェクト検出器のトレーニングに使用するデータラベリングは高価で時間がかかります。 オブジェクト検出のためのパブリックなオーバーヘッドデータセットには、イメージ整列バウンディングボックス、オブジェクト整列バウンディングボックス、オブジェクトマスクがラベル付けされている。 提案手法を試すため,ラベル付けにセンタポイントを用いた新しいシングルステージおよびツーステージネットワークアーキテクチャを開発した。 本稿では、3つのオーバーヘッドオブジェクト検出データセットに対するより詳細なラベル付けを用いて、これらのアーキテクチャがアプローチとほぼ同等のパフォーマンスを実現することを示す。

Labeling data to use for training object detectors is expensive and time consuming. Publicly available overhead datasets for object detection are labeled with image-aligned bounding boxes, object-aligned bounding boxes, or object masks, but it is not clear whether such detailed labeling is necessary. To test the idea, we developed novel single- and two-stage network architectures that use centerpoints for labeling. In this paper we show that these architectures achieve nearly equivalent performance to approaches using more detailed labeling on three overhead object detection datasets.
翻訳日:2022-10-06 12:48:26 公開日:2022-10-04
# マルチアーマッドバンドによる効率的なプロトタイプ選択

Efficient Prototype Selection via Multi-Armed Bandits ( http://arxiv.org/abs/2210.01860v1 )

ライセンス: Link先を確認
Arghya Roy Chaudhuri, Pratik Jawanpuria, and Bamdev Mishra(参考訳) 本稿では,与えられた対象集合を最もよく表わす,情報型データインスタンス(すなわちプロトタイプ)のコンパクトセットを識別するための,多腕バンディットベースのフレームワークを提案する。 与えられたデータセットの原型的な例は、基礎となるデータ分布に関する解釈可能な洞察を提供し、例ベースの推論を支援する。 重要な課題は、ほぼすべての可能なペアに対して、データポイントのペア間の類似性比較を行う必要がある、大規模設定である。 本稿では, 確率的欲求探索を原型例の空間に応用し, 類似度比較の回数を減らすためのマルチアームバンディットアプローチを提案する。 アプローチに必要な類似度比較の総数を分析し,対象集合のサイズに依存しない上限を提供する。

In this work, we propose a multi-armed bandit based framework for identifying a compact set of informative data instances (i.e., the prototypes) that best represents a given target set. Prototypical examples of a given dataset offer interpretable insights into the underlying data distribution and assist in example-based reasoning, thereby influencing every sphere of human decision making. A key challenge is the large-scale setting, in which similarity comparison between pairs of data points needs to be done for almost all possible pairs. We propose to overcome this limitation by employing stochastic greedy search on the space of prototypical examples and multi-armed bandit approach for reducing the number of similarity comparisons. We analyze the total number of similarity comparisons needed by approach and provide an upper bound independent of the size of the target set.
翻訳日:2022-10-06 12:42:45 公開日:2022-10-04
# ニューラルネットワークを用いた網膜モデルに基づく低照度画像復元

Low-Light Image Restoration Based on Retina Model using Neural Networks ( http://arxiv.org/abs/2210.01806v1 )

ライセンス: Link先を確認
Yurui Ming and Yuanyuan Liang(参考訳) 網膜モデルに触発された低光度画像の無作為復元にニューラルネットワークを用いた場合,様々な種類の光ニューロンの神経生理学的原理とダイナミクスを模倣する可能性が示唆された。 提案したニューラルネットワークモデルは、従来の信号処理モデルと対照的に計算オーバーヘッドのコストを削減し、主観的知覚の観点から複雑なディープラーニングモデルに匹敵する結果を生成する。 この研究は、ニューラルネットワークを用いて網膜ニューロンの機能を直接シミュレートするために、最適パラメーターを手動で探すことを避けるだけでなく、特定の神経生物学組織のために対応する人工バージョンを構築する方法を構築することも示している。

We report the possibility of using a simple neural network for effortless restoration of low-light images inspired by the retina model, which mimics the neurophysiological principles and dynamics of various types of optical neurons. The proposed neural network model saves the cost of computational overhead in contrast with traditional signal-processing models, and generates results comparable with complicated deep learning models from the subjective perceptual perspective. This work shows that to directly simulate the functionalities of retinal neurons using neural networks not only avoids the manually seeking for the optimal parameters, but also paves the way to build corresponding artificial versions for certain neurobiological organizations.
翻訳日:2022-10-06 12:42:22 公開日:2022-10-04
# いつ、なぜビジョン言語モデルが言葉の袋モデルのように振る舞うのか。

When and why vision-language models behave like bag-of-words models, and what to do about it? ( http://arxiv.org/abs/2210.01936v1 )

ライセンス: Link先を確認
Mert Yuksekgonul, Federico Bianchi, Pratyusha Kalluri, Dan Jurafsky, James Zou(参考訳) 多くの下流アプリケーションで大きなビジョンと言語モデル(VLM)が成功しているが、どのように構成情報をエンコードするかは不明である。 ここでは、VLMが様々な種類の関係、属性、順序を理解する能力について、体系的に評価するための属性、関係、順序(ARO)ベンチマークを作成する。 AROは、オブジェクトのプロパティの理解をテストするためのVisual Genome Attribution、リレーショナル理解をテストするVisual Genome Relation、注文感度をテストするCOCO & Flickr30k-Orderで構成されている。 AROは、以前の構成性のベンチマークよりも桁違いに大きく、5万以上のテストケースがある。 我々は最先端のvlmがリレーショナル理解に乏しいところを示し、オブジェクトと属性をリンクするときに鈍くなり、注文の感度が著しく欠如していることを示す。 VLMは画像とキャプションにリッチな構成構造を持つ大規模なデータセットで主に訓練され評価される。 しかし、これらのデータセットのトレーニングは、構成的理解の欠如に対処するには不十分であり、これらのデータセットの評価はこの不足を表面化できていない。 これらの制限が標準テストに現れて表現されない理由を理解するために、評価手順とトレーニング手順を拡大する。 構成情報や順序情報を使わずに既存のデータセットの検索をうまく行うことができることを示す。 対照的な事前学習が類似したショートカットを持つデータセットの検索に最適化されることを考えると、なぜモデルが構成情報を表現するために学習する必要がないのかを説明することができる。 この発見は、組成に敏感な負の鉱業という自然な解決策を示唆している。 コントラスト学習をシンプルに実装することで、順序と構成性の理解を必要とするタスクのパフォーマンスが大幅に向上することを示す。

Despite the success of large vision and language models (VLMs) in many downstream applications, it is unclear how well they encode compositional information. Here, we create the Attribution, Relation, and Order (ARO) benchmark to systematically evaluate the ability of VLMs to understand different types of relationships, attributes, and order. ARO consists of Visual Genome Attribution, to test the understanding of objects' properties; Visual Genome Relation, to test for relational understanding; and COCO & Flickr30k-Order, to test for order sensitivity. ARO is orders of magnitude larger than previous benchmarks of compositionality, with more than 50,000 test cases. We show where state-of-the-art VLMs have poor relational understanding, can blunder when linking objects to their attributes, and demonstrate a severe lack of order sensitivity. VLMs are predominantly trained and evaluated on large datasets with rich compositional structure in the images and captions. Yet, training on these datasets has not been enough to address the lack of compositional understanding, and evaluating on these datasets has failed to surface this deficiency. To understand why these limitations emerge and are not represented in the standard tests, we zoom into the evaluation and training procedures. We demonstrate that it is possible to perform well on retrieval over existing datasets without using the composition and order information. Given that contrastive pretraining optimizes for retrieval on datasets with similar shortcuts, we hypothesize that this can explain why the models do not need to learn to represent compositional information. This finding suggests a natural solution: composition-aware hard negative mining. We show that a simple-to-implement modification of contrastive learning significantly improves the performance on tasks requiring understanding of order and compositionality.
翻訳日:2022-10-06 12:33:31 公開日:2022-10-04
# 解釈可能な自動入力による言語モデルによるデータのパターン説明

Explaining Patterns in Data with Language Models via Interpretable Autoprompting ( http://arxiv.org/abs/2210.01848v1 )

ライセンス: Link先を確認
Chandan Singh, John X. Morris, Jyoti Aneja, Alexander M. Rush, Jianfeng Gao(参考訳) 大規模言語モデル(LLM)は、複雑なタスクを実行するために自然言語を活用する素晴らしい能力を示している。 本研究では、この学習能力を利用して、データ内のパターンを発見し、説明できるかどうかを検討する。 具体的には、事前学習されたllmとデータ例から、データを説明する自然言語文字列を生成するアルゴリズムである interpretable autoprompting (iprompt) を導入する。 ipromptは反復的にllmで説明を生成し、プロンプトとして使用する場合のパフォーマンスに基づいて再ランク付けする。 合成数学から自然言語理解まで、幅広いデータセットに関する実験は、ipromptが正確なデータセットの記述を正確に発見することで有意義な洞察を得ることができることを示した。 さらに、iPromptが生成するプロンプトは、人間の解釈可能で、現実の感情分類データセットでは、GPT-3の人間によるプロンプトにマッチまたは改善するプロンプトを生成する。 最後に、fMRIデータセットを用いた実験は、iPromptが科学的発見に役立つ可能性を示している。 メソッドとデータを使用するすべてのコードはGithubで公開されている。

Large language models (LLMs) have displayed an impressive ability to harness natural language to perform complex tasks. In this work, we explore whether we can leverage this learned ability to find and explain patterns in data. Specifically, given a pre-trained LLM and data examples, we introduce interpretable autoprompting (iPrompt), an algorithm that generates a natural-language string explaining the data. iPrompt iteratively alternates between generating explanations with an LLM and reranking them based on their performance when used as a prompt. Experiments on a wide range of datasets, from synthetic mathematics to natural-language understanding, show that iPrompt can yield meaningful insights by accurately finding groundtruth dataset descriptions. Moreover, the prompts produced by iPrompt are simultaneously human-interpretable and highly effective for generalization: on real-world sentiment classification datasets, iPrompt produces prompts that match or even improve upon human-written prompts for GPT-3. Finally, experiments with an fMRI dataset show the potential for iPrompt to aid in scientific discovery. All code for using the methods and data here is made available on Github.
翻訳日:2022-10-06 12:32:38 公開日:2022-10-04
# 非構造化データに対する視覚的順応による接地言語

Grounding Language with Visual Affordances over Unstructured Data ( http://arxiv.org/abs/2210.01911v1 )

ライセンス: Link先を確認
Oier Mees, Jessica Borja-Diaz, Wolfram Burgard(参考訳) 近年の研究では、大規模言語モデル(llm)が、自然言語を様々なロボットのスキルに応用できることが示されている。 しかし、実際には、マルチタスクの言語条件付きロボットスキルを学ぶには、通常、環境をリセットしたり、現在のポリシーを修正するのに、大規模なデータ収集と頻繁な人間の介入が必要である。 本研究では,非構造化,オフライン,リセットのない実世界の汎用言語条件ロボットのスキルを,自己教師付きビジュオ言語給付モデルを用いて効率的に学習する手法を提案する。 本手法はシミュレーションと実世界のロボットタスクの両方において広範な実験を行い,挑戦的なcalvinベンチマークで最先端のパフォーマンスを達成し,実世界で1つのポリシーで25以上の異なる視覚操作タスクを学習する。 LLMと組み合わせて抽象的な自然言語命令を数発のプロンプトでサブゴールに分解すると,本手法は,従来の手法よりも桁違いに少ないデータで,リアルタイムに長時間の多層タスクを完了できることがわかった。 コードとビデオはhttp://hulc2.cs.uni-freiburg.deで入手できる。

Recent works have shown that Large Language Models (LLMs) can be applied to ground natural language to a wide variety of robot skills. However, in practice, learning multi-task, language-conditioned robotic skills typically requires large-scale data collection and frequent human intervention to reset the environment or help correcting the current policies. In this work, we propose a novel approach to efficiently learn general-purpose language-conditioned robot skills from unstructured, offline and reset-free data in the real world by exploiting a self-supervised visuo-lingual affordance model, which requires annotating as little as 1% of the total data with language. We evaluate our method in extensive experiments both in simulated and real-world robotic tasks, achieving state-of-the-art performance on the challenging CALVIN benchmark and learning over 25 distinct visuomotor manipulation tasks with a single policy in the real world. We find that when paired with LLMs to break down abstract natural language instructions into subgoals via few-shot prompting, our method is capable of completing long-horizon, multi-tier tasks in the real world, while requiring an order of magnitude less data than previous approaches. Code and videos are available at http://hulc2.cs.uni-freiburg.de
翻訳日:2022-10-06 12:32:19 公開日:2022-10-04
# ニューラルネットワークの多次元性とキャパシティ

Polysemanticity and Capacity in Neural Networks ( http://arxiv.org/abs/2210.01892v1 )

ライセンス: Link先を確認
Adam Scherlis, Kshitij Sachan, Adam S. Jermyn, Joe Benton, Buck Shlegeris(参考訳) ニューラルネットワークの個々のニューロンは、しばしば無関係な特徴の混合を表す。 この現象は多意味性(polysemanticity)と呼ばれ、ニューラルネットワークの解釈をより困難にするので、その原因を理解することを目指している。 我々は、各特徴が埋め込み空間で消費する分数次元である特徴 \emph{capacity} のレンズを通して行うことを提案する。 玩具モデルにおいて, 最適キャパシティ割り当ては, モノセマンティカルに最も重要な特徴を表現しがちであり, ポリセマンティカルは(損失に対する影響に比例して)重要でない特徴を表現し, 最重要でない特徴を完全に無視する。 多意味性(Polysemanticity)は、入力がより高いクルトーシスまたは疎度を持ち、他のアーキテクチャよりもより一般的な場合である。 容量の最適割り当てが与えられた後、埋め込み空間の幾何学を研究する。 ブロック-半直交構造は、異なるモデルにおけるブロックサイズが異なり、モデルアーキテクチャがニューロンの解釈可能性に与える影響を強調している。

Individual neurons in neural networks often represent a mixture of unrelated features. This phenomenon, called polysemanticity, can make interpreting neural networks more difficult and so we aim to understand its causes. We propose doing so through the lens of feature \emph{capacity}, which is the fractional dimension each feature consumes in the embedding space. We show that in a toy model the optimal capacity allocation tends to monosemantically represent the most important features, polysemantically represent less important features (in proportion to their impact on the loss), and entirely ignore the least important features. Polysemanticity is more prevalent when the inputs have higher kurtosis or sparsity and more prevalent in some architectures than others. Given an optimal allocation of capacity, we go on to study the geometry of the embedding space. We find a block-semi-orthogonal structure, with differing block sizes in different models, highlighting the impact of model architecture on the interpretability of its neurons.
翻訳日:2022-10-06 12:31:58 公開日:2022-10-04
# Detect, Retrieve, Comprehend: ゼロショット文書レベルの質問回答のための柔軟なフレームワーク

Detect, Retrieve, Comprehend: A Flexible Framework for Zero-Shot Document-Level Question Answering ( http://arxiv.org/abs/2210.01959v1 )

ライセンス: Link先を確認
Tavish McDonald, Brian Tsan, Amar Saini, Juanita Ordonez, Luis Gutierrez, Phan Nguyen, Blake Mason, Brenda Ng(参考訳) 企業は戦略的なビジョンを伝える何千ものドキュメントを生成し、主要な製品、サービス、エンティティ、プロセスの詳細を提供する。 知識労働者はこれらの文書を読み、組織的目標に関連する情報を特定し、抽出し、合成する。 情報収集を自動化するために、質問応答(QA)は、人為的な質問に適応して多様な知識を抽出できる柔軟な枠組みを提供する。 微調整されたQAシステムはラベル付きデータ(コンテキスト、質問、回答のタプル)にアクセスする必要がある。 しかし、文書QAのデータキュレーションは、コンテキスト(すなわち、答えのエビデンスパス)が、潜在的に長く、未フォーマットの文書から取り出さなければならないため、ユニークな難題である。 既存のQAデータセットは、現実世界のアプリケーションでは非現実的な、短く、明確に定義されたコンテキストを提供することによって、この課題を後押しする。 本稿では,(1)PDFからのテキスト抽出,(2)抽出したテキストから証拠を抽出して適切な文脈を形成する,(3)文脈から知識を抽出して高品質な回答を返す,という3段階の文書QAアプローチを提案する。 QASPERをプロプライエタリなデータのサロゲートとして使用することにより,既存のベースラインに対するAnswer-F1の+6.25の改善を実現し,優れたコンテキスト選択を実現する。 我々の結果は、DRCが実用的な文書QAのための柔軟なフレームワークとして非常に有望であることを示している。

Businesses generate thousands of documents that communicate their strategic vision and provide details of key products, services, entities, and processes. Knowledge workers then face the laborious task of reading these documents to identify, extract, and synthesize information relevant to their organizational goals. To automate information gathering, question answering (QA) offers a flexible framework where human-posed questions can be adapted to extract diverse knowledge. Finetuning QA systems requires access to labeled data (tuples of context, question, and answer). However, data curation for document QA is uniquely challenging because the context (i.e., answer evidence passage) needs to be retrieved from potentially long, ill-formatted documents. Existing QA datasets sidestep this challenge by providing short, well-defined contexts that are unrealistic in real-world applications. We present a three-stage document QA approach: (1) text extraction from PDF; (2) evidence retrieval from extracted texts to form well-posed contexts; (3) QA to extract knowledge from contexts to return high-quality answers - extractive, abstractive, or Boolean. Using QASPER as a surrogate to our proprietary data, our detect-retrieve-comprehend (DRC) system achieves a +6.25 improvement in Answer-F1 over existing baselines while delivering superior context selection. Our results demonstrate that DRC holds tremendous promise as a flexible framework for practical document QA.
翻訳日:2022-10-06 12:31:22 公開日:2022-10-04
# ニューロデドのホモトピーに基づく正確なダイナミクス発見のためのトレーニング

Homotopy-based training of NeuralODEs for accurate dynamics discovery ( http://arxiv.org/abs/2210.01407v1 )

ライセンス: Link先を確認
Joon-Hyuk Ko, Hankyul Koh, Nojun Park, Wonho Jhe(参考訳) 概念的には、ニューラル正規微分方程式(Neural Ordinary Differential Equations)は、物理科学の伝統的な微分方程式に基づくモデリングパラダイムの自然な拡張であるため、時系列データから動的法則を抽出する魅力的な方法である。 実際には、neuralodesは長いトレーニング時間と、特にデータに完全に適合しない長期データに対して、最適以下の結果を表示する。 neuralodeのトレーニングを安定化する手法が提案されているが、その多くが、トレーニングされたneuralodeの機能形式に強い制約を課すことで、実際の基盤となる支配方程式が満足度を保証できないようにする。 本研究では,カオスおよび数学的最適化コミュニティ(同期とホモトピー最適化)のツールを活用して,ニューラルネットワークトレーニング障害に対処する新しいニューラルネットワークトレーニングアルゴリズムを提案する。 ニューラルネットワークの効果的なトレーニングにはアーキテクチャの変更が不要であることを示す。 従来のトレーニング手法と比較して,本アルゴリズムはモデルアーキテクチャの変更を伴わずに,損失を大幅に低減する。 複雑な時間的振る舞いを持つシミュレーションシステムと実システムの両方における実験により、アルゴリズムで訓練されたニューロデドは、真の長期的行動を正確に捉え、未来を正しく推定できることを示した。

Conceptually, Neural Ordinary Differential Equations (NeuralODEs) pose an attractive way to extract dynamical laws from time series data, as they are natural extensions of the traditional differential equation-based modeling paradigm of the physical sciences. In practice, NeuralODEs display long training times and suboptimal results, especially for longer duration data where they may fail to fit the data altogether. While methods have been proposed to stabilize NeuralODE training, many of these involve placing a strong constraint on the functional form the trained NeuralODE can take that the actual underlying governing equation does not guarantee satisfaction. In this work, we present a novel NeuralODE training algorithm that leverages tools from the chaos and mathematical optimization communities - synchronization and homotopy optimization - for a breakthrough in tackling the NeuralODE training obstacle. We demonstrate architectural changes are unnecessary for effective NeuralODE training. Compared to the conventional training methods, our algorithm achieves drastically lower loss values without any changes to the model architectures. Experiments on both simulated and real systems with complex temporal behaviors demonstrate NeuralODEs trained with our algorithm are able to accurately capture true long term behaviors and correctly extrapolate into the future.
翻訳日:2022-10-05 15:53:43 公開日:2022-10-04
# リアルタイム電気自動車充電・放電制御のためのフェデレーション強化学習

Federated Reinforcement Learning for Real-Time Electric Vehicle Charging and Discharging Control ( http://arxiv.org/abs/2210.01452v1 )

ライセンス: Link先を確認
Zixuan Zhang and Yuning Jiang and Yuanming Shi and Ye Shi and Wei Chen(参考訳) 近年のモバイルエネルギー貯蔵技術の進歩により、電気自動車(EV)はスマートグリッドの重要な部分となっている。 EVが需要応答プログラムに参加すると、リアルタイム価格信号のフル活用により充電コストを大幅に削減できる。 しかし、多くの確率的要因が動的環境に存在するため、最適充電/放電制御戦略を設計する上で大きな課題が生じる。 本稿では,EV利用者の利益を最大化するために,動的環境下で異なるEV利用者に対して最適なEV充電/放電制御戦略を開発する。 まずこの問題をマルコフ決定過程(MDP)として定式化する。 次に,異なる動作のevユーザを,異なる環境のエージェントとして考える。 さらに,多様なユーザの行動や動的環境に適合する水平連合強化学習(HFRL)手法を提案する。 このアプローチは、ユーザのプロファイルを共有することなく、最適なチャージ/ディスチャージ制御戦略を学ぶことができる。 シミュレーションの結果,実時間ev充電・放電制御戦略は様々な確率的要因において良好に機能することが示された。

With the recent advances in mobile energy storage technologies, electric vehicles (EVs) have become a crucial part of smart grids. When EVs participate in the demand response program, the charging cost can be significantly reduced by taking full advantage of the real-time pricing signals. However, many stochastic factors exist in the dynamic environment, bringing significant challenges to design an optimal charging/discharging control strategy. This paper develops an optimal EV charging/discharging control strategy for different EV users under dynamic environments to maximize EV users' benefits. We first formulate this problem as a Markov decision process (MDP). Then we consider EV users with different behaviors as agents in different environments. Furthermore, a horizontal federated reinforcement learning (HFRL)-based method is proposed to fit various users' behaviors and dynamic environments. This approach can learn an optimal charging/discharging control strategy without sharing users' profiles. Simulation results illustrate that the proposed real-time EV charging/discharging control strategy can perform well among various stochastic factors.
翻訳日:2022-10-05 15:53:22 公開日:2022-10-04
# スマートビルにおける複数時間枠の場所認識型グリーンエネルギー利用予測:エストニアの場合

Location-aware green energy availability forecasting for multiple time frames in smart buildings: The case of Estonia ( http://arxiv.org/abs/2210.01619v1 )

ライセンス: Link先を確認
Mehdi Hatamian, Bivas Panigrahi, Chinmaya Kumar Dehury(参考訳) 再生可能エネルギー(RE)はクリーンで持続可能なエネルギーを提供しており、近年注目を集めている。 国連(UN)が設定した持続可能な開発目標(SDG-7)の1つは、誰でも安価でクリーンなエネルギーを達成することである。 世界の再生可能資源の中では、太陽エネルギーが最も豊富であり、SDGの目標を確実に満たすことができる。 太陽エネルギーは、温室効果ガスを放出しない太陽光発電パネルを通じて電気エネルギーに変換される。 しかし、PVパネルによって発電される電力は、特定の時間にわたって特定の場所で受信された太陽放射に大きく依存する。 したがって、PV出力の量を予測することは困難である。 いくつかの公共機関や民間機関がこのようなグリーンエネルギーを生成し、需要と供給のバランスを維持する必要があるため、PVシステムの出力パワーの予測は不可欠である。 本研究の目的は、異なる機械学習モデルを用いて、天気と派生した特徴に基づいてPVシステムの出力パワーを予測することである。 目的は、データを調べて出力パワーを正確に予測する最適なモデルを得ることである。 さらに、ランダムフォレスト、xgboost、knなどの異なる機械学習モデル下での精度を比較するために、異なるパフォーマンスメトリクスが使用される。

Renewable Energies (RE) have gained more attention in recent years since they offer clean and sustainable energy. One of the major sustainable development goals (SDG-7) set by the United Nations (UN) is to achieve affordable and clean energy for everyone. Among the world's all renewable resources, solar energy is considered as the most abundant and can certainly fulfill the target of SDGs. Solar energy is converted into electrical energy through Photovoltaic (PV) panels with no greenhouse gas emissions. However, power generated by PV panels is highly dependent on solar radiation received at a particular location over a given time period. Therefore, it is challenging to forecast the amount of PV output power. Predicting the output power of PV systems is essential since several public or private institutes generate such green energy, and need to maintain the balance between demand and supply. This research aims to forecast PV system output power based on weather and derived features using different machine learning models. The objective is to obtain the best-fitting model to precisely predict output power by inspecting the data. Moreover, different performance metrics are used to compare and evaluate the accuracy under different machine learning models such as random forest, XGBoost, KNN, etc.
翻訳日:2022-10-05 15:53:07 公開日:2022-10-04
# 自己教師付き事前学習によるラベル不足キーワードスポッティングの改善

Improving Label-Deficient Keyword Spotting Using Self-Supervised Pretraining ( http://arxiv.org/abs/2210.01703v1 )

ライセンス: Link先を確認
Holger Severin Bovbjerg (1), Zheng-Hua Tan (1) ((1) Aalborg University)(参考訳) 近年、精度の高いkws(deep keyword spotting)モデルが開発され、音声アシスタントなど多くの技術にkws技術が組み込まれている。 これらのモデルの多くは、優れたパフォーマンスを達成するために大量のラベル付きデータに依存している。 その結果、その用途は、大きなラベル付き音声データセットが得られるアプリケーションに限られる。 自己教師付き学習は、大規模ラベル付きデータセットの必要性を軽減し、大量のデータを得るのが容易な非ラベル付きデータを活用する。 しかしながら、ほとんどの自己管理手法は、非常に大きなモデルに対してのみ研究されているが、KWSモデルは小さいことを望んでいる。 本稿では,ラベル不足シナリオにおけるより小さなKWSモデルに対する自己教師付き事前学習の利用について検討する。 我々は,自己教師型フレームワークData2Vecを用いてキーワードトランスフォーマーモデルを事前訓練し,Google Speech Commandsデータセットのラベル不足設定実験を行う。 データ2Vec事前学習は,ラベル不足シナリオにおけるKWSモデルの性能を向上させることができることを示す。 ソースコードは公開されています。

In recent years, the development of accurate deep keyword spotting (KWS) models has resulted in KWS technology being embedded in a number of technologies such as voice assistants. Many of these models rely on large amounts of labelled data to achieve good performance. As a result, their use is restricted to applications for which a large labelled speech data set can be obtained. Self-supervised learning seeks to mitigate the need for large labelled data sets by leveraging unlabelled data, which is easier to obtain in large amounts. However, most self-supervised methods have only been investigated for very large models, whereas KWS models are desired to be small. In this paper, we investigate the use of self-supervised pretraining for the smaller KWS models in a label-deficient scenario. We pretrain the Keyword Transformer model using the self-supervised framework Data2Vec and carry out experiments on a label-deficient setup of the Google Speech Commands data set. It is found that the pretrained models greatly outperform the models without pretraining, showing that Data2Vec pretraining can increase the performance of KWS models in label-deficient scenarios. The source code is made publicly available.
翻訳日:2022-10-05 15:52:51 公開日:2022-10-04
# DiffDock:分子ドッキングのための拡散ステップ、ツイスト、ターン

DiffDock: Diffusion Steps, Twists, and Turns for Molecular Docking ( http://arxiv.org/abs/2210.01776v1 )

ライセンス: Link先を確認
Gabriele Corso, Hannes St\"ark, Bowen Jing, Regina Barzilay, Tommi Jaakkola(参考訳) タンパク質への小さな分子リガンド(分子ドッキングとして知られる)の結合構造を予測することは、薬物設計にとって重要である。 近年, ドッキングを回帰問題として扱う深層学習法は, 従来の検索手法に比べて実行時間が少なくなっているが, 精度は大幅に向上していない。 代わりに分子ドッキングを生成的モデリング問題としてフレーム化し、リガンドの非ユークリッド多様体上の拡散生成モデルdiffdockを開発した。 そのため、この多様体を、ドッキングに関連する自由度(推移的、回転的、ねじれ的)の積空間に写像し、この空間上の効率的な拡散過程を開発する。 実証的には、DiffDockはPDBBind上で38%のトップ-1成功率(RMSD<2A)を取得し、従来のドッキング(23%)とディープラーニング(20%)の手法を著しく上回っている。 さらにdiffdockは高速な推論時間を持ち、高い選択精度で信頼度を見積もる。

Predicting the binding structure of a small molecule ligand to a protein -- a task known as molecular docking -- is critical to drug design. Recent deep learning methods that treat docking as a regression problem have decreased runtime compared to traditional search-based methods but have yet to offer substantial improvements in accuracy. We instead frame molecular docking as a generative modeling problem and develop DiffDock, a diffusion generative model over the non-Euclidean manifold of ligand poses. To do so, we map this manifold to the product space of the degrees of freedom (translational, rotational, and torsional) involved in docking and develop an efficient diffusion process on this space. Empirically, DiffDock obtains a 38% top-1 success rate (RMSD<2A) on PDBBind, significantly outperforming the previous state-of-the-art of traditional docking (23%) and deep learning (20%) methods. Moreover, DiffDock has fast inference times and provides confidence estimates with high selective accuracy.
翻訳日:2022-10-05 15:52:15 公開日:2022-10-04
# タブラルフェデレーション学習におけるデータ漏洩

Data Leakage in Tabular Federated Learning ( http://arxiv.org/abs/2210.01785v1 )

ライセンス: Link先を確認
Mark Vero, Mislav Balunovi\'c, Dimitar I. Dimitrov, Martin Vechev(参考訳) 統合学習(FL)は、ディープラーニングモデルの分散トレーニングにおけるプライバシの保護を約束する一方で、画像とNLPドメインにおける最近の研究により、トレーニング更新が参加するクライアントのプライベートデータを漏洩していることが示されている。 同時に、FLの高額なアプリケーション(例:法的および財政的)は表形式のデータを使用する。 NLPや画像領域と比較して、表データの再構成にはいくつかの課題がある。 (i)カテゴリー的特徴は、より難しい混合離散連続最適化問題をもたらす。 (ii) カテゴリー的特徴と連続的特徴の混合は、最終再建において高いばらつきを生じさせ、 (iii)構造化データにより、敵が復元品質を判断することが困難となる。 本研究では,これらの課題に取り組み,TabLeakと呼ばれる表データの総合的再構築攻撃を提案する。 TabLeakは3つの重要な要素に基づいている。 i) 混合離散連続最適化問題をより簡単な完全連続的な問題に暗黙的に変換するソフトマックス構造体。 (ii)表データの構造を利用したプール型センシングスキームによる再構成のばらつきを低減する方法 (iii)復興品質を良好に評価できるエントロピー尺度。 実験により,TabLeakの有効性を実証し,4つの一般的な表付きデータセット上で最先端に到達した。 例えば、アダルトデータセットでは、実際の関連するバッチサイズ32のベースラインと比較して攻撃精度を10%向上させ、さらにバッチサイズ128までの非自明な再構成を得る。 我々の発見は、高いプライバシーリスクを伴う表データ上でのFLの実行が、非常に脆弱であることを示す上で重要である。

While federated learning (FL) promises to preserve privacy in distributed training of deep learning models, recent work in the image and NLP domains showed that training updates leak private data of participating clients. At the same time, most high-stakes applications of FL (e.g., legal and financial) use tabular data. Compared to the NLP and image domains, reconstruction of tabular data poses several unique challenges: (i) categorical features introduce a significantly more difficult mixed discrete-continuous optimization problem, (ii) the mix of categorical and continuous features causes high variance in the final reconstructions, and (iii) structured data makes it difficult for the adversary to judge reconstruction quality. In this work, we tackle these challenges and propose the first comprehensive reconstruction attack on tabular data, called TabLeak. TabLeak is based on three key ingredients: (i) a softmax structural prior, implicitly converting the mixed discrete-continuous optimization problem into an easier fully continuous one, (ii) a way to reduce the variance of our reconstructions through a pooled ensembling scheme exploiting the structure of tabular data, and (iii) an entropy measure which can successfully assess reconstruction quality. Our experimental evaluation demonstrates the effectiveness of TabLeak, reaching a state-of-the-art on four popular tabular datasets. For instance, on the Adult dataset, we improve attack accuracy by 10% compared to the baseline on the practically relevant batch size of 32 and further obtain non-trivial reconstructions for batch sizes as large as 128. Our findings are important as they show that performing FL on tabular data, which often poses high privacy risks, is highly vulnerable.
翻訳日:2022-10-05 15:51:56 公開日:2022-10-04
# 自律非線形システムのためのLuenbergerオブザーバの学習ベース設計

Learning-based Design of Luenberger Observers for Autonomous Nonlinear Systems ( http://arxiv.org/abs/2210.01476v1 )

ライセンス: Link先を確認
Muhammad Umar B. Niazi, John Cao, Xudong Sun, Amritam Das, Karl Henrik Johansson(参考訳) 非線形系に対するルエンベルガーオブザーバーの設計は、動力学が漸近安定で出力注入まで線形な別の座標系への状態変換を含む。 観測者は変換写像を反転させて元の座標に状態推定を与える。 しかし、一般的な非線形システムの場合、主な課題はそのような変換を見つけ、それが注入的であることを保証することである。 本稿では,教師付き物理学インフォームドニューラルネットワークを用いて,その変換と逆解析の両方を近似する学習手法を提案する。 提案手法は他の現代手法よりも優れた一般化能力を示した。 さらに、観測者は、ニューラルネットワークの近似誤差とシステムの不確実性の下でロバストであることが示されている。

The design of Luenberger observers for nonlinear systems involves state transformation to another coordinate system where the dynamics are asymptotically stable and linear up to output injection. The observer then provides a state estimate in the original coordinates by inverting the transformation map. For general nonlinear systems, however, the main challenge is to find such a transformation and to ensure that it is injective. This paper addresses this challenge by proposing a learning method that employs supervised physics-informed neural networks to approximate both the transformation and its inverse. It is shown that the proposed method exhibits better generalization capabilities than other contemporary methods. Moreover, the observer is shown to be robust under the neural network's approximation error and the system uncertainties.
翻訳日:2022-10-05 15:51:33 公開日:2022-10-04
# マスク画像モデリングのサプライチェーンにおけるバックドア攻撃

Backdoor Attacks in the Supply Chain of Masked Image Modeling ( http://arxiv.org/abs/2210.01632v1 )

ライセンス: Link先を確認
Xinyue Shen and Xinlei He and Zheng Li and Yun Shen and Michael Backes and Yang Zhang(参考訳) Masked Image Modeling (MIM)は、イメージ事前トレーニングのための自己教師付き学習(SSL)に革命をもたらす。 従来の支配的自己監督手法とは対照的に,MIMは,入力画像のランダムパッチをマスキングし,再構成することにより,最先端のパフォーマンスを実現する。 しかし、この新しい生成方法のセキュリティとプライバシのリスクは未調査である。 本稿では,バックドア攻撃のレンズを用いてMIMの最初のセキュリティリスク定量化を行う。 以前の研究と異なり、私たちはモデルサプライチェーンのすべてのフェーズ、すなわち事前トレーニング、リリース、下流フェーズにおいてSSLのモデリングを体系的に脅威にしている最初の人物です。 評価の結果,mimで構築したモデルは,リリース段階と下流段階の既存のバックドア攻撃に対して脆弱であり,事前学習段階において提案手法によって侵害されることがわかった。 例えば、CIFAR10では、攻撃成功率は99.62%、96.48%、ダウンストリームフェーズ、リリースフェーズ、プレトレーニングフェーズの98.89%に達する。 また,事前訓練段階におけるバックドア攻撃の成功要因を調査する第一歩として,バックドア攻撃の成功におけるトリガー数とトリガーパターンの役割を見出すとともに,トリガー位置が小さな影響しか与えない。 最終的に,モデルサプライチェーン位相における3つの検出レベルにわたる防御機構に関する実証研究は,異なる位相におけるバックドア攻撃に異なる防御機構が適していることを示している。 しかし,3つの検出レベルメソッドすべてでバックドア攻撃は検出できないため,今後の研究においてより効果的な防御が求められている。

Masked image modeling (MIM) revolutionizes self-supervised learning (SSL) for image pre-training. In contrast to previous dominating self-supervised methods, i.e., contrastive learning, MIM attains state-of-the-art performance by masking and reconstructing random patches of the input image. However, the associated security and privacy risks of this novel generative method are unexplored. In this paper, we perform the first security risk quantification of MIM through the lens of backdoor attacks. Different from previous work, we are the first to systematically threat modeling on SSL in every phase of the model supply chain, i.e., pre-training, release, and downstream phases. Our evaluation shows that models built with MIM are vulnerable to existing backdoor attacks in release and downstream phases and are compromised by our proposed method in pre-training phase. For instance, on CIFAR10, the attack success rate can reach 99.62%, 96.48%, and 98.89% in the downstream phase, release phase, and pre-training phase, respectively. We also take the first step to investigate the success factors of backdoor attacks in the pre-training phase and find the trigger number and trigger pattern play key roles in the success of backdoor attacks while trigger location has only tiny effects. In the end, our empirical study of the defense mechanisms across three detection-level on model supply chain phases indicates that different defenses are suitable for backdoor attacks in different phases. However, backdoor attacks in the release phase cannot be detected by all three detection-level methods, calling for more effective defenses in future research.
翻訳日:2022-10-05 15:46:33 公開日:2022-10-04
# 人間の実験から不規則な物体を詰め込む過程を学習するロボット

Robotic Learning the Sequence of Packing Irregular Objects from Human Demonstrations ( http://arxiv.org/abs/2210.01645v1 )

ライセンス: Link先を確認
Andr\'e Santos, Atabak Dehban, Jos\'e Santos-Victor(参考訳) 食品などの不規則な物体を詰め込むロボット・ビンの未解決課題に対処する。そこでは,物体の配置と操作に対する基礎的制約,および多様な物体の物理的特性が事前プログラムされた戦略を実現不可能にする。 我々のアプローチは、暗黙のタスク知識と戦略を抽出し、効率的な空間利用、安全なオブジェクト位置決め、人間-ロボット信頼を高める人間のような行動を生成するために、専門家によるデモンストレーションから直接学習することである。 私たちは、バーチャルリアリティーにおける人間の箱詰めデモの、新しくて多様なデータセット、boxedを収集し、利用可能にする。 合計263箱に43人の参加者がスーパーのようなオブジェクトを詰め込み、4644個のオブジェクト操作を行った。 BoxEDデータセットを使用してマルコフ連鎖を学習し、与えられたオブジェクトセットのオブジェクトパッキングシーケンスを予測し、それを人間のパフォーマンスと比較する。 実験結果から,ヒトが生成したシーケンスよりも人間に近い頻度で分類するシーケンス予測を作成した。

We address the unsolved task of robotic bin packing with irregular objects, such as groceries, where the underlying constraints on object placement and manipulation, and the diverse objects' physical properties make preprogrammed strategies unfeasible. Our approach is to learn directly from expert demonstrations in order to extract implicit task knowledge and strategies to achieve an efficient space usage, safe object positioning and to generate human-like behaviors that enhance human-robot trust. We collect and make available a novel and diverse dataset, BoxED, of box packing demonstrations by humans in virtual reality. In total, 263 boxes were packed with supermarket-like objects by 43 participants, yielding 4644 object manipulations. We use the BoxED dataset to learn a Markov chain to predict the object packing sequence for a given set of objects and compare it with human performance. Our experimental results show that the model surpasses human performance by generating sequence predictions that humans classify as human-like more frequently than human-generated sequences.
翻訳日:2022-10-05 15:46:04 公開日:2022-10-04
# 双曲多様体上のgplvmによる連続ドメインへのロボティクス分類の導入

Bringing robotics taxonomies to continuous domains via GPLVM on hyperbolic manifolds ( http://arxiv.org/abs/2210.01672v1 )

ライセンス: Link先を確認
No\'emie Jaquier, Leonel Rozo, Miguel Gonz\'alez-Duque, Viacheslav Borovitskiy, Tamim Asfour(参考訳) ロボット分類学は、人間の行動や環境との相互作用を分類するハイレベルな階層的抽象概念として現れてきた。 これらは、把握、操作スキル、全身サポートポーズの分析に有用であることが証明されている。 階層と下位のカテゴリを設計する努力にもかかわらず、アプリケーション分野での使用は依然として少ない。 これは分類学の離散的な階層構造と、そのカテゴリに関連する高次元の不均質なデータの間のギャップを埋める計算モデルがないことに起因しているかもしれない。 この問題を克服するために,双曲組込みによる分類データをモデル化し,関連する階層構造を捉えることを提案する。 そこで我々は,ガウス過程双曲的潜在変数モデルを定式化し,潜在空間上のグラフに基づく事前と距離保存バック制約を通じて分類構造を強制する。 私たちは、元のグラフ構造に準拠した双曲的埋め込みを学ぶために、全身的サポートでモデルをテストする。 本モデルでは,既存の分類カテゴリーや新分類カテゴリーの未知のポーズを適切にエンコードし,埋め込み間の軌跡の生成に利用し,ユークリッド種よりも優れていることを示す。

Robotic taxonomies have appeared as high-level hierarchical abstractions that classify how humans move and interact with their environment. They have proven useful to analyse grasps, manipulation skills, and whole-body support poses. Despite the efforts devoted to design their hierarchy and underlying categories, their use in application fields remains scarce. This may be attributed to the lack of computational models that fill the gap between the discrete hierarchical structure of the taxonomy and the high-dimensional heterogeneous data associated to its categories. To overcome this problem, we propose to model taxonomy data via hyperbolic embeddings that capture the associated hierarchical structure. To do so, we formulate a Gaussian process hyperbolic latent variable model and enforce the taxonomy structure through graph-based priors on the latent space and distance-preserving back constraints. We test our model on the whole-body support pose taxonomy to learn hyperbolic embeddings that comply with the original graph structure. We show that our model properly encodes unseen poses from existing or new taxonomy categories, it can be used to generate trajectories between the embeddings, and it outperforms its Euclidean counterparts.
翻訳日:2022-10-05 15:45:46 公開日:2022-10-04
# エントロピー計測を用いた活動パターンの進化モニタリング

Using Entropy Measures for Monitoring the Evolution of Activity Patterns ( http://arxiv.org/abs/2210.01736v1 )

ライセンス: Link先を確認
Yushan Huang, Yuchen Zhao, Hamed Haddadi, Payam Barnaghi(参考訳) 本研究では,日々の行動パターンの変化を定量化するために,情報理論に基づく手法を適用する。 家庭内移動監視データを用いて,医療関連イベントの発生状況の把握に有用性を示す。 シャノンのエントロピー、マルコフ鎖のエントロピー率、エントロピー生成率という3種類のエントロピー測度が利用されてきた。 本研究は,認知症臨床研究で収集した大規模在宅モニタリングデータセットを用いて評価した。 この研究は、IoT(Internet of Things)を有効にして家庭内活動、睡眠、生理学を継続的に監視するソリューションを使用して、認知症(PLWD)患者を自宅で支援するためのケアおよび早期介入ソリューションを開発した。 本研究の主な目的は,時系列活動データ分析へのエントロピー尺度の適用性を示し,抽出した指標を推論および解析モデルに入力可能な新しい特徴として利用することである。 実験の結果,多くの場合,これらの指標の組み合わせは,医療関連事象の発生を示唆する可能性が示唆された。 また,同一事象の異なる参加者は,一つのエントロピー尺度に基づいて異なる尺度を持つ可能性がある。 したがって、これらの指標を推論モデルに組み合わせることは、単一の測度のどれよりも効果的である。

In this work, we apply information theory inspired methods to quantify changes in daily activity patterns. We use in-home movement monitoring data and show how they can help indicate the occurrence of healthcare-related events. Three different types of entropy measures namely Shannon's entropy, entropy rates for Markov chains, and entropy production rate have been utilised. The measures are evaluated on a large-scale in-home monitoring dataset that has been collected within our dementia care clinical study. The study uses Internet of Things (IoT) enabled solutions for continuous monitoring of in-home activity, sleep, and physiology to develop care and early intervention solutions to support people living with dementia (PLWD) in their own homes. Our main goal is to show the applicability of the entropy measures to time-series activity data analysis and to use the extracted measures as new engineered features that can be fed into inference and analysis models. The results of our experiments show that in most cases the combination of these measures can indicate the occurrence of healthcare-related events. We also find that different participants with the same events may have different measures based on one entropy measure. So using a combination of these measures in an inference model will be more effective than any of the single measures.
翻訳日:2022-10-05 15:45:26 公開日:2022-10-04
# 資源制約IoTデバイスのセキュリティプライミティブとしてのXOR PUFの軽量戦略

Lightweight Strategy for XOR PUFs as Security Primitives for Resource-constrained IoT device ( http://arxiv.org/abs/2210.01749v1 )

ライセンス: Link先を確認
Gaoxiang Li, Khalid T. Mursi, Yu Zhuang(参考訳) Physical Unclonable Functions(PUF)は、リソースに制約のあるIoTデバイスのためのセキュリティプリミティブである。 そしてXOR Arbiter PUF(XOR-PUF)は、おそらく最も軽量な遅延ベースのPUFsthe Arbiter PUFの機械学習攻撃に対する抵抗を改善するため、最も研究されているPUFの1つである。 しかし、最近の攻撃研究では、大きなXORサイズを持つXOR-PUFでさえ、マシンラーニング攻撃に対して安全ではないことが示されている。 PUFステージやコンポーネントの増加と異なるコンポーネントに対する異なる課題の使用は、APUFベースのPUFのセキュリティを改善するための2つの方法である。 本稿では、XOR Arbiter PUF(XOR-PUF)アーキテクチャパラメータの選択と、ハードウェアコストとエネルギー消費の軽量化と機械学習攻撃に対するセキュリティを実現するためのXOR-PUFの使用方法を組み合わせる戦略を提案する。 提案した戦略により、XOR-PUFは、これまで開発された最も強力な機械学習攻撃に耐え、優れたデバイス内およびデバイス間パフォーマンスを維持することができ、リソース制約されたIoTアプリケーションにXOR-PUFを製造および使用するための潜在的な青写真となる。

Physical Unclonable Functions (PUFs) are promising security primitives for resource-constrained IoT devices. And the XOR Arbiter PUF (XOR-PUF) is one of the most studied PUFs, out of an effort to improve the resistance against machine learning attacks of probably the most lightweight delay-based PUFs - the Arbiter PUFs. However, recent attack studies reveal that even XOR-PUFs with large XOR sizes are still not safe against machine learning attacks. Increasing PUF stages or components and using different challenges for different components are two ways to improve the security of APUF-based PUFs, but more stages or components lead to more hardware cost and higher operation power, and different challenges for different components require the transmission of more bits during operations, which also leads to higher power consumption. In this paper, we present a strategy that combines the choice of XOR Arbiter PUF (XOR-PUF) architecture parameters with the way XOR-PUFs are used to achieve lightweights in hardware cost and energy consumption as well as security against machine learning attacks. Experimental evaluations show that with the proposed strategy, highly lightweight component-differentially challenged XOR-PUFs can withstand the most powerful machine learning attacks developed so far and maintain excellent intra-device and inter-device performance, rendering this strategy a potential blueprint for the fabrication and use of XOR-PUFs for resource-constrained IoT applications.
翻訳日:2022-10-05 15:45:03 公開日:2022-10-04
# 並列ベクトル量子化によるストリーミングデータのサンプリング -- PVQ

Sampling Streaming Data with Parallel Vector Quantization -- PVQ ( http://arxiv.org/abs/2210.01792v1 )

ライセンス: Link先を確認
Mujahid Sultan(参考訳) 企業データのクラウドへの蓄積は、より多くのエンタープライズアプリケーションをクラウドに惹きつけ、データ重力を生み出している。 その結果、ネットワークトラフィックはよりクラウド中心になっている。 このクラウド中心トラフィックの増加は、クラス不均衡によるストリーミングデータの学習システムを設計する上で、新たな課題をもたらす。 クラスの数は、データストリームから構築された分類器の精度において重要な役割を果たす。 本稿では,データストリームのクラス不均衡を大幅に低減するベクトル量子化に基づくサンプリング手法を提案する。 tensorflowバックエンド上の多層パーセプトロン、サポートベクターマシン、k-nearest近傍、ランダムフォレストなど、一般的なmlモデル構築手法を用いてネットワークトラフィックと異常データセットの実験を行い、その効果を実証する。 並列処理、バッチ処理、ランダムにサンプルを選択するモデルを構築しました。 本手法により,データストリームの事前処理により,分類モデルの精度が向上することを示す。 我々はこれらの分類器のハイパーパラメータを外し、オートスクリルをハイパーパラメータ最適化に使用した。

Accumulation of corporate data in the cloud has attracted more enterprise applications to the cloud creating data gravity. As a consequence, network traffic has become more cloud centric. This increase in cloud centric traffic poses new challenges in designing learning systems for streaming data due to class imbalance. The number of classes plays a vital role in the accuracy of the classifiers built from the data streams. In this paper, we present a vector quantization-based sampling method, which substantially reduces the class imbalance in data streams. We demonstrate its effectiveness by conducting experiments on network traffic and anomaly dataset with commonly used ML model building methods; Multilayered Perceptron on TensorFlow backend, Support Vector Machines, K-Nearest Neighbour, and Random Forests. We built models using parallel processing, batch processing, and randomly selecting samples. We show that the accuracy of classification models improves when the data streams are pre-processed with our method. We used out of the box hyper-parameters of these classifiers and auto sklearn for hyperparameter optimization.
翻訳日:2022-10-05 15:44:36 公開日:2022-10-04
# 非同期クラウドサポートを備えたエッジ上のストリーミングビデオ分析

Streaming Video Analytics On The Edge With Asynchronous Cloud Support ( http://arxiv.org/abs/2210.01402v1 )

ライセンス: Link先を確認
Anurag Ghosh, Srinivasan Iyengar, Stephen Lee, Anuj Rathore, Venkat N Padmanabhan(参考訳) IoT(Internet of Things)とモバイルコンピューティングアプリケーションは、レイテンシに敏感なディープニューラルネットワーク(DNN)ワークロードをサポートすることが期待されている。 このビジョンを実現するために、インターネットはエッジコンピューティングアーキテクチャに向かって進化している。 しかし、エッジコンピューティングはクラウド環境と比較して限られたリソースしか持たないため、しばしば高精度な大規模なDNNモデルを実行することはできない。 本研究では,クラウドリソースを活用して大規模DNNモデルを高い精度で実行し,エッジデバイス上で動作するモデルの精度を向上させるフレームワークであるREACTを開発する。 そこで我々は,エッジとクラウドの予測を融合し,低レイテンシで高精度なエッジクラウド融合アルゴリズムを提案する。 我々は,我々のアプローチを広範囲に評価し,本手法がベースラインアプローチと比較して精度を著しく向上できることを示す。 ビデオ中のオブジェクト検出(多くのビデオ分析シナリオで適用可能)に注目し、エッジのみの予測がエッジのみの予測とクラウドのみの予測の精度を最大50%上回ることを示した。 また,ネットワーク帯域幅の制限やGPUサイクルといったユースケース固有の制約を満たすため,幅広いシステムパラメータを選択することで,トレードオフ点間でのREACTの性能が向上することを示す。

Emerging Internet of Things (IoT) and mobile computing applications are expected to support latency-sensitive deep neural network (DNN) workloads. To realize this vision, the Internet is evolving towards an edge-computing architecture, where computing infrastructure is located closer to the end device to help achieve low latency. However, edge computing may have limited resources compared to cloud environments and thus, cannot run large DNN models that often have high accuracy. In this work, we develop REACT, a framework that leverages cloud resources to execute large DNN models with higher accuracy to improve the accuracy of models running on edge devices. To do so, we propose a novel edge-cloud fusion algorithm that fuses edge and cloud predictions, achieving low latency and high accuracy. We extensively evaluate our approach and show that our approach can significantly improve the accuracy compared to baseline approaches. We focus specifically on object detection in videos (applicable in many video analytics scenarios) and show that the fused edge-cloud predictions can outperform the accuracy of edge-only and cloud-only scenarios by as much as 50%. We also show that REACT can achieve good performance across tradeoff points by choosing a wide range of system parameters to satisfy use-case specific constraints, such as limited network bandwidth or GPU cycles.
翻訳日:2022-10-05 15:44:21 公開日:2022-10-04
# GIDN:高効率リンク予測のための軽量グラフ開始拡散ネットワーク

GIDN: A Lightweight Graph Inception Diffusion Network for High-efficient Link Prediction ( http://arxiv.org/abs/2210.01301v1 )

ライセンス: Link先を確認
Zixiao Wang, Yuluo Guo, Jin Zhao, Yu Zhang, Hui Yu, Xiaofei Liao, Hai Jin, Biao Wang, Ting Yu(参考訳) 本稿では,グラフインセプション拡散ネットワーク(GIDN)モデルを提案する。 このモデルは、異なる特徴空間におけるグラフ拡散を一般化し、複雑なネットワーク構造に起因する大量の計算を避けるために開始モジュールを使用する。 我々は,Open Graph Benchmark(OGB)データセット上のGIDNモデルを評価し,ogbl-collabデータセット上のAGDNよりも11%高い性能を示した。

In this paper, we propose a Graph Inception Diffusion Networks(GIDN) model. This model generalizes graph diffusion in different feature spaces, and uses the inception module to avoid the large amount of computations caused by complex network structures. We evaluate GIDN model on Open Graph Benchmark(OGB) datasets, reached an 11% higher performance than AGDN on ogbl-collab dataset.
翻訳日:2022-10-05 15:37:01 公開日:2022-10-04
# OpBoost: 順序保存脱感作に基づく垂直フェデレーションツリーブースティングフレームワーク

OpBoost: A Vertical Federated Tree Boosting Framework Based on Order-Preserving Desensitization ( http://arxiv.org/abs/2210.01318v1 )

ライセンス: Link先を確認
Xiaochen Li, Yuke Hu, Weiran Liu, Hanwen Feng, Li Peng, Yuan Hong, Kui Ren, Zhan Qin(参考訳) Vertical Federated Learning(FL)は、同じデータサンプルの非重複属性を持つユーザが、生データを直接共有することなく、共同でモデルをトレーニングできる新しいパラダイムである。 それでも、最近の研究は、トレーニングプロセスやトレーニングモデルからプライバシーの漏洩を防止するのにまだ不十分であることを示している。 本稿では,垂直FL下でのプライバシー保護木増進アルゴリズムの研究に焦点をあてる。 暗号に基づく既存のソリューションは、重い計算と通信のオーバーヘッドを伴い、推論攻撃に弱い。 ローカル微分プライバシー(LDP)に基づくソリューションは上記の問題に対処するが、訓練されたモデルの精度は低い。 本稿では,垂直FL下での差分プライバシーを満たす木増進アルゴリズムの精度向上について検討する。 具体的には、OpBoostというフレームワークを紹介します。 距離ベースDP(dLDP)と呼ばれるLDPの変種を満たす3つの順序保存脱感作アルゴリズムは、トレーニングデータを脱感作するために設計されている。 特に,提案アルゴリズムの精度と効率をさらに向上させるために,dLDP定義の最適化と効率的なサンプリング分布の検討を行う。 提案アルゴリズムは,距離の広いペアのプライバシと脱感応値の有用性のトレードオフを提供する。 総合的な評価では、OpBoostは訓練されたモデルの予測精度において、合理的な設定における既存のLCPアプローチよりも優れたパフォーマンスを示している。 私たちのコードはオープンソースです。

Vertical Federated Learning (FL) is a new paradigm that enables users with non-overlapping attributes of the same data samples to jointly train a model without directly sharing the raw data. Nevertheless, recent works show that it's still not sufficient to prevent privacy leakage from the training process or the trained model. This paper focuses on studying the privacy-preserving tree boosting algorithms under the vertical FL. The existing solutions based on cryptography involve heavy computation and communication overhead and are vulnerable to inference attacks. Although the solution based on Local Differential Privacy (LDP) addresses the above problems, it leads to the low accuracy of the trained model. This paper explores to improve the accuracy of the widely deployed tree boosting algorithms satisfying differential privacy under vertical FL. Specifically, we introduce a framework called OpBoost. Three order-preserving desensitization algorithms satisfying a variant of LDP called distance-based LDP (dLDP) are designed to desensitize the training data. In particular, we optimize the dLDP definition and study efficient sampling distributions to further improve the accuracy and efficiency of the proposed algorithms. The proposed algorithms provide a trade-off between the privacy of pairs with large distance and the utility of desensitized values. Comprehensive evaluations show that OpBoost has a better performance on prediction accuracy of trained models compared with existing LDP approaches on reasonable settings. Our code is open source.
翻訳日:2022-10-05 15:36:31 公開日:2022-10-04
# RAP:ロバスト計画のリスク対応予測

RAP: Risk-Aware Prediction for Robust Planning ( http://arxiv.org/abs/2210.01368v1 )

ライセンス: Link先を確認
Haruki Nishimura, Jean Mercat, Blake Wulfe, Rowan McAllister, Adrien Gaidon(参考訳) インタラクティブなシナリオにおける堅牢な計画には、リスクを意識した意思決定を行うための不確実性未来を予測する必要がある。 残念なことに、長距離安全臨界事象のため、確率的運動予測の有限サンプリング近似によってリスクは過小評価されることが多い。 これは、堅牢なプランナーであっても、過信で安全でないロボット行動を引き起こす可能性がある。 堅牢な計画立案者が必要とする完全な予測カバレッジを仮定する代わりに、予測自体をリスク対応にすることを提案する。 そこで本研究では, 軌道上のリスクバイアス分布を学習するための新しい予測目標を導入し, このバイアス分布下でのリスク評価を予測コスト推定に簡易化する。 これにより、安全なリアルタイムパフォーマンスに必要なオンライン計画中のリスク推定のサンプル複雑さが低減される。 評価結果はディダクティックシミュレーション環境および実世界のデータセットにおいて,本手法の有効性を示す。

Robust planning in interactive scenarios requires predicting the uncertain future to make risk-aware decisions. Unfortunately, due to long-tail safety-critical events, the risk is often under-estimated by finite-sampling approximations of probabilistic motion forecasts. This can lead to overconfident and unsafe robot behavior, even with robust planners. Instead of assuming full prediction coverage that robust planners require, we propose to make prediction itself risk-aware. We introduce a new prediction objective to learn a risk-biased distribution over trajectories, so that risk evaluation simplifies to an expected cost estimation under this biased distribution. This reduces the sample complexity of the risk estimation during online planning, which is needed for safe real-time performance. Evaluation results in a didactic simulation environment and on a real-world dataset demonstrate the effectiveness of our approach.
翻訳日:2022-10-05 15:36:05 公開日:2022-10-04
# 5G都市メッシュにおけるスケジューリングとパワーアロケーションのための深層強化学習

Deep Reinforcement Learning for Scheduling and Power Allocation in a 5G Urban Mesh ( http://arxiv.org/abs/2210.01423v1 )

ライセンス: Link先を確認
Barak Gahtan, Reuven Cohen, Alex M. Bronstein and Gil Kedar(参考訳) マルチホップミリ波(mmWave)メッシュ上でのリアルタイム流れのルーティングとスケジューリングの問題について検討する。 我々は,各時間帯と電力レベルを用いて,mmWaveリンクのどのサブセットをアクティベートすべきかを決定する,モデルフリーの深部強化学習アルゴリズムを開発した。 提案されたアルゴリズムはAdaptive Activator RL (AARL)と呼ばれ、さまざまなネットワークトポロジ、ネットワーク負荷、干渉モデルを扱うとともに、さまざまなワークロードに適応することができる。 10個のリンクを持つ小さなトポロジー、48個のリンクを持つ中程度のメッシュ、96個のリンクを持つ大きなトポロジーである。 各トポロジについて、AARLの結果は、greedyスケジューリングアルゴリズムの結果と比較される。 AARLはグリーディアルゴリズムを2つの面で上回ることを示す。 まず、そのスケジュールは高い出力を得る。 第二に、さらに重要なことは、greedyアルゴリズムの実行時間はリアルタイムスケジューリングには不実用であるが、AARLの実行時間は典型的な5Gネットワークの時間制約を満たすのに適していることである。

We study the problem of routing and scheduling of real-time flows over a multi-hop millimeter wave (mmWave) mesh. We develop a model-free deep reinforcement learning algorithm that determines which subset of the mmWave links should be activated during each time slot and using what power level. The proposed algorithm, called Adaptive Activator RL (AARL), can handle a variety of network topologies, network loads, and interference models, as well as adapt to different workloads. We demonstrate the operation of AARL on several topologies: a small topology with 10 links, a moderately-sized mesh with 48 links, and a large topology with 96 links. For each topology, the results of AARL are compared to those of a greedy scheduling algorithm. AARL is shown to outperform the greedy algorithm in two aspects. First, its schedule obtains higher goodput. Second, and even more importantly, while the run time of the greedy algorithm renders it impractical for real-time scheduling, the run time of AARL is suitable for meeting the time constraints of typical 5G networks.
翻訳日:2022-10-05 15:35:52 公開日:2022-10-04
# Sum-Product Networkにおける認証データ削除

Certified Data Removal in Sum-Product Networks ( http://arxiv.org/abs/2210.01451v1 )

ライセンス: Link先を確認
Alexander Becker and Thomas Liebig(参考訳) GDPRやカリフォルニア州消費者プライバシ法のようなデータ保護規則は、ユーザがそれらのデータをもっとコントロールできるようにする。 収集したデータの削除は、トレーニングデータに関する情報を公開する機械学習モデルのトレーニングによく使用されるため、データのプライバシを保証するには不十分であることが多い。 したがって、トレーニングされたモデルがトレーニングデータに関する情報を公開しないという保証も必要となる。 本稿では,訓練されたサムプロダクトネットワークから単一のデータポイントの影響を取り除き,要求に応じてデータプライバシ要件を満たすアルゴリズムであるunlearnspnを提案する。

Data protection regulations like the GDPR or the California Consumer Privacy Act give users more control over the data that is collected about them. Deleting the collected data is often insufficient to guarantee data privacy since it is often used to train machine learning models, which can expose information about the training data. Thus, a guarantee that a trained model does not expose information about its training data is additionally needed. In this paper, we present UnlearnSPN -- an algorithm that removes the influence of single data points from a trained sum-product network and thereby allows fulfilling data privacy requirements on demand.
翻訳日:2022-10-05 15:35:33 公開日:2022-10-04
# ベストから学ぶ:ウェアラブル・アクティビティ認識のためのセンサ・ロケーション間のコントラスト表現学習

Learning from the Best: Contrastive Representations Learning Across Sensor Locations for Wearable Activity Recognition ( http://arxiv.org/abs/2210.01459v1 )

ライセンス: Link先を確認
Vitor Fortes Rey, Sungho Suh and Paul Lukowicz(参考訳) 我々は、情報提供の観点からは最適ではないが、着用性と使用性に関する懸念(例えば、ほとんどのスマートウォッチに埋め込まれているため、手首を縫い付けたIMUで作業する必要がある)のために使用する必要があるという、よく知られたウェアラブルアクティビティ認識の問題に対処する。 この問題を軽減するために,トレーニングプロセス中にのみ存在し,その後のシステム使用時に利用できないセンサからの情報の利用を容易にする手法を提案する。 この方法は、ジョイントトレーニング中の分類損失と組み合わせた対照的な損失により、ソースセンサからの情報を目標センサデータの潜在表現に転送する。 本手法は, 平均的(全活動以上)を示すソースセンサとターゲットセンサの組み合わせを併用したPAMAP2とオポチュニティベンチマークで評価し, 個々の活動の改善によりF1は5%から13%改善した。

We address the well-known wearable activity recognition problem of having to work with sensors that are non-optimal in terms of information they provide but have to be used due to wearability/usability concerns (e.g. the need to work with wrist-worn IMUs because they are embedded in most smart watches). To mitigate this problem we propose a method that facilitates the use of information from sensors that are only present during the training process and are unavailable during the later use of the system. The method transfers information from the source sensors to the latent representation of the target sensor data through contrastive loss that is combined with the classification loss during joint training. We evaluate the method on the well-known PAMAP2 and Opportunity benchmarks for different combinations of source and target sensors showing average (over all activities) F1 score improvements of between 5% and 13% with the improvement on individual activities, particularly well suited to benefit from the additional information going up to between 20% and 40%.
翻訳日:2022-10-05 15:35:23 公開日:2022-10-04
# ゼロ階負曲率検出:勾配のないサドル点のエスケープ

Zeroth-Order Negative Curvature Finding: Escaping Saddle Points without Gradients ( http://arxiv.org/abs/2210.01496v1 )

ライセンス: Link先を確認
Hualin Zhang and Huan Xiong and Bin Gu(参考訳) 関数評価のみにアクセス可能な非凸問題の鞍点を脱出することを検討する。 様々な研究が提案されているが、そのほとんどは二階または一階の情報を必要としており、そのほとんどはゼロ階法、特に最も効率的なサドル点の解法であることが証明されたゼロ階法による負曲率探索技術を利用したものである。 このギャップを埋めるため,本論文では,反復複雑性を増大させることなく,ヘッセン・ベクトル積の計算を置き換えることができる2つのゼロ次負曲率探索フレームワークを提案する。 提案手法をZO-GD, ZO-SGD, ZO-SCSG, ZO-SPIDERに適用し, これらのZOアルゴリズムが局所ミニマを見つけるためのゼロ次処理に比べてクエリの複雑さが低い2次定常点に対して$(\epsilon,\delta)$-approximateを収束できることを証明する。

We consider escaping saddle points of nonconvex problems where only the function evaluations can be accessed. Although a variety of works have been proposed, the majority of them require either second or first-order information, and only a few of them have exploited zeroth-order methods, particularly the technique of negative curvature finding with zeroth-order methods which has been proven to be the most efficient method for escaping saddle points. To fill this gap, in this paper, we propose two zeroth-order negative curvature finding frameworks that can replace Hessian-vector product computations without increasing the iteration complexity. We apply the proposed frameworks to ZO-GD, ZO-SGD, ZO-SCSG, ZO-SPIDER and prove that these ZO algorithms can converge to $(\epsilon,\delta)$-approximate second-order stationary points with less query complexity compared with prior zeroth-order works for finding local minima.
翻訳日:2022-10-05 15:35:02 公開日:2022-10-04
# モデル予測制御を用いた強化学習におけるスパースリワードの扱い

Handling Sparse Rewards in Reinforcement Learning Using Model Predictive Control ( http://arxiv.org/abs/2210.01525v1 )

ライセンス: Link先を確認
Murad Dawood, Nils Dengler, Jorge de Heuvel and Maren Bennewitz(参考訳) 強化学習(RL)は近年,様々な分野で大きな成功を収めている。 しかし、報酬関数の設計は、エージェントが望ましい振る舞いを学べるように、詳細なドメインの専門知識と面倒な微調整を必要とする。 スパース報酬を使用することで、これらの課題を軽減できる。 しかし、スパース報酬はそれ自体が挑戦であり、しばしばエージェントの訓練が失敗に終わる。 そこで本稿では,RLにおけるスパース報酬問題に対処する。 私たちのゴールは、コストのかかる人間によるデモンストレーションを使わずに、報酬形成の効果的な代替手段を見つけることです。 そこで我々は,スパース報酬環境におけるRLエージェントのトレーニング経験源として,モデル予測制御~(MPC)を提案する。 報酬形成を必要とせず,クボキ・タートルボット2を用いた実世界実験とシミュレーションの両方において,移動ロボットナビゲーションの分野へのアプローチを成功させた。 さらに、成功率や衝突回数、タイムアウトの点で、純粋なRLアルゴリズムよりも大幅に改善されていることを示す。 実験の結果,経験源としてのMPCは,スパース報酬の場合,与えられたタスクに対するエージェントの学習プロセスを改善することがわかった。

Reinforcement learning (RL) has recently proven great success in various domains. Yet, the design of the reward function requires detailed domain expertise and tedious fine-tuning to ensure that agents are able to learn the desired behaviour. Using a sparse reward conveniently mitigates these challenges. However, the sparse reward represents a challenge on its own, often resulting in unsuccessful training of the agent. In this paper, we therefore address the sparse reward problem in RL. Our goal is to find an effective alternative to reward shaping, without using costly human demonstrations, that would also be applicable to a wide range of domains. Hence, we propose to use model predictive control~(MPC) as an experience source for training RL agents in sparse reward environments. Without the need for reward shaping, we successfully apply our approach in the field of mobile robot navigation both in simulation and real-world experiments with a Kuboki Turtlebot 2. We furthermore demonstrate great improvement over pure RL algorithms in terms of success rate as well as number of collisions and timeouts. Our experiments show that MPC as an experience source improves the agent's learning process for a given task in the case of sparse rewards.
翻訳日:2022-10-05 15:34:39 公開日:2022-10-04
# ProDMPs:動的および確率的運動プリミティブの統一的視点

ProDMPs: A Unified Perspective on Dynamic and Probabilistic Movement Primitives ( http://arxiv.org/abs/2210.01531v1 )

ライセンス: Link先を確認
Ge Li (1), Zeqi Jin (1), Michael Volpp (1), Fabian Otto (2 and 3), Rudolf Lioutikov (1), and Gerhard Neumann (1) ((1) Karlsruhe Institute of Technology, (2) Bosch Center for Artificial Intelligence, (3) University of Tuebingen)(参考訳) 運動プリミティブ (mps) はモジュラー軌道を表現し生成するよく知られた概念である。 MPは2つのタイプに分類される。 (a) 任意の初期状態から滑らかな軌道を生成するダイナミックスベースのアプローチ。 g. ダイナミック・ムーブメント・プリミティブ(DMP)と (b)運動の高次統計を捉えた確率的アプローチ(e) g. 確率運動プリミティブ (probabilistic movement primitives)。 しかし、今のところ、両方を統一するメソッドは存在しない。 e. これにより、任意の初期状態から滑らかな軌跡を生成し、高次統計をキャプチャすることができる。 本稿では,DMPの基盤となるODEを解くことによって,両アプローチの統一的な視点を紹介する。 DMPの高額なオンライン数値積分をオフラインで計算できる基本関数に変換する。 これらの基底関数は、力学系の全ての性質を維持しながら、ProMPと同様の軌跡や軌跡分布を表現するのに使うことができる。 両手法の特性を継承するため,提案したモデルをProDMP(Probabilistic Dynamic Movement Primitives)と呼ぶ。 さらに,ディープニューラルネットワークアーキテクチャにprodmpを埋め込み,高次軌道統計の効率的なエンドツーエンド学習のための新しいコスト関数を提案する。 この目的のために,感覚入力の非線形反復条件付けにベイズアグリゲーションを利用する。 提案モデルは, 円滑な軌道生成, ゴール・トラクタ収束, 相関解析, 非線形条件付け, オンライン再計画を実現する。

Movement Primitives (MPs) are a well-known concept to represent and generate modular trajectories. MPs can be broadly categorized into two types: (a) dynamics-based approaches that generate smooth trajectories from any initial state, e. g., Dynamic Movement Primitives (DMPs), and (b) probabilistic approaches that capture higher-order statistics of the motion, e. g., Probabilistic Movement Primitives (ProMPs). To date, however, there is no method that unifies both, i. e. that can generate smooth trajectories from an arbitrary initial state while capturing higher-order statistics. In this paper, we introduce a unified perspective of both approaches by solving the ODE underlying the DMPs. We convert expensive online numerical integration of DMPs into basis functions that can be computed offline. These basis functions can be used to represent trajectories or trajectory distributions similar to ProMPs while maintaining all the properties of dynamical systems. Since we inherit the properties of both methodologies, we call our proposed model Probabilistic Dynamic Movement Primitives (ProDMPs). Additionally, we embed ProDMPs in deep neural network architecture and propose a new cost function for efficient end-to-end learning of higher-order trajectory statistics. To this end, we leverage Bayesian Aggregation for non-linear iterative conditioning on sensory inputs. Our proposed model achieves smooth trajectory generation, goal-attractor convergence, correlation analysis, non-linear conditioning, and online re-planing in one framework.
翻訳日:2022-10-05 15:34:20 公開日:2022-10-04
# 連合強化学習による超高密度mm波ネットワークにおけるビーム管理 : インテリジェントでセキュアなアプローチ

Beam Management in Ultra-dense mmWave Network via Federated Reinforcement Learning: An Intelligent and Secure Approach ( http://arxiv.org/abs/2210.01307v1 )

ライセンス: Link先を確認
Qing Xue, Yi-Jing Liu, Yao Sun, Jian Wang, Li Yan, Gang Feng, and Shaodan Ma(参考訳) ミリ波(mmWave)帯域で動作する超高密度ネットワークの展開は,モバイルデータトラフィックの大幅な増加に対応する,有望な方法である。 しかしながら、udmmn(ultra-dense mmwave network)の鍵となる課題は、高い伝搬遅延、限られたビームカバレッジ、多数のビームやユーザによるビーム管理である。 本稿では,非凸目的関数のため困難なビーム管理問題に対処するために,新しい系統的なビーム制御方式を提案する。 我々は、上記の最適化問題に対処するため、フェデレートラーニング(FL)フレームワークの下で二重深度Q-ネットワーク(DDQN)を採用し、UDmmNにおける適応的およびインテリジェントなビーム管理を実現する。 FL(BMFL)に基づくビーム管理方式では,非データアグリゲーションはユーザプライバシを理論的に保護し,ハンドオフコストを低減できる。 さらに,bmflのローカルモデルトレーニングにおいて,学習収束速度を向上しつつ,ユーザのプライバシー保護をさらに強化することを目的としたデータクリーニング手法を採用することを提案する。 シミュレーション結果は,提案手法の性能向上を示す。

Deploying ultra-dense networks that operate on millimeter wave (mmWave) band is a promising way to address the tremendous growth on mobile data traffic. However, one key challenge of ultra-dense mmWave network (UDmmN) is beam management due to the high propagation delay, limited beam coverage as well as numerous beams and users. In this paper, a novel systematic beam control scheme is presented to tackle the beam management problem which is difficult due to the nonconvex objective function. We employ double deep Q-network (DDQN) under a federated learning (FL) framework to address the above optimization problem, and thereby fulfilling adaptive and intelligent beam management in UDmmN. In the proposed beam management scheme based on FL (BMFL), the non-rawdata aggregation can theoretically protect user privacy while reducing handoff cost. Moreover, we propose to adopt a data cleaning technique in the local model training for BMFL, with the aim to further strengthen the privacy protection of users while improving the learning convergence speed. Simulation results demonstrate the performance gain of our proposed scheme.
翻訳日:2022-10-05 15:28:56 公開日:2022-10-04
# 視聴覚ナビゲーションに自己注意を払う

Pay Self-Attention to Audio-Visual Navigation ( http://arxiv.org/abs/2210.01353v1 )

ライセンス: Link先を確認
Yinfeng Yu, Lele Cao, Fuchun Sun, Xiaohong Liu and Liejun Wang(参考訳) ホットな研究トピックとして、ロボットがエゴセントリックな視覚(ロボットに搭載されたセンサーから)とオーディオ(ターゲットから遠ざかる)を使って、オーディオターゲットに到達するよう訓練することを目指している。 音声-視覚情報融合戦略は自然にナビゲーション性能にとって重要であるが、最先端の手法は依然として視覚的特徴と音声的特徴を結合し、文脈の直接的な影響を無視している可能性がある。 さらに、既存のアプローチではフェーズワイズトレーニングか追加支援(トポロジグラフや音響意味論など)が必要である。 この日までは、移動目標に対するより困難な設定を扱う作業は、依然として稀である。 そこで,本研究では,自己着脱モジュールとして実装されたコンテキスト認識型音声・視覚融合戦略を用いて,移動音声ターゲットの追従を学習するためのエンド・ツー・エンドフレームワークfsaavnを提案する。 FSAAVNの精度(定量的および定性的)を最先端技術と比較して検証し,視覚的モダリティ,視覚的/音響的エンコーダのバックボーン,融合パターンの選択について独自の知見を提供する。

Audio-visual embodied navigation, as a hot research topic, aims training a robot to reach an audio target using egocentric visual (from the sensors mounted on the robot) and audio (emitted from the target) input. The audio-visual information fusion strategy is naturally important to the navigation performance, but the state-of-the-art methods still simply concatenate the visual and audio features, potentially ignoring the direct impact of context. Moreover, the existing approaches requires either phase-wise training or additional aid (e.g. topology graph and sound semantics). Up till this date, the work that deals with the more challenging setup with moving target(s) is still rare. As a result, we propose an end-to-end framework FSAAVN (feature self-attention audio-visual navigation) to learn chasing after a moving audio target using a context-aware audio-visual fusion strategy implemented as a self-attention module. Our thorough experiments validate the superior performance (both quantitatively and qualitatively) of FSAAVN in comparison with the state-of-the-arts, and also provide unique insights about the choice of visual modalities, visual/audio encoder backbones and fusion patterns.
翻訳日:2022-10-05 15:28:35 公開日:2022-10-04
# Rhythmic Gesticulator:階層型ニューラルエンベディングを用いたリズム対応音声合成

Rhythmic Gesticulator: Rhythm-Aware Co-Speech Gesture Synthesis with Hierarchical Neural Embeddings ( http://arxiv.org/abs/2210.01448v1 )

ライセンス: Link先を確認
Tenglong Ao, Qingzhe Gao, Yuke Lou, Baoquan Chen, Libin Liu(参考訳) リアルな音声ジェスチャーの自動合成は, 人工内在エージェント作成において, ますます重要な課題となっている。 従来のシステムは、主にエンドツーエンドでジェスチャーを生成することに焦点を当てており、音声とジェスチャーの複雑な微妙な調和のため、明確なリズムと意味をマイニングするのは難しい。 本稿では、リズムとセマンティクスの両方で説得力のある結果が得られる新しい音声合成法を提案する。 本システムでは,発声とジェスチャーの時間的コヒーレンスを確保するために,ロバストなリズムベースセグメンテーションパイプラインを備えている。 ジェスチャーセマンティクスについては,言語理論に基づく音声と動作の低レベルおよび高レベルの神経埋め込みを効果的に分離するメカニズムを考案する。 高レベルの埋め込みは意味論に対応し、低レベルの埋め込みは微妙なバリエーションに関連する。 最後に、音声の階層的な埋め込みと動きの対応性を構築し、リズムと意味を意識したジェスチャー合成を実現する。 既存の客観的指標,新たに提案されたリズミカル指標,人的フィードバックによる評価から,本手法が最先端システムよりも明確なマージンで優れていることが示された。

Automatic synthesis of realistic co-speech gestures is an increasingly important yet challenging task in artificial embodied agent creation. Previous systems mainly focus on generating gestures in an end-to-end manner, which leads to difficulties in mining the clear rhythm and semantics due to the complex yet subtle harmony between speech and gestures. We present a novel co-speech gesture synthesis method that achieves convincing results both on the rhythm and semantics. For the rhythm, our system contains a robust rhythm-based segmentation pipeline to ensure the temporal coherence between the vocalization and gestures explicitly. For the gesture semantics, we devise a mechanism to effectively disentangle both low- and high-level neural embeddings of speech and motion based on linguistic theory. The high-level embedding corresponds to semantics, while the low-level embedding relates to subtle variations. Lastly, we build correspondence between the hierarchical embeddings of the speech and the motion, resulting in rhythm- and semantics-aware gesture synthesis. Evaluations with existing objective metrics, a newly proposed rhythmic metric, and human feedback show that our method outperforms state-of-the-art systems by a clear margin.
翻訳日:2022-10-05 15:28:14 公開日:2022-10-04
# アクティブ推論を用いたブロックチェーンベースの分散知識マーケットプレース

Blockchain-Based Decentralized Knowledge Marketplace Using Active Inference ( http://arxiv.org/abs/2210.01688v1 )

ライセンス: Link先を確認
Shashank Joshi and Arhan Choudhury(参考訳) 知識市場は、情報の需要を満たすためにデータの一貫した供給があり、これらのソリューションを必要とするエンティティと潜在的な問題解決者のマッピングに責任を負う市場の一種として説明できる。 知的資産の生成と交換の動的な特徴が、様々な利害関係者間の相互作用の頻度、性質、成果の基本的な要因となる価値交換システムとして定義することが可能である。 さらに、研究のための財政支援の提供は、時間とともに持続可能な知識市場を開拓する過程において不可欠な要素であり、科学調査の進展の原動力でもある。 本稿では,従来の知識ベース市場に関連する欠陥を概説する。過剰な金融集中,非効率な情報交換,セキュリティの欠如,エンティティのマッピングなどが含まれる。 筆者らは,ブロックチェーンやアクティブ推論,ゼロ知識証明などの技術を取り入れた,知識市場のための分散フレームワークを提案する。 提案された分散フレームワークは、マーケットプレース内のエンティティをマッピングするための効率的なマッピングメカニズムを提供するだけでなく、さまざまな利害関係者間で知識やサービスをよりセキュアで制御可能な方法で共有する。

A knowledge market can be described as a type of market where there is a consistent supply of data to satisfy the demand for information and is responsible for the mapping of potential problem solvers with the entities which need these solutions. It is possible to define them as value-exchange systems in which the dynamic features of the creation and exchange of intellectual assets serve as the fundamental drivers of the frequency, nature, and outcomes of interactions among various stakeholders. Furthermore, the provision of financial backing for research is an essential component in the process of developing a knowledge market that is capable of enduring over time, and it is also an essential driver of the progression of scientific investigation. This paper underlines flaws associated with the conventional knowledge-based market, including but not limited to excessive financing concentration, ineffective information exchange, a lack of security, mapping of entities, etc. The authors present a decentralized framework for the knowledge marketplace incorporating technologies such as blockchain, active inference, zero-knowledge proof, etc. The proposed decentralized framework provides not only an efficient mapping mechanism to map entities in the marketplace but also a more secure and controlled way to share knowledge and services among various stakeholders.
翻訳日:2022-10-05 15:27:53 公開日:2022-10-04
# 無人水中車両軌道追跡のためのアクチュエータ飽和のないファジィ論理に基づくカスケード制御

A Fuzzy Logic-based Cascade Control without Actuator Saturation for the Unmanned Underwater Vehicle Trajectory Tracking ( http://arxiv.org/abs/2210.01706v1 )

ライセンス: Link先を確認
Danjie Zhu, Simon X. Yang, Mohammad Biglarbegian(参考訳) 無人水中車両(UUV)の軌道追尾過程に存在するアクチュエータ飽和問題を排除するため,知的制御戦略を提案する。 制御戦略は、運動論的モデリング部において、許容範囲内における制御速度と小さな揺らぎの誤差を達成するためにファジィ論理精製バックステッピング制御を開発し、改良された運動論的制御により引き起こされる速度に基づいて、動力学的モデリングにおいてスライディングモード制御(SMC)を導入し、車体に適用すべきトルクと力を得る。 運動モデルによって計算された制御速度と動的モデルによる応用力により、アクチュエータ飽和を伴わないuv軌道のロバスト性と精度が達成される。

An intelligent control strategy is proposed to eliminate the actuator saturation problem that exists in the trajectory tracking process of unmanned underwater vehicles (UUV). The control strategy consists of two parts: for the kinematic modeling part, a fuzzy logic-refined backstepping control is developed to achieve control velocities within acceptable ranges and errors of small fluctuations; on the basis of the velocities deducted by the improved kinematic control, the sliding mode control (SMC) is introduced in the dynamic modeling to obtain corresponding torques and forces that should be applied to the vehicle body. With the control velocities computed by the kinematic model and applied forces derived by the dynamic model, the robustness and accuracy of the UUV trajectory without actuator saturation can be achieved.
翻訳日:2022-10-05 15:27:35 公開日:2022-10-04
# 音声分類のためのスペクトログラム時間分解能の学習

Learning the Spectrogram Temporal Resolution for Audio Classification ( http://arxiv.org/abs/2210.01719v1 )

ライセンス: Link先を確認
Haohe Liu, Xubo Liu, Qiuqiang Kong, Wenwu Wang, Mark D. Plumbley(参考訳) オーディオスペクトログラム(audio spectrogram)は、オーディオ分類に広く使われている時間周波数表現である。 スペクトログラムの時間分解能はホップサイズに依存する。 以前の作品は一般にホップサイズが10ミリ秒のような一定値であるべきだと仮定している。 しかし、固定ホップサイズや解像度は必ずしも異なる種類の音に最適とは限らない。 本稿では,分化可能な時間分解能学習を行い,音声分類モデルの性能を向上させる新しい手法diffresを提案する。 固定ホップサイズで計算されたスペクトログラムが与えられた場合、DiffResは重要なフレームを保持しながら非必要時間フレームをマージする。 DiffResはオーディオスペクトログラムと分類器の間の"ドロップイン"モジュールとして機能し、エンドツーエンドで最適化できる。 mel-spectrogramの差分を評価し、次に最先端の分類器バックボーンを作成し、5つのサブタスクに適用する。 固定解像度のメル-スペクトログラムと比べ、DiffResベースの手法は、特徴量に対して少なくとも25%の時間次元で同じまたはより良い分類精度を達成でき、同時に計算コストを軽減できる。 1ミリ秒ホップサイズなどの高時間分解能スペクトログラムから、DiffResは同じ計算量で分類精度を向上させることができることを示す。

The audio spectrogram is a time-frequency representation that has been widely used for audio classification. The temporal resolution of a spectrogram depends on hop size. Previous works generally assume the hop size should be a constant value such as ten milliseconds. However, a fixed hop size or resolution is not always optimal for different types of sound. This paper proposes a novel method, DiffRes, that enables differentiable temporal resolution learning to improve the performance of audio classification models. Given a spectrogram calculated with a fixed hop size, DiffRes merges non-essential time frames while preserving important frames. DiffRes acts as a "drop-in" module between an audio spectrogram and a classifier, and can be end-to-end optimized. We evaluate DiffRes on the mel-spectrogram, followed by state-of-the-art classifier backbones, and apply it to five different subtasks. Compared with using the fixed-resolution mel-spectrogram, the DiffRes-based method can achieve the same or better classification accuracy with at least 25% fewer temporal dimensions on the feature level, which alleviates the computational cost at the same time. Starting from a high-temporal-resolution spectrogram such as one-millisecond hop size, we show that DiffRes can improve classification accuracy with the same computational complexity.
翻訳日:2022-10-05 15:27:18 公開日:2022-10-04
# 強度適応型対向訓練

Strength-Adaptive Adversarial Training ( http://arxiv.org/abs/2210.01288v1 )

ライセンス: Link先を確認
Chaojian Yu, Dawei Zhou, Li Shen, Jun Yu, Bo Han, Mingming Gong, Nannan Wang, Tongliang Liu(参考訳) adversarial training (at)は、adversarial dataに対するネットワークの堅牢性を確実に改善することが証明されている。 しかし、事前に特定された摂動予算を持つ現在のATは、堅牢なネットワークの学習に制限がある。 第一に、様々なモデル容量のネットワークに所定の摂動予算を適用すると、自然と頑健な精度の相違が生じ、ネットワークの不安定さから逸脱する。 第2に、予め定められた摂動予算によって制約された敵訓練データの攻撃強度は、ネットワークロバスト性の成長に伴ってアップグレードできず、強固な過剰フィッティングにつながり、さらに敵のロバスト性が低下する。 これらの制約を克服するため,我々は,emph{Strength-Adaptive Adversarial Training} (SAAT)を提案する。 具体的には、敵の損失制約を用いて敵の訓練データを生成する。 この制約の下では、摂動予算は敵データのトレーニング状態に応じて適応的に調整され、堅牢なオーバーフィッティングを効果的に回避できる。 さらに、SAATは、トレーニング中のモデルキャパシティスケジューリングを制御する対向損失により、トレーニングデータの攻撃強度を明示的に制限し、これにより、頑健性の相違度を柔軟に制御し、自然な精度と堅牢性のトレードオフを調整することができる。 本提案は, 対人訓練の堅牢性を高めるものである。

Adversarial training (AT) is proved to reliably improve network's robustness against adversarial data. However, current AT with a pre-specified perturbation budget has limitations in learning a robust network. Firstly, applying a pre-specified perturbation budget on networks of various model capacities will yield divergent degree of robustness disparity between natural and robust accuracies, which deviates from robust network's desideratum. Secondly, the attack strength of adversarial training data constrained by the pre-specified perturbation budget fails to upgrade as the growth of network robustness, which leads to robust overfitting and further degrades the adversarial robustness. To overcome these limitations, we propose \emph{Strength-Adaptive Adversarial Training} (SAAT). Specifically, the adversary employs an adversarial loss constraint to generate adversarial training data. Under this constraint, the perturbation budget will be adaptively adjusted according to the training state of adversarial data, which can effectively avoid robust overfitting. Besides, SAAT explicitly constrains the attack strength of training data through the adversarial loss, which manipulates model capacity scheduling during training, and thereby can flexibly control the degree of robustness disparity and adjust the tradeoff between natural accuracy and robustness. Extensive experiments show that our proposal boosts the robustness of adversarial training.
翻訳日:2022-10-05 15:25:34 公開日:2022-10-04
# Open Data Cube を用いた地域空間における地理画像管理と統計処理

Geo-imagery management and statistical processing in a regional context using Open Data Cube ( http://arxiv.org/abs/2210.01470v1 )

ライセンス: Link先を確認
U.Otamendi (1), I.Azpiroz (1), M.Quartulli (1), I.Olaizola (1), F.J.Perez (2), D.Alda (2), X.Garitano (2) ((1) Vicomtech Foundation, (2) HAZI Foundation)(参考訳) 非熟練者を対象としたリモートセンシングおよびジオイメージングデータの管理・処理手法を提案する。 提案システムは,分析データ駆動の目的で自動データ取り込みと操作機能を提供する。 本稿では,バスク地方(ES)における多角的地域(多角的地域)の耕作に対応するセンチネル-2領域の統計的な要約を提供するため,ツールアーキテクチャ,固有データフロー,およびその操作を特定のユースケースで記述することに加えて,提案手法の技術的基盤について述べる。

We propose a methodology to manage and process remote sensing and geo-imagery data for non-expert users. The proposed system provides automated data ingestion and manipulation capability for analytical data-driven purposes. In this paper, we describe the technological basis of the proposed method in addition to describing the tool architecture, the inherent data flow, and its operation in a specific use case to provide statistical summaries of Sentinel-2 regions of interest corresponding to the cultivation of polygonal areas located in the Basque Country (ES).
翻訳日:2022-10-05 15:19:20 公開日:2022-10-04
# ODCベースのフレームワークにおける前処理パイプラインの統合

Integrating pre-processing pipelines in ODC based framework ( http://arxiv.org/abs/2210.01528v1 )

ライセンス: Link先を確認
U.Otamendi (1), I.Azpiroz (1), M.Quartulli (1), I.Olaizola (1) ((1) Vicomtech Foundation)(参考訳) オンデマンド処理パイプラインを使用して仮想地理空間製品を生成することは、リソース管理の最適化と、処理要件とデータストレージスペースの削減に有用である。 さらに、事前処理された製品は、機械学習やディープラーニングモデルのようなデータ駆動分析アルゴリズムのデータ品質を改善します。 本稿では,オープンソース処理パイプラインの統合に基づく仮想製品の統合手法を提案する。 このアプローチの機能を検証し,評価するために,オープンデータキューブ(ODC)に基づく地理画像管理フレームワークに統合した。 本手法を検証するために,マルチセンサリモートセンシングデータ,例えばSentinel-1とSentinel-2を用いたオンデマンド処理パイプラインの3つの実験を行った。 これらのパイプラインは、オープンソースの処理フレームワークを使って統合される。

Using on-demand processing pipelines to generate virtual geospatial products is beneficial to optimizing resource management and decreasing processing requirements and data storage space. Additionally, pre-processed products improve data quality for data-driven analytical algorithms, such as machine learning or deep learning models. This paper proposes a method to integrate virtual products based on integrating open-source processing pipelines. In order to validate and evaluate the functioning of this approach, we have integrated it into a geo-imagery management framework based on Open Data Cube (ODC). To validate the methodology, we have performed three experiments developing on-demand processing pipelines using multi-sensor remote sensing data, for instance, Sentinel-1 and Sentinel-2. These pipelines are integrated using open-source processing frameworks.
翻訳日:2022-10-05 15:19:08 公開日:2022-10-04
# 新しい視点合成のための自己改善型多面層画像

Self-improving Multiplane-to-layer Images for Novel View Synthesis ( http://arxiv.org/abs/2210.01602v1 )

ライセンス: Link先を確認
Pavel Solovev, Taras Khakhulin, Denis Korzhenkov(参考訳) 本稿では,任意の前方シーンに一般化した,軽量な新規視点合成手法を提案する。 最近の手法は計算コストが高く、シーンごとの最適化を必要とする。 まず、フロント並列半透明平面を用いてシーンを表現し、その後、エンドツーエンドで変形可能なレイヤに変換する。 また,入力ビューから情報を集約することで推定表現を補正するフィードフォワード補正手法を採用する。 新しいシーンが処理された場合の微調整は不要で、任意の数のビューを制限なく処理できる。 実験結果から,提案手法は実測値と人的評価の点で近年のモデルを超えており,推定層形状の推論速度とコンパクト性に顕著な優位性があることが示唆された。

We present a new method for lightweight novel-view synthesis that generalizes to an arbitrary forward-facing scene. Recent approaches are computationally expensive, require per-scene optimization, or produce a memory-expensive representation. We start by representing the scene with a set of fronto-parallel semitransparent planes and afterward convert them to deformable layers in an end-to-end manner. Additionally, we employ a feed-forward refinement procedure that corrects the estimated representation by aggregating information from input views. Our method does not require fine-tuning when a new scene is processed and can handle an arbitrary number of views without restrictions. Experimental results show that our approach surpasses recent models in terms of common metrics and human evaluation, with the noticeable advantage in inference speed and compactness of the inferred layered geometry, see https://samsunglabs.github.io/MLI
翻訳日:2022-10-05 15:18:31 公開日:2022-10-04
# 深層学習における背景バイアスについて

On Background Bias in Deep Metric Learning ( http://arxiv.org/abs/2210.01615v1 )

ライセンス: Link先を確認
Konstantin Kobs and Andreas Hotho(参考訳) Deep Metric Learningはニューラルネットワークを使って、入力された画像を、類似した画像が異種画像よりも近いように、低次元の埋め込み空間にマッピングする。 アイテム検索に使用する場合、トレーニングされたモデルを用いてクエリイメージを埋め込み、各埋め込みを格納するデータベースから最も近いアイテムをクエリの最も類似したアイテムとして返却する。 特に製品検索では、ユーザーが写真を撮って特定の商品を検索する場合、画像の背景は重要ではなく、そのため埋め込みプロセスに影響を与えるべきではない。 理想的には、検索プロセスは、写真が撮影された環境に関係なく、常に被写体に適したアイテムを返す。 本稿では,5つの共通損失関数と3つの共通データセットを用いて,画像背景がディープラーニングモデルに与える影響を分析する。 我々は,Deep Metric Learning Networkは背景バイアスと呼ばれる傾向があり,推論中に画像背景を変更する際に,検索性能が著しく低下することを発見した。 また,トレーニング中の画像の背景をランダムな背景画像に置き換えることにより,この問題が軽減されることを示す。 背景の置き換えには背景の自動削除手法を使用するため、推論時間が同じである間、追加の手動ラベリング作業やモデル変更は不要である。 新しい評価基準を導入する定性的および定量的分析により、画像の主対象に置換背景で訓練されたモデルがより深く参加し、アイテム検索システムに有利であることを確認した。

Deep Metric Learning trains a neural network to map input images to a lower-dimensional embedding space such that similar images are closer together than dissimilar images. When used for item retrieval, a query image is embedded using the trained model and the closest items from a database storing their respective embeddings are returned as the most similar items for the query. Especially in product retrieval, where a user searches for a certain product by taking a photo of it, the image background is usually not important and thus should not influence the embedding process. Ideally, the retrieval process always returns fitting items for the photographed object, regardless of the environment the photo was taken in. In this paper, we analyze the influence of the image background on Deep Metric Learning models by utilizing five common loss functions and three common datasets. We find that Deep Metric Learning networks are prone to so-called background bias, which can lead to a severe decrease in retrieval performance when changing the image background during inference. We also show that replacing the background of images during training with random background images alleviates this issue. Since we use an automatic background removal method to do this background replacement, no additional manual labeling work and model changes are required while inference time stays the same. Qualitative and quantitative analyses, for which we introduce a new evaluation metric, confirm that models trained with replaced backgrounds attend more to the main object in the image, benefitting item retrieval systems.
翻訳日:2022-10-05 15:18:14 公開日:2022-10-04
# SelfNeRF: 単眼で回転するビデオから人間のための高速トレーニング用NeRF

SelfNeRF: Fast Training NeRF for Human from Monocular Self-rotating Video ( http://arxiv.org/abs/2210.01651v1 )

ライセンス: Link先を確認
Bo Peng, Jun Hu, Jingtao Zhou, Juyong Zhang(参考訳) 本稿では,効率的なニューラルラジアンス場に基づく新規ビュー合成法であるSelfNeRFを提案する。 人間のパフォーマーの単眼的自己回転ビデオを考えると、selfnerfはスクラッチからトレーニングし、約20分で高い忠実度を達成できる。 最近の研究では、神経放射場をダイナミックなヒトの再建に利用している。 しかし、これらの手法の多くはマルチビュー入力を必要とし、訓練に何時間もかかるため、実用上はまだ困難である。 この課題に対処するために,マルチレゾリューションハッシュ符号化に基づく表面関係表現を導入し,トレーニング速度を大幅に向上させ,フレーム間情報を集約する。 いくつかの異なるデータセットにおける広範囲な実験結果は、単眼ビデオに対するセルフナーフの有効性と効率を示している。

In this paper, we propose SelfNeRF, an efficient neural radiance field based novel view synthesis method for human performance. Given monocular self-rotating videos of human performers, SelfNeRF can train from scratch and achieve high-fidelity results in about twenty minutes. Some recent works have utilized the neural radiance field for dynamic human reconstruction. However, most of these methods need multi-view inputs and require hours of training, making it still difficult for practical use. To address this challenging problem, we introduce a surface-relative representation based on multi-resolution hash encoding that can greatly improve the training speed and aggregate inter-frame information. Extensive experimental results on several different datasets demonstrate the effectiveness and efficiency of SelfNeRF to challenging monocular videos.
翻訳日:2022-10-05 15:17:50 公開日:2022-10-04
# 道路障害物検出の展望

Perspective Aware Road Obstacle Detection ( http://arxiv.org/abs/2210.01779v1 )

ライセンス: Link先を確認
Krzysztof Lis, Sina Honari, Pascal Fua, Mathieu Salzmann(参考訳) 道路障害物検出技術はますます有効になっているが、実際には、車両への距離が増加するにつれて障害物の見かけの大きさが減少するという事実を無視するのが一般的である。 本稿では,画像位置毎に仮想物体の見かけの大きさをエンコードするスケールマップを計算し,その特徴を説明する。 次に、この視点マップを活用する。 (i)既存の方法よりも現実的な方法で合成物を道路に注入して訓練データを生成すること。 (ii)検出ネットワークの復号部に遠近情報を取り込んで障害物検出を誘導する。 標準ベンチマークの結果から,これらの2つの手法により障害物検出性能が大幅に向上し,インスタンスレベルの障害物検出の手法を一貫して上回ることを示す。

While road obstacle detection techniques have become increasingly effective, they typically ignore the fact that, in practice, the apparent size of the obstacles decreases as their distance to the vehicle increases. In this paper, we account for this by computing a scale map encoding the apparent size of a hypothetical object at every image location. We then leverage this perspective map to (i) generate training data by injecting synthetic objects onto the road in a more realistic fashion than existing methods; and (ii) incorporate perspective information in the decoding part of the detection network to guide the obstacle detector. Our results on standard benchmarks show that, together, these two strategies significantly boost the obstacle detection performance, allowing our approach to consistently outperform state-of-the-art methods in terms of instance-level obstacle detection.
翻訳日:2022-10-05 15:17:38 公開日:2022-10-04
# COPILOT:多視点エゴセントリックビデオからの人間の衝突予測と位置推定

COPILOT: Human Collision Prediction and Localization from Multi-view Egocentric Videos ( http://arxiv.org/abs/2210.01781v1 )

ライセンス: Link先を確認
Boxiao Pan, Bokui Shen, Davis Rempe, Despoina Paschalidou, Kaichun Mo, Yanchao Yang, Leonidas J. Guibas(参考訳) 安全な人間の動きを作り出すためには、補助ウェアラブル外骨格に、自我中心の観測から潜在的な衝突を予測できる知覚システムを設ける必要がある。 しかしながら、エクソスケルトン知覚に対する以前のアプローチは、特定の種類の環境に問題を単純化し、スケーラビリティを制限した。 本稿では,外骨格から撮影した多視点自我中心のRGBビデオから,多様な環境における人間とシーンの衝突を予測することの難しさと新しい問題を提案する。 環境と衝突する身体関節を分類し, 環境中の衝突を局所化する衝突領域のヒートマップを予測することにより, 複雑な現実世界のシーンに一般化し, 下流制御のための動作可能な出力を提供する外骨格認識システムを開発することを目的とする。 本稿では,衝突予測と局所化を同時に行うビデオトランスフォーマーモデルCOPILOTを提案する。 モデルをトレーニングし,評価するために,フォトリアリスティックな3d環境内を移動する仮想人間をシミュレートする合成データ生成フレームワークを構築した。 このフレームワークは、8.6mのエゴセントリックなrgbdフレームからなるデータセットを確立するために使われます。 広範にわたる実験により,本モデルが期待できる性能を実現し,実世界だけでなく見えない場面にも一般化できることが示唆された。 本稿では,下流衝突回避タスクにCOPILOTを適用し,単純なクローズドループ制御アルゴリズムを用いて未確認シーンにおける衝突事例を29%削減することに成功した。

To produce safe human motions, assistive wearable exoskeletons must be equipped with a perception system that enables anticipating potential collisions from egocentric observations. However, previous approaches to exoskeleton perception greatly simplify the problem to specific types of environments, limiting their scalability. In this paper, we propose the challenging and novel problem of predicting human-scene collisions for diverse environments from multi-view egocentric RGB videos captured from an exoskeleton. By classifying which body joints will collide with the environment and predicting a collision region heatmap that localizes potential collisions in the environment, we aim to develop an exoskeleton perception system that generalizes to complex real-world scenes and provides actionable outputs for downstream control. We propose COPILOT, a video transformer-based model that performs both collision prediction and localization simultaneously, leveraging multi-view video inputs via a proposed joint space-time-viewpoint attention operation. To train and evaluate the model, we build a synthetic data generation framework to simulate virtual humans moving in photo-realistic 3D environments. This framework is then used to establish a dataset consisting of 8.6M egocentric RGBD frames to enable future work on the problem. Extensive experiments suggest that our model achieves promising performance and generalizes to unseen scenes as well as real world. We apply COPILOT to a downstream collision avoidance task, and successfully reduce collision cases by 29% on unseen scenes using a simple closed-loop control algorithm.
翻訳日:2022-10-05 15:17:24 公開日:2022-10-04
# ドライバーのリスクフィールドを用いた臨界運転行動の実証から学ぶ

Learning from Demonstrations of Critical Driving Behaviours Using Driver's Risk Field ( http://arxiv.org/abs/2210.01747v1 )

ライセンス: Link先を確認
Yurui Du, Flavia Sofia Acerbo, Jens Kober, Tong Duy Son(参考訳) 近年,自律走行車(AV)計画モジュールのコアとして,模倣学習(IL)が産業で広く利用されている。 しかし、ilプランナーに関する以前の研究は、安全-クリティカルシナリオにおけるサンプル非効率と低い一般化を示しており、それらはほとんどテストされない。 その結果、ilプランナーは、学習ポリシーを改善するためにより多くのトレーニングデータを追加するのをやめるパフォーマンスの高原に達することができる。 まず,スプライン係数パラメータ化とオフライン専門家クエリを用いて,安全性とトレーニング効率を向上させるためのILモデルを提案する。 そして、Lyft予測データセットに基づくマルチエージェント交通シミュレータに実装されたパラメトリック人間運転行動モデルであるドライバのリスクフィールド(DRF)のパラメータを最適化することで、臨界シナリオを合成して学習したILポリシーの弱点を明らかにする。 学習方針を継続的に改善するために,ilモデルを拡張データで再トレーニングする。 DRFの表現性と解釈性により、所望の駆動動作を符号化し、元のトレーニングデータに集約することができる。 我々の研究は、クローズドループにおける学習したILポリシーを効率的かつ継続的に改善できる完全な開発サイクルを構成する。 最後に,30分の1のトレーニングリソースで開発したilプランナーは,従来よりも優れた性能を示す。

In recent years, imitation learning (IL) has been widely used in industry as the core of autonomous vehicle (AV) planning modules. However, previous work on IL planners shows sample inefficiency and low generalisation in safety-critical scenarios, on which they are rarely tested. As a result, IL planners can reach a performance plateau where adding more training data ceases to improve the learnt policy. First, our work presents an IL model using the spline coefficient parameterisation and offline expert queries to enhance safety and training efficiency. Then, we expose the weakness of the learnt IL policy by synthetically generating critical scenarios through optimisation of parameters of the driver's risk field (DRF), a parametric human driving behaviour model implemented in a multi-agent traffic simulator based on the Lyft Prediction Dataset. To continuously improve the learnt policy, we retrain the IL model with augmented data. Thanks to the expressivity and interpretability of the DRF, the desired driving behaviours can be encoded and aggregated to the original training data. Our work constitutes a full development cycle that can efficiently and continuously improve the learnt IL policies in closed-loop. Finally, we show that our IL planner developed with 30 times less training resource still has superior performance compared to the previous state-of-the-art.
翻訳日:2022-10-05 15:10:26 公開日:2022-10-04
# 共形p値を用いた予測による選択

Selection by Prediction with Conformal p-values ( http://arxiv.org/abs/2210.01408v1 )

ライセンス: Link先を確認
Ying Jin, Emmanuel J. Cand\`es(参考訳) リソース集約的なステップの前には、機械学習モデルからの予測を使用して、大きなプールから少数の候補を短くする初期スクリーニングが行われることが多い。 本研究では,未観測結果がユーザ指定値を超える候補を選択するためのスクリーニング手順について検討する。 任意の予測モデルを包み込み、候補のサブセットを生成しながら、誤選択されたユニットの割合を制御する手法を開発した。 共形推論の枠組みを基礎として, 提案手法はまず, 結果の統計的証拠を定量化するp-値を構築し, 続いて, p-値と複数の試験文献で導入されたしきい値を比較してショートリストを決定する。 多くの場合、この手順は、予測がデータ依存の閾値を超える候補を選択する。 本手法の実証的な性能をシミュレーションにより実証し,職種雇用と薬物発見データセットに適用する。

Decision making or scientific discovery pipelines such as job hiring and drug discovery often involve multiple stages: before any resource-intensive step, there is often an initial screening that uses predictions from a machine learning model to shortlist a few candidates from a large pool. We study screening procedures that aim to select candidates whose unobserved outcomes exceed user-specified values. We develop a method that wraps around any prediction model to produce a subset of candidates while controlling the proportion of falsely selected units. Building upon the conformal inference framework, our method first constructs p-values that quantify the statistical evidence for large outcomes; it then determines the shortlist by comparing the p-values to a threshold introduced in the multiple testing literature. In many cases, the procedure selects candidates whose predictions are above a data-dependent threshold. We demonstrate the empirical performance of our method via simulations, and apply it to job hiring and drug discovery datasets.
翻訳日:2022-10-05 15:10:07 公開日:2022-10-04
# アダプティブシナプス障害は脳の後方予測分布からのサンプリングを可能にする

Adaptive Synaptic Failure Enables Sampling from Posterior Predictive Distributions in the Brain ( http://arxiv.org/abs/2210.01691v1 )

ライセンス: Link先を確認
Kevin McKee, Ian Crandell, Rishidev Chaudhuri, Randall O'Reilly(参考訳) ニューラルプロセッシングのベイズ解釈では、生物学的メカニズムはベイズの定理に従って確率分布を表現し、操作する必要がある。 多くの人はシナプス障害が脳における変分、すなわち近似的ベイズ推論のメカニズムを構成すると推測している。 従来のモデルでは, モデルパラメータの不確かさに対してシナプス障害をサンプリングしているが, 学習したネットワーク重みに伝達確率を適応させることで, モデル不確かさだけでなく, 完全な後続予測分布に対してもシナプス障害をサンプリングできることが実証された。 この結果は、確率的探索と複雑な積分を近似する脳の能力を説明する可能性がある。 これらの演算は、複素計画のための可能性評価や状態値推定など、多くの計算に関わっている。

Bayesian interpretations of neural processing require that biological mechanisms represent and operate upon probability distributions in accordance with Bayes' theorem. Many have speculated that synaptic failure constitutes a mechanism of variational, i.e., approximate, Bayesian inference in the brain. Whereas models have previously used synaptic failure to sample over uncertainty in model parameters, we demonstrate that by adapting transmission probabilities to learned network weights, synaptic failure can sample not only over model uncertainty, but complete posterior predictive distributions as well. Our results potentially explain the brain's ability to perform probabilistic searches and to approximate complex integrals. These operations are involved in numerous calculations, including likelihood evaluation and state value estimation for complex planning.
翻訳日:2022-10-05 15:09:51 公開日:2022-10-04
# 有色点雲用遠心距離キーポイント検出器

Centroid Distance Keypoint Detector for Colored Point Clouds ( http://arxiv.org/abs/2210.01298v1 )

ライセンス: Link先を確認
Hanzhe Teng, Dimitrios Chatziparaschis, Xinyue Kan, Amit K. Roy-Chowdhury, Konstantinos Karydis(参考訳) キーポイント検出は多くのコンピュータビジョンとロボット工学アプリケーションの基礎となる。 色付き点雲が容易に取得できるという事実にもかかわらず、既存のキーポイント検出器は幾何学的な鍵点のみを抽出し、色情報を利用する(あるいはその可能性を持つ)システム全体の性能を阻害する。 このようなシステムの進歩を促進するために,色点雲中の幾何学的・色彩的キーポイントを抽出できる効率的なマルチモーダルキーポイント検出器を提案する。 提案するセントロイド距離(ced)キーポイント検出器は、3d空間とカラー空間の両方で使用可能な直感的かつ効果的な塩分量測定器と、2つ以上のモダリティで高い塩分率を持つキーポイントを選択できるマルチモーダル非最大抑制アルゴリズムとを含む。 提案手法は局所近傍の点の分布を直接活用し,正規推定や固有値分解は必要としない。 提案手法は,合成データと実世界のデータセットの両方において,最先端のキーポイント検出器に対する再現性と計算効率(すなわち実行時間)の観点から評価する。 その結果,提案するcedキーポイント検出器は,高い再現性を実現するのに最小の計算時間を必要とすることがわかった。 提案手法の潜在的な応用の1つを示すために,カラーポイントクラウド登録の課題をさらに検討する。 その結果,提案するced検出器は,手作り,学習によるキーポイント検出を評価場面で上回っていることが示唆された。 提案手法のC++実装はhttps://github.com/UCR-Robotics/CED_Detectorで公開されている。

Keypoint detection serves as the basis for many computer vision and robotics applications. Despite the fact that colored point clouds can be readily obtained, most existing keypoint detectors extract only geometry-salient keypoints, which can impede the overall performance of systems that intend to (or have the potential to) leverage color information. To promote advances in such systems, we propose an efficient multi-modal keypoint detector that can extract both geometry-salient and color-salient keypoints in colored point clouds. The proposed CEntroid Distance (CED) keypoint detector comprises an intuitive and effective saliency measure, the centroid distance, that can be used in both 3D space and color space, and a multi-modal non-maximum suppression algorithm that can select keypoints with high saliency in two or more modalities. The proposed saliency measure leverages directly the distribution of points in a local neighborhood and does not require normal estimation or eigenvalue decomposition. We evaluate the proposed method in terms of repeatability and computational efficiency (i.e. running time) against state-of-the-art keypoint detectors on both synthetic and real-world datasets. Results demonstrate that our proposed CED keypoint detector requires minimal computational time while attaining high repeatability. To showcase one of the potential applications of the proposed method, we further investigate the task of colored point cloud registration. Results suggest that our proposed CED detector outperforms state-of-the-art handcrafted and learning-based keypoint detectors in the evaluated scenes. The C++ implementation of the proposed method is made publicly available at https://github.com/UCR-Robotics/CED_Detector.
翻訳日:2022-10-05 15:08:28 公開日:2022-10-04
# 3次元左心房画像分割のための相補的半教師付き学習

Complementary consistency semi-supervised learning for 3D left atrial image segmentation ( http://arxiv.org/abs/2210.01438v1 )

ライセンス: Link先を確認
Hejun Huang, Zuguo Chen, Chaoyang Chen, Ming Lu and Ying Zou(参考訳) 本稿では,半教師付き左心房画像分割のための補完的整合性トレーニング(CC-Net)に基づくネットワークを提案する。 補完情報の観点から、CC-Netはラベルなしデータを効果的に利用し、現在使われている半教師付きセグメンテーションアルゴリズムがラベルなしデータから情報を抽出する能力に制限があるという問題を解決する。 一次モデルと2つの補完補助モデルはcc-netの相補的対称構造の一部である。 相補的整合性トレーニングは、一次モデルと補助モデルの間のモデル間摂動によって形成される。 主モデルは2つの補助モデルによって提供される相補的な情報により、曖昧な領域に集中することができる。 さらに、一次モデルと補助モデルとの整合性を強制することで、決定境界をほとんど不確実性なく得ることができる。 CC-Netは2018年のベンチマークデータセットで検証され、Diceの89.42%、10%のラベル付きデータトレーニング、91.14%のラベル付きデータトレーニングに到達した。 現在の最先端アルゴリズムと比較すると、CC-Netはセグメンテーション性能と堅牢性が最も優れている。 私たちのコードはhttps://github.com/Cuthbert-Huang/CC-Net.comで公開されています。

A network based on complementary consistency training (CC-Net) is proposed for semi-supervised left atrial image segmentation in this paper. From the perspective of complementary information, CC-Net effectively utilizes unlabeled data and resolves the problem that semi-supervised segmentation algorithms currently in use have a limited capacity to extract information from unlabeled data. A primary model and two complementary auxiliary models are part of the complementary symmetric structure of the CC-Net. A complementary consistency training is formed by the inter-model perturbation between the primary model and the auxiliary models. The main model is better able to concentrate on the ambiguous region due to the complementary information provided by the two auxiliary models. Additionally, forcing consistency between the primary model and the auxiliary models makes it easier to obtain decision boundaries with little uncertainty. CC-Net was validated in the benchmark dataset of 2018 left atrial segmentation challenge, reaching Dice of 89.42% with 10% labeled data training and 91.14% with 20% labeled data training. By comparing with current state-of-the-art algorithms, CC-Net has the best segmentation performance and robustness. Our code is publicly available at https://github.com/Cuthbert-Huang/CC-Net.
翻訳日:2022-10-05 15:08:01 公開日:2022-10-04
# 重み付き層表示のためのディープリーフネットワークと重み付きバイナリ画像に基づく新しい光フィールド符号化方式

A Novel Light Field Coding Scheme Based on Deep Belief Network and Weighted Binary Images for Additive Layered Displays ( http://arxiv.org/abs/2210.01447v1 )

ライセンス: Link先を確認
Sally Khaidem and Mansi Sharma(参考訳) 光界表示は、両眼深度感覚と運動視差を提供することで、視聴者の没入感に訴える。 ガラスフリーのテンソル光電界ディスプレイは、自動立体表示技術において顕著な研究領域になりつつある。 積層光減衰層は、被写界深度、広視野角、高解像度の光界ディスプレイを実装するためのアプローチの1つである。 本稿では,Deep Belief Network (DBN) を用いた付加層表示に適した2層画像層のスケーラブルな圧縮に基づく,光フィールドデータのコンパクトかつ効率的な表現を提案する。 提案手法は,畳み込みニューラルネットワーク(CNN)を用いて付加層パターンを学習し,最適化する。 重み付きバイナリイメージは、最適化されたパターンを表し、ファイルサイズを削減し、スケーラブルなエンコーディングを導入する。 DBNはさらに重み付きバイナリパターンを潜時空間表現に圧縮し、h.254コーデックを用いて潜時データを符号化する。 提案手法はh.264やh.265などのベンチマークコーデックと比較され、ライトフィールドデータで性能が向上した。

Light field display caters to the viewer's immersive experience by providing binocular depth sensation and motion parallax. Glasses-free tensor light field display is becoming a prominent area of research in auto-stereoscopic display technology. Stacking light attenuating layers is one of the approaches to implement a light field display with a good depth of field, wide viewing angles and high resolution. This paper presents a compact and efficient representation of light field data based on scalable compression of the binary represented image layers suitable for additive layered display using a Deep Belief Network (DBN). The proposed scheme learns and optimizes the additive layer patterns using a convolutional neural network (CNN). Weighted binary images represent the optimized patterns, reducing the file size and introducing scalable encoding. The DBN further compresses the weighted binary patterns into a latent space representation followed by encoding the latent data using an h.254 codec. The proposed scheme is compared with benchmark codecs such as h.264 and h.265 and achieved competitive performance on light field data.
翻訳日:2022-10-05 15:07:41 公開日:2022-10-04
# securefedyj: フェデレーション学習のための安全な機能gaussianizationプロトコル

SecureFedYJ: a safe feature Gaussianization protocol for Federated Learning ( http://arxiv.org/abs/2210.01639v1 )

ライセンス: Link先を確認
Tanguy Marchand, Boris Muzellec, Constance Beguier, Jean Ogier du Terrail, Mathieu Andreux(参考訳) yeo-johnson (yj) 変換は、機械学習の特徴をガウス化するためによく用いられる標準パラメトリゼーション単位の一次元変換である。 本稿では,プライバシー制約下でのクロスサイロなフェデレーション学習環境におけるYJ変換の適用問題について検討する。 初めて、YJ負の対数類似度が実際に凸であることを証明し、指数探索で最適化する。 得られたアルゴリズムはブレント最小化法に基づく最先端手法よりも安定であることを示す。 この単純なアルゴリズムとセキュアなマルチパーティ計算ルーチンに基づいて、最終的なパラメータよりも多くの情報を漏らすことなくプール等価YJ変換を行うフェデレーションアルゴリズムSecureFedYJを提案する。 実データに対する定量的な実験は、安全であることに加えて、サイロ間の機能を確実に正規化し、データがプールされた場合、安全なフェデレーション機能ガウス化のための有効なアプローチとなることを証明します。

The Yeo-Johnson (YJ) transformation is a standard parametrized per-feature unidimensional transformation often used to Gaussianize features in machine learning. In this paper, we investigate the problem of applying the YJ transformation in a cross-silo Federated Learning setting under privacy constraints. For the first time, we prove that the YJ negative log-likelihood is in fact convex, which allows us to optimize it with exponential search. We numerically show that the resulting algorithm is more stable than the state-of-the-art approach based on the Brent minimization method. Building on this simple algorithm and Secure Multiparty Computation routines, we propose SecureFedYJ, a federated algorithm that performs a pooled-equivalent YJ transformation without leaking more information than the final fitted parameters do. Quantitative experiments on real data demonstrate that, in addition to being secure, our approach reliably normalizes features across silos as well as if data were pooled, making it a viable approach for safe federated feature Gaussianization.
翻訳日:2022-10-05 15:01:31 公開日:2022-10-04
# テスト時間トレーニングのためのミックスアップ

Mixup for Test-Time Training ( http://arxiv.org/abs/2210.01640v1 )

ライセンス: Link先を確認
Bochao Zhang, Rui Shao, Jingda Du, PC Yuen(参考訳) テスト時のトレーニングは、ドメインシフトの問題を解決する新しいアプローチを提供する。 そのフレームワークでは、トレーニングフェーズとテストフェーズの間にテストタイムトレーニングフェーズが挿入される。 テスト時のトレーニングフェーズでは、通常はモデルの一部がテストサンプルで更新される。 その後、更新されたモデルはテストフェーズで使用される。 しかし、テスト時間トレーニングにテストサンプルを利用することにはいくつかの制限がある。 まず第一に、テスト時の手順に過度に適合するので、メインタスクのパフォーマンスが損なわれる。 さらに、他の部分を変更することなくモデルの一部を更新すると、ミスマッチの問題が発生する。 したがって、メインタスクでより良く実行するのは難しい。 上記の問題を緩和するため,我々はmixupをテスト時間トレーニング(mixttt)で使用し,モデルのパラメータの変更を制御し,テスト時間手順を完了させる。 実験時間トレーニングの具体的正規化効果として,メインタスクの更新部分と静的部分のミスマッチ問題の軽減に理論的に寄与していることを示す。 mixtttは、パフォーマンスをさらに向上させるために、一般的なテスト時間トレーニングベースのメソッドでアドオンモジュールとして使用できる。 実験の結果,本手法の有効性が示された。

Test-time training provides a new approach solving the problem of domain shift. In its framework, a test-time training phase is inserted between training phase and test phase. During test-time training phase, usually parts of the model are updated with test sample(s). Then the updated model will be used in the test phase. However, utilizing test samples for test-time training has some limitations. Firstly, it will lead to overfitting to the test-time procedure thus hurt the performance on the main task. Besides, updating part of the model without changing other parts will induce a mismatch problem. Thus it is hard to perform better on the main task. To relieve above problems, we propose to use mixup in test-time training (MixTTT) which controls the change of model's parameters as well as completing the test-time procedure. We theoretically show its contribution in alleviating the mismatch problem of updated part and static part for the main task as a specific regularization effect for test-time training. MixTTT can be used as an add-on module in general test-time training based methods to further improve their performance. Experimental results show the effectiveness of our method.
翻訳日:2022-10-05 15:01:13 公開日:2022-10-04
# 逐次実世界データセット上の異常検出のための複数インスタンス学習

Multiple Instance Learning for Detecting Anomalies over Sequential Real-World Datasets ( http://arxiv.org/abs/2210.01707v1 )

ライセンス: Link先を確認
Parastoo Kamranfar, David Lattanzi, Amarda Shehu, Daniel Barbar\'a(参考訳) 現実世界のデータセット上の異常を検出することは、依然として難しい課題だ。 データアノテーションは集中的な人的労働問題であり、特に連続したデータセットでは、異常の開始と終了が分かっていない。 その結果、シーケンシャルな実世界のプロセスから収集されたデータは、ほとんどラベル付けされないか、不正確なラベルを含むことができる。 これらの特徴は教師付き学習に基づく異常検出手法の適用に挑戦する。 対照的に、MIL(Multiple Instance Learning)は、主にバッグの概念のため、トレーニングデータセットにおけるラベルの不完全な知識の問題に有効であることが示されている。 MILは, 異常検出にはあまり役に立たないが, 実世界のデータセット上での異常検出に魅力的な定式化を提供する。 本稿では,MIL ベースの定式化と,フレームワークのキーコンポーネントに対する異なる設計決定に基づく様々なアルゴリズムインスタンス化を提案する。 得られたアルゴリズムを4つのデータセット上で評価し,様々な物理プロセスを異なるモダリティに沿ってキャプチャする。 実験ではいくつかの観察結果が得られた。 MILベースの定式化は、容易に適度なデータセットでシングルインスタンス学習をし、より困難なデータセットでシングルインスタンス学習を上回ります。 その結果,実世界の異なるアプリケーションドメインから得られる多種多様なデータセットに対して,フレームワークが十分に一般化していることが判明した。

Detecting anomalies over real-world datasets remains a challenging task. Data annotation is an intensive human labor problem, particularly in sequential datasets, where the start and end time of anomalies are not known. As a result, data collected from sequential real-world processes can be largely unlabeled or contain inaccurate labels. These characteristics challenge the application of anomaly detection techniques based on supervised learning. In contrast, Multiple Instance Learning (MIL) has been shown effective on problems with incomplete knowledge of labels in the training dataset, mainly due to the notion of bags. While largely under-leveraged for anomaly detection, MIL provides an appealing formulation for anomaly detection over real-world datasets, and it is the primary contribution of this paper. In this paper, we propose an MIL-based formulation and various algorithmic instantiations of this framework based on different design decisions for key components of the framework. We evaluate the resulting algorithms over four datasets that capture different physical processes along different modalities. The experimental evaluation draws out several observations. The MIL-based formulation performs no worse than single instance learning on easy to moderate datasets and outperforms single-instance learning on more challenging datasets. Altogether, the results show that the framework generalizes well over diverse datasets resulting from different real-world application domains.
翻訳日:2022-10-05 15:00:58 公開日:2022-10-04
# 神経保存法:多様性のない視点

Neural Conservation Laws: A Divergence-Free Perspective ( http://arxiv.org/abs/2210.01741v1 )

ライセンス: Link先を確認
Jack Richter-Powell, Yaron Lipman, Ricky T. Q. Chen(参考訳) 基本保存法則である連続性方程式を設計により満足するディープニューラルネットワークのパラメータ化について検討する。 これは連続方程式の解を発散のないベクトル場として表現できるという観測によって実現される。 そこで我々は, 微分形式の概念を用いて, 分散のないニューラルネットワークを構築することを提案する。 その結果、連続性方程式を常に満たしている密度とベクトル場の対を構成によってパラメータ化することができ、余剰ペナルティ法や高価な数値シミュレーションが必要となる。 さらに、これらのモデルが普遍的であることを証明し、任意の発散のないベクトル場を表現するのに使うことができる。 最後に,ニューラルネットワークによる流体方程式の解法,ホッジ分解の解法,ホッジ分解の動的最適輸送マップの学習,動的最適輸送マップの学習について実験的に検証した。

We investigate the parameterization of deep neural networks that by design satisfy the continuity equation, a fundamental conservation law. This is enabled by the observation that solutions of the continuity equation can be represented as a divergence-free vector field. We hence propose building divergence-free neural networks through the concept of differential forms, and with the aid of automatic differentiation, realize two practical constructions. As a result, we can parameterize pairs of densities and vector fields that always satisfy the continuity equation by construction, foregoing the need for extra penalty methods or expensive numerical simulation. Furthermore, we prove these models are universal and so can be used to represent any divergence-free vector field. Finally, we experimentally validate our approaches on neural network-based solutions to fluid equations, solving for the Hodge decomposition, and learning dynamical optimal transport maps the Hodge decomposition, and learning dynamical optimal transport maps.
翻訳日:2022-10-05 15:00:36 公開日:2022-10-04
# バイオインスパイアされたクラスタリングを用いたWebサービス検索フレームワーク

A Framework for Web Services Retrieval Using Bio Inspired Clustering ( http://arxiv.org/abs/2210.01761v1 )

ライセンス: Link先を確認
Anirudha Rayasam, Siddhartha R Thota, Avinash N Bukkittu, and Sowmya Kamath(参考訳) 特定のユーザクエリに関する関連Webサービスの効率的な発見は、Web技術分野の驚くべき成長のために、ますます困難になっている。 これまでの作業では、これらの問題に対処するために、さまざまなクラスタリングモデルが使用されてきた。 しかし、従来のクラスタリング技術のほとんどは計算集約的であり、関連するすべての問題に対処できない。 また、現在の標準では、クラスタリングと検索の間にWebサービスのセマンティックな関連性を組み込むことができず、パフォーマンスが低下しています。 本稿では,ボトムアップ,分散,自己組織的アプローチを用いて利用可能なサービスをクラスタ化するwebサービス検索フレームワークを提案する。 また、クラスタのオンラインな動的計算を提供し、従来のクラスタリング方法の欠点を克服する。 また、クラスタリングプロセスにおいてWebサービス間のセマンティックな類似性を利用して、精度を高め、リコールを低くする。

Efficiently discovering relevant Web services with respect to a specific user query has become a growing challenge owing to the incredible growth in the field of web technologies. In previous works, different clustering models have been used to address these issues. But, most of the traditional clustering techniques are computationally intensive and fail to address all the problems involved. Also, the current standards fail to incorporate the semantic relatedness of Web services during clustering and retrieval resulting in decreased performance. In this paper, we propose a framework for web services retrieval that uses a bottom-up, decentralized and self organising approach to cluster available services. It also provides online, dynamic computation of clusters thus overcoming the drawbacks of traditional clustering methods. We also use the semantic similarity between Web services for the clustering process to enhance the precision and lower the recall.
翻訳日:2022-10-05 15:00:22 公開日:2022-10-04
# 高次元データに対するロバスト自己修復予測モデル

Robust self-healing prediction model for high dimensional data ( http://arxiv.org/abs/2210.01788v1 )

ライセンス: Link先を確認
Anirudha Rayasam, Nagamma Patil(参考訳) 精度の向上と不明瞭なパターンの検出の可能性により、データマイニング技術によって標準分類問題に広く取り入れられている。 医学分野では高い精度の疾患予測によく用いられ、高い精度を達成することができるいくつかのハイブリッド予測モデルが提案されている。 しかし、従来のモデルのほとんどは、ほとんどの高次元データを悩ませる悪質なデータ品質の繰り返しの問題に効果的に対処することができず、特に高感度な医療データに問題があることを証明している。 本研究は,データを捨てるのではなく,誤りや不整合を取り除き,データ全体を用いて機能する頑健な自己修復(RSH)ハイブリッド予測モデルを提案する。 初期処理は、データ準備に続き、コンテキスト依存の属性補正によって、特徴の選択と予測フェーズの前に関連情報が著しく失われないことを保証する。 局所ブースティングを行う異種分類器のアンサンブルを用いて予測モデルを構築し、各分類器にラップされた遺伝的アルゴリズムに基づくラッパー特徴選択技術を用いて、対応する最適特徴集合を選定し、精度を高める。 提案手法は,既存のハイパフォーマンスモデルと比較し,解析を行った。

Owing to the advantages of increased accuracy and the potential to detect unseen patterns, provided by data mining techniques they have been widely incorporated for standard classification problems. They have often been used for high precision disease prediction in the medical field, and several hybrid prediction models capable of achieving high accuracies have been proposed. Though this stands true most of the previous models fail to efficiently address the recurring issue of bad data quality which plagues most high dimensional data, and especially proves troublesome in the highly sensitive medical data. This work proposes a robust self healing (RSH) hybrid prediction model which functions by using the data in its entirety by removing errors and inconsistencies from it rather than discarding any data. Initial processing involves data preparation followed by cleansing or scrubbing through context-dependent attribute correction, which ensures that there is no significant loss of relevant information before the feature selection and prediction phases. An ensemble of heterogeneous classifiers, subjected to local boosting, is utilized to build the prediction model and genetic algorithm based wrapper feature selection technique wrapped on the respective classifiers is employed to select the corresponding optimal set of features, which warrant higher accuracy. The proposed method is compared with some of the existing high performing models and the results are analyzed.
翻訳日:2022-10-05 15:00:08 公開日:2022-10-04
# 目標の誤用:正しい目標の仕様が不十分な理由

Goal Misgeneralization: Why Correct Specifications Aren't Enough For Correct Goals ( http://arxiv.org/abs/2210.01790v1 )

ライセンス: Link先を確認
Rohin Shah, Vikrant Varma, Ramana Kumar, Mary Phuong, Victoria Krakovna, Jonathan Uesato, Zac Kenton(参考訳) AIアライメントの分野は、意図しない目標を追求するAIシステムに関するものだ。 意図しないゴールが生じる可能性のあるメカニズムとして、デザイナーが提供する仕様が、設計者が予測しなかった方法で欠陥がある仕様ゲームがある。 しかし、aiシステムは、目標の非一般化の場合、仕様が正しい場合でも望ましくない目標を追求することができる。 目標非一般化(goal misgeneralization)とは、学習アルゴリズムにおける堅牢性障害の一形態であり、学習プログラムが望ましくない目標を巧みに追求する。 様々な分野にわたる深層学習システムにいくつかの例を提示することにより,目標の誤一般化が実用システムで起こりうることを示す。 より有能なシステムに先駆けて、目標の一般化が破滅的なリスクにどのようにつながるかを示す仮説を提示する。 我々は,将来のシステムにおける目標不一般化のリスクを低減できるいくつかの研究方向を提案する。

The field of AI alignment is concerned with AI systems that pursue unintended goals. One commonly studied mechanism by which an unintended goal might arise is specification gaming, in which the designer-provided specification is flawed in a way that the designers did not foresee. However, an AI system may pursue an undesired goal even when the specification is correct, in the case of goal misgeneralization. Goal misgeneralization is a specific form of robustness failure for learning algorithms in which the learned program competently pursues an undesired goal that leads to good performance in training situations but bad performance in novel test situations. We demonstrate that goal misgeneralization can occur in practical systems by providing several examples in deep learning systems across a variety of domains. Extrapolating forward to more capable systems, we provide hypotheticals that illustrate how goal misgeneralization could lead to catastrophic risk. We suggest several research directions that could reduce the risk of goal misgeneralization for future systems.
翻訳日:2022-10-05 14:59:47 公開日:2022-10-04
# オープンワールドにおけるロボット作業計画と状況対応

Robot Task Planning and Situation Handling in Open Worlds ( http://arxiv.org/abs/2210.01287v1 )

ライセンス: Link先を確認
Yan Ding, Xiaohan Zhang, Saeid Amiri, Nieqing Cao, Hao Yang, Chad Esselink, Shiqi Zhang(参考訳) ロボットが複数のアクションを必要とする複雑なタスクを完了するためのタスク計画アルゴリズムが開発されている。 これらのアルゴリズムのほとんどは、完全な世界知識が与えられたと仮定して「閉じた世界」のために開発された。 しかし、現実の世界は一般にオープンであり、ロボットは計画者の完全性を損なう可能性のある予期せぬ状況にしばしば遭遇する。 本稿では,タスク指向の共通感覚でロボットの行動知識を動的に増強するオープンワールドタスク計画と状況処理のための新しいアルゴリズム(COWP)を提案する。 特に,手作業とロボットのスキルに基づいて,大規模言語モデルから共通感覚を抽出する。 系統的な評価を行うため,ダイニング領域における実行時間591の状況を含むデータセットを収集し,各状況が正常に動作する解を用いてタスクを完了できないロボットの状態インスタンスに対応する。 実験結果から,本手法は業務成功率の文献と競合する基準線を著しく上回ることがわかった。 さらに,移動マニピュレータを用いたCOWPの実証を行った。 追加資料は、https://cowplanning.github.io/で入手できる。

Automated task planning algorithms have been developed to help robots complete complex tasks that require multiple actions. Most of those algorithms have been developed for "closed worlds" assuming complete world knowledge is provided. However, the real world is generally open, and the robots frequently encounter unforeseen situations that can potentially break the planner's completeness. This paper introduces a novel algorithm (COWP) for open-world task planning and situation handling that dynamically augments the robot's action knowledge with task-oriented common sense. In particular, common sense is extracted from Large Language Models based on the current task at hand and robot skills. For systematic evaluations, we collected a dataset that includes 561 execution-time situations in a dining domain, where each situation corresponds to a state instance of a robot being potentially unable to complete a task using a solution that normally works. Experimental results show that our approach significantly outperforms competitive baselines from the literature in the success rate of service tasks. Additionally, we have demonstrated COWP using a mobile manipulator. Supplementary materials are available at: https://cowplanning.github.io/
翻訳日:2022-10-05 14:59:15 公開日:2022-10-04
# 偶発的模倣学習

Extraneousness-Aware Imitation Learning ( http://arxiv.org/abs/2210.01379v1 )

ライセンス: Link先を確認
Ray Chen Zheng, Kaizhe Hu, Zhecheng Yuan, Boyuan Chen, Huazhe Xu(参考訳) 視覚模倣学習は、デモからスキルを学ぶための効果的なフレームワークを提供する。 しかし、提供されたデモの質は、通常エージェントが望ましいスキルを習得する能力に大きく影響する。 したがって、標準的な視覚模倣学習は、高価で時には収集が禁止される、ほぼ最適のデモンストレーションを前提としている。 以前の研究はノイズのデモから学ぶことを提案しているが、ノイズは通常、一様分布やガウス分布のような文脈に依存しない分布に従うと仮定される。 本稿では,実験においてタスクに無関係かつ局所的に一貫性のあるセグメント(例えば,料理のチュートリアルでジャガイモを切断しながら汗を拭くなど)を用いた模倣学習について検討する。 このようなノイズは現実世界のデータでは一般的であり、"extraneous"セグメントと呼ぶ。 この問題に対処するため,我々は,第三者によるデモから自発的政策を学ぶための自己教師付きアプローチであるeil(extraneousness-aware imitation learning)を導入する。 eilは、アクションコンディションによる観察埋め込みを自己教師方式で学習し、視覚的なデモンストレーションを通じてタスク関連の観察を検索し、余計な観察を除外する。 実験の結果、eilは強力なベースラインを上回っており、シミュレーションと実世界のロボット制御タスクの両方で完璧にデモンストレーションされた者と同等のポリシーを達成していることがわかった。 プロジェクトページはhttps://sites.google.com/view/eil-websiteにある。

Visual imitation learning provides an effective framework to learn skills from demonstrations. However, the quality of the provided demonstrations usually significantly affects the ability of an agent to acquire desired skills. Therefore, the standard visual imitation learning assumes near-optimal demonstrations, which are expensive or sometimes prohibitive to collect. Previous works propose to learn from noisy demonstrations; however, the noise is usually assumed to follow a context-independent distribution such as a uniform or gaussian distribution. In this paper, we consider another crucial yet underexplored setting -- imitation learning with task-irrelevant yet locally consistent segments in the demonstrations (e.g., wiping sweat while cutting potatoes in a cooking tutorial). We argue that such noise is common in real world data and term them "extraneous" segments. To tackle this problem, we introduce Extraneousness-Aware Imitation Learning (EIL), a self-supervised approach that learns visuomotor policies from third-person demonstrations with extraneous subsequences. EIL learns action-conditioned observation embeddings in a self-supervised manner and retrieves task-relevant observations across visual demonstrations while excluding the extraneous ones. Experimental results show that EIL outperforms strong baselines and achieves comparable policies to those trained with perfect demonstration on both simulated and real-world robot control tasks. The project page can be found at https://sites.google.com/view/eil-website.
翻訳日:2022-10-05 14:58:57 公開日:2022-10-04
# ニューラルネットワークを用いた添加物製造のための同時ビルド方向,部分セグメンテーション,トポロジー最適化

Concurrent build direction, part segmentation, and topology optimization for additive manufacturing using neural networks ( http://arxiv.org/abs/2210.01315v1 )

ライセンス: Link先を確認
Hongrui Chen, Aditya Joglekar, Kate S. Whitefoot, Levent Burak Kara(参考訳) 本稿では,加法製造におけるサポート構造の利用を減らすことを目的としたトポロジー最適化のためのニューラルネットワークアプローチを提案する。 提案手法では,(1)部分分割,(2)各部分のトポロジ,(3)各部分のビルド方向の同時決定を可能にするネットワークアーキテクチャを用いる。 トレーニングを通じて、ネットワークは連続した3d空間で物質密度とセグメントの分類を学ぶ。 所定の負荷及び変位境界条件を有する問題領域が与えられると、ニューラルネットワークは、ボクセル化領域の入力3d座標をトレーニングサンプルとし、連続密度場を出力する。 トポロジー最適化のためのニューラルネットワークは密度分布場を学習するので、ニューラルネットワークの入出力関係から密度勾配に対する解析解を得ることができる。 本稿では, ボリューム分数制約を伴うコンプライアンス最小化問題に対して, 目的関数に対する追加の基準として, サポートボリュームの最小化を加えた。 また,部分分割の同時最適化とトポロジーおよび印刷角度最適化は,セグメンテーションを伴わない印刷角度とトポロジー最適化の組合せと比較して,支持構造を更に低減することを示した。

We propose a neural network-based approach to topology optimization that aims to reduce the use of support structures in additive manufacturing. Our approach uses a network architecture that allows the simultaneous determination of an optimized: (1) part segmentation, (2) the topology of each part, and (3) the build direction of each part that collectively minimize the amount of support structure. Through training, the network learns a material density and segment classification in the continuous 3D space. Given a problem domain with prescribed load and displacement boundary conditions, the neural network takes as input 3D coordinates of the voxelized domain as training samples and outputs a continuous density field. Since the neural network for topology optimization learns the density distribution field, analytical solutions to the density gradient can be obtained from the input-output relationship of the neural network. We demonstrate our approach on several compliance minimization problems with volume fraction constraints, where support volume minimization is added as an additional criterion to the objective function. We show that simultaneous optimization of part segmentation along with the topology and print angle optimization further reduces the support structure, compared to a combined print angle and topology optimization without segmentation.
翻訳日:2022-10-05 14:52:34 公開日:2022-10-04
# ニューラルネットワークにおける単純度バイアス軽減のための可逆出力マッピングの学習

Learning an Invertible Output Mapping Can Mitigate Simplicity Bias in Neural Networks ( http://arxiv.org/abs/2210.01360v1 )

ライセンス: Link先を確認
Sravanti Addepalli, Anshul Nasery, R. Venkatesh Babu, Praneeth Netrapalli, Prateek Jain(参考訳) ディープニューラルネットワークは、トレーニング分布に比べて小さな分布シフトでも脆弱であることが知られている。 1行の作業で、dnnの単純さのバイアス(sb) - 最も単純な機能のみを学ぶバイアス - が、この脆さの鍵となることが示されているが、別の最近の作業では、多様で複雑な機能はバックボーンによって実際に学習されており、その脆さは、主に単純な機能に依存する線形分類ヘッドに起因する。 これら2つの作業のギャップを埋めるために、まず、sbが複雑な機能を学ぶことを妨げるわけではないが、複雑な機能よりもシンプルな機能を増幅する、という仮説を立て、検証する。 すなわち、単純な機能は学習した表現で数回複製されるが、複雑な機能は複製されない。 この現象を特徴複製仮説(feature replication hypothesis)と呼び、sgdの暗黙のバイアスと相まって特徴空間の最大マージン解に収束し、モデルは主に分類のための単純な特徴に依存する。 このバイアスを軽減するため,我々は,学習した特徴をロジットから元に戻せるように,機能再構築調整器(frr)を提案する。 線形層トレーニング (FRR-L) における {\em FRR} の使用は、より多様な特徴を分類に利用することを促進する。 さらに,frr-lを用いてトレーニングしたリニア層の重みを凍結し,学習した特徴を洗練し,分類に適合させることにより,ネットワーク全体の細粒化を行う。 この単純な解法を用いて,最近導入された準合成データセットにおける最大15%のood精度向上を実証した。 さらに、標準的なOODベンチマークであるDomainBedでも、既存のSOTAメソッドよりも顕著な利得を示す。

Deep Neural Networks are known to be brittle to even minor distribution shifts compared to the training distribution. While one line of work has demonstrated that Simplicity Bias (SB) of DNNs - bias towards learning only the simplest features - is a key reason for this brittleness, another recent line of work has surprisingly found that diverse/ complex features are indeed learned by the backbone, and their brittleness is due to the linear classification head relying primarily on the simplest features. To bridge the gap between these two lines of work, we first hypothesize and verify that while SB may not altogether preclude learning complex features, it amplifies simpler features over complex ones. Namely, simple features are replicated several times in the learned representations while complex features might not be replicated. This phenomenon, we term Feature Replication Hypothesis, coupled with the Implicit Bias of SGD to converge to maximum margin solutions in the feature space, leads the models to rely mostly on the simple features for classification. To mitigate this bias, we propose Feature Reconstruction Regularizer (FRR) to ensure that the learned features can be reconstructed back from the logits. The use of {\em FRR} in linear layer training (FRR-L) encourages the use of more diverse features for classification. We further propose to finetune the full network by freezing the weights of the linear layer trained using FRR-L, to refine the learned features, making them more suitable for classification. Using this simple solution, we demonstrate up to 15% gains in OOD accuracy on the recently introduced semi-synthetic datasets with extreme distribution shifts. Moreover, we demonstrate noteworthy gains over existing SOTA methods on the standard OOD benchmark DomainBed as well.
翻訳日:2022-10-05 14:52:11 公開日:2022-10-04
# 時間変化重み推定器によるデータドリフト補正

Data drift correction via time-varying importance weight estimator ( http://arxiv.org/abs/2210.01422v1 )

ライセンス: Link先を確認
Rasool Fakoor and Jonas Mueller and Zachary C. Lipton and Pratik Chaudhari and Alexander J. Smola(参考訳) 機械学習モデルの現実的な展開は、データが時間とともに進化するときに困難である。 そしてデータは時間とともに進化する。 データが任意の方法で進化する際には、モデルが機能しないが、これらの変更に何らかのパターンがある場合、それに対応するメソッドを設計できるかもしれない。 本稿では,データが徐々に進化する状況に対処する。 本稿では,データ分布のゆるやかな変化を検知できる新しい時間変化重要度推定器を提案する。 このような重要重量推定器は、トレーニング手法が過去のデータを選択的にサンプリングすることを可能にする -- 標準重要重量推定器のような過去の類似データだけでなく、過去に類似した方法で進化したデータも対象とする。 時間のかかる重要性の重みは、かなり一般的です。 データの進化において、既知の構造を利用する様々な実装方法を示します。 本手法は, 教師付き学習タスク(複数画像分類データセット)から, 設計の段階的な変化を連続的に行う学習タスク(ロボット操作と連続制御)まで, 方針やタスクの変化とともに, 組織的にシフトする学習タスク(ロボット操作と連続制御)まで, 様々な課題に対して実証および評価を行う。

Real-world deployment of machine learning models is challenging when data evolves over time. And data does evolve over time. While no model can work when data evolves in an arbitrary fashion, if there is some pattern to these changes, we might be able to design methods to address it. This paper addresses situations when data evolves gradually. We introduce a novel time-varying importance weight estimator that can detect gradual shifts in the distribution of data. Such an importance weight estimator allows the training method to selectively sample past data -- not just similar data from the past like a standard importance weight estimator would but also data that evolved in a similar fashion in the past. Our time-varying importance weight is quite general. We demonstrate different ways of implementing it that exploit some known structure in the evolution of data. We demonstrate and evaluate this approach on a variety of problems ranging from supervised learning tasks (multiple image classification datasets) where the data undergoes a sequence of gradual shifts of our design to reinforcement learning tasks (robotic manipulation and continuous control) where data undergoes a shift organically as the policy or the task changes.
翻訳日:2022-10-05 14:51:38 公開日:2022-10-04
# コア周辺構造グラフの生成モデルと学習アルゴリズム

Generative Models and Learning Algorithms for Core-Periphery Structured Graphs ( http://arxiv.org/abs/2210.01489v1 )

ライセンス: Link先を確認
Sravanthi Gurugubelli and Sundeep Prabhakar Chepuri(参考訳) コア周辺構造グラフは、それぞれ、コアノードと周辺ノードと呼ばれる密結合ノード群と疎結合ノード群からなるグラフである。 ノードのいわゆるコアスコアは、それがコアノードである可能性に関連している。 本稿では,ノード属性と接続構造からグラフのコアスコアを学習することに焦点を当てる。 そこで本研究では,アフィンと非線形の2種類の確率的グラフィカルモデルを提案する。 まず、グラフ構造を決定するアフィン生成モデルを説明し、そのコアスコアに対するノード属性の依存性をモデル化する。 次に,ノード属性の部分相関が潜在コアスコアを通してグラフ構造に影響を与える非線形生成モデルについて述べる。 グラフ構造とノード属性の両方が利用可能である場合、グラフのモデルパラメータとコアスコアを推測するアルゴリズムを開発した。 グラフのノード属性のみが利用できる場合、コア周辺構造グラフとそのコアスコアを共同で学習する。 開発したモデルとアルゴリズムの有効性を示すために,複数の合成および実世界のデータセットに関する数値実験を行った。

We consider core-periphery structured graphs, which are graphs with a group of densely and sparsely connected nodes, respectively, referred to as core and periphery nodes. The so-called core score of a node is related to the likelihood of it being a core node. In this paper, we focus on learning the core scores of a graph from its node attributes and connectivity structure. To this end, we propose two classes of probabilistic graphical models: affine and nonlinear. First, we describe affine generative models to model the dependence of node attributes on its core scores, which determine the graph structure. Next, we discuss nonlinear generative models in which the partial correlations of node attributes influence the graph structure through latent core scores. We develop algorithms for inferring the model parameters and core scores of a graph when both the graph structure and node attributes are available. When only the node attributes of graphs are available, we jointly learn a core-periphery structured graph and its core scores. We provide results from numerical experiments on several synthetic and real-world datasets to demonstrate the efficacy of the developed models and algorithms.
翻訳日:2022-10-05 14:51:16 公開日:2022-10-04
# 簡潔かつ解釈可能な多段規則集合

Concise and interpretable multi-label rule sets ( http://arxiv.org/abs/2210.01533v1 )

ライセンス: Link先を確認
Martino Ciaperoni, Han Xiao, and Aristides Gionis(参考訳) マルチラベル分類はますます普及しているが、解釈可能性にはあまり注目されていない。 本稿では,単純な「if-then」ルールの簡潔な集合として表現できるマルチラベル分類器を開発し,ブラックボックスモデルと比較して高い解釈性を提供する。 特に,既存のルールベース分類器は検索規則に明快で無駄であり,高い精度を達成するために多数のルールが必要となるのに対し,本手法は正確なマルチラベル分類につながる少数の関連パターンを見出すことができる。 特に,ラベルに対する識別能力だけでなく多様性も考慮し,対象関数を最大化するためにマルチラベルルールを選択するという問題を定式化する。 多様性の会計は冗長性を回避し、それゆえ、ソリューションセットのルール数を制御するのに役立つ。 このような最大化問題に対処するために,新しい手法を用いて高品質なルールをサンプリングする2近似アルゴリズムを提案する。 理論解析に加えて,本手法が予測性能と解釈可能性とのトレードオフを提供し,先行研究では一致しないことを示す,徹底的な実験評価を行う。

Multi-label classification is becoming increasingly ubiquitous, but not much attention has been paid to interpretability. In this paper, we develop a multi-label classifier that can be represented as a concise set of simple "if-then" rules, and thus, it offers better interpretability compared to black-box models. Notably, our method is able to find a small set of relevant patterns that lead to accurate multi-label classification, while existing rule-based classifiers are myopic and wasteful in searching rules,requiring a large number of rules to achieve high accuracy. In particular, we formulate the problem of choosing multi-label rules to maximize a target function, which considers not only discrimination ability with respect to labels, but also diversity. Accounting for diversity helps to avoid redundancy, and thus, to control the number of rules in the solution set. To tackle the said maximization problem we propose a 2-approximation algorithm, which relies on a novel technique to sample high-quality rules. In addition to our theoretical analysis, we provide a thorough experimental evaluation, which indicates that our approach offers a trade-off between predictive performance and interpretability that is unmatched in previous work.
翻訳日:2022-10-05 14:50:58 公開日:2022-10-04
# nvidia edgeボード上でのニューラルネットワークのエネルギー消費 : 実験モデル

Energy Consumption of Neural Networks on NVIDIA Edge Boards: an Empirical Model ( http://arxiv.org/abs/2210.01625v1 )

ライセンス: Link先を確認
Seyyidahmed Lahmer, Aria Khoshsirat, Michele Rossi and Andrea Zanella(参考訳) 近年,レイテンシの低減とデータのプライバシ保護のために,ディープラーニング推論タスクの実行をネットワークの端,ユーザに近い場所にシフトする傾向にある。 同時に、成長する関心は、機械学習のエネルギッシュな持続可能性に向けられている。 これらの傾向の交わりで、エッジにおける機械学習のエネルギー的特徴を見出すことができ、注目を集めている。 残念ながら、推論中に与えられたニューラルネットワークのエネルギー消費を計算することは、基盤となるハードウェア実装の不均一性によって複雑である。 そこで本研究では,現代のエッジノードにおける推論タスクのエネルギー消費をプロファイリングし,単純だが現実的なモデルを導出することを目的とする。 この目的のために、NVIDIAによる2つの有名なエッジボード、すなわちJetson TX2とXavierで、畳み込み層と完全連結層のエネルギー消費を収集する多数の実験を行った。 測定結果から、検討したボード上のある推論タスクのエネルギー消費量を見積もることのできる、単純で実用的なモデルを蒸留した。 このモデルは、ニューラルネットワークのプルーニングにおけるヒューリスティックとして、ニューラルネットワーク探索における効率的なアーキテクチャの探索のガイド、分割コンピューティングコンテキストにおけるエネルギー効率の高いオフロード戦略の探索、あるいは単にディープニューラルネットワークアーキテクチャのエネルギーパフォーマンスを評価するために、多くのコンテキストで使用できると信じています。

Recently, there has been a trend of shifting the execution of deep learning inference tasks toward the edge of the network, closer to the user, to reduce latency and preserve data privacy. At the same time, growing interest is being devoted to the energetic sustainability of machine learning. At the intersection of these trends, we hence find the energetic characterization of machine learning at the edge, which is attracting increasing attention. Unfortunately, calculating the energy consumption of a given neural network during inference is complicated by the heterogeneity of the possible underlying hardware implementation. In this work, we hence aim at profiling the energetic consumption of inference tasks for some modern edge nodes and deriving simple but realistic models. To this end, we performed a large number of experiments to collect the energy consumption of convolutional and fully connected layers on two well-known edge boards by NVIDIA, namely Jetson TX2 and Xavier. From the measurements, we have then distilled a simple, practical model that can provide an estimate of the energy consumption of a certain inference task on the considered boards. We believe that this model can be used in many contexts as, for instance, to guide the search for efficient architectures in Neural Architecture Search, as a heuristic in Neural Network pruning, or to find energy-efficient offloading strategies in a Split computing context, or simply to evaluate the energetic performance of Deep Neural Network architectures.
翻訳日:2022-10-05 14:50:38 公開日:2022-10-04
# 深層学習によるバレンシア市の交通流束予測

Predicting the traffic flux in the city of Valencia with Deep Learning ( http://arxiv.org/abs/2210.01630v1 )

ライセンス: Link先を確認
Miguel G. Folgado, Veronica Sanz, Johannes Hirn, Edgar G. Lorenzo and Javier F. Urchueguia(参考訳) 交通渋滞は、健康や環境に悪影響を及ぼすため、都市における大きな問題であり、都市意思決定者にとって交通の削減が優先事項となっている。 本研究では,都市全体の交通の流れに関する大量のデータと道路都市ネットワークの知識が,人工知能によって事前に十分な交通流束を予測できるかどうかを調査し,低排出帯政策などによる排出削減対策を実現する。 予測モデルを構築するには、世界で最も密集した都市であるバレンシア交通センサーシステムを使用します。 本研究では、2016年と2017年の歴史的データを用いて、市内の交通の時間的パターンを予測するLSTM(Long Short-Term Memory)ニューラルネットワークを訓練し、特徴付けする。 LSTMは,実測データからパターンを抽出することにより,交通フラックスの将来的な進化を予測することができることを示す。

Traffic congestion is a major urban issue due to its adverse effects on health and the environment, so much so that reducing it has become a priority for urban decision-makers. In this work, we investigate whether a high amount of data on traffic flow throughout a city and the knowledge of the road city network allows an Artificial Intelligence to predict the traffic flux far enough in advance in order to enable emission reduction measures such as those linked to the Low Emission Zone policies. To build a predictive model, we use the city of Valencia traffic sensor system, one of the densest in the world, with nearly 3500 sensors distributed throughout the city. In this work we train and characterize an LSTM (Long Short-Term Memory) Neural Network to predict temporal patterns of traffic in the city using historical data from the years 2016 and 2017. We show that the LSTM is capable of predicting future evolution of the traffic flux in real-time, by extracting patterns out of the measured data.
翻訳日:2022-10-05 14:50:12 公開日:2022-10-04
# 二分木核を用いた対数線形時間ガウス過程

Log-Linear-Time Gaussian Processes Using Binary Tree Kernels ( http://arxiv.org/abs/2210.01633v1 )

ライセンス: Link先を確認
Michael K. Cohen, Samuel Daulton, Michael A. Osborne(参考訳) ガウス過程(GP)は関数の優れた確率モデルを生成するが、ほとんどのGPカーネルは$O((n+m)n^2)$時間を必要とし、$n$はデータポイントの数、$m$は予測位置の数である。 我々は$O((n+m)\log(n+m))$ timeでガウス過程の回帰を可能にする新しいカーネルを提案する。 我々の"バイナリツリー"カーネルは、すべてのデータをバイナリツリーの葉に配置し、カーネルは最も深い共通の祖先の深さにのみ依存します。 結果のカーネル行列は$O(n)$空間を$O(n \log n)$時間に、スパース階数1の行列の和として保存し、約逆のカーネル行列を$O(n)$時間に保存することができる。 スパースGP法は線形実行時間も提供するが、より高次元のカーネルよりも予測精度が低い。 回帰タスクの古典的なスイートでは、カーネルをmat\'ern、sparse、およびスパース変分カーネルと比較します。 二分木GPは、複数のデータセットでテストデータに最も高い確率を割り当て、通常スパース法よりも低い平均二乗誤差を達成し、しばしばMat\'ern GPと結びつくか打ち負かす。 大規模なデータセットでは、バイナリツリーGPは、Mat\'ern GPよりも高速で、はるかに高速である。

Gaussian processes (GPs) produce good probabilistic models of functions, but most GP kernels require $O((n+m)n^2)$ time, where $n$ is the number of data points and $m$ the number of predictive locations. We present a new kernel that allows for Gaussian process regression in $O((n+m)\log(n+m))$ time. Our "binary tree" kernel places all data points on the leaves of a binary tree, with the kernel depending only on the depth of the deepest common ancestor. We can store the resulting kernel matrix in $O(n)$ space in $O(n \log n)$ time, as a sum of sparse rank-one matrices, and approximately invert the kernel matrix in $O(n)$ time. Sparse GP methods also offer linear run time, but they predict less well than higher dimensional kernels. On a classic suite of regression tasks, we compare our kernel against Mat\'ern, sparse, and sparse variational kernels. The binary tree GP assigns the highest likelihood to the test data on a plurality of datasets, usually achieves lower mean squared error than the sparse methods, and often ties or beats the Mat\'ern GP. On large datasets, the binary tree GP is fastest, and much faster than a Mat\'ern GP.
翻訳日:2022-10-05 14:49:56 公開日:2022-10-04
# FreDSNet:高速フーリエ畳み込みによる単分子深度とセマンティックセグメンテーション

FreDSNet: Joint Monocular Depth and Semantic Segmentation with Fast Fourier Convolutions ( http://arxiv.org/abs/2210.01595v1 )

ライセンス: Link先を確認
Bruno Berenguel-Baeta, Jesus Bermudez-Cameo and Jose J. Guerrero(参考訳) 本研究では,単一パノラマから室内環境のセマンティックな3次元理解を得る深層学習ソリューションFreDSNetを提案する。 全方位画像は、環境全体に関する360度のコンテキスト情報により、シーン理解の問題に対処する際のタスク固有の利点を明らかにする。 しかしながら、全方位画像の固有特性は、オブジェクトの正確な検出と分割、あるいは深さ推定を得るための追加的な問題をもたらす。 これらの問題を克服するために,各畳み込み層においてより広い受容場を得るために,頻繁領域の畳み込みを利用する。 これらの畳み込みにより、全方位画像からコンテキスト情報全体を活用できる。 FreDSNetは、高速フーリエ畳み込みを利用した単一パノラマ画像からの単眼深度推定とセマンティックセグメンテーションを共同で提供する最初のネットワークである。 実験の結果,FreDSNetはセマンティックセグメンテーションと深度推定のための工法と類似した性能を有することがわかった。 FreDSNetのコードはhttps://github.com/Sbrunoberenguel/FreDSNetで公開されている。

In this work we present FreDSNet, a deep learning solution which obtains semantic 3D understanding of indoor environments from single panoramas. Omnidirectional images reveal task-specific advantages when addressing scene understanding problems due to the 360-degree contextual information about the entire environment they provide. However, the inherent characteristics of the omnidirectional images add additional problems to obtain an accurate detection and segmentation of objects or a good depth estimation. To overcome these problems, we exploit convolutions in the frequential domain obtaining a wider receptive field in each convolutional layer. These convolutions allow to leverage the whole context information from omnidirectional images. FreDSNet is the first network that jointly provides monocular depth estimation and semantic segmentation from a single panoramic image exploiting fast Fourier convolutions. Our experiments show that FreDSNet has similar performance as specific state of the art methods for semantic segmentation and depth estimation. FreDSNet code is publicly available in https://github.com/Sbrunoberenguel/FreDSNet
翻訳日:2022-10-05 14:43:51 公開日:2022-10-04
# 有害性を考慮した正対蒸留--生涯オブジェクト再同定のための連続的メタメトリック学習

Positive Pair Distillation Considered Harmful: Continual Meta Metric Learning for Lifelong Object Re-Identification ( http://arxiv.org/abs/2210.01600v1 )

ライセンス: Link先を確認
Kai Wang, Chenshen Wu, Andy Bagdanov, Xialei Liu, Shiqi Yang, Shangling Jui, Joost van de Weijer(参考訳) Lifelongオブジェクトの再識別は、再識別タスクのストリームから徐々に学習する。 目的は、すべてのタスクに適用できる表現を学び、以前は見つからなかった再識別タスクを一般化することである。 主な課題は、推論時に表現が以前は目に見えないアイデンティティに一般化されなければならないことである。 この問題に対処するために,連続メタメトリック学習を生涯のオブジェクト再識別に適用する。 従来のタスクを忘れないように,知識蒸留を用い,正と負のペアの役割を探求する。 蒸留と計量損失が敵対的であるという観測に基づいて, 蒸留から正の対を取り除き, モデル更新を堅牢化する。 本手法はDwoPP (Distillation without Positive Pairs) とよばれる手法で, 人体および車体の再識別データセットに対する広範囲なドメイン内実験およびLReIDベンチマークにおけるドメイン間実験で評価した。 実験の結果,DwoPPは最先端技術よりも優れていた。 https://github.com/wangkai930418/DwoPP_code

Lifelong object re-identification incrementally learns from a stream of re-identification tasks. The objective is to learn a representation that can be applied to all tasks and that generalizes to previously unseen re-identification tasks. The main challenge is that at inference time the representation must generalize to previously unseen identities. To address this problem, we apply continual meta metric learning to lifelong object re-identification. To prevent forgetting of previous tasks, we use knowledge distillation and explore the roles of positive and negative pairs. Based on our observation that the distillation and metric losses are antagonistic, we propose to remove positive pairs from distillation to robustify model updates. Our method, called Distillation without Positive Pairs (DwoPP), is evaluated on extensive intra-domain experiments on person and vehicle re-identification datasets, as well as inter-domain experiments on the LReID benchmark. Our experiments demonstrate that DwoPP significantly outperforms the state-of-the-art. The code is here: https://github.com/wangkai930418/DwoPP_code
翻訳日:2022-10-05 14:43:30 公開日:2022-10-04
# 平面深度:平面に基づく自己監督単眼深度推定

PlaneDepth: Plane-Based Self-Supervised Monocular Depth Estimation ( http://arxiv.org/abs/2210.01612v1 )

ライセンス: Link先を確認
Ruoyu Wang, Zehao Yu and Shenghua Gao(参考訳) 自己教師付き単眼深度推定(Self-supervised monocular depth Estimation)とは、RGB画像のみを用いて単眼深度推定(MDE)ネットワークを訓練することである。 過去の多くの研究は、深度分類や深度回帰を用いてこの問題に対処した。 しかし、深度分類は、対象視点での双線型補間探索のため、局所的な最小値に陥りがちである。 深度分類は、あらかじめ分割した深度ビンを用いてこの問題を克服するが、これらの深度候補は最終深度結果の不連続をもたらす。 これらの制限を克服するために、地面と平行ないくつかの事前定義された平面を使い、自動的に地面を分割し、その深さを予測できる。 さらに、より明確な最適化の目的を提供する混合ラプラス分布として深度をモデル化する。 これまでの研究では、MDEネットワークは物体の垂直像位置のみを用いて深度を推定し、相対的な大きさを無視することが示されている。 本稿では,ステレオトレーニングと単眼トレーニングの両方において,再サイズクロッピングデータ拡張を用いてこの問題に初めて対処した。 リサイズ・クロッピングの分析結果から,我々はそれを平面定義と組み合わせ,トレーニング戦略を改善することにより,ネットワークが物体の縦像位置と相対的大きさの関係を学習できるようにした。 さらに、自己蒸留段階と後処理を組み合わせ、より正確な監視と後処理の余分な時間を節約します。 分析と改善の有効性を実証するための広範な実験を行う。

Self-supervised monocular depth estimation refers to training a monocular depth estimation (MDE) network using only RGB images to overcome the difficulty of collecting dense ground truth depth. Many previous works addressed this problem using depth classification or depth regression. However, depth classification tends to fall into local minima due to the bilinear interpolation search on the target view. Depth classification overcomes this problem using pre-divided depth bins, but those depth candidates lead to discontinuities in the final depth result, and using the same probability for weighted summation of color and depth is ambiguous. To overcome these limitations, we use some predefined planes that are parallel to the ground, allowing us to automatically segment the ground and predict continuous depth for it. We further model depth as a mixture Laplace distribution, which provides a more certain objective for optimization. Previous works have shown that MDE networks only use the vertical image position of objects to estimate the depth and ignore relative sizes. We address this problem for the first time in both stereo and monocular training using resize cropping data augmentation. Based on our analysis of resize cropping, we combine it with our plane definition and improve our training strategy so that the network could learn the relationship between depth and both the vertical image position and relative size of objects. We further combine the self-distillation stage with post-processing to provide more accurate supervision and save extra time in post-processing. We conduct extensive experiments to demonstrate the effectiveness of our analysis and improvements.
翻訳日:2022-10-05 14:43:12 公開日:2022-10-04
# マルチソースドメイン適応のためのロバストターゲットトレーニング

Robust Target Training for Multi-Source Domain Adaptation ( http://arxiv.org/abs/2210.01676v1 )

ライセンス: Link先を確認
Zhongying Deng, Da Li, Yi-Zhe Song, Tao Xiang(参考訳) 複数のラベル付きソースドメインと単一のターゲットドメインが与えられた場合、既存のマルチソースドメイン適応(MSDA)モデルは、1ステップですべてのドメインのデータに基づいてトレーニングされる。 このようなワンステップアプローチは、ターゲットドメインに適応する能力を制限する。 これは、トレーニングセットがより多くラベル付けされたソースドメインデータに支配されているためです。 ソースドメインバイアスは、疑似ラベルのみを監督として使用する、ラベルなしのターゲットドメインデータに微調整された第2のトレーニングステップを導入することで緩和される可能性がある。 しかし、疑似ラベルは必然的にうるさく、未確認の使用はモデル性能に悪影響を及ぼす可能性がある。 この問題に対処するため,MSDA のための新しい Bi-level Optimization based Robust Target Training (BORT$^2$) 法を提案する。 既存の完全に訓練されたMSDAモデルを考えると、BORT$^2$はそれをラベル付け関数に変換してターゲットデータのための擬似ラベルを生成し、擬似ラベル付きターゲットデータのみを使用してターゲットモデルをトレーニングする。 重要となるのは、ターゲットモデルは、ラベル関数によって生成されるラベルノイズに対して本質的に堅牢であるように設計された確率的cnnである。 このような確率的CNNは、ラベルの不確実性を測定するためにエントロピー最大化正規化器が配置されたガウス分布として、各ターゲットのインスタンス特徴をモデル化する。 ラベル付け関数と対象モデルを訓練すると、暗黙の微分に基づいてエレガントな解を定式化するネスト付き二段階最適化問題が発生する。 大規模なDomainNetデータセットを含む3つのMSDAベンチマークにおいて,提案手法が技術性能に与える影響を実証した。 我々のコードは \url{https://github.com/Zhongying-Deng/BORT2} で入手できる。

Given multiple labeled source domains and a single target domain, most existing multi-source domain adaptation (MSDA) models are trained on data from all domains jointly in one step. Such an one-step approach limits their ability to adapt to the target domain. This is because the training set is dominated by the more numerous and labeled source domain data. The source-domain-bias can potentially be alleviated by introducing a second training step, where the model is fine-tuned with the unlabeled target domain data only using pseudo labels as supervision. However, the pseudo labels are inevitably noisy and when used unchecked can negatively impact the model performance. To address this problem, we propose a novel Bi-level Optimization based Robust Target Training (BORT$^2$) method for MSDA. Given any existing fully-trained one-step MSDA model, BORT$^2$ turns it to a labeling function to generate pseudo-labels for the target data and trains a target model using pseudo-labeled target data only. Crucially, the target model is a stochastic CNN which is designed to be intrinsically robust against label noise generated by the labeling function. Such a stochastic CNN models each target instance feature as a Gaussian distribution with an entropy maximization regularizer deployed to measure the label uncertainty, which is further exploited to alleviate the negative impact of noisy pseudo labels. Training the labeling function and the target model poses a nested bi-level optimization problem, for which we formulate an elegant solution based on implicit differentiation. Extensive experiments demonstrate that our proposed method achieves the state of the art performance on three MSDA benchmarks, including the large-scale DomainNet dataset. Our code will be available at \url{https://github.com/Zhongying-Deng/BORT2}
翻訳日:2022-10-05 14:42:43 公開日:2022-10-04
# 手術計画頭蓋顔面骨運動による深層学習に基づく顔貌シミュレーション

Deep Learning-based Facial Appearance Simulation Driven by Surgically Planned Craniomaxillofacial Bony Movement ( http://arxiv.org/abs/2210.01685v1 )

ライセンス: Link先を確認
Xi Fang, Daeseung Kim, Xuanang Xu, Tianshu Kuang, Hannah H. Deng, Joshua C. Barber, Nathan Lampen, Jaime Gateno, Michael A.K. Liebschner, James J. Xia, Pingkun Yan(参考訳) 骨盤移動に伴う顔面変化のシミュレーションは顎変形患者の矯正手術計画における重要なステップである。 有限要素法(fem)のような従来のバイオメカニクスに基づく手法は、労働集約的で計算効率が悪い。 ディープラーニングベースのアプローチは、高い計算効率と強力なモデリング能力のために、有望な代替手段になり得る。 しかし,既存の深層学習法では顔面軟部組織と骨片の物理的対応は無視されており,FEMに比べて精度は著しく低い。 本研究では, 骨状運動を顔面軟組織に変換して顔の表情を推定するための注意対応支援運動変換ネットワーク(acmt-net)を提案する。 顎変形症患者に対する実験結果から,提案手法は現状のFEM法と同等の顔変化予測精度を達成でき,計算効率は大幅に向上した。

Simulating facial appearance change following bony movement is a critical step in orthognathic surgical planning for patients with jaw deformities. Conventional biomechanics-based methods such as the finite-element method (FEM) are labor intensive and computationally inefficient. Deep learning-based approaches can be promising alternatives due to their high computational efficiency and strong modeling capability. However, the existing deep learning-based method ignores the physical correspondence between facial soft tissue and bony segments and thus is significantly less accurate compared to FEM. In this work, we propose an Attentive Correspondence assisted Movement Transformation network (ACMT-Net) to estimate the facial appearance by transforming the bony movement to facial soft tissue through a point-to-point attentive correspondence matrix. Experimental results on patients with jaw deformity show that our proposed method can achieve comparable facial change prediction accuracy compared with the state-of-the-art FEM-based approach with significantly improved computational efficiency.
翻訳日:2022-10-05 14:42:12 公開日:2022-10-04
# 短期道路工事現場における保守要員の視覚に基づく警報システム

Vision-based Warning System for Maintenance Personnel on Short-Term Roadwork Site ( http://arxiv.org/abs/2210.01689v1 )

ライセンス: Link先を確認
Xiao Ni, Walpola Layantha Perera, Carsten K\"uhnel, Christian Vollrath(参考訳) 短期工事現場における保守作業員の視力に基づく警報システムを提案する。 従来のソリューションでは、トラフィックコーンのセットアップ、安全ビーコン、あるいは何も設定しないなど、パッシブ保護を使用する。 しかし、そのような方法は、使用済みレーンから作業領域を分離するための物理的安全障壁として機能することができない。 対照的に,本システムは,道路作業員が作業エリアを通過する前に車両に接近することを注意する上で,音響および視覚的警告信号を活用する,アクティブな保護を提供する。 道路作業者の混乱を緩和するための警告の多さを減らすため,交通フローチェックアルゴリズムを実装し,無駄な通知の約80%をフィルタリングした。 我々は,実験室の環境と実世界で評価を行い,システムの適用性と信頼性を実証する。

We propose a vision-based warning system for the maintenance personnel working on short-term construction sites. Traditional solutions use passive protection, like setting up traffic cones, safety beacons, or even nothing. However, such methods cannot function as physical safety barriers to separate working areas from used lanes. In contrast, our system provides active protection, leveraging acoustic and visual warning signals to help road workers be cautious of approaching vehicles before they pass the working area. To decrease too many warnings to relieve a disturbance of road workers, we implemented our traffic flow check algorithm, by which about 80% of the useless notices can be filtered. We conduct the evaluations in laboratory conditions and the real world, proving our system's applicability and reliability.
翻訳日:2022-10-05 14:41:58 公開日:2022-10-04
# HandFlow:正規化フローを用いた両手再建におけるビュー依存3次元曖昧さの定量化

HandFlow: Quantifying View-Dependent 3D Ambiguity in Two-Hand Reconstruction with Normalizing Flow ( http://arxiv.org/abs/2210.01692v1 )

ライセンス: Link先を確認
Jiayi Wang and Diogo Luvizon and Franziska Mueller and Florian Bernard and Adam Kortylewski and Dan Casas and Christian Theobalt(参考訳) 一つの画像から両手の相互作用を再構築することは、射影幾何学と重閉塞から生じる曖昧さのために難しい問題である。 既存の手法は、画像証拠に等しく適合する他の有効な再構成が存在するにもかかわらず、1つのポーズのみを推定するように設計されている。 本稿では,条件付き正規化フローフレームワークにおける可塑性再構成の分布を明示的にモデル化し,この問題に対処する。 これにより、入力画像によく投影される様々な3次元手ポーズサンプルの鍵となる、新しい行列等級正規化により、後部分布を直接監視することができる。 また, 復元品質を評価するためによく用いられる指標は, 厳密なあいまいさ下でのポーズ予測には不十分であることを示す。 これを解決するために、MultiHandsと呼ばれる画像毎に複数の可視アノテーションを持つ最初のデータセットをリリースする。 追加のアノテーションにより、推定分布を最大平均不一致メトリックを用いて評価できる。 これを通じて,確率的再構成の質を実証し,この課題に明確なあいまいさモデリングが適していることを示す。

Reconstructing two-hand interactions from a single image is a challenging problem due to ambiguities that stem from projective geometry and heavy occlusions. Existing methods are designed to estimate only a single pose, despite the fact that there exist other valid reconstructions that fit the image evidence equally well. In this paper we propose to address this issue by explicitly modeling the distribution of plausible reconstructions in a conditional normalizing flow framework. This allows us to directly supervise the posterior distribution through a novel determinant magnitude regularization, which is key to varied 3D hand pose samples that project well into the input image. We also demonstrate that metrics commonly used to assess reconstruction quality are insufficient to evaluate pose predictions under such severe ambiguity. To address this, we release the first dataset with multiple plausible annotations per image called MultiHands. The additional annotations enable us to evaluate the estimated distribution using the maximum mean discrepancy metric. Through this, we demonstrate the quality of our probabilistic reconstruction and show that explicit ambiguity modeling is better-suited for this challenging problem.
翻訳日:2022-10-05 14:41:45 公開日:2022-10-04
# COARSE3D:弱スーパービジョン3Dポイントクラウドセグメンテーションにおけるコントラスト学習のためのクラスプロトタイプ

COARSE3D: Class-Prototypes for Contrastive Learning in Weakly-Supervised 3D Point Cloud Segmentation ( http://arxiv.org/abs/2210.01784v1 )

ライセンス: Link先を確認
Rong Li and Anh-Quan Cao and Raoul de Charette(参考訳) 大規模な3Dデータのアノテーションは、面倒で費用もかかる。 代替として、弱い教師付き学習は、アノテーションを桁違いに減らし、そのようなニーズを緩和する。 本稿では,3次元セグメンテーションのための新しいアーキテクチャに依存しないコントラスト学習戦略であるCOARSE3Dを提案する。 対照的な学習はキーとアンカーとして多種多様な例を必要とするため、クラスワイドなグローバルデータセット情報を効率的にキャプチャするプロトタイプメモリバンクを、キーとして機能する少数のプロトタイプに活用する。 エントロピー駆動サンプリング手法により,予測から優れた画素をアンカーとして選択できる。 3つのプロジェクションベースのバックボーンの実験では、3つの挑戦的な現実世界の屋外データセットでベースラインを上回り、0.001%のアノテーションで作業している。

Annotation of large-scale 3D data is notoriously cumbersome and costly. As an alternative, weakly-supervised learning alleviates such a need by reducing the annotation by several order of magnitudes. We propose COARSE3D, a novel architecture-agnostic contrastive learning strategy for 3D segmentation. Since contrastive learning requires rich and diverse examples as keys and anchors, we leverage a prototype memory bank capturing class-wise global dataset information efficiently into a small number of prototypes acting as keys. An entropy-driven sampling technique then allows us to select good pixels from predictions as anchors. Experiments on three projection-based backbones show we outperform baselines on three challenging real-world outdoor datasets, working with as low as 0.001% annotations.
翻訳日:2022-10-05 14:41:25 公開日:2022-10-04
# 画像集合によるアニメーションのインプシット・ワープ

Implicit Warping for Animation with Image Sets ( http://arxiv.org/abs/2210.01794v1 )

ライセンス: Link先を確認
Arun Mallya, Ting-Chun Wang, Ming-Yu Liu(参考訳) 本稿では,動画の動画の動画移動を通じて,画像の集合を用いた画像アニメーションのための暗黙のワープフレームワークを提案する。 ソース画像と駆動画像との対応を見つけ、異なるソース画像から最も適切な特徴を選択し、選択した特徴をワープするために、1つのクロスモーダルアテンション層を用いる。 これは、単一ソースを使用したアニメーション用に設計され、複数のソースにうまく拡張されない明示的なフローベースのワープを使用する既存の方法とは対照的である。 我々のフレームワークのピック・アンド・チョース機能は、単一のソースイメージと複数のソースイメージの両方を用いて、画像アニメーションのための複数のデータセットの最先端結果を得るのに役立ちます。 プロジェクトのwebサイトはhttps://deepimagination.cc/implicit warping/で入手できる。

We present a new implicit warping framework for image animation using sets of source images through the transfer of the motion of a driving video. A single cross- modal attention layer is used to find correspondences between the source images and the driving image, choose the most appropriate features from different source images, and warp the selected features. This is in contrast to the existing methods that use explicit flow-based warping, which is designed for animation using a single source and does not extend well to multiple sources. The pick-and-choose capability of our framework helps it achieve state-of-the-art results on multiple datasets for image animation using both single and multiple source images. The project website is available at https://deepimagination.cc/implicit warping/
翻訳日:2022-10-05 14:41:11 公開日:2022-10-04
# 光ハイブリッドレトリバーの効率性と一般化に関する研究

A Study on the Efficiency and Generalization of Light Hybrid Retrievers ( http://arxiv.org/abs/2210.01371v1 )

ライセンス: Link先を確認
Man Luo, Shashank Jain, Anchit Gupta, Arash Einolghozati, Barlas Oguz, Debojeet Chatterjee, Xilun Chen, Chitta Baral, Peyman Heidari(参考訳) スパースと密集したレトリバーを統合する既存のハイブリッドレトリバーはインデックス重く、実世界のオンデバイス設定での適用性が制限されている。 パフォーマンスを犠牲にすることなく、ハイブリッドレトリバーのインデックス記憶を減らすことは可能か? この疑問に駆り立てられ、インデックス化効率の高い高密度レトリバー(drboost)を利用して軽量ハイブリッドレトリバーを得る。 さらに,drboostのコントラスト学習と知識蒸留を併用した,より軽量な密集型回収機(lite)を提案する。 従来の重ハイブリッドレトリバーと比較して、Hybrid-LITEレトリバーは98.0性能を維持しながら13メモリを節約する。 さらに,2次元にまたがる光ハイブリッドレトリバーの一般化,ドメイン外一般化と敵攻撃に対する堅牢性について検討した。 我々は既存の2つのOODベンチマークのモデルを評価し、ロバストネス評価のための6つの逆攻撃セットを作成する。 実験により, 軽量ハイブリッドレトリバーは, ばらばらで密集したレトリバーよりもロバスト性が向上した。 それでも、検索者の堅牢性を改善するための大きな部屋があり、私たちのデータセットは将来の研究に役立つ。

Existing hybrid retrievers which integrate sparse and dense retrievers, are indexing-heavy, limiting their applicability in real-world on-devices settings. We ask the question "Is it possible to reduce the indexing memory of hybrid retrievers without sacrificing performance?" Driven by this question, we leverage an indexing-efficient dense retriever (i.e. DrBoost) to obtain a light hybrid retriever. Moreover, to further reduce the memory, we introduce a lighter dense retriever (LITE) which is jointly trained on contrastive learning and knowledge distillation from DrBoost. Compared to previous heavy hybrid retrievers, our Hybrid-LITE retriever saves 13 memory while maintaining 98.0 performance. In addition, we study the generalization of light hybrid retrievers along two dimensions, out-of-domain (OOD) generalization and robustness against adversarial attacks. We evaluate models on two existing OOD benchmarks and create six adversarial attack sets for robustness evaluation. Experiments show that our light hybrid retrievers achieve better robustness performance than both sparse and dense retrievers. Nevertheless there is a large room to improve the robustness of retrievers, and our datasets can aid future research.
翻訳日:2022-10-05 14:41:00 公開日:2022-10-04
# APAUNet: 3Dメディカルセグメンテーションにおける小さなターゲットのための軸投影注意UNet

APAUNet: Axis Projection Attention UNet for Small Target in 3D Medical Segmentation ( http://arxiv.org/abs/2210.01485v1 )

ライセンス: Link先を確認
Yuncheng Jiang, Zixun Zhang, Shixi Qin, Yao Guo, Zhen Li, Shuguang Cui(参考訳) 3次元医用画像分割では、小さなターゲットのセグメンテーションが診断に不可欠であるが、それでも課題に直面している。 本稿では,3次元医用画像セグメンテーションのための軸投影用アパウネット(apaunet)を提案する。 3次元特徴空間における背景の多さを考慮すると、3次元特徴を3つの直交2次元平面に投影し、異なる視点からの文脈的注意を捉える投影戦略を導入する。 このようにして、冗長な特徴情報をフィルタリングし、3Dスキャンで小さな病変に対する臨界情報の損失を軽減することができる。 次に,次元ハイブリッド化戦略を用いて,異なる軸から注意を払って3次元特徴を融合させ,重み付け和で融合させ,異なる視点の重要性を適応的に学習する。 最後に,APAデコーダにおいて,2次元投影過程における高分解能特徴と低分解能特徴の両方を結合させ,より高精度なマルチスケール情報を得る。 2つの公開データセット(BTCVとMSD)の定量的および定性的な実験結果から,提案手法が他の手法よりも優れていることが示された。 具体的には, BTCVでは平均87.84点, MSD-Liverでは84.48点, MSD-Pancreasでは69.13点であり, 従来のSOTA法をはるかに上回っている。

In 3D medical image segmentation, small targets segmentation is crucial for diagnosis but still faces challenges. In this paper, we propose the Axis Projection Attention UNet, named APAUNet, for 3D medical image segmentation, especially for small targets. Considering the large proportion of the background in the 3D feature space, we introduce a projection strategy to project the 3D features into three orthogonal 2D planes to capture the contextual attention from different views. In this way, we can filter out the redundant feature information and mitigate the loss of critical information for small lesions in 3D scans. Then we utilize a dimension hybridization strategy to fuse the 3D features with attention from different axes and merge them by a weighted summation to adaptively learn the importance of different perspectives. Finally, in the APA Decoder, we concatenate both high and low resolution features in the 2D projection process, thereby obtaining more precise multi-scale information, which is vital for small lesion segmentation. Quantitative and qualitative experimental results on two public datasets (BTCV and MSD) demonstrate that our proposed APAUNet outperforms the other methods. Concretely, our APAUNet achieves an average dice score of 87.84 on BTCV, 84.48 on MSD-Liver and 69.13 on MSD-Pancreas, and significantly surpass the previous SOTA methods on small targets.
翻訳日:2022-10-05 14:35:34 公開日:2022-10-04
# 臨床 : 不均衡医用画像分類のための能動的学習

CLINICAL: Targeted Active Learning for Imbalanced Medical Image Classification ( http://arxiv.org/abs/2210.01520v1 )

ライセンス: Link先を確認
Suraj Kothawade, Atharv Savarkar, Venkat Iyer, Lakshman Tamil, Ganesh Ramakrishnan, Rishabh Iyer(参考訳) すべてのクラスでうまく機能する医療データセットでディープラーニングモデルをトレーニングするのは難しい作業です。 医学データに伴う自然クラス不均衡の問題により,いくつかのクラスで準最適性能が得られる場合が多い。 この問題を解決する効果的な方法は、ターゲットとするアクティブラーニングを使用することで、レアクラスのトレーニングデータにデータポイントを反復的に追加する。 しかし、既存のアクティブラーニング手法は、医療データセットのレアクラスをターゲットにするには有効ではない。 本研究では,非モジュール型相互情報関数を獲得関数として用いて,稀なクラスから重要なデータポイントを抽出するフレームワークとして,ImbalaNced medICal imAge cLassificationを提案する。 我々は,このフレームワークを,現実世界の様々な不均衡シナリオ,すなわちバイナリ不均衡とロングテール不均衡の広い範囲の医用画像データセットに適用する。 臨床は,レアクラスに属する多様なデータポイントを取得することで,最先端のアクティブラーニング手法に勝ることを示す。

Training deep learning models on medical datasets that perform well for all classes is a challenging task. It is often the case that a suboptimal performance is obtained on some classes due to the natural class imbalance issue that comes with medical data. An effective way to tackle this problem is by using targeted active learning, where we iteratively add data points to the training data that belong to the rare classes. However, existing active learning methods are ineffective in targeting rare classes in medical datasets. In this work, we propose Clinical (targeted aCtive Learning for ImbalaNced medICal imAge cLassification) a framework that uses submodular mutual information functions as acquisition functions to mine critical data points from rare classes. We apply our framework to a wide-array of medical imaging datasets on a variety of real-world class imbalance scenarios - namely, binary imbalance and long-tail imbalance. We show that Clinical outperforms the state-of-the-art active learning methods by acquiring a diverse set of data points that belong to the rare classes.
翻訳日:2022-10-05 14:35:09 公開日:2022-10-04
# 診断:サブモジュラー情報尺度を用いた分布外データを避ける

DIAGNOSE: Avoiding Out-of-distribution Data using Submodular Information Measures ( http://arxiv.org/abs/2210.01526v1 )

ライセンス: Link先を確認
Suraj Kothawade, Akshit Srivastava, Venkat Iyer, Ganesh Ramakrishnan, Rishabh Iyer(参考訳) 医療画像領域における教師付き機械学習モデルのトレーニングには、OOD(out-of-distriion)データの回避が不可欠である。 さらに、医師や放射線科医などの専門医を必要とするため、ラベル付き医療データを得ることは困難かつ高価である。 アクティブラーニング(active learning、al)は、最も多様で不確定なサンプルを選択することでラベリングコストを軽減する、よく知られた手法である。 しかし、現在のAL法はOODデータを用いた医療画像領域ではうまく機能しない。 そこで本研究では,分布データのマイニングとoodデータの同時回避に不可欠な類似性と不類似性を共同でモデル化する,新しいアクティブラーニングフレームワークである診断(サブモジュラー情報尺度を用いた分散データの排除)を提案する。 特に、分散データポイントのクエリセットとOODデータポイントのプライベートセットを表す例として、少数のデータポイントを使用します。 我々は,様々な現実世界のOODシナリオで評価することで,フレームワークの一般化可能性を説明する。 本実験は, 医用画像の複数の領域にまたがる最先端AL法に対する診断の優位性を検証するものである。

Avoiding out-of-distribution (OOD) data is critical for training supervised machine learning models in the medical imaging domain. Furthermore, obtaining labeled medical data is difficult and expensive since it requires expert annotators like doctors, radiologists, etc. Active learning (AL) is a well-known method to mitigate labeling costs by selecting the most diverse or uncertain samples. However, current AL methods do not work well in the medical imaging domain with OOD data. We propose Diagnose (avoiDing out-of-dIstribution dAta usinG submodular iNfOrmation meaSurEs), a novel active learning framework that can jointly model similarity and dissimilarity, which is crucial in mining in-distribution data and avoiding OOD data at the same time. Particularly, we use a small number of data points as exemplars that represent a query set of in-distribution data points and a private set of OOD data points. We illustrate the generalizability of our framework by evaluating it on a wide variety of real-world OOD scenarios. Our experiments verify the superiority of Diagnose over the state-of-the-art AL methods across multiple domains of medical imaging.
翻訳日:2022-10-05 14:34:48 公開日:2022-10-04
# 多目的適応的セマンティクスセグメンテーションのための協調学習

Cooperative Self-Training for Multi-Target Adaptive Semantic Segmentation ( http://arxiv.org/abs/2210.01578v1 )

ライセンス: Link先を確認
Yangsong Zhang, Subhankar Roy, Hongtao Lu, Elisa Ricci, St\'ephane Lathuili\`ere(参考訳) この論文では、意味セグメンテーションにおけるマルチターゲットドメイン適応(mtda)について論じる。これは、アノテートされたソースデータセットから、基礎となるデータ分布が異なる複数の無注釈のターゲットデータセットへ、単一のモデルを適用することで構成される。 MTDAに対処するために,複数のドメイン固有分類器間の協調を誘導する擬似ラベルを用いた自己学習戦略を提案する。 自己学習の不可欠な部分を形成する画像ビューを生成する効率的な方法として,機能スタイライゼーションを採用している。 さらに,ネットワークが擬似ラベルに過度に収まらないようにするために,異なる分類器からの予測を利用して擬似ラベルの品質を推定する補正戦略を考案した。 4つの異なるセマンティックセグメンテーションデータセットに基づく多種多様なセグメンテーション実験を行い、提案手法の有効性を検証し、提案手法が最先端MTDA手法より優れていることを示す。 コード提供: https://github.com/mael-zys/coast

In this work we address multi-target domain adaptation (MTDA) in semantic segmentation, which consists in adapting a single model from an annotated source dataset to multiple unannotated target datasets that differ in their underlying data distributions. To address MTDA, we propose a self-training strategy that employs pseudo-labels to induce cooperation among multiple domain-specific classifiers. We employ feature stylization as an efficient way to generate image views that forms an integral part of self-training. Additionally, to prevent the network from overfitting to noisy pseudo-labels, we devise a rectification strategy that leverages the predictions from different classifiers to estimate the quality of pseudo-labels. Our extensive experiments on numerous settings, based on four different semantic segmentation datasets, validate the effectiveness of the proposed self-training strategy and show that our method outperforms state-of-the-art MTDA approaches. Code available at: https://github.com/Mael-zys/CoaST
翻訳日:2022-10-05 14:33:37 公開日:2022-10-04
# FRIDA: 注釈付き魚眼再識別データセット

FRIDA: Fisheye Re-Identification Dataset with Annotations ( http://arxiv.org/abs/2210.01582v1 )

ライセンス: Link先を確認
Mertcan Cokbas, John Bolognino, Janusz Konrad, Prakash Ishwar(参考訳) サイドマウントリチリニアレンズカメラからの人物識別(PRID)は、よく研究されている問題である。 一方、魚眼カメラのpridは、主に適切な画像データセットが欠如しているため、新しくてほとんど研究されていない。 この空白を埋めるために、大規模な屋内空間で3つの時間同期天井搭載魚眼カメラで捉えた「FRIDA(Fisheye Re-IDentification Dataset with Annotations)」を導入した。 視野重なりのため、この場合のpridは、我々は深く議論する典型的なprid問題とは異なる。 また,FRIDAを用いた10個の最先端PRIDアルゴリズムの性能評価を行った。 CNNベースの6つのアルゴリズムでは、FRIDAのトレーニングは、一般的なリチリニアカメラPRIDデータセットのトレーニングと比較して、mAPの最大11.64%のパフォーマンス向上を示す。

Person re-identification (PRID) from side-mounted rectilinear-lens cameras is a well-studied problem. On the other hand, PRID from overhead fisheye cameras is new and largely unstudied, primarily due to the lack of suitable image datasets. To fill this void, we introduce the "Fisheye Re-IDentification Dataset with Annotations" (FRIDA), with 240k+ bounding-box annotations of people, captured by 3 time-synchronized, ceiling-mounted fisheye cameras in a large indoor space. Due to a field-of-view overlap, PRID in this case differs from a typical PRID problem, which we discuss in depth. We also evaluate the performance of 10 state-of-the-art PRID algorithms on FRIDA. We show that for 6 CNN-based algorithms, training on FRIDA boosts the performance by up to 11.64% points in mAP compared to training on a common rectilinear-camera PRID dataset.
翻訳日:2022-10-05 14:33:15 公開日:2022-10-04
# 可視から赤外への画像認識はどのように役立つのか?

How Image Generation Helps Visible-to-Infrared Person Re-Identification? ( http://arxiv.org/abs/2210.01585v1 )

ライセンス: Link先を確認
Honghu Pan and Yongyong Chen and Yunqi He and Xin Li and Zhenyu He(参考訳) 可視・可視(V2V)の人物再識別(ReID)と比較すると,十分なトレーニングサンプルの不足や,大規模なモダリティの相違により,可視・赤外線(V2I)の人物ReIDタスクは困難である。 そこで我々は,v2i person reidのサンプル拡張とクロスモダリティ画像生成を共同で実現可能な統一フレームワークflow2flowを提案する。 具体的には、flow2flowは可視画像領域と赤外領域の両方から可逆可視フローベース生成器と赤外領域とで共有等方性ガウス領域への単射変換を学習する。 flow2flowでは、潜在ガウスノイズから可視画像や赤外線画像への変換による擬似トレーニングサンプルの生成と、既存モダリティ画像から潜在ガウスノイズへの変換によるクロスモダリティ画像の生成が可能である。 生成した画像の同一性アライメントとモダリティアライメントの目的で、Flow2Flowをトレーニングするための対角的トレーニング戦略を開発する。 具体的には,モダリティ毎に画像エンコーダとモダリティ判別器を設計する。 画像エンコーダは、同一人物の実際の画像と同一人物のイメージとを同一視することを奨励し、モダリティ判別器は、その生成画像と実画像とを、モダリティ比較訓練により区別可能とする。 SYSU-MM01とRegDBの実験結果から、トレーニングサンプル展開とクロスモダリティ画像生成の両方がV2I ReID精度を大幅に向上することが示された。

Compared to visible-to-visible (V2V) person re-identification (ReID), the visible-to-infrared (V2I) person ReID task is more challenging due to the lack of sufficient training samples and the large cross-modality discrepancy. To this end, we propose Flow2Flow, a unified framework that could jointly achieve training sample expansion and cross-modality image generation for V2I person ReID. Specifically, Flow2Flow learns bijective transformations from both the visible image domain and the infrared domain to a shared isotropic Gaussian domain with an invertible visible flow-based generator and an infrared one, respectively. With Flow2Flow, we are able to generate pseudo training samples by the transformation from latent Gaussian noises to visible or infrared images, and generate cross-modality images by transformations from existing-modality images to latent Gaussian noises to missing-modality images. For the purpose of identity alignment and modality alignment of generated images, we develop adversarial training strategies to train Flow2Flow. Specifically, we design an image encoder and a modality discriminator for each modality. The image encoder encourages the generated images to be similar to real images of the same identity via identity adversarial training, and the modality discriminator makes the generated images modal-indistinguishable from real images via modality adversarial training. Experimental results on SYSU-MM01 and RegDB demonstrate that both training sample expansion and cross-modality image generation can significantly improve V2I ReID accuracy.
翻訳日:2022-10-05 14:33:00 公開日:2022-10-04
# 航空画像における洪水領域分類のための機械学習法のクロスジオグラフィ一般化

Cross-Geography Generalization of Machine Learning Methods for Classification of Flooded Regions in Aerial Images ( http://arxiv.org/abs/2210.01588v1 )

ライセンス: Link先を確認
Sushant Lenka, Pratyush Kerhalkar, Pranav Shetty, Harsh Gupta, Bhavam Vidyarthi and Ujjwal Verma(参考訳) 洪水の影響を受けた地域を特定することは、災害後の救助と救助活動の計画と管理を改善するために必要な重要な情報である。 伝統的に、リモートセンシング画像は洪水による損傷の程度を特定するために分析される。 地球観測衛星のセンサーから得られたデータは、低空間分解能と時間分解能の影響を受ける浸水領域を検出するために分析される。 しかし近年では、無人航空機(uavs)から得られた画像も災害後被害の評価に利用されている。 実際、UAVベースのプラットフォームは、カスタマイズされた飛行計画と地上インフラへの最小依存で迅速に展開できる。 本研究は,UAV空中画像中の浸水領域を特定するための2つのアプローチを提案する。 第1のアプローチでは、テクスチャベースの教師なしセグメンテーションを使用して浸水領域を検出し、第2のアプローチでは、テクスチャ特徴にニューラルネットワークを使用してイメージを浸水と非浸水と分類する。 モデルが同じ地理的領域の画像上で訓練・テストされている既存の研究とは異なり,本研究は,地理的領域をまたいだ浸水領域を同定する上で,提案モデルの性能について検討する。 F1スコアの0.89は、既存の分類器よりも高いセグメンテーションに基づくアプローチを用いて得られる。 提案手法のロバスト性は,任意の領域の浸水した領域を,ユーザによる介入が最小か無かで識別できることを示す。

Identification of regions affected by floods is a crucial piece of information required for better planning and management of post-disaster relief and rescue efforts. Traditionally, remote sensing images are analysed to identify the extent of damage caused by flooding. The data acquired from sensors onboard earth observation satellites are analyzed to detect the flooded regions, which can be affected by low spatial and temporal resolution. However, in recent years, the images acquired from Unmanned Aerial Vehicles (UAVs) have also been utilized to assess post-disaster damage. Indeed, a UAV based platform can be rapidly deployed with a customized flight plan and minimum dependence on the ground infrastructure. This work proposes two approaches for identifying flooded regions in UAV aerial images. The first approach utilizes texture-based unsupervised segmentation to detect flooded areas, while the second uses an artificial neural network on the texture features to classify images as flooded and non-flooded. Unlike the existing works where the models are trained and tested on images of the same geographical regions, this work studies the performance of the proposed model in identifying flooded regions across geographical regions. An F1-score of 0.89 is obtained using the proposed segmentation-based approach which is higher than existing classifiers. The robustness of the proposed approach demonstrates that it can be utilized to identify flooded regions of any region with minimum or no user intervention.
翻訳日:2022-10-05 14:32:08 公開日:2022-10-04
# ハイブリッド脳(Human Brain)とAI(AI)

In the realm of hybrid Brain: Human Brain and AI ( http://arxiv.org/abs/2210.01461v1 )

ライセンス: Link先を確認
Hoda Fares, Margherita Ronchini, Milad Zamani, Hooman Farkhani, and Farshad Moradi(参考訳) 近年の神経科学と工学の発展により、脳の信号を記録してデコードすることが可能になった。 また、脳活動の調節や影響のために刺激の方法が増えている。 現在の脳-コンピュータインターフェース(BCI)技術は、主に治療結果に基づいており、その効率を重度運動障害患者の補助的・リハビリテーション技術として既に実証している。 近年,脳信号のデコードには人工知能(AI)と機械学習(ML)技術が用いられている。 この進歩を超えて、aiとadvanced bcisを埋め込み可能な神経工学の形で組み合わせることで、神経・精神疾患の診断、予測、治療の新たな可能性をもたらす。 この文脈では、脳にインスパイアされたAI技術とニューロモルフィックハードウェアを用いて脳からのデータを処理する、クローズドループ、インテリジェント、低消費電力、小型のニューラルインターフェースの開発を想定する。 これはBrain Inspired Brain Computer Interfaces (BI-BCI)と呼ばれる。 このような神経インターフェースは、より深い脳領域へのアクセスを提供し、脳の機能や作業メカニズムをよりよく理解し、BCIの操作安定性とシステムの効率を向上させる。 一方、spyking neural networks (snns)で表現される脳インスパイアされたaiアルゴリズムは、bciシステムのマルチモーダル神経信号の解釈に使用される。 一方、snsが生体ニューロンの豊富なダイナミクスを捉え、時間、周波数、位相といった異なる情報次元を表現および統合する能力から、脳内の複雑な情報処理をモデル化し、エンコードし、ユーザにフィードバックを提供するのに使用される。 本稿では、脳と相互作用する様々な方法の概要、将来の応用、およびaiとbcisの融合について述べる。

With the recent developments in neuroscience and engineering, it is now possible to record brain signals and decode them. Also, a growing number of stimulation methods have emerged to modulate and influence brain activity. Current brain-computer interface (BCI) technology is mainly on therapeutic outcomes, it already demonstrated its efficiency as assistive and rehabilitative technology for patients with severe motor impairments. Recently, artificial intelligence (AI) and machine learning (ML) technologies have been used to decode brain signals. Beyond this progress, combining AI with advanced BCIs in the form of implantable neurotechnologies grants new possibilities for the diagnosis, prediction, and treatment of neurological and psychiatric disorders. In this context, we envision the development of closed loop, intelligent, low-power, and miniaturized neural interfaces that will use brain inspired AI techniques with neuromorphic hardware to process the data from the brain. This will be referred to as Brain Inspired Brain Computer Interfaces (BI-BCIs). Such neural interfaces would offer access to deeper brain regions and better understanding for brain's functions and working mechanism, which improves BCIs operative stability and system's efficiency. On one hand, brain inspired AI algorithms represented by spiking neural networks (SNNs) would be used to interpret the multimodal neural signals in the BCI system. On the other hand, due to the ability of SNNs to capture rich dynamics of biological neurons and to represent and integrate different information dimensions such as time, frequency, and phase, it would be used to model and encode complex information processing in the brain and to provide feedback to the users. This paper provides an overview of the different methods to interface with the brain, presents future applications and discusses the merger of AI and BCIs.
翻訳日:2022-10-05 14:27:09 公開日:2022-10-04
# ImmFusion:全ての気象条件下での3次元人体再構築のためのロバストmmWave-RGB核融合

ImmFusion: Robust mmWave-RGB Fusion for 3D Human Body Reconstruction in All Weather Conditions ( http://arxiv.org/abs/2210.01346v1 )

ライセンス: Link先を確認
Anjun Chen, Xiangyu Wang, Kun Shi, Shaohao Zhu, Yingfeng Chen, Bin Fang, Jiming Chen, Yuchi Huo, Qi Ye(参考訳) RGB画像から3Dの人体を復元すると、天気は良いが、悪天候では劇的に劣化する。 補足式のmmWaveレーダーは、荒天で3Dの関節とメッシュを再構築するために使われてきた。 しかし、RGB と mmWave の信号を組み合わせることで、RGB 画像の脆弱さや、RGB 画像の脆弱性を考えると、3D の再現性は依然として未解決の課題である。 本稿では,全ての気象条件下で3次元人体を堅牢に再構成する最初のmmWave-RGB核融合法であるImmFusionを提案する。 具体的には,トークン特徴抽出のためのイメージバックボーンとポイントバックボーン,トークン融合のためのトランスフォーマーモジュールから構成される。 画像と点バックボーンはオリジナルデータからグローバルとローカルの特徴を洗練し、fusion transformerモジュールはインフォメーショントークンを動的に選択することで、2つのモダリティの効果的な情報融合を目指している。 大規模データセットmmBodyの広範囲な実験により、ImmFusionは2つのモードの情報を効率的に利用し、全ての気象条件下で堅牢な3次元人体再構築を実現することができることが示された。 さらに,本手法の精度は,最先端のトランスフォーマーベースLiDAR-camera融合法よりも優れている。

3D human reconstruction from RGB images achieves decent results in good weather conditions but degrades dramatically in rough weather. Complementary, mmWave radars have been employed to reconstruct 3D human joints and meshes in rough weather. However, combining RGB and mmWave signals for robust all-weather 3D human reconstruction is still an open challenge, given the sparse nature of mmWave and the vulnerability of RGB images. In this paper, we present ImmFusion, the first mmWave-RGB fusion solution to reconstruct 3D human bodies in all weather conditions robustly. Specifically, our ImmFusion consists of image and point backbones for token feature extraction and a Transformer module for token fusion. The image and point backbones refine global and local features from original data, and the Fusion Transformer Module aims for effective information fusion of two modalities by dynamically selecting informative tokens. Extensive experiments on a large-scale dataset, mmBody, captured in various environments demonstrate that ImmFusion can efficiently utilize the information of two modalities to achieve a robust 3D human body reconstruction in all weather conditions. In addition, our method's accuracy is significantly superior to that of state-of-the-art Transformer-based LiDAR-camera fusion methods.
翻訳日:2022-10-05 14:25:50 公開日:2022-10-04
# 新規環境における不確実性を考慮したライダー位置認識

Uncertainty-Aware Lidar Place Recognition in Novel Environments ( http://arxiv.org/abs/2210.01361v1 )

ライセンス: Link先を確認
Keita Mason, Joshua Knights, Milad Ramezani, Peyman Moghadam and Dimity Miller(参考訳) lidarの場所認識に対する最先端のアプローチは、トレーニングデータセットに存在しない新しい環境でのテストでは著しく劣化する。 その信頼性を向上させるために,予測された各位置一致に関連のある不確実性を持たなければならない不確実性を考慮したライダー位置認識を提案する。 我々は,不確かさを認識できるlidar位置認識をベンチマークする新しい評価プロトコルを導入し,この課題に対する最初の不確実性認識手法として深層アンサンブルを提案する。 3つの大規模データセットと3つの最先端アーキテクチャをテストすることで、Deep Ensemblesは、新しい環境でのライダー位置認識の性能を一貫して改善することを示す。 従来のネットワークと比較して,Deep EnsemblesはRecall@1を5%以上改善し,AuPRを3%以上改善した。 私たちのコードリポジトリは、https://github.com/csiro-robotics/Uncertainty-LPR.comで論文の受理時に公開されます。

State-of-the-art approaches to lidar place recognition degrade significantly when tested on novel environments that are not present in their training dataset. To improve their reliability, we propose uncertainty-aware lidar place recognition, where each predicted place match must have an associated uncertainty that can be used to identify and reject potentially incorrect matches. We introduce a novel evaluation protocol designed to benchmark uncertainty-aware lidar place recognition, and present Deep Ensembles as the first uncertainty-aware approach for this task. Testing across three large-scale datasets and three state-of-the-art architectures, we show that Deep Ensembles consistently improves the performance of lidar place recognition in novel environments. Compared to a standard network, our results show that Deep Ensembles improves the Recall@1 by more than 5% and AuPR by more than 3% on average when tested on previously unseen environments. Our code repository will be made publicly available upon paper acceptance at https://github.com/csiro-robotics/Uncertainty-LPR.
翻訳日:2022-10-05 14:25:25 公開日:2022-10-04
# 漸進的再パラメータスケジューリングによるフレキシブルインダクティブバイアス

Towards Flexible Inductive Bias via Progressive Reparameterization Scheduling ( http://arxiv.org/abs/2210.01370v1 )

ライセンス: Link先を確認
Yunsung Lee, Gyuseong Lee, Kwangrok Ryoo, Hyojun Go, Jihye Park, and Seungryong Kim(参考訳) 最近のコンピュータビジョンには、convolutional neural networks (cnns) と vision transformers (vits) の2つのデファクト標準アーキテクチャがある。 畳み込みの強い帰納バイアスは、モデルがサンプルを効果的に学習するのに役立つが、そのような強いバイアスは十分なデータが利用できる場合にCNNの上限を制限する。 一方、ViTは小さなデータではCNNに劣るが、十分なデータでは優れている。 最近のアプローチでは、これらの2つのアーキテクチャの強みを組み合わせようとしている。 しかし,これらの手法は,サンプル画像ネットのサブセットに対する様々なモデルの精度を異なる比率で比較することにより,対象データスケールの変化に応じて最適な帰納バイアスも変化することを示す。 さらに,特徴マップのフーリエ解析により,信号の周波数変化に応じてモデルの応答パターンが変化し,各データスケールにおいてどの帰納バイアスが有利かを観察した。 畳み込みのような帰納的バイアスがモデルに含まれるほど、vitのようなモデルがresnetのパフォーマンスを上回るデータスケールが小さくなる。 データスケールにおけるフレキシブルなインダクティブバイアスを持つモデルを得るため、再パラメータ化は畳み込みと自己アテンションの間のインダクティブバイアスを補間できることを示す。 モデルが畳み込みに残るエポックの数を調整することで、畳み込みから自己アテンションへの再パラメータ化がCNNとViT間のフーリエ解析パターンを補間することを示す。 これらの知見に適応して,各層ごとの畳み込みや自己意図的帰納バイアスの要求量を調整するプログレッシブ・リパラメトリゼーション・スケジューリング(PRS)を提案する。 小規模データセットでは,後期層では畳み込みから自己アテンションへの再パラメータ化を線形に高速化する。 PRSは、CIFAR-100のような小規模データセットに関する以前の研究より優れていた。

There are two de facto standard architectures in recent computer vision: Convolutional Neural Networks (CNNs) and Vision Transformers (ViTs). Strong inductive biases of convolutions help the model learn sample effectively, but such strong biases also limit the upper bound of CNNs when sufficient data are available. On the contrary, ViT is inferior to CNNs for small data but superior for sufficient data. Recent approaches attempt to combine the strengths of these two architectures. However, we show these approaches overlook that the optimal inductive bias also changes according to the target data scale changes by comparing various models' accuracy on subsets of sampled ImageNet at different ratios. In addition, through Fourier analysis of feature maps, the model's response patterns according to signal frequency changes, we observe which inductive bias is advantageous for each data scale. The more convolution-like inductive bias is included in the model, the smaller the data scale is required where the ViT-like model outperforms the ResNet performance. To obtain a model with flexible inductive bias on the data scale, we show reparameterization can interpolate inductive bias between convolution and self-attention. By adjusting the number of epochs the model stays in the convolution, we show that reparameterization from convolution to self-attention interpolates the Fourier analysis pattern between CNNs and ViTs. Adapting these findings, we propose Progressive Reparameterization Scheduling (PRS), in which reparameterization adjusts the required amount of convolution-like or self-attention-like inductive bias per layer. For small-scale datasets, our PRS performs reparameterization from convolution to self-attention linearly faster at the late stage layer. PRS outperformed previous studies on the small-scale dataset, e.g., CIFAR-100.
翻訳日:2022-10-05 14:25:06 公開日:2022-10-04
# 視覚・ポイントクラウド3次元物体検出用ブリッジ変圧器

Bridged Transformer for Vision and Point Cloud 3D Object Detection ( http://arxiv.org/abs/2210.01391v1 )

ライセンス: Link先を確認
Yikai Wang, TengQi Ye, Lele Cao, Wenbing Huang, Fuchun Sun, Fengxiang He, Dacheng Tao(参考訳) 3dオブジェクト検出はコンピュータビジョンにおいて重要な研究テーマであり、通常3dポイントクラウドを従来の設定で入力として使用する。 近年,色が豊富でノイズが少ない2次元画像で3次元点雲を補完するなど,複数の入力データソースを活用する傾向にある。 しかし、2Dと3Dの表現の不均一な幾何学的特徴により、既成のニューラルネットワークを適用してマルチモーダル融合を達成できない。 そこで我々は,3次元物体検出のためのエンドツーエンドアーキテクチャである bridged transformer (brt) を提案する。 BrTはシンプルで効果的で、3Dと2Dのオブジェクト境界ボックスをポイントとイメージパッチの両方から識別する。 BrTの重要な要素は、Transformerでデータ表現の異なるソースを統一する3D空間と2D空間をブリッジするためのオブジェクトクエリの利用である。 我々は,画像とポイントの相関をさらに強化するポイント・ツー・パッチ・プロジェクションによって実現される特徴集約方式を採用する。 さらに、BrTはマルチビューイメージでポイントクラウドを融合するためにシームレスに機能する。 BrTがSUN RGB-DおよびScanNetV2データセットの最先端手法を上回ることを示す。

3D object detection is a crucial research topic in computer vision, which usually uses 3D point clouds as input in conventional setups. Recently, there is a trend of leveraging multiple sources of input data, such as complementing the 3D point cloud with 2D images that often have richer color and fewer noises. However, due to the heterogeneous geometrics of the 2D and 3D representations, it prevents us from applying off-the-shelf neural networks to achieve multimodal fusion. To that end, we propose Bridged Transformer (BrT), an end-to-end architecture for 3D object detection. BrT is simple and effective, which learns to identify 3D and 2D object bounding boxes from both points and image patches. A key element of BrT lies in the utilization of object queries for bridging 3D and 2D spaces, which unifies different sources of data representations in Transformer. We adopt a form of feature aggregation realized by point-to-patch projections which further strengthen the correlations between images and points. Moreover, BrT works seamlessly for fusing the point cloud with multi-view images. We experimentally show that BrT surpasses state-of-the-art methods on SUN RGB-D and ScanNetV2 datasets.
翻訳日:2022-10-05 14:24:34 公開日:2022-10-04
# 注意引き込み式変圧器による高精度画像復元

Accurate Image Restoration with Attention Retractable Transformer ( http://arxiv.org/abs/2210.01427v1 )

ライセンス: Link先を確認
Jiale Zhang and Yulun Zhang and Jinjin Gu and Yongbing Zhang and Linghe Kong and Xin Yuan(参考訳) 近年,変圧器を用いた画像復元ネットワークは,パラメータ非依存なグローバルインタラクションにより畳み込みニューラルネットワークよりも有望な改善を達成している。 計算コストを下げるために、既存の作業は一般にオーバーラップしないウィンドウ内での自己注意計算を制限する。 しかし、各トークン群は常に画像の濃密な領域からのものである。 これは、トークンの相互作用が濃密な地域で抑制されているため、集中的な注意戦略であると考えられている。 当然、この戦略は受容の場に制限を与える可能性がある。 この問題に対処するため,画像復元のためのART (Atention Retractable Transformer) を提案する。 スパースアテンションモジュールは、スパース領域からのトークンの相互作用を可能にし、より広い受容場を提供する。 さらに,高密度かつ疎度なアテンションモジュールの交互適用により,トランスフォーマーの表現能力が大きく向上し,画像の超解像,デノナイジング,JPEG圧縮アーティファクト削減タスクについて広範な実験を行った。 実験により,提案手法が定量的および視覚的に様々なベンチマークデータセットにおいて最先端の手法よりも優れていることを確認した。 また、Webサイトhttps://github.com/gladzhang/ART.comでコードとモデルを提供しています。

Recently, Transformer-based image restoration networks have achieved promising improvements over convolutional neural networks due to parameter-independent global interactions. To lower computational cost, existing works generally limit self-attention computation within non-overlapping windows. However, each group of tokens are always from a dense area of the image. This is considered as a dense attention strategy since the interactions of tokens are restrained in dense regions. Obviously, this strategy could result in restricted receptive fields. To address this issue, we propose Attention Retractable Transformer (ART) for image restoration, which presents both dense and sparse attention modules in the network. The sparse attention module allows tokens from sparse areas to interact and thus provides a wider receptive field. Furthermore, the alternating application of dense and sparse attention modules greatly enhances representation ability of Transformer while providing retractable attention on the input image.We conduct extensive experiments on image super-resolution, denoising, and JPEG compression artifact reduction tasks. Experimental results validate that our proposed ART outperforms state-of-the-art methods on various benchmark datasets both quantitatively and visually. We also provide code and models at the website https://github.com/gladzhang/ART.
翻訳日:2022-10-05 14:24:14 公開日:2022-10-04
# 選択ステレオマッチングによるミスプロジェクションによる非学習ステレオ支援深度補完

Non-learning Stereo-aided Depth Completion under Mis-projection via Selective Stereo Matching ( http://arxiv.org/abs/2210.01436v1 )

ライセンス: Link先を確認
Yasuhiro Yao, Ryoichi Ishikawa, Shingo Ando, Kana Kurata, Naoki Ito, Jun Shimamura, and Takeshi Oishi(参考訳) 本論文では,一対のステレオ画像で誘導される光検出・測位(lidar)センサを用いて,スパース深度マップの非学習深度補完法を提案する。 一般に、従来の立体支援深度補完法は2つのリミネーションを持つ。 (i)与えられたスパース深度マップが入力画像と正確に一致していると仮定するが、実際にはアライメントは達成が困難である。 (ii)深さが画素差によって推定されるため、長範囲での精度が限られている。 上記の制限を解決するために,エネルギー最小化の枠組みに基づいて,近接するlidar点から画像画素の最も適切な深度値を探索する選択的ステレオマッチング(ssm)を提案する。 この深さ選択アプローチは、任意のタイプのミスプロジェクションを処理できる。 さらに、SSMはステレオから取得した深度ではなく、直接LiDAR測定を使用するため、長距離深度精度の点で有利である。 したがって、二元異方拡散テンソル(b-adt)を用いた変分平滑化を適用し、オブジェクト境界間の深さの不連続性を保ちながら連続深度マップを生成する。 実験により, 従来のステレオ支援深度処理と比較して, 提案手法では, 平均絶対誤差(MAE)を0.65倍に低減し, 長範囲での精度を約2倍に向上した。 さらに, 種々のLiDARカメラキャリブレーション誤差により, 従来の深度補正法から深度推定MAEを0.34-0.93倍に削減した。

We propose a non-learning depth completion method for a sparse depth map captured using a light detection and ranging (LiDAR) sensor guided by a pair of stereo images. Generally, conventional stereo-aided depth completion methods have two limiations. (i) They assume the given sparse depth map is accurately aligned to the input image, whereas the alignment is difficult to achieve in practice. (ii) They have limited accuracy in the long range because the depth is estimated by pixel disparity. To solve the abovementioned limitations, we propose selective stereo matching (SSM) that searches the most appropriate depth value for each image pixel from its neighborly projected LiDAR points based on an energy minimization framework. This depth selection approach can handle any type of mis-projection. Moreover, SSM has an advantage in terms of long-range depth accuracy because it directly uses the LiDAR measurement rather than the depth acquired from the stereo. SSM is a discrete process; thus, we apply variational smoothing with binary anisotropic diffusion tensor (B-ADT) to generate a continuous depth map while preserving depth discontinuity across object boundaries. Experimentally, compared with the previous state-of-the-art stereo-aided depth completion, the proposed method reduced the mean absolute error (MAE) of the depth estimation to 0.65 times and demonstrated approximately twice more accurate estimation in the long range. Moreover, under various LiDAR-camera calibration errors, the proposed method reduced the depth estimation MAE to 0.34-0.93 times from previous depth completion methods.
翻訳日:2022-10-05 14:23:53 公開日:2022-10-04
# 背景抑制と前景アライメントを用いたファウショット微粒化認識

Boosting Few-shot Fine-grained Recognition with Background Suppression and Foreground Alignment ( http://arxiv.org/abs/2210.01439v1 )

ライセンス: Link先を確認
Zican Zha, Hao Tang, Yunlian Sun, and Jinhui Tang(参考訳) FS-FGR (Few-shot Fine-fine Recognition) は、限られたサンプルの助けを借りて、新しいきめ細かなカテゴリを認識することを目的としている。 このタスクは、数発の学習ときめ細かい認識の両方から主要な課題を継承する。 まず、ラベル付きサンプルの欠如により、学習したモデルがオーバーフィットしやすくなる。 第二に、データセットのクラス内ばらつきが高く、クラス間の違いも低い。 本稿では,この課題に対処するために,背景活性化抑制(bas)モジュール,フォアグラウンドオブジェクトアライメント(foa)モジュール,局所的/局所的(l2l)類似度メトリクスからなる2段階の背景抑制・前景アライメントフレームワークを提案する。 具体的には、BASを導入して、背景乱れを弱め、支配的な前景オブジェクトを強化するために、前景マスクを生成する。 さらに,ラベル付きサンプルの欠如を考慮すると,生画像と精巧な画像の両方を用いて特徴地図の相似性を計算する。 FOAは、各サポートサンプルの特徴マップを、クエリマップの修正に従って再構成し、サポートクエリとイメージペア間のミスアライメントの問題に対処する。 提案手法は, 混合試料の微妙な相違を捉えることができるため, 埋め込み空間における一対の空間的特徴の局所的類似度を更に測定する新しいL2L類似度尺度を提案する。 複数のベンチマークで行った大規模な実験により、我々の手法は既存の最先端技術よりも大きなマージンで優れていることが示された。

Few-shot fine-grained recognition (FS-FGR) aims to recognize novel fine-grained categories with the help of limited available samples. Undoubtedly, this task inherits the main challenges from both few-shot learning and fine-grained recognition. First, the lack of labeled samples makes the learned model easy to overfit. Second, it also suffers from high intra-class variance and low inter-class difference in the datasets. To address this challenging task, we propose a two-stage background suppression and foreground alignment framework, which is composed of a background activation suppression (BAS) module, a foreground object alignment (FOA) module, and a local to local (L2L) similarity metric. Specifically, the BAS is introduced to generate a foreground mask for localization to weaken background disturbance and enhance dominative foreground objects. What's more, considering the lack of labeled samples, we compute the pairwise similarity of feature maps using both the raw image and the refined image. The FOA then reconstructs the feature map of each support sample according to its correction to the query ones, which addresses the problem of misalignment between support-query image pairs. To enable the proposed method to have the ability to capture subtle differences in confused samples, we present a novel L2L similarity metric to further measure the local similarity between a pair of aligned spatial features in the embedding space. Extensive experiments conducted on multiple popular fine-grained benchmarks demonstrate that our method outperforms the existing state-of-the-art by a large margin.
翻訳日:2022-10-05 14:23:25 公開日:2022-10-04
# ThinkSum: 大きな言語モデルを用いた集合上の確率論的推論

ThinkSum: Probabilistic reasoning over sets using large language models ( http://arxiv.org/abs/2210.01293v1 )

ライセンス: Link先を確認
Batu Ozturkler, Nikolay Malkin, Zhen Wang, Nebojsa Jojic(参考訳) 大規模言語モデル(llm)は、トレーニングデータ(ゼロショット評価)や提供されたコンテキスト(フェウショットインコンテキスト学習)で発生する線形テキストでパターンを再現する、ハイレベルなアナロジー推論にかなりの能力を持っている。 しかし、最近の研究では、最も大きなLCMでさえ、複数の対象や事実を推論したり、論理的推論のシーケンスを作成する必要のあるシナリオで失敗することを示している。 本稿では,2段階の確率論的推論パラダイムであるThinkSumを提案する。 第1段(Think -- 'fast' search of associations)では、プロンプトまたは補助モデルコールから抽出されたフレーズのセットに対してLCMを並列にクエリする。第2段(Sum -- 'slow' probabilistic inference or reasoning)では、これらのクエリの結果を集約して最終的な予測を行う。 我々は,評価タスクのビッグベンチスイートにおけるthinksumの利点を実証し,gptファミリーモデルを用いた10の難しいタスクにおいて,より小さなモデル変種を用いた場合が多い技術の改善を実現した。 我々はThinkSumとLLMの直接的プロンプトのための他の修正、例えばチェーン・オブ・シント・プロンプトの変種を比較して比較する。 我々は、ThinkSumの確率論的推論はLLMの呼び出しの外で実行されるため、ThinkSumは設計の迅速化にはあまり敏感ではなく、より解釈可能な予測が得られ、LLMから構造化知識を抽出するために、潜在変数モデルと柔軟に組み合わせることができると論じる。

Large language models (LLMs) have a substantial capacity for high-level analogical reasoning: reproducing patterns in linear text that occur in their training data (zero-shot evaluation) or in the provided context (few-shot in-context learning). However, recent studies show that even the largest LLMs fail in scenarios that require reasoning over multiple objects or facts or making sequences of logical deductions. We propose a two-stage probabilistic inference paradigm, ThinkSum, that reasons over sets of objects or facts in a structured manner. In the first stage (Think -- 'fast' retrieval of associations), a LLM is queried in parallel over a set of phrases extracted from the prompt or an auxiliary model call. In the second stage (Sum -- 'slow' probabilistic inference or reasoning), the results of these queries are aggregated to make the final prediction. We demonstrate the advantages of ThinkSum on the BIG-bench suite of evaluation tasks, achieving improvements over the state of the art using GPT-family models on ten difficult tasks, often with far smaller model variants. We compare and contrast ThinkSum with other proposed modifications to direct prompting of LLMs, such as variants of chain-of-thought prompting. We argue that because the probabilistic inference in ThinkSum is performed outside of calls to the LLM, ThinkSum is less sensitive to prompt design, yields more interpretable predictions, and can be flexibly combined with latent variable models to extract structured knowledge from LLMs.
翻訳日:2022-10-05 14:17:05 公開日:2022-10-04
# 非決定論的スタックrnnの驚くべき計算能力

The Surprising Computational Power of Nondeterministic Stack RNNs ( http://arxiv.org/abs/2210.01343v1 )

ライセンス: Link先を確認
Brian DuSell, David Chiang(参考訳) 従来のリカレントニューラルネットワーク(RNN)は、固定された有限個のメモリセルを持つ。 理論上(境界範囲と精度を仮定すると)、これは形式言語認識能力を正規言語に制限するものであり、実際、RNNは多くの文脈自由言語(CFL)を習得できないことが示されている。 RNNが認識する言語のクラスを拡張するために、以前の作業では、RNNを非決定論的スタックデータ構造で拡張し、プッシュダウンオートマトンと同等にし、言語認識能力をCFLに拡張した。 非決定論は、すべてのCFLを認識するために必要であるが、本稿では、非決定論とニューラルコントローラが相互作用して、より予期しない2つの能力を生み出すことを示す。 まず、非決定論的スタック RNN は CFL だけでなく、多くの非文脈自由言語を認識できる。 第二に、スタックアルファベットのサイズを考えると、予想されるよりもはるかに大きなアルファベットサイズを持つ言語を認識できる。 最後に,スタック内の情報容量を増加させ,大きなアルファベットサイズでより複雑なタスクを解決できるようにするため,離散記号ではなくベクトルのスタックをシミュレートする非決定性スタックの新バージョンを提案する。 我々はpenn treebank language modeling benchmark(リンク)で、この新しいモデルによるパープレキシティの改善を実証する。

Traditional recurrent neural networks (RNNs) have a fixed, finite number of memory cells. In theory (assuming bounded range and precision), this limits their formal language recognition power to regular languages, and in practice, RNNs have been shown to be unable to learn many context-free languages (CFLs). In order to expand the class of languages RNNs recognize, prior work has augmented RNNs with a nondeterministic stack data structure, putting them on par with pushdown automata and increasing their language recognition power to CFLs. Nondeterminism is needed for recognizing all CFLs (not just deterministic CFLs), but in this paper, we show that nondeterminism and the neural controller interact to produce two more unexpected abilities. First, the nondeterministic stack RNN can recognize not only CFLs, but also many non-context-free languages. Second, it can recognize languages with much larger alphabet sizes than one might expect given the size of its stack alphabet. Finally, to increase the information capacity in the stack and allow it to solve more complicated tasks with large alphabet sizes, we propose a new version of the nondeterministic stack that simulates stacks of vectors rather than discrete symbols. We demonstrate perplexity improvements with this new model on the Penn Treebank language modeling benchmark.
翻訳日:2022-10-05 14:16:33 公開日:2022-10-04
# 言語モデルにおけるプライバシーリスク軽減のための知識学習

Knowledge Unlearning for Mitigating Privacy Risks in Language Models ( http://arxiv.org/abs/2210.01504v1 )

ライセンス: Link先を確認
Joel Jang, Dongkeun Yoon, Sohee Yang, Sungmin Cha, Moontae Lee, Lajanugen Logeswaran, Minjoon Seo(参考訳) 事前訓練言語モデル(LM)は、個人生活やアイデンティティのプライバシーを侵害する可能性のある情報を含む、初期の事前訓練中に大量の知識を記憶する。 言語モデルのプライバシ問題に対処するこれまでの作業は、主にデータ前処理と差分プライバシメソッドに焦点を当てていた。 本稿では,LMsポストホックのプライバシーリスクを低減する代替手法として知識アンラーニングを提案する。 トークン列をターゲットとした訓練対象を単純に適用すれば、汎用言語モデリング性能の劣化をほとんど、あるいは全くなく、それらを忘れることが効果的であることを示し、ほんの数イテレーションで基盤となるLMを大幅に改善することさえある。 また、シーケンシャルアンラーニングは、すべてのデータを一度に解き放つよりも優れており、アンラーニングは、どの種類のデータ(ドメイン)が忘れられているかに大きく依存している。 LMのプライバシリスクを軽減するために,従来のデータ前処理手法と比較することにより,抽出攻撃に脆弱なデータがより計算効率のよい命令である場合に,アンラーニングがより強力な経験的プライバシ保証を与えることを示す。 結果の再現に必要なコードとデータセットはhttps://github.com/joeljang/knowledge-unlearning で公開しています。

Pretrained Language Models (LMs) memorize a vast amount of knowledge during initial pretraining, including information that may violate the privacy of personal lives and identities. Previous work addressing privacy issues for language models has mostly focused on data preprocessing and differential privacy methods, both requiring re-training the underlying LM. We propose knowledge unlearning as an alternative method to reduce privacy risks for LMs post hoc. We show that simply applying the unlikelihood training objective to target token sequences is effective at forgetting them with little to no degradation of general language modeling performances; it sometimes even substantially improves the underlying LM with just a few iterations. We also find that sequential unlearning is better than trying to unlearn all the data at once and that unlearning is highly dependent on which kind of data (domain) is forgotten. By showing comparisons with a previous data preprocessing method known to mitigate privacy risks for LMs, we show that unlearning can give a stronger empirical privacy guarantee in scenarios where the data vulnerable to extraction attacks are known a priori while being orders of magnitude more computationally efficient. We release the code and dataset needed to replicate our results at https://github.com/joeljang/knowledge-unlearning .
翻訳日:2022-10-05 14:16:09 公開日:2022-10-04
# 語彙で遊んでいる人はどれくらい熟達しているか? ラトビアにおけるワードゲームの分析

How Masterly Are People at Playing with Their Vocabulary? Analysis of the Wordle Game for Latvian ( http://arxiv.org/abs/2210.01508v1 )

ライセンス: Link先を確認
Mat\=iss Rikters and Sanita Reinsone(参考訳) 本稿では,世界中の人々の心と心を占有する単純な単語推測ゲームの適応について述べる。 バルト諸国3か国と、それぞれにいくつかのバージョンがある。 われわれは特にラトビア版に注意を払っており、すでに発見されているヒントを踏まえて、人々がどのように推測を形作るかを考察している。 本論文は, パターン, 容易かつ困難な単語の特徴, プレイヤーの行動と反応を推定する。

In this paper, we describe adaptation of a simple word guessing game that occupied the hearts and minds of people around the world. There are versions for all three Baltic countries and even several versions of each. We specifically pay attention to the Latvian version and look into how people form their guesses given any already uncovered hints. The paper analyses guess patterns, easy and difficult word characteristics, and player behaviour and response.
翻訳日:2022-10-05 14:15:46 公開日:2022-10-04
# Mintaka: エンドツーエンド質問応答のための複雑・自然・多言語データセット

Mintaka: A Complex, Natural, and Multilingual Dataset for End-to-End Question Answering ( http://arxiv.org/abs/2210.01613v1 )

ライセンス: Link先を確認
Priyanka Sen, Alham Fikri Aji, Amir Saffari(参考訳) エンド・ツー・エンドの質問応答モデルの実験用に設計された,複雑で自然な多言語データセットであるmintakaを紹介する。 ミンタカは2万組の質問回答対を英語で収集し、Wikidataエンティティに注釈を付け、アラビア語、フランス語、ドイツ語、ヒンディー語、イタリア語、日本語、ポルトガル語、スペイン語に合計180,000のサンプルを翻訳している。 mintakaには、スプレッドシート、交差点、マルチホップの質問を含む8種類の複雑な質問が含まれている。 Mintakaは英語で38%のヒット@1、多言語で31%のヒット@1を達成しており、既存のモデルに改善の余地があることを示しています。 Mintakaはhttps://github.com/amazon-research/mintaka.comでリリースしています。

We introduce Mintaka, a complex, natural, and multilingual dataset designed for experimenting with end-to-end question-answering models. Mintaka is composed of 20,000 question-answer pairs collected in English, annotated with Wikidata entities, and translated into Arabic, French, German, Hindi, Italian, Japanese, Portuguese, and Spanish for a total of 180,000 samples. Mintaka includes 8 types of complex questions, including superlative, intersection, and multi-hop questions, which were naturally elicited from crowd workers. We run baselines over Mintaka, the best of which achieves 38% hits@1 in English and 31% hits@1 multilingually, showing that existing models have room for improvement. We release Mintaka at https://github.com/amazon-research/mintaka.
翻訳日:2022-10-05 14:15:38 公開日:2022-10-04
# stack overflowの重複質問のマイニング

Mining Duplicate Questions of Stack Overflow ( http://arxiv.org/abs/2210.01637v1 )

ライセンス: Link先を確認
Mihir Kale, Anirudha Rayasam, Radhika Parik, Pranav Dheram(参考訳) コミュニティ質問回答サイト(Community Question Answering Site, CQA)の利用は、主に群衆の知恵を活用する能力によって、過去10年間で著しく増加してきた。 重複した質問は、これらのサイトの品質に悪影響を及ぼす。 したがって、重複した質問に取り組むことは、cqaの品質を改善するための重要なステップです。 本稿では,スタックオーバーフローにおける重複質問検出のための2つのニューラルネットワークベースのアーキテクチャを提案する。 また,質問に含まれるコードを明示的にモデル化して,技術状況を超える結果が得られるよう提案する。

There has a been a significant rise in the use of Community Question Answering sites (CQAs) over the last decade owing primarily to their ability to leverage the wisdom of the crowd. Duplicate questions have a crippling effect on the quality of these sites. Tackling duplicate questions is therefore an important step towards improving quality of CQAs. In this regard, we propose two neural network based architectures for duplicate question detection on Stack Overflow. We also propose explicitly modeling the code present in questions to achieve results that surpass the state of the art.
翻訳日:2022-10-05 14:15:23 公開日:2022-10-04
# 移動分析:aiの視点からみた現状, 製造への応用, 今後の展望

Movement Analytics: Current Status, Application to Manufacturing, and Future Prospects from an AI Perspective ( http://arxiv.org/abs/2210.01344v1 )

ライセンス: Link先を確認
Peter Baumgartner, Daniel Smith, Mashud Rana, Reena Kapoor, Elena Tartaglia, Andreas Schutt, Ashfaqur Rahman, John Taylor, Simon Dunstall(参考訳) データ駆動意思決定は、製造業の不可欠な部分になりつつある。 データは収集され、効率を改善し、顧客のために高品質なアイテムを作成するために一般的に使用される。 IoTベースのその他のオブジェクトトラッキングは、オブジェクトやエンティティ(例えば、ヒューマンワーカー、移動車両、トロリーなど)の空間と時間の移動データを収集する新しいツールである。 移動データは、プロセスボトルネック、リソース利用、効果的な作業時間など、意思決定や効率向上に使用できる貴重な洞察を提供することができる。 移動データを産業管理や意思決定に有用な情報に変換するには,分析手法が必要である。 この過程を運動分析と呼ぶ。 本研究の目的は, 製造業における移動分析の現況を, より広い範囲でレビューすることである。 理論的視点と応用視点の両方から関連する研究を調査する。 理論的な観点からは、機械学習と論理に基づく知識表現という2つの研究分野から有用な方法に重点を置く。 また,これらの組み合わせを運動分析の観点から検討し,今後の開発と応用に有望な分野について考察する。 さらに,制約最適化にも触れる。 アプリケーションの観点から,様々な産業における移動分析へのこれらの手法の適用について概観する。 また,現在市販されている市販の市販製品について述べるとともに,デジタルツインとその応用に関する主要な概念を概説する。

Data-driven decision making is becoming an integral part of manufacturing companies. Data is collected and commonly used to improve efficiency and produce high quality items for the customers. IoT-based and other forms of object tracking are an emerging tool for collecting movement data of objects/entities (e.g. human workers, moving vehicles, trolleys etc.) over space and time. Movement data can provide valuable insights like process bottlenecks, resource utilization, effective working time etc. that can be used for decision making and improving efficiency. Turning movement data into valuable information for industrial management and decision making requires analysis methods. We refer to this process as movement analytics. The purpose of this document is to review the current state of work for movement analytics both in manufacturing and more broadly. We survey relevant work from both a theoretical perspective and an application perspective. From the theoretical perspective, we put an emphasis on useful methods from two research areas: machine learning, and logic-based knowledge representation. We also review their combinations in view of movement analytics, and we discuss promising areas for future development and application. Furthermore, we touch on constraint optimization. From an application perspective, we review applications of these methods to movement analytics in a general sense and across various industries. We also describe currently available commercial off-the-shelf products for tracking in manufacturing, and we overview main concepts of digital twins and their applications.
翻訳日:2022-10-05 14:15:16 公開日:2022-10-04
# ブール回路の論理等価チェックのためのSAT符号化の硬さの推定

Estimating the hardness of SAT encodings for Logical Equivalence Checking of Boolean circuits ( http://arxiv.org/abs/2210.01484v1 )

ライセンス: Link先を確認
Alexander Semenov, Konstantin Chukharev, Egor Tarasov, Daniil Chivilikhin and Viktor Kondratiev(参考訳) 本稿では,論理等価チェック問題 (LEC) に対して, Boolean satisfiability (SAT) エンコーディングの硬さを推定する方法を検討する。 従来のSATソルバがSATインスタンスを妥当な時間で解けない場合、難易度の平均的な推定は重要である。 LEC インスタンスに対する SAT エンコーディングの硬さは、いくつかの SAT パーティショニングにおいて \textit{w.r.t.} と推定できることを示す。 また, 推定結果の精度は, 分割を考慮した特殊に定義された確率変数の確率的特性に依存することを示した。 そこで本研究では, SAT符号化の難易度を精度良く推定できる分割構成法を提案する。 実験的な部分では、比較的小さな入力サイズを持つ非常に複雑なインスタンスを考慮された回路の$n$で提供するスケーラブルなLECテストのクラスを提案する。 例えば、$n = 40$の場合、最先端のSATソルバは、考慮されたテストに妥当な時間で対処できない。 しかし、これらのテストは、提案手法を用いて並列に解決できる。

In this paper we investigate how to estimate the hardness of Boolean satisfiability (SAT) encodings for the Logical Equivalence Checking problem (LEC). Meaningful estimates of hardness are important in cases when a conventional SAT solver cannot solve a SAT instance in a reasonable time. We show that the hardness of SAT encodings for LEC instances can be estimated \textit{w.r.t.} some SAT partitioning. We also demonstrate the dependence of the accuracy of the resulting estimates on the probabilistic characteristics of a specially defined random variable associated with the considered partitioning. The paper proposes several methods for constructing partitionings, which, when used in practice, allow one to estimate the hardness of SAT encodings for LEC with good accuracy. In the experimental part we propose a class of scalable LEC tests that give extremely complex instances with a relatively small input size $n$ of the considered circuits. For example, for $n = 40$, none of the state-of-the-art SAT solvers can cope with the considered tests in a reasonable time. However, these tests can be solved in parallel using the proposed partitioning methods.
翻訳日:2022-10-05 14:14:56 公開日:2022-10-04
# 人間型学習と推論における型理論

Type theory in human-like learning and inference ( http://arxiv.org/abs/2210.01634v1 )

ライセンス: Link先を確認
Felix A. Sosa, Tomer Ullman(参考訳) 人間は、新しい質問に対して合理的に答えることができます(schulz, 2012): もし、昼食にどんな食べ物を食べたいか尋ねたら、あなたは、時間ではなく、食べ物で応答します。 午後4時以降」から「食べたいもの」への反応は、冗談か間違いかのどちらかであり、ランチオプションとして真剣に楽しませることは、そもそも起こらないだろう。 人々が新しい考え、考え、説明、仮説をどう思いつくかを理解することは、新しい検索空間の基本的制約に従うことは認知科学の中心的な重要性であるが、この種の推論の正式なモデルには一致していない。 このような推論システムの中核となるコンポーネントはタイプ理論であり、エージェントが実行できる計算の種類とそれらの実行方法に関する構造を形式的に記述することである。 この提案には、学習と推論に対する適応的制約(すなわち合理的な仮説の生成)、不可否と不可否の区別の引き分けの仕方、さまざまな抽象レベルで物事を推論する能力の3つの経験的観察が組み込まれている。

Humans can generate reasonable answers to novel queries (Schulz, 2012): if I asked you what kind of food you want to eat for lunch, you would respond with a food, not a time. The thought that one would respond "After 4pm" to "What would you like to eat" is either a joke or a mistake, and seriously entertaining it as a lunch option would likely never happen in the first place. While understanding how people come up with new ideas, thoughts, explanations, and hypotheses that obey the basic constraints of a novel search space is of central importance to cognitive science, there is no agreed-on formal model for this kind of reasoning. We propose that a core component of any such reasoning system is a type theory: a formal imposition of structure on the kinds of computations an agent can perform, and how they're performed. We motivate this proposal with three empirical observations: adaptive constraints on learning and inference (i.e. generating reasonable hypotheses), how people draw distinctions between improbability and impossibility, and people's ability to reason about things at varying levels of abstraction.
翻訳日:2022-10-05 14:14:40 公開日:2022-10-04
# 生成型形状構成フレームワーク:仮想心臓キメラの代表集団に向けて

A Generative Shape Compositional Framework: Towards Representative Populations of Virtual Heart Chimaeras ( http://arxiv.org/abs/2210.01607v1 )

ライセンス: Link先を確認
Haoran Dou, Seppo Virtanen, Nishant Ravikumar, Alejandro F. Frangi(参考訳) 医療機器のシリコン内試験を行うには、十分な変動を捉えつつ、可視性を維持した解剖学の仮想集団を生成することが不可欠である。 しかし、すべての解剖学的形態が、人口の個体ごとに常に利用できるわけではない。 したがって、欠如/部分的重複した解剖学的情報は、集団内の個人間でしばしば利用可能である。 複雑な解剖学的構造に対する生成的形状モデルを導入し、未ペアデータセットのデータセットから学習する。 提案する生成モデルは、自然のヒトのキメラとは対照的に、仮想キメラを造った完全な複雑な形状集合を合成することができる。 本フレームワークを応用し,心サブストラクチャのサンプルに寄与する全身形状の集合体データベースから仮想キメラを構築する。 具体的には,訓練集団の関心構造毎に観察される形状の変動を捉える部分認識生成型モデルと,前者が合成した構造を多元的な形状集合体として組み立て,構成する空間構成ネットワークの2つの構成要素からなる生成型合成フレームワークを提案する(viz. virtual chimaeras)。 また,空間構成ネットワークを部分的に重なり合うデータと弱いラベルで訓練できる,新しい自己教師あり学習方式を提案する。 イギリスのバイオバンクで利用可能な心磁気共鳴画像から得られた心臓構造の形状を用いて,このアプローチを訓練し,検証した。 本手法は汎用性と特異性の観点からpcaベースの形状モデル(完全データで学習)を著しく上回っている。 これは, 合成心室仮想集団は, pcaベースの形状モデルによって生成されるものよりも, 形状変化の度合いが高いため, 提案手法が優れていることを示す。

Generating virtual populations of anatomy that capture sufficient variability while remaining plausible is essential for conducting in-silico trials of medical devices. However, not all anatomical shapes of interest are always available for each individual in a population. Hence, missing/partially-overlapping anatomical information is often available across individuals in a population. We introduce a generative shape model for complex anatomical structures, learnable from datasets of unpaired datasets. The proposed generative model can synthesise complete whole complex shape assemblies coined virtual chimaeras, as opposed to natural human chimaeras. We applied this framework to build virtual chimaeras from databases of whole-heart shape assemblies that each contribute samples for heart substructures. Specifically, we propose a generative shape compositional framework which comprises two components - a part-aware generative shape model which captures the variability in shape observed for each structure of interest in the training population; and a spatial composition network which assembles/composes the structures synthesised by the former into multi-part shape assemblies (viz. virtual chimaeras). We also propose a novel self supervised learning scheme that enables the spatial composition network to be trained with partially overlapping data and weak labels. We trained and validated our approach using shapes of cardiac structures derived from cardiac magnetic resonance images available in the UK Biobank. Our approach significantly outperforms a PCA-based shape model (trained with complete data) in terms of generalisability and specificity. This demonstrates the superiority of the proposed approach as the synthesised cardiac virtual populations are more plausible and capture a greater degree of variability in shape than those generated by the PCA-based shape model.
翻訳日:2022-10-05 14:09:07 公開日:2022-10-04
# 異種血管分割に対する解剖学的拘束型ct画像変換

Anatomically constrained CT image translation for heterogeneous blood vessel segmentation ( http://arxiv.org/abs/2210.01713v1 )

ライセンス: Link先を確認
Giammarco La Barbera, Haithem Boussaid, Francesco Maso, Sabine Sarnacki, Laurence Rouet, Pietro Gori, Isabelle Bloch(参考訳) 造影CT(ceCT)画像における血管などの解剖学的構造は, 造影剤拡散の変動により, 分画が困難である。 cectとコントラストフリーct画像の併用により、セグメンテーション性能は向上するが、二重放射線被曝のコストは高くなる。 放射線線量を制限するために、生成モデルを使って1つのモダリティを合成することができる。 CycleGANアプローチは、入手が困難なペアデータの必要性を軽減するため、最近特に注目を集めている。 文献で実証された優れた性能にもかかわらず、異なる視野の異なるデータセットからスライスされた3dボリュームを扱う場合、制限は依然として残る。 我々は,この文脈において,高忠実度画像を生成するためのcycleganの拡張を提案する。 自己監督身体回帰器を適応させることにより、解剖学的制約と利子選択の自動領域を活用する。 これらの制約は解剖学的一貫性を強制し、解剖学的にペアリングされた入力画像をアルゴリズムに供給することを可能にする。 その結果,CT画像とCT画像の翻訳作業において,最先端手法と比較して質的,定量的な改善が見られた。

Anatomical structures such as blood vessels in contrast-enhanced CT (ceCT) images can be challenging to segment due to the variability in contrast medium diffusion. The combined use of ceCT and contrast-free (CT) CT images can improve the segmentation performances, but at the cost of a double radiation exposure. To limit the radiation dose, generative models could be used to synthesize one modality, instead of acquiring it. The CycleGAN approach has recently attracted particular attention because it alleviates the need for paired data that are difficult to obtain. Despite the great performances demonstrated in the literature, limitations still remain when dealing with 3D volumes generated slice by slice from unpaired datasets with different fields of view. We present an extension of CycleGAN to generate high fidelity images, with good structural consistency, in this context. We leverage anatomical constraints and automatic region of interest selection by adapting the Self-Supervised Body Regressor. These constraints enforce anatomical consistency and allow feeding anatomically-paired input images to the algorithm. Results show qualitative and quantitative improvements, compared to stateof-the-art methods, on the translation task between ceCT and CT images (and vice versa).
翻訳日:2022-10-05 14:08:36 公開日:2022-10-04
# シャープネス・アウェア・ミニミゼーションのダイナミクス--谷を越え、広いミニマに向かって漂流する

The Dynamics of Sharpness-Aware Minimization: Bouncing Across Ravines and Drifting Towards Wide Minima ( http://arxiv.org/abs/2210.01513v1 )

ライセンス: Link先を確認
Peter L. Bartlett, Philip M. Long and Olivier Bousquet(参考訳) シャープネス・アウェア・最小化(SAM)は,画像および言語予測問題の性能改善を図ったディープネットワークの勾配に基づく最適化手法である。 SAM を凸二次目的数で適用すると、ほとんどのランダム初期化に対して、最も大きな曲率を持つ方向の最小値の両辺間で振動するサイクルに収束し、収束率の有界性を与えることを示す。 非二次の場合、そのような振動はヘッシアンのスペクトルノルム上で、より小さなステップサイズの勾配降下を効果的に行う。 そのような場合、SAMの更新は、より広いミニマへのドリフトを促進する第3の微分(先頭の固有ベクトル方向におけるヘッセンの微分)と見なすことができる。

We consider Sharpness-Aware Minimization (SAM), a gradient-based optimization method for deep networks that has exhibited performance improvements on image and language prediction problems. We show that when SAM is applied with a convex quadratic objective, for most random initializations it converges to a cycle that oscillates between either side of the minimum in the direction with the largest curvature, and we provide bounds on the rate of convergence. In the non-quadratic case, we show that such oscillations effectively perform gradient descent, with a smaller step-size, on the spectral norm of the Hessian. In such cases, SAM's update may be regarded as a third derivative -- the derivative of the Hessian in the leading eigenvector direction -- that encourages drift toward wider minima.
翻訳日:2022-10-05 13:59:25 公開日:2022-10-04
# 多面的モンテカルロ--擬マルジナルアプローチ

Multi-fidelity Monte Carlo: a pseudo-marginal approach ( http://arxiv.org/abs/2210.01534v1 )

ライセンス: Link先を確認
Diana Cai and Ryan P. Adams(参考訳) マルコフ連鎖モンテカルロ(MCMC)は、科学応用における不確実な定量化と伝播のための確立されたアプローチである。 MCMCを科学分野に適用する際の重要な課題は計算である: 関心のターゲット密度は、しばしば高忠実度物理シミュレーション、難解積分、ゆっくりと収束する反復アルゴリズムのような高価な計算の関数である。 したがって、アルゴリズムの各イテレーションでこれらの高価な計算を評価する必要があるため、高価な目標密度を持つMCMCアルゴリズムは実用的ではない。 実際には、これらの計算はしばしばより安価で低忠実な計算によって近似され、結果としてターゲット密度のバイアスが生じる。 多忠実MCMCアルゴリズムは、計算コストの低い近似目標密度を得るために、様々な忠実度のモデルを組み合わせる。 本稿では,高利得のターゲット密度を近似した,高信頼度モデル列を計算可能な設定のための,漸近的に正確な多忠実MCMCアルゴリズムのクラスについて述べる。 低忠実度モデル系列のテレスコップ系列のランダム切断により構築された目標忠実性の、より安価でランダム化された不偏推定器を利用するマルチ忠実性推論に疑似マージ型mcmcアプローチを用いる。 最後に、対数ガウスコックスプロセスモデリング、ベイズODEシステム同定、PDE制約最適化、ガウスプロセス回帰パラメータ推論など、複数のアプリケーションにおいて提案されたマルチ忠実MCMCアプローチを議論し、評価する。

Markov chain Monte Carlo (MCMC) is an established approach for uncertainty quantification and propagation in scientific applications. A key challenge in applying MCMC to scientific domains is computation: the target density of interest is often a function of expensive computations, such as a high-fidelity physical simulation, an intractable integral, or a slowly-converging iterative algorithm. Thus, using an MCMC algorithms with an expensive target density becomes impractical, as these expensive computations need to be evaluated at each iteration of the algorithm. In practice, these computations often approximated via a cheaper, low-fidelity computation, leading to bias in the resulting target density. Multi-fidelity MCMC algorithms combine models of varying fidelities in order to obtain an approximate target density with lower computational cost. In this paper, we describe a class of asymptotically exact multi-fidelity MCMC algorithms for the setting where a sequence of models of increasing fidelity can be computed that approximates the expensive target density of interest. We take a pseudo-marginal MCMC approach for multi-fidelity inference that utilizes a cheaper, randomized-fidelity unbiased estimator of the target fidelity constructed via random truncation of a telescoping series of the low-fidelity sequence of models. Finally, we discuss and evaluate the proposed multi-fidelity MCMC approach on several applications, including log-Gaussian Cox process modeling, Bayesian ODE system identification, PDE-constrained optimization, and Gaussian process regression parameter inference.
翻訳日:2022-10-05 13:59:11 公開日:2022-10-04
# 離散状態空間から得られるグラフの拡散モデル

Diffusion Models for Graphs Benefit From Discrete State Spaces ( http://arxiv.org/abs/2210.01549v1 )

ライセンス: Link先を確認
Kilian Konstantin Haefeli, Karolis Martinkus, Nathana\"el Perraudin, Roger Wattenhofer(参考訳) 拡散確率モデルとスコアマッチングモデルは、生成的タスクに非常に強力であることが証明されている。 これらのアプローチは離散グラフの生成にも適用されているが、これまでは連続ガウス摂動に依存してきた。 代わりに、本研究では、前方マルコフ過程に離散ノイズを用いることを提案する。 これにより、すべての中間ステップにおいてグラフが離散的であることが保証される。 従来の手法と比較して, 4つのデータセットと複数のアーキテクチャを用いた実験結果から, 離散的ノージングプロセスを用いることで, 平均mmdを1.5倍小さくして, 高品質なサンプルが得られた。 さらに、分別ステップの数を1000ステップから32ステップに減らし、サンプリング手順を30倍高速化する。

Denoising diffusion probabilistic models and score matching models have proven to be very powerful for generative tasks. While these approaches have also been applied to the generation of discrete graphs, they have, so far, relied on continuous Gaussian perturbations. Instead, in this work, we suggest using discrete noise for the forward Markov process. This ensures that in every intermediate step the graph remains discrete. Compared to the previous approach, our experimental results on four datasets and multiple architectures show that using a discrete noising process results in higher quality generated samples indicated with an average MMDs reduced by a factor of 1.5. Furthermore, the number of denoising steps is reduced from 1000 to 32 steps leading to a 30 times faster sampling procedure.
翻訳日:2022-10-05 13:58:48 公開日:2022-10-04
# シミュレーションに基づく推論のための新しい機械学習手法: InferoStatic Nets, Kernel Score Estimation, Kernel Likelihood Ratio Estimation

New Machine Learning Techniques for Simulation-Based Inference: InferoStatic Nets, Kernel Score Estimation, and Kernel Likelihood Ratio Estimation ( http://arxiv.org/abs/2210.01680v1 )

ライセンス: Link先を確認
Kyoungchul Kong, Konstantin T. Matchev, Stephen Mrenna, Prasanth Shyamsundar(参考訳) 本研究では,確率密度をサンプリングできるが直接計算しない場合のスコアと確率比推定器をモデル化するために,inferostatic networks (isn) 法と呼ばれる多パラメータ推定のための直感的機械学習手法を提案する。 isは、inferostatic potential $\varphi$と呼ばれるスカラー関数をモデル化するバックエンドニューラルネットワークを使用する。 さらに,Kernel Score Estimation (KSE) と Kernel Likelihood Ratio Estimation (KLRE) と呼ばれる新しい手法を導入し,シミュレーションデータからスコアと確率比関数を学習する。 新しいテクニックをおもちゃの例で説明し、文献の既存のアプローチと比較する。 我々は,シミュレーションから潜伏情報を最適に学習手順に組み込む新たな損失関数について言及する。

We propose an intuitive, machine-learning approach to multiparameter inference, dubbed the InferoStatic Networks (ISN) method, to model the score and likelihood ratio estimators in cases when the probability density can be sampled but not computed directly. The ISN uses a backend neural network that models a scalar function called the inferostatic potential $\varphi$. In addition, we introduce new strategies, respectively called Kernel Score Estimation (KSE) and Kernel Likelihood Ratio Estimation (KLRE), to learn the score and the likelihood ratio functions from simulated data. We illustrate the new techniques with some toy examples and compare to existing approaches in the literature. We mention en passant some new loss functions that optimally incorporate latent information from simulations into the training procedure.
翻訳日:2022-10-05 13:58:36 公開日:2022-10-04
# アウトカム・パフォーマティビティに基づく意思決定

Making Decisions under Outcome Performativity ( http://arxiv.org/abs/2210.01745v1 )

ライセンス: Link先を確認
Michael P. Kim and Juan C. Perdomo(参考訳) 意思決定者は、しばしばデータ駆動予測に反応して行動し、好ましい結果を達成することを目標とする。 このような環境では、予測はパッシブに未来を予測するのではなく、予測が予測する結果の分布を積極的に形作る。 このパフォーマンス予測設定は、"最適な"決定ルールを学ぶための新しい課題を提起する。 特に、既存のソリューションの概念は、成果を正確に予測する目標と、望ましい結果を達成するために個人を操る目標の間の明らかな緊張に対処しない。 そこで本研究では,教師付き(非形式的)学習環境から適応した,新しい最適性概念 (performative omniprediction) を提案する。 実効的全量予測器( performative omnipredictor)は、多くの潜在的な目的に対して最適な決定規則を同時に符号化する単一の予測器である。 本研究の主な成果は,性能予測の自然な制約の下で,効率の良い性能予測器が存在することを示す。 技術的レベルでは、結果は結果実行設定と結果の不一致の概念を慎重に一般化することで追従します。 パーフォーマティブ OI の適切な概念から、全方位法や普遍的適応性といった教師付き設定で成り立つことが知られている多くの結果を取り戻す。

Decision-makers often act in response to data-driven predictions, with the goal of achieving favorable outcomes. In such settings, predictions don't passively forecast the future; instead, predictions actively shape the distribution of outcomes they are meant to predict. This performative prediction setting raises new challenges for learning "optimal" decision rules. In particular, existing solution concepts do not address the apparent tension between the goals of forecasting outcomes accurately and steering individuals to achieve desirable outcomes. To contend with this concern, we introduce a new optimality concept -- performative omniprediction -- adapted from the supervised (non-performative) learning setting. A performative omnipredictor is a single predictor that simultaneously encodes the optimal decision rule with respect to many possibly-competing objectives. Our main result demonstrates that efficient performative omnipredictors exist, under a natural restriction of performative prediction, which we call outcome performativity. On a technical level, our results follow by carefully generalizing the notion of outcome indistinguishability to the outcome performative setting. From an appropriate notion of Performative OI, we recover many consequences known to hold in the supervised setting, such as omniprediction and universal adaptability.
翻訳日:2022-10-05 13:58:21 公開日:2022-10-04
# 1つのトランスフォーマーは2Dと3Dの分子データの両方を理解できる

One Transformer Can Understand Both 2D & 3D Molecular Data ( http://arxiv.org/abs/2210.01765v1 )

ライセンス: Link先を確認
Shengjie Luo, Tianlang Chen, Yixian Xu, Shuxin Zheng, Tie-Yan Liu, Liwei Wang, Di He(参考訳) 通常独自の形式を持つ視覚や言語データとは異なり、分子は異なる化学式を用いて自然に特徴付けられる。 分子を2次元グラフと見なすこともできるし、3次元空間にある原子の集まりと定義することもできる。 分子表現学習のために、ほとんどの先行研究はニューラルネットワークを特定のデータ形式のみのために設計しており、学習されたモデルは他のデータ形式では失敗する可能性が高い。 化学のための汎用ニューラルネットワークモデルは、データモダリティを越えて分子タスクを処理できるべきだと考えています。 そこで本研究では, 2次元および3次元の分子データを入力として, 意味的意味表現を生成するトランスフォーマ1分子モデルであるtransformer-mを開発した。 Transformer-M は標準的な Transformer をバックボーンアーキテクチャとして使用し、2D と 3D の構造情報をエンコードし、それらをネットワークモジュールの原子機能に組み込む2つの分離チャネルを開発した。 入力データが特定のフォーマットにある場合、対応するチャネルがアクティベートされ、もう一方が無効になる。 適切に設計された教師付き信号で2Dおよび3D分子データをトレーニングすることにより、Transformer-Mは、異なるデータモダリティからの知識を活用して、表現を正しくキャプチャする。 我々はtransformer-mの広範な実験を行った。 実験結果から,Transformer-Mは2次元および3次元のタスクに対して高い性能を同時に達成できることが示唆された。 コードとモデルはhttps://github.com/lsj2408/Transformer-Mで公開される。

Unlike vision and language data which usually has a unique format, molecules can naturally be characterized using different chemical formulations. One can view a molecule as a 2D graph or define it as a collection of atoms located in a 3D space. For molecular representation learning, most previous works designed neural networks only for a particular data format, making the learned models likely to fail for other data formats. We believe a general-purpose neural network model for chemistry should be able to handle molecular tasks across data modalities. To achieve this goal, in this work, we develop a novel Transformer-based Molecular model called Transformer-M, which can take molecular data of 2D or 3D formats as input and generate meaningful semantic representations. Using the standard Transformer as the backbone architecture, Transformer-M develops two separated channels to encode 2D and 3D structural information and incorporate them with the atom features in the network modules. When the input data is in a particular format, the corresponding channel will be activated, and the other will be disabled. By training on 2D and 3D molecular data with properly designed supervised signals, Transformer-M automatically learns to leverage knowledge from different data modalities and correctly capture the representations. We conducted extensive experiments for Transformer-M. All empirical results show that Transformer-M can simultaneously achieve strong performance on 2D and 3D tasks, suggesting its broad applicability. The code and models will be made publicly available at https://github.com/lsj2408/Transformer-M.
翻訳日:2022-10-05 13:57:59 公開日:2022-10-04
# 生きた細胞のセグメンテーションのためのu-netニューラルネットワークの性能解析

Analysis of the performance of U-Net neural networks for the segmentation of living cells ( http://arxiv.org/abs/2210.01538v1 )

ライセンス: Link先を確認
Andr\'e O. Fran\c{c}ani(参考訳) 顕微鏡画像の自動解析は単細胞追跡と定量化の文脈において課題である。 この研究は、顕微鏡画像のセグメンテーションにおけるディープラーニングの性能と、単一セルを追跡するパイプラインの改善を目標としている。 深層学習技術(主に畳み込みニューラルネットワーク)は細胞セグメンテーション問題に適用され、高い精度と高速な性能を示している。 画像分割を行うために,u-netアーキテクチャを用いた畳み込みニューラルネットワークを実装するためにハイパーパラメータの解析を行った。 さらに、ネットワークのサイズと学習可能なパラメータの数を最適化するために、異なるモデルが構築された。 次に、訓練されたネットワークは、マイクロ流体デバイスにトラップをローカライズし、トラップ画像のイメージセグメンテーションを実行し、時間とともに単一セルの蛍光強度と面積を評価するパイプラインで使用される。 実験中のセルの追跡は、遠心推定や流域などの画像処理アルゴリズムによって行われる。 最後に、単一セルとパイプラインをセグメントするニューラルネットワークのすべての改善により、準リアルタイム画像解析が可能となり、6.20GBのデータを4分で処理した。

The automated analysis of microscopy images is a challenge in the context of single-cell tracking and quantification. This work has as goals the study of the performance of deep learning for segmenting microscopy images and the improvement of the previously available pipeline for tracking single cells. Deep learning techniques, mainly convolutional neural networks, have been applied to cell segmentation problems and have shown high accuracy and fast performance. To perform the image segmentation, an analysis of hyperparameters was done in order to implement a convolutional neural network with U-Net architecture. Furthermore, different models were built in order to optimize the size of the network and the number of learnable parameters. The trained network is then used in the pipeline that localizes the traps in a microfluidic device, performs the image segmentation on trap images, and evaluates the fluorescence intensity and the area of single cells over time. The tracking of the cells during an experiment is performed by image processing algorithms, such as centroid estimation and watershed. Finally, with all improvements in the neural network to segment single cells and in the pipeline, quasi-real-time image analysis was enabled, where 6.20GB of data was processed in 4 minutes.
翻訳日:2022-10-05 13:56:37 公開日:2022-10-04
# モバイルデバイスにおけるユーザのストレス・心拍・心拍変動のリアルタイムモニタリング

Real-Time Monitoring of User Stress, Heart Rate and Heart Rate Variability on Mobile Devices ( http://arxiv.org/abs/2210.01791v1 )

ライセンス: Link先を確認
Peyman Bateni, Leonid Sigal(参考訳) ストレスは21世紀の流行だと考えられている。 しかし、モバイルアプリはユーザーのストレスに対するコンテンツやサービスの影響を直接評価することはできない。 この問題に対処するために、Beam AI SDKを導入します。 弊社のSDKを使えば、自撮りカメラでユーザのストレスをリアルタイムでモニタできる。 本技術は,ユーザの顔の皮膚領域の微妙な色変化を分析し,ユーザの脈波を抽出する。 ユーザの脈波は、ストレス(ベーフスキーのストレス指数による)、心拍数、心拍変動を決定するために使用される。 本技術は,UBFCデータセット,MMSE-HRデータセット,ビームAIの内部データに基づいて評価する。 本技術は,各ベンチマークでそれぞれ99.2%,97.8%,98.5%の精度で心拍数推定を行う。 さらに, ストレスと心拍変動の判定において平均0.801のピアソン相関を示し, アプリケーション内のコンテンツ決定を導出するために, 商業的に有用な読み出しを生成する。 私たちのsdkはwww.beamhealth.aiで利用可能です。

Stress is considered to be the epidemic of the 21st-century. Yet, mobile apps cannot directly evaluate the impact of their content and services on user stress. We introduce the Beam AI SDK to address this issue. Using our SDK, apps can monitor user stress through the selfie camera in real-time. Our technology extracts the user's pulse wave by analyzing subtle color variations across the skin regions of the user's face. The user's pulse wave is then used to determine stress (according to the Baevsky Stress Index), heart rate, and heart rate variability. We evaluate our technology on the UBFC dataset, the MMSE-HR dataset, and Beam AI's internal data. Our technology achieves 99.2%, 97.8% and 98.5% accuracy for heart rate estimation on each benchmark respectively, a nearly twice lower error rate than competing methods. We further demonstrate an average Pearson correlation of 0.801 in determining stress and heart rate variability, thus producing commercially useful readings to derive content decisions in apps. Our SDK is available for use at www.beamhealth.ai.
翻訳日:2022-10-05 13:50:37 公開日:2022-10-04
# 対数線形政策を用いた自然政策勾配法の線形収束

Linear Convergence of Natural Policy Gradient Methods with Log-Linear Policies ( http://arxiv.org/abs/2210.01400v1 )

ライセンス: Link先を確認
Rui Yuan, Simon S. Du, Robert M. Gower, Alessandro Lazaric, Lin Xiao(参考訳) 我々は、無限水平割引マルコフ決定過程を考察し、自然政策勾配(NPG)とQ-NPG法の収束率を対数線形ポリシークラスで検討する。 互換性のある関数近似フレームワークを用いて、ログ線形ポリシーを持つ両方のメソッドは、ポリシーミラー降下法(PMD)の近似バージョンとして記述することができる。 両手法は、エントロピーや他の強い凸正則化を使わずに、単純で非適応的な幾何的に増加するステップサイズを用いて、線形収束率と$\mathcal{O}(1/\epsilon^2)$サンプル複素量が得られることを示す。 最後に、副生成物として、任意の一定のステップサイズを持つ両方の方法のサブ線形収束率を得る。

We consider infinite-horizon discounted Markov decision processes and study the convergence rates of the natural policy gradient (NPG) and the Q-NPG methods with the log-linear policy class. Using the compatible function approximation framework, both methods with log-linear policies can be written as approximate versions of the policy mirror descent (PMD) method. We show that both methods attain linear convergence rates and $\mathcal{O}(1/\epsilon^2)$ sample complexities using a simple, non-adaptive geometrically increasing step size, without resorting to entropy or other strongly convex regularization. Lastly, as a byproduct, we obtain sublinear convergence rates for both methods with arbitrary constant step size.
翻訳日:2022-10-05 13:49:57 公開日:2022-10-04
# 連続モンテカルログラフ探索

Continuous Monte Carlo Graph Search ( http://arxiv.org/abs/2210.01426v1 )

ライセンス: Link先を確認
Amin Babadi, Yi Zhao, Juho Kannala, Alexander Ilin, Joni Pajarinen(参考訳) 多くの複雑な意思決定タスクにおいて、オンラインプランニングはハイパフォーマンスに不可欠である。 効率的なオンラインプランニングのために、Monte Carlo Tree Search (MCTS)は、探索とエクスプロイトの間のトレードオフに原則化されたメカニズムを採用している。 mcts は go や chess 、shogi といった様々な個別意思決定領域で比較手法よりも優れている。 その後、連続領域へのmctsの拡張が提案されている。 しかし、本質的に高い分岐率と探索木の大きさの爆発は、既存の手法を制限している。 そこで本稿では,mctsのオンライン計画への新たな拡張である連続モンテカルログラフ探索(cmcgs)を提案する。 CMCGSは、計画中、複数の州で同じ行動方針を共有することで高いパフォーマンスが得られるという洞察を生かしている。 このアイデアを実現するため、MCGSは各ステップで同様の状態を有限数の確率的行動帯域ノードにクラスタリングし、MCTS検索ツリーの代わりに階層グラフを生成する。 CMCGSはいくつかの複雑な連続DeepMind Control Suiteベンチマークと2次元ナビゲーションタスクにおいて比較手法よりも優れていた。

In many complex sequential decision making tasks, online planning is crucial for high-performance. For efficient online planning, Monte Carlo Tree Search (MCTS) employs a principled mechanism for trading off between exploration and exploitation. MCTS outperforms comparison methods in various discrete decision making domains such as Go, Chess, and Shogi. Following, extensions of MCTS to continuous domains have been proposed. However, the inherent high branching factor and the resulting explosion of search tree size is limiting existing methods. To solve this problem, this paper proposes Continuous Monte Carlo Graph Search (CMCGS), a novel extension of MCTS to online planning in environments with continuous state and action spaces. CMCGS takes advantage of the insight that, during planning, sharing the same action policy between several states can yield high performance. To implement this idea, at each time step CMCGS clusters similar states into a limited number of stochastic action bandit nodes, which produce a layered graph instead of an MCTS search tree. Experimental evaluation with limited sample budgets shows that CMCGS outperforms comparison methods in several complex continuous DeepMind Control Suite benchmarks and a 2D navigation task.
翻訳日:2022-10-05 13:49:43 公開日:2022-10-04
# ポジティブな例からの製品概念の自動生成と音楽ストリーミングへの応用

Automatic Generation of Product Concepts from Positive Examples, with an Application to Music Streaming ( http://arxiv.org/abs/2210.01515v1 )

ライセンス: Link先を確認
Kshitij Goyal, Wannes Meert, Hendrik Blockeel, Elia Van Wolputte, Koen Vanderstraeten, Wouter Pijpops, Kurt Jaspers(参考訳) インターネットベースのビジネスや製品(eコマースや音楽ストリーミングなど)は、日々ますます洗練され、顧客満足度の向上に重点が置かれています。 これを実現するコアな方法は、ナビゲーションバーを使用してカタログにリストアップし、レコメンデーションを提供することで、顧客に対して簡単に製品にアクセスできるようにすることだ。 例えば、eコマースウェブサイト上の製品カテゴリ、音楽ストリーミングプラットフォーム上のパブリックプレイリストなどである。 これらの製品コンセプトは、通常、共通の特徴(例えば、同じアーティストによる曲のプレイリスト)を通じて互いにリンクされる製品を含んでいる。 システムのバックエンドでどのように定義されているかは、異なる製品に対して異なる可能性がある。 本研究では,データベースクエリを用いて製品概念を表現し,2つの学習問題に取り組む。 まず、同じ未知の製品概念に属する製品の集合が与えられたとき、私たちはこの製品概念の表現であるデータベースクエリを学習します。 第2に、製品セットが複数の製品コンセプトと関連付けられている場合に、製品概念とその対応するクエリを学習する。 これらの目標を達成するために,pu学習の概念と決定木とクラスタリングを組み合わせる2つのアプローチを提案する。 提案手法は,音楽ストリーミングサービスのシミュレーションにより,これらの問題を解決する上で有効であることを実証する。

Internet based businesses and products (e.g. e-commerce, music streaming) are becoming more and more sophisticated every day with a lot of focus on improving customer satisfaction. A core way they achieve this is by providing customers with an easy access to their products by structuring them in catalogues using navigation bars and providing recommendations. We refer to these catalogues as product concepts, e.g. product categories on e-commerce websites, public playlists on music streaming platforms. These product concepts typically contain products that are linked with each other through some common features (e.g. a playlist of songs by the same artist). How they are defined in the backend of the system can be different for different products. In this work, we represent product concepts using database queries and tackle two learning problems. First, given sets of products that all belong to the same unknown product concept, we learn a database query that is a representation of this product concept. Second, we learn product concepts and their corresponding queries when the given sets of products are associated with multiple product concepts. To achieve these goals, we propose two approaches that combine the concepts of PU learning with Decision Trees and Clustering. Our experiments demonstrate, via a simulated setup for a music streaming service, that our approach is effective in solving these problems.
翻訳日:2022-10-05 13:49:24 公開日:2022-10-04
# MEDFAIR:医療画像のためのベンチマークフェアネス

MEDFAIR: Benchmarking Fairness for Medical Imaging ( http://arxiv.org/abs/2210.01725v1 )

ライセンス: Link先を確認
Yongshuo Zong, Yongxin Yang, Timothy Hospedales(参考訳) 多くの研究が、機械学習ベースの医療診断システムは、特定のサブグループに対してバイアスを負うことができることを示した。 これにより、機械学習の公平性問題に対処するためのバイアス軽減アルゴリズムが増えている。 しかし, 2 つの理由から, 医用画像の有効性を比較することは困難である。 まず、公正性を評価する基準についてはほとんど合意がない。 第二に、データセット、モデル選択戦略、バックボーン、公平度メトリクスなど、異なる設定下で既存のバイアス緩和アルゴリズムを開発し、既存の結果に基づく直接比較と評価を不可能にする。 本研究では,医療画像における機械学習モデルの公平性を評価するためのフレームワークであるMEDFAIRを紹介する。 MEDFAIRは、さまざまなカテゴリの11のアルゴリズム、異なる画像の9つのデータセット、および3つのモデル選択基準をカバーしている。 より広範な実験により,モデル選択基準の未検討問題が公正性に重大な影響を及ぼすことが判明した。一方,現状偏見緩和アルゴリズムは,分布内および分布外設定の両方において,経験的リスク最小化(ERM)よりも公平性を著しく改善しない。 様々な観点から公正性を評価し,異なる倫理的原則を必要とする異なる医療応用シナリオを推奨する。 我々のフレームワークは、ディープラーニングにおける将来のバイアス軽減アルゴリズムの開発と評価のための再現可能で使いやすいエントリポイントを提供する。 コードはhttps://github.com/ys-zong/MEDFAIRで入手できる。

A multitude of work has shown that machine learning-based medical diagnosis systems can be biased against certain subgroups of people. This has motivated a growing number of bias mitigation algorithms that aim to address fairness issues in machine learning. However, it is difficult to compare their effectiveness in medical imaging for two reasons. First, there is little consensus on the criteria to assess fairness. Second, existing bias mitigation algorithms are developed under different settings, e.g., datasets, model selection strategies, backbones, and fairness metrics, making a direct comparison and evaluation based on existing results impossible. In this work, we introduce MEDFAIR, a framework to benchmark the fairness of machine learning models for medical imaging. MEDFAIR covers eleven algorithms from various categories, nine datasets from different imaging modalities, and three model selection criteria. Through extensive experiments, we find that the under-studied issue of model selection criterion can have a significant impact on fairness outcomes; while in contrast, state-of-the-art bias mitigation algorithms do not significantly improve fairness outcomes over empirical risk minimization (ERM) in both in-distribution and out-of-distribution settings. We evaluate fairness from various perspectives and make recommendations for different medical application scenarios that require different ethical principles. Our framework provides a reproducible and easy-to-use entry point for the development and evaluation of future bias mitigation algorithms in deep learning. Code is available at https://github.com/ys-zong/MEDFAIR.
翻訳日:2022-10-05 13:49:05 公開日:2022-10-04
# Max-Quantile Grouped Infinite-Arm Bandits

Max-Quantile Grouped Infinite-Arm Bandits ( http://arxiv.org/abs/2210.01295v1 )

ライセンス: Link先を確認
Ivan Lau, Yan Hao Ling, Mayank Shrivastava, Jonathan Scarlett(参考訳) 本稿では,無限個の腕からなる群が多数存在するというバンドイット問題を考える。 与えられたグループから新しいアームが要求されると、その平均報酬は未知の貯水池分布(各グループ毎に異なる)から引き出され、アームの平均報酬の不確実性は、その後のアームのプルによってのみ低減される。 目的は、貯水池分布が最高$(1-\alpha)$-quantile(例えば、中央値が$\alpha = \frac{1}{2}$)を持つ無限腕群を、できるだけ少ない総アームプルを用いて特定することである。 まず,各群から固定数のアームをリクエストし,次に有限個のアーム群を持つmax-quantile banditアルゴリズムを実行する2段階アルゴリズムを導入する。 我々は、インスタンス依存と最悪ケースの両方の後悔を特徴づけ、インスタンス依存の上界に関連する様々な強み、弱点、アルゴリズム的改善、潜在的下界を議論しながら、後者に一致する下界を提供する。

In this paper, we consider a bandit problem in which there are a number of groups each consisting of infinitely many arms. Whenever a new arm is requested from a given group, its mean reward is drawn from an unknown reservoir distribution (different for each group), and the uncertainty in the arm's mean reward can only be reduced via subsequent pulls of the arm. The goal is to identify the infinite-arm group whose reservoir distribution has the highest $(1-\alpha)$-quantile (e.g., median if $\alpha = \frac{1}{2}$), using as few total arm pulls as possible. We introduce a two-step algorithm that first requests a fixed number of arms from each group and then runs a finite-arm grouped max-quantile bandit algorithm. We characterize both the instance-dependent and worst-case regret, and provide a matching lower bound for the latter, while discussing various strengths, weaknesses, algorithmic improvements, and potential lower bounds associated with our instance-dependent upper bounds.
翻訳日:2022-10-05 13:48:24 公開日:2022-10-04
# 深層学習による不観測物発見:生成要素抽出ネットワーク(GEEN)

Revealing Unobservables by Deep Learning: Generative Element Extraction Networks (GEEN) ( http://arxiv.org/abs/2210.01300v1 )

ライセンス: Link先を確認
Yingyao Hu and Yang Liu and Jiaxiong Yao(参考訳) 潜在変数モデルは、努力、能力、信念といった重要な変数がサンプルでは観測されていないが識別する必要がある科学研究において重要である。 本稿では,複数の測定値を含むランダムサンプルにおける潜在変数$x^*$の実現を推定する新しい手法を提案する。 実測値が$X^*$ の独立条件であるというキー仮定により、サンプル中の $X^*$ の実測値が局所的に偏差のクラスにおいて一意であるような十分条件を提供し、$X^*$ の実測値の特定を可能にする。 我々の知る限りでは、この論文は観測においてそのような識別を初めて提供するものである。 次に,2つの確率密度間のKulback-Leibler距離を,実測値から実測値のX^*$にマップする生成要素抽出ネットワーク(GEEN)を学習する損失関数として,条件付き独立および非独立性を持つ。 シミュレーションの結果,提案手法は良好に動作し,推定値はx^*$の実現と高い相関関係にあることが示唆された。 私たちの推定器は、潜在変数モデルの大きなクラスに適用することができ、潜在変数に対する人々の扱い方を変えることを期待しています。

Latent variable models are crucial in scientific research, where a key variable, such as effort, ability, and belief, is unobserved in the sample but needs to be identified. This paper proposes a novel method for estimating realizations of a latent variable $X^*$ in a random sample that contains its multiple measurements. With the key assumption that the measurements are independent conditional on $X^*$, we provide sufficient conditions under which realizations of $X^*$ in the sample are locally unique in a class of deviations, which allows us to identify realizations of $X^*$. To the best of our knowledge, this paper is the first to provide such identification in observation. We then use the Kullback-Leibler distance between the two probability densities with and without the conditional independence as the loss function to train a Generative Element Extraction Networks (GEEN) that maps from the observed measurements to realizations of $X^*$ in the sample. The simulation results imply that this proposed estimator works quite well and the estimated values are highly correlated with realizations of $X^*$. Our estimator can be applied to a large class of latent variable models and we expect it will change how people deal with latent variables.
翻訳日:2022-10-05 13:48:03 公開日:2022-10-04
# Tikhonov正則化はMartingale制約下での最適輸送ロバストである

Tikhonov Regularization is Optimal Transport Robust under Martingale Constraints ( http://arxiv.org/abs/2210.01413v1 )

ライセンス: Link先を確認
Jiajin Li, Sirui Lin, Jose Blanchet, Viet Anh Nguyen(参考訳) 分布的ロバストな最適化は、学習モデルを規則化する原則的な方法を提供することが示されている。 本稿では,適切なマルティンゲール制約が課されることを条件として,ティホノフ正則化が最適輸送感覚(すなわち,逆者が適切な最適輸送近傍の分布を選択する場合)において分布的に頑健であることを見いだす。 さらに,既存のロバストなメソッドのクラスに対して統一的な視点を提供するだけでなく,新たな正規化ツールにもつながる,martingale制約の緩和も導入する。 これらの新しいツールを実現するために,トラクタブルな計算アルゴリズムを提案する。 副産物として、本論文で証明された強い双対性定理は、独立利害関係の他の問題にも応用することができる。

Distributionally robust optimization has been shown to offer a principled way to regularize learning models. In this paper, we find that Tikhonov regularization is distributionally robust in an optimal transport sense (i.e., if an adversary chooses distributions in a suitable optimal transport neighborhood of the empirical measure), provided that suitable martingale constraints are also imposed. Further, we introduce a relaxation of the martingale constraints which not only provides a unified viewpoint to a class of existing robust methods but also leads to new regularization tools. To realize these novel tools, tractable computational algorithms are proposed. As a byproduct, the strong duality theorem proved in this paper can be potentially applied to other problems of independent interest.
翻訳日:2022-10-05 13:47:39 公開日:2022-10-04
# 時変フィードバックグラフを用いた逆バンディットに対する高確率後悔の改善

Improved High-Probability Regret for Adversarial Bandits with Time-Varying Feedback Graphs ( http://arxiv.org/abs/2210.01376v1 )

ライセンス: Link先を確認
Haipeng Luo, Hanghang Tong, Mengxiao Zhang, Yuheng Zhang(参考訳) 我々は,$t$ ラウンド以上の時間的変動フィードバックグラフを用いた,敵対的な$k$ のバンディットに対する高い確率の後悔の限界について検討した。 一般に強観測可能なグラフに対して、最適後悔値$\widetilde{\mathcal{o}}((\sum_{t=1}^t\alpha_t)^{1/2}+\max_{t\in[t]}\alpha_t)$を高い確率で達成するアルゴリズムを開発した。 グラフを全てのノードに対して自己ループで考える最も優れた結果(Neu, 2015)と比較して、我々の結果はより一般的に成り立つだけでなく、文脈的ブレイトのようなアプリケーションでは違法に大きい$\text{poly}(K)$依存を排除します。 さらに、弱可観測グラフに対する最適高確率リフレッシュバウンドを達成するアルゴリズムも開発しており、より洗練された解析で$\mathcal{O}(\sqrt{KT})$項を除去することで、[Alon et al., 2015]の最適リフレクションバウンドを改善することができる。 私たちのアルゴリズムはオンラインミラー降下フレームワークをベースにしていますが、最も重要なのはいくつかのテクニックの革新的な組み合わせです。 特に、初期の研究では、高確率境界を達成するために楽観的な偏差損失推定器を使用していたが、強可観測グラフにおいて自己ループのないノードに対して悲観的な手法を用いることが重要である。

We study high-probability regret bounds for adversarial $K$-armed bandits with time-varying feedback graphs over $T$ rounds. For general strongly observable graphs, we develop an algorithm that achieves the optimal regret $\widetilde{\mathcal{O}}((\sum_{t=1}^T\alpha_t)^{1/2}+\max_{t\in[T]}\alpha_t)$ with high probability, where $\alpha_t$ is the independence number of the feedback graph at round $t$. Compared to the best existing result [Neu, 2015] which only considers graphs with self-loops for all nodes, our result not only holds more generally, but importantly also removes any $\text{poly}(K)$ dependence that can be prohibitively large for applications such as contextual bandits. Furthermore, we also develop the first algorithm that achieves the optimal high-probability regret bound for weakly observable graphs, which even improves the best expected regret bound of [Alon et al., 2015] by removing the $\mathcal{O}(\sqrt{KT})$ term with a refined analysis. Our algorithms are based on the online mirror descent framework, but importantly with an innovative combination of several techniques. Notably, while earlier works use optimistic biased loss estimators for achieving high-probability bounds, we find it important to use a pessimistic one for nodes without self-loop in a strongly observable graph.
翻訳日:2022-10-05 13:41:47 公開日:2022-10-04
# 逐次データにおけるクラスタの検出と評価

Detection and Evaluation of Clusters within Sequential Data ( http://arxiv.org/abs/2210.01679v1 )

ライセンス: Link先を確認
Alexander Van Werde, Albert Senen-Cerda, Gianluca Kosmella, Jaron Sanders(参考訳) 次元低減技術の理論的な進歩に動機づけられ、我々はブロックマルコフ連鎖と呼ばれる最近のモデルを用いて、実世界のシーケンシャルデータにおけるクラスタリングを実践的に研究している。 Block Markov Chainsのクラスタリングアルゴリズムは理論的最適性保証を持ち、スパースデータレシエーションにデプロイすることができる。 これらの良好な理論的性質にもかかわらず、現実的な設定におけるこれらのアルゴリズムの徹底的な評価は欠如している。 本稿では,実世界の逐次データの探索的データ解析におけるクラスタリングアルゴリズムの適合性について検討する。 特に、私たちのシーケンシャルデータは、ヒトのDNA、テキスト、動物運動データ、金融市場から派生しています。 決定されたクラスタと関連するブロックマルコフ連鎖モデルを評価するために、我々はさらに一連の評価ツールを開発した。 これらのツールには、ベンチマーク、スペクトルノイズ分析、統計モデル選択ツールが含まれる。 本稿では,クラスタリングアルゴリズムと新しい評価ツールの効率的な実装について述べる。 実世界のデータに関連する実践的な課題に遭遇し、議論する。 最後に、ブロックマルコフ連鎖モデルが、ここで開発されたツールとともに、実世界のデータの複雑さとスパース性にもかかわらず、探索的データ分析において有意義な洞察を生み出すことが判明した。

Motivated by theoretical advancements in dimensionality reduction techniques we use a recent model, called Block Markov Chains, to conduct a practical study of clustering in real-world sequential data. Clustering algorithms for Block Markov Chains possess theoretical optimality guarantees and can be deployed in sparse data regimes. Despite these favorable theoretical properties, a thorough evaluation of these algorithms in realistic settings has been lacking. We address this issue and investigate the suitability of these clustering algorithms in exploratory data analysis of real-world sequential data. In particular, our sequential data is derived from human DNA, written text, animal movement data and financial markets. In order to evaluate the determined clusters, and the associated Block Markov Chain model, we further develop a set of evaluation tools. These tools include benchmarking, spectral noise analysis and statistical model selection tools. An efficient implementation of the clustering algorithm and the new evaluation tools is made available together with this paper. Practical challenges associated to real-world data are encountered and discussed. It is ultimately found that the Block Markov Chain model assumption, together with the tools developed here, can indeed produce meaningful insights in exploratory data analyses despite the complexity and sparsity of real-world data.
翻訳日:2022-10-05 13:41:14 公開日:2022-10-04
# 潜在因子の知識のない生成モデルにおける絡み合いの評価

Evaluating Disentanglement in Generative Models Without Knowledge of Latent Factors ( http://arxiv.org/abs/2210.01760v1 )

ライセンス: Link先を確認
Chester Holtz, Gal Mishne, and Alexander Cloninger(参考訳) 確率的生成モデルは、基礎となるデータの幾何学を学ぶための柔軟で体系的なフレームワークを提供する。 しかしながら、特に乱れや解釈可能性といった不明確な性質を選択する場合には、この設定でのモデル選択は困難である。 本研究では,学習中に提示される学習力学に基づく生成モデルランキング手法を導入することで,このギャップに対処する。 乱れの最近の理論的特徴から着想を得た本手法では,潜伏因子の監視は不要である。 提案手法は,ラベルを必要としないアンタングルメント指標の必要性を実証し,その基盤となる生成因子をtextemdash で評価する。 また,本手法とベースライン教師あり手法との相関性も示している。 最後に,本手法は,強化学習と公平度分類問題に対する下流性能の教師なし指標として利用できることを示す。

Probabilistic generative models provide a flexible and systematic framework for learning the underlying geometry of data. However, model selection in this setting is challenging, particularly when selecting for ill-defined qualities such as disentanglement or interpretability. In this work, we address this gap by introducing a method for ranking generative models based on the training dynamics exhibited during learning. Inspired by recent theoretical characterizations of disentanglement, our method does not require supervision of the underlying latent factors. We evaluate our approach by demonstrating the need for disentanglement metrics which do not require labels\textemdash the underlying generative factors. We additionally demonstrate that our approach correlates with baseline supervised methods for evaluating disentanglement. Finally, we show that our method can be used as an unsupervised indicator for downstream performance on reinforcement learning and fairness-classification problems.
翻訳日:2022-10-05 13:40:57 公開日:2022-10-04
# NegativaによるNuisances:データ拡張による純粋相関の調整

Nuisances via Negativa: Adjusting for Spurious Correlations via Data Augmentation ( http://arxiv.org/abs/2210.01302v1 )

ライセンス: Link先を確認
Aahlad Puli, Nitish Joshi, He He and Rajesh Ranganath(参考訳) そのタスクのさまざまな設定で同じようにラベルに関連付けられた機能があります。 ラベルと異なる関係を持つ特徴は迷惑である。 例えば、自然画像から牛を検出する場合、頭の形は意味的であり、牛の像は草の背景を持つことが多いが、特定の設定でのみ、背景は迷惑である。 ニュアンスとラベルの関係は設定によって不安定であり、その結果、ニュアンスとラベルの関係を利用するモデルでは、これらの関係が変化すると性能が低下する。 ニュアンスの直接的な知識は、そのような変化に対して堅牢なモデルを構築するのに役立つが、ニュアンスの知識はラベルと共変体以外の追加アノテーションを必要とする。 本稿では,データ拡張によるロバストモデル生成のための代替手法を開発する。 これらのデータは、腐敗したセマンティック情報を拡張し、ニュアンセが予測する場所を特定し調整するモデルを生成する。 本研究では,水鳥の分類,自然言語推論,胸部x線写真における心電図の検出など,複数のout-of distribution(ood)タスクに対して異なるロバストモデリング手法を駆動する意味的腐敗について検討した。

There exist features that are related to the label in the same way across different settings for that task; these are semantic features or semantics. Features with varying relationships to the label are nuisances. For example, in detecting cows from natural images, the shape of the head is a semantic and because images of cows often have grass backgrounds but only in certain settings, the background is a nuisance. Relationships between a nuisance and the label are unstable across settings and, consequently, models that exploit nuisance-label relationships face performance degradation when these relationships change. Direct knowledge of a nuisance helps build models that are robust to such changes, but knowledge of a nuisance requires extra annotations beyond the label and the covariates. In this paper, we develop an alternative way to produce robust models by data augmentation. These data augmentations corrupt semantic information to produce models that identify and adjust for where nuisances drive predictions. We study semantic corruptions in powering different robust-modeling methods for multiple out-of distribution (OOD) tasks like classifying waterbirds, natural language inference, and detecting Cardiomegaly in chest X-rays.
翻訳日:2022-10-05 13:40:44 公開日:2022-10-04
# 深層学習物体検出を用いた医療機器の自動表示

Automated Medical Device Display Reading Using Deep Learning Object Detection ( http://arxiv.org/abs/2210.01325v1 )

ライセンス: Link先を確認
Lucas P. Moreira(参考訳) 遠隔医療やモバイル医療の応用、特に新型コロナウイルス(covid-19)パンデミックによる検疫中は、患者から専門医への健康監視読書の転送の必要性が高まった。 多くの家庭医療機器がセグメンテーションディスプレイを使用していることを考えると、自動表示読影アルゴリズムはより信頼性の高い遠隔医療ツールを提供するだろう。 本研究は,深層学習物体検出モデルに基づく医療機器からの7セグメントディスプレイの検出と読取のためのエンドツーエンド手法を提案する。 ms-cocoデータセットでトレーニングされた2つのartモデルファミリである efficientdet と efficientdet-lite は、モバイルデジタルカメラで撮影された医療機器によるデータセット上で微調整され、実際のユースケースをシミュレートした。 訓練されたモデルの評価は高い効率を示し、全てのモデルが検出精度98%以上、分類精度98%以上を達成し、モデル効率のdet-lite1は104画像と438桁のテストセットに対して100%検出精度と100%正確な桁分類を示す。

Telemedicine and mobile health applications, especially during the quarantine imposed by the covid-19 pandemic, led to an increase on the need of transferring health monitor readings from patients to specialists. Considering that most home medical devices use seven-segment displays, an automatic display reading algorithm should provide a more reliable tool for remote health care. This work proposes an end-to-end method for detection and reading seven-segment displays from medical devices based on deep learning object detection models. Two state of the art model families, EfficientDet and EfficientDet-lite, previously trained with the MS-COCO dataset, were fine-tuned on a dataset comprised by medical devices photos taken with mobile digital cameras, to simulate real case applications. Evaluation of the trained model show high efficiency, where all models achieved more than 98% of detection precision and more than 98% classification accuracy, with model EfficientDet-lite1 showing 100% detection precision and 100% correct digit classification for a test set of 104 images and 438 digits.
翻訳日:2022-10-05 13:40:23 公開日:2022-10-04
# 深層畳み込みニューラルネットワークがトレーニングで空間情報を失う方法

How deep convolutional neural networks lose spatial information with training ( http://arxiv.org/abs/2210.01506v1 )

ライセンス: Link先を確認
Umberto M. Tomasini, Leonardo Petrini, Francesco Cagnetta, Matthieu Wyart(参考訳) 機械学習における中心的な問題は、ディープネットが高次元のタスクをどのように学習するかである。 魅力的な仮説は、タスクに関係のない情報が失われるデータの表現を構築することで、この成果を達成することである。 画像データセットの場合、この見解は、トレーニング後に、信号がネットを介して伝播するときに画像に作用する微分同相に対して神経表現が次第に敏感になるという観察によって支持される。 この感度の喪失は性能と相関し、トレーニング中に取得したホワイトノイズに対する感度の上昇と驚くほど相関する。 これらの事実は説明がつかず、トレーニングセットのイメージに白色のノイズが加えられた時点では、まだ証明されていない。 ここでは (i) 画像の微分同相性に対する安定性は, ネットの前半に空間プール, 後半にチャネルプールによって達成される, 様々なアーキテクチャを実証的に示す。 (二)トレーニング中にプールを学習する簡単なデータモデルのためのスケール検出タスクを導入し、上記の経験的観察をすべて捉え、 (iii) このモデルにおいて、微分同相写像に対する安定性と深さによる雑音スケールを計算する。 スケーリングは、netアーキテクチャにおけるstridesの存在に依存することが分かる。 ノイズに対する感度の上昇は、ReLUユニットによって修正された後、プール中に発生する摂動騒音によるものである。

A central question of machine learning is how deep nets manage to learn tasks in high dimensions. An appealing hypothesis is that they achieve this feat by building a representation of the data where information irrelevant to the task is lost. For image datasets, this view is supported by the observation that after (and not before) training, the neural representation becomes less and less sensitive to diffeomorphisms acting on images as the signal propagates through the net. This loss of sensitivity correlates with performance, and surprisingly correlates with a gain of sensitivity to white noise acquired during training. These facts are unexplained, and as we demonstrate still hold when white noise is added to the images of the training set. Here, we (i) show empirically for various architectures that stability to image diffeomorphisms is achieved by spatial pooling in the first half of the net, and by channel pooling in the second half, (ii) introduce a scale-detection task for a simple model of data where pooling is learned during training, which captures all empirical observations above and (iii) compute in this model how stability to diffeomorphisms and noise scale with depth. The scalings are found to depend on the presence of strides in the net architecture. We find that the increased sensitivity to noise is due to the perturbing noise piling up during pooling, after being rectified by ReLU units.
翻訳日:2022-10-05 13:40:01 公開日:2022-10-04
# フェデレーション学習におけるコミュニケーション効率向上のためのパラメータ効率の良いファインタニングの探索

Exploring Parameter-Efficient Fine-tuning for Improving Communication Efficiency in Federated Learning ( http://arxiv.org/abs/2210.01708v1 )

ライセンス: Link先を確認
Guangyu Sun, Matias Mendieta, Taojiannan Yang, Chen Chen(参考訳) フェデレーション学習(federated learning, fl)は、ローカルデバイス上の生データへの集中的なアクセスなしにモデルの協調的なトレーニングを可能にする、有望なパラダイムとして登場した。 典型的なflパラダイム(例えばfedavg)では、モデルウェイトは各ラウンドをサーバから参加者クライアントに送信される。 しかし、特に非常に小さなMLPを超える能力のあるモデルが採用されれば、システムに膨大な通信負荷がかかる可能性がある。 近年,事前学習モデルの使用は,フェデレート学習最適化と収束性向上に有効であることが示されている。 これは新たな研究課題の扉を開く。 連合学習における重みの共有パラダイムを、強力で容易に利用できる事前学習モデルを活用して調整して、優れたパフォーマンスを実現すると同時に、コミュニケーション負担を大幅に軽減できるだろうか? そこで本研究では,フェデレーション学習におけるパラメータ効率の良い微調整法について検討する。 具体的には、様々なクライアント安定性、データ分散、および差分プライバシー設定におけるパラメータ効率の高い微調整手法の性能を体系的に評価する。 モデル重みのごく一部を局所的にチューニングし、グローバルに共有することで、幅広いフェデレート学習シナリオにおける競争性能を維持しながら、全体の通信オーバーヘッドを大幅に削減し、実用的で効果的なフェデレーションシステムのための新しいパラダイムに関する洞察を提供することができる。

Federated learning (FL) has emerged as a promising paradigm for enabling the collaborative training of models without centralized access to the raw data on local devices. In the typical FL paradigm (e.g., FedAvg), model weights are sent to and from the server each round to participating clients. However, this can quickly put a massive communication burden on the system, especially if more capable models beyond very small MLPs are employed. Recently, the use of pre-trained models has been shown effective in federated learning optimization and improving convergence. This opens the door for new research questions. Can we adjust the weight-sharing paradigm in federated learning, leveraging strong and readily-available pre-trained models, to significantly reduce the communication burden while simultaneously achieving excellent performance? To this end, we investigate the use of parameter-efficient fine-tuning in federated learning. Specifically, we systemically evaluate the performance of several parameter-efficient fine-tuning methods across a variety of client stability, data distribution, and differential privacy settings. By only locally tuning and globally sharing a small portion of the model weights, significant reductions in the total communication overhead can be achieved while maintaining competitive performance in a wide range of federated learning scenarios, providing insight into a new paradigm for practical and effective federated systems.
翻訳日:2022-10-05 13:39:36 公開日:2022-10-04
# CADet:コントラスト学習による完全自己監督型異常検出

CADet: Fully Self-Supervised Anomaly Detection With Contrastive Learning ( http://arxiv.org/abs/2210.01742v1 )

ライセンス: Link先を確認
Charles Guille-Escuret, Pau Rodriguez, David Vazquez, Ioannis Mitliagkas, Joao Monteiro(参考訳) アウト・オブ・ディストリビューション(OOD)サンプルの処理は、機械学習システムの現実的な展開において大きな関心を集めている。 本研究は,自己教師付きコントラスト学習(self-supervised contrastive learning)の2種類のoodサンプルの同時検出への応用について検討する。 実際にそのようなサンプルの分布は事前に分かっていないので、OODの例へのアクセスを前提としない。 比較学習で訓練された類似性関数は,2つの独立したサンプル集合が同一分布から引き出されるかどうかを検証するために,最大平均誤差(MMD)2サンプルテストで活用できることを示す。 このアプローチに触発されて,単一のサンプルに対して異常検出を行うために,画像拡張に基づくcadet(contrastive anomaly detection)を導入する。 CADetは、ImageNet上の逆摂動サンプルを検出する逆検出法と好意的に比較する。 同時に、ImageNet-OとiNaturalistという2つの困難なベンチマークで、未確認のラベル検出手法と同等のパフォーマンスを達成する。 CADetは完全に自己管理されており、分布内サンプルのラベルもOODのサンプルへのアクセスも必要としない。

Handling out-of-distribution (OOD) samples has become a major stake in the real-world deployment of machine learning systems. This work explores the application of self-supervised contrastive learning to the simultaneous detection of two types of OOD samples: unseen classes and adversarial perturbations. Since in practice the distribution of such samples is not known in advance, we do not assume access to OOD examples. We show that similarity functions trained with contrastive learning can be leveraged with the maximum mean discrepancy (MMD) two-sample test to verify whether two independent sets of samples are drawn from the same distribution. Inspired by this approach, we introduce CADet (Contrastive Anomaly Detection), a method based on image augmentations to perform anomaly detection on single samples. CADet compares favorably to adversarial detection methods to detect adversarially perturbed samples on ImageNet. Simultaneously, it achieves comparable performance to unseen label detection methods on two challenging benchmarks: ImageNet-O and iNaturalist. CADet is fully self-supervised and requires neither labels for in-distribution samples nor access to OOD examples.
翻訳日:2022-10-05 13:39:13 公開日:2022-10-04
# スイッチなしのコード切り替え:言語非依存のエンドツーエンド音声翻訳

Code-Switching without Switching: Language Agnostic End-to-End Speech Translation ( http://arxiv.org/abs/2210.01512v1 )

ライセンス: Link先を確認
Christian Huber, Enes Yavuz Ugan and Alexander Waibel(参考訳) 提案します a) 言語に依存しないエンドツーエンド音声翻訳モデル(LAST)及び b) コードスイッチング(CS)の性能を向上させるためのデータ拡張戦略。 グローバリゼーションの増大に伴い、複数の言語がフルーレントな発話中に交換的に使用されるようになっている。 このようなCSは従来の音声認識と翻訳を複雑にし、まずどの言語が最初に話されたかを認識し、次に言語依存の認識器と後続の翻訳部品を適用して所望の言語出力を生成する。 このようなパイプラインはレイテンシとエラーをもたらす。 本稿では,音声認識と翻訳を一貫したエンドツーエンド音声翻訳問題として扱うことにより,その必要性を解消する。 LASTを両方の入力言語で訓練することにより、入力言語に関係なく、音声を1つのターゲット言語にデコードする。 LASTは単言語使用時の音声認識と音声翻訳の精度を同等にし、CS観測時のレイテンシとエラー率を大幅に低減する。

We propose a) a Language Agnostic end-to-end Speech Translation model (LAST), and b) a data augmentation strategy to increase code-switching (CS) performance. With increasing globalization, multiple languages are increasingly used interchangeably during fluent speech. Such CS complicates traditional speech recognition and translation, as we must recognize which language was spoken first and then apply a language-dependent recognizer and subsequent translation component to generate the desired target language output. Such a pipeline introduces latency and errors. In this paper, we eliminate the need for that, by treating speech recognition and translation as one unified end-to-end speech translation problem. By training LAST with both input languages, we decode speech into one target language, regardless of the input language. LAST delivers comparable recognition and speech translation accuracy in monolingual usage, while reducing latency and error rate considerably when CS is observed.
翻訳日:2022-10-05 13:38:55 公開日:2022-10-04
# 因果確率時系列予測によるサロゲート安全対策とクラッシュ確率の関連

Connecting Surrogate Safety Measures to Crash Probablity via Causal Probabilistic Time Series Prediction ( http://arxiv.org/abs/2210.01363v1 )

ライセンス: Link先を確認
Jiajian Lu, Offer Grembek, Mark Hansen(参考訳) サロゲート安全対策は、迅速かつ積極的な安全分析を提供し、近距離ミスを研究することで、クラッシュ前のプロセスとクラッシュ失敗メカニズムに関する洞察を与えることができる。 しかし, 衝突事故と接続することで安全対策を検証することは, 未解決の問題である。 本稿では,確率時系列予測を用いた事故確率に対するサロゲート安全対策の接続手法を提案する。 本手法は, 変圧器マスキング自己回帰流(transformer-maf)の確率密度関数を推定するために, 速度, 加速度, 時間-衝突のシーケンスを用いた。 条件, 動作, クラッシュ結果の因果関係を模倣した自己回帰構造と, 確率密度関数を用いて, 条件行動確率, クラッシュ確率および条件クラッシュ確率を算出する。 予測シーケンスは正確であり,交通競合状況と正常な相互作用状況の両方において推定確率が妥当であり,条件付きクラッシュ確率は,事故防止のための回避行動の有効性を示す。

Surrogate safety measures can provide fast and pro-active safety analysis and give insights on the pre-crash process and crash failure mechanism by studying near misses. However, validating surrogate safety measures by connecting them to crashes is still an open question. This paper proposed a method to connect surrogate safety measures to crash probability using probabilistic time series prediction. The method used sequences of speed, acceleration and time-to-collision to estimate the probability density functions of those variables with transformer masked autoregressive flow (transformer-MAF). The autoregressive structure mimicked the causal relationship between condition, action and crash outcome and the probability density functions are used to calculate the conditional action probability, crash probability and conditional crash probability. The predicted sequence is accurate and the estimated probability is reasonable under both traffic conflict context and normal interaction context and the conditional crash probability shows the effectiveness of evasive action to avoid crashes in a counterfactual experiment.
翻訳日:2022-10-05 13:32:20 公開日:2022-10-04
# 双曲的深層強化学習

Hyperbolic Deep Reinforcement Learning ( http://arxiv.org/abs/2210.01542v1 )

ライセンス: Link先を確認
Edoardo Cetin, Benjamin Chamberlain, Michael Bronstein, Jonathan J Hunt(参考訳) 双曲空間における潜在表現をモデル化する新しいクラス深部強化学習(RL)アルゴリズムを提案する。 逐次的な意思決定は、現在の行動の将来の結果について推論を必要とする。 その結果、与えられたタスクの重要な進化する特徴間の関係をキャプチャすることで、効果的なポリシーを回復することができる。 この目的のために、双曲幾何学は、本質的に階層的な情報を正確にエンコードする自然基礎を持つ深いrlモデルを提供する。 しかしながら、双曲的深層学習文献から既存の手法を適用すると、rl勾配推定器を特徴付ける非定常性と分散による致命的な最適化不安定性が生じる。 そこで我々は,このような最適化課題に対処し,深い双曲表現を持つ安定したエンドツーエンド学習を可能にする新しい一般手法を設計する。 本稿では, Procgen と Atari 100K ベンチマークを用いて,人気の高いオンライン RL アルゴリズムに適用することにより,我々のフレームワークを実証的に検証する。 自然な適合性を考えると、今後RL研究は双曲表現を標準ツールとして検討することを願っている。

We propose a new class of deep reinforcement learning (RL) algorithms that model latent representations in hyperbolic space. Sequential decision-making requires reasoning about the possible future consequences of current behavior. Consequently, capturing the relationship between key evolving features for a given task is conducive to recovering effective policies. To this end, hyperbolic geometry provides deep RL models with a natural basis to precisely encode this inherently hierarchical information. However, applying existing methodologies from the hyperbolic deep learning literature leads to fatal optimization instabilities due to the non-stationarity and variance characterizing RL gradient estimators. Hence, we design a new general method that counteracts such optimization challenges and enables stable end-to-end learning with deep hyperbolic representations. We empirically validate our framework by applying it to popular on-policy and off-policy RL algorithms on the Procgen and Atari 100K benchmarks, attaining near universal performance and generalization benefits. Given its natural fit, we hope future RL research will consider hyperbolic representations as a standard tool.
翻訳日:2022-10-05 13:32:00 公開日:2022-10-04
# 正規化流を伴うgisaxsデータの償却ベイズ推定

Amortized Bayesian Inference of GISAXS Data with Normalizing Flows ( http://arxiv.org/abs/2210.01543v1 )

ライセンス: Link先を確認
Maksim Zhdanov, Lisa Randolph, Thomas Kluge, Motoaki Nakatsutsumi, Christian Gutt, Marina Ganeva and Nico Hoffmann(参考訳) GISAXS (Grazing-Incidence Small-Angle X-ray Scattering) は、ナノスケール材料の研究に用いられる最新のイメージング技術である。 画像化された物体のパラメータの再構成は、面内GISAXS信号しか利用できない場合にさらに複雑になる不測の逆問題を引き起こす。 Approximate Bayesian Computation (ABC) のような従来の推論アルゴリズムは、計算に高価な散乱シミュレーションソフトウェアに依存しており、解析に非常に時間がかかる。 GISAXSデータからオブジェクトパラメータの後方分布を推定するために,変分オートエンコーダと正規化フローを組み合わせたシミュレーションベースのフレームワークを提案する。 実験データに推論パイプラインを適用し,abcと一貫性のある結果を生成することにより,推定コストを桁違いに削減できることを実証する。

Grazing-Incidence Small-Angle X-ray Scattering (GISAXS) is a modern imaging technique used in material research to study nanoscale materials. Reconstruction of the parameters of an imaged object imposes an ill-posed inverse problem that is further complicated when only an in-plane GISAXS signal is available. Traditionally used inference algorithms such as Approximate Bayesian Computation (ABC) rely on computationally expensive scattering simulation software, rendering analysis highly time-consuming. We propose a simulation-based framework that combines variational auto-encoders and normalizing flows to estimate the posterior distribution of object parameters given its GISAXS data. We apply the inference pipeline to experimental data and demonstrate that our method reduces the inference cost by orders of magnitude while producing consistent results with ABC.
翻訳日:2022-10-05 13:31:41 公開日:2022-10-04
# モンテカルロ木探索に基づく高次元ベイズ最適化のための変数選択

Monte Carlo Tree Search based Variable Selection for High Dimensional Bayesian Optimization ( http://arxiv.org/abs/2210.01628v1 )

ライセンス: Link先を確認
Lei Song, Ke Xue, Xiaobin Huang, Chao Qian(参考訳) ベイズ最適化(BO)は高価なブラックボックス最適化のための一般的な手法のクラスであり、多くのシナリオに広く適用されている。 しかしBOは次元の呪いに悩まされており、それを高次元問題に拡張することは依然として課題である。 本稿では,モンテカルロ木探索(mcts)に基づく変数選択法であるmcts-vsを提案する。 すなわち、MCTS-VSはMCTSを介して低次元の部分空間を構築し、任意のBOアルゴリズムで部分空間を最適化する。 一般変数選択法の理論的解析を行い,その動作方法を明らかにする。 高次元合成関数と実世界の問題(NASベンチ問題やMuJoCoの移動タスク)の実験は、適切なBOオプティマイザを備えたMCTS-VSが最先端の性能を発揮することを示した。

Bayesian optimization (BO) is a class of popular methods for expensive black-box optimization, and has been widely applied to many scenarios. However, BO suffers from the curse of dimensionality, and scaling it to high-dimensional problems is still a challenge. In this paper, we propose a variable selection method MCTS-VS based on Monte Carlo tree search (MCTS), to iteratively select and optimize a subset of variables. That is, MCTS-VS constructs a low-dimensional subspace via MCTS and optimizes in the subspace with any BO algorithm. We give a theoretical analysis of the general variable selection method to reveal how it can work. Experiments on high-dimensional synthetic functions and real-world problems (i.e., NAS-bench problems and MuJoCo locomotion tasks) show that MCTS-VS equipped with a proper BO optimizer can achieve state-of-the-art performance.
翻訳日:2022-10-05 13:31:26 公開日:2022-10-04
# 項目応答理論に基づく説明と例示

Explanation-by-Example Based on Item Response Theory ( http://arxiv.org/abs/2210.01638v1 )

ライセンス: Link先を確認
Lucas F. F. Cardoso, Jos\'e de S. Ribeiro, Vitor C. A. Santos, Ra\'issa L. Silva, Marcelle P. Mota, Ricardo B. C. Prud\^encio and Ronnie C. O. Alves(参考訳) 機械学習分類アルゴリズムを使用するインテリジェントシステムは、日常社会ではますます一般的になっている。 しかし、多くのシステムは予測の自己説明が可能な特性を持たないブラックボックスモデルを使用している。 この状況は、フィールドと社会の研究者を次の質問へと導く: 理解できないモデルの予測をどうやって信用できるのか? この意味で、XAIは、分類器の判断をエンドユーザに説明できる技術を開発することを目的とした、AIの分野として登場した。 その結果、現在XAIと共同で作業しているコミュニティによっていくつかのイニシアティブが統合されているExplanation-by-Exampleなど、いくつかのテクニックが登場した。 本研究は, 項目応答理論(IRT)を, モデルを説明し, 説明による信頼性のレベルを測定するツールとして検討する。 この目的のために、複雑さのレベルが異なる4つのデータセットが使われ、ランダムフォレストモデルが仮説テストとして使用された。 テストセットからすると、83.8%のエラーはIRTがモデルを信頼できないと指摘しているインスタンスからのものである。

Intelligent systems that use Machine Learning classification algorithms are increasingly common in everyday society. However, many systems use black-box models that do not have characteristics that allow for self-explanation of their predictions. This situation leads researchers in the field and society to the following question: How can I trust the prediction of a model I cannot understand? In this sense, XAI emerges as a field of AI that aims to create techniques capable of explaining the decisions of the classifier to the end-user. As a result, several techniques have emerged, such as Explanation-by-Example, which has a few initiatives consolidated by the community currently working with XAI. This research explores the Item Response Theory (IRT) as a tool to explaining the models and measuring the level of reliability of the Explanation-by-Example approach. To this end, four datasets with different levels of complexity were used, and the Random Forest model was used as a hypothesis test. From the test set, 83.8% of the errors are from instances in which the IRT points out the model as unreliable.
翻訳日:2022-10-05 13:31:06 公開日:2022-10-04
# 公共交通機関の到着予測:Seq2Seq RNNアプローチ

Public Transit Arrival Prediction: a Seq2Seq RNN Approach ( http://arxiv.org/abs/2210.01655v1 )

ライセンス: Link先を確認
Nancy Bhutani, Soumen Pachal, Avinash Achar(参考訳) 公共交通機関の到着時刻は、季節性、バス停での滞在時間、交通信号、交通需要変動などの要因により変動する。 特に発展途上国は、車線規律の欠如、過剰な車両、多様な輸送手段などの追加的な要因に悩まされている。 これにより、特に発展途上国では、バス到着時刻予測(BATP)が困難な問題となる。 現在の作業におけるBATP(リアルタイム)に対して、リカレントニューラルネットワーク(RNN)に基づく新しいデータ駆動モデルを提案する。 このモデルは、既存のアプローチとは異なるユニークな(非線形)方法で、空間的および時間的相関の両方をインテリジェントに組み込む。 特に,BATP 用の Gated Recurrent Unit (GRU) ベースの Encoder-Decoder (ED) OR Seq2Seq RNN モデルを提案する。 動的リアルタイムBATP問題の幾何学はEncoder-DecoderベースのRNN構造によく適合する。 関連する追加の同期入力(以前のトリップから)をデコーダの各ステップ(古典的な機械翻訳アプリケーションでは未検討の機能)に供給します。 さらに、渋滞が旅行時間予測に与える影響を正確にモデル化することから、デコーダ(他の時系列ベースのedアプリケーションコンテキストでは未検討のもの)で双方向層を使用することも提案する。 提案アルゴリズムの有効性を,難易度の高い交通条件から収集した実フィールドデータに示す。 実験の結果,提案手法は,既存のデータ駆動型アプローチに匹敵することがわかった。

Arrival/Travel times for public transit exhibit variability on account of factors like seasonality, dwell times at bus stops, traffic signals, travel demand fluctuation etc. The developing world in particular is plagued by additional factors like lack of lane discipline, excess vehicles, diverse modes of transport and so on. This renders the bus arrival time prediction (BATP) to be a challenging problem especially in the developing world. A novel data-driven model based on recurrent neural networks (RNNs) is proposed for BATP (in real-time) in the current work. The model intelligently incorporates both spatial and temporal correlations in a unique (non-linear) fashion distinct from existing approaches. In particular, we propose a Gated Recurrent Unit (GRU) based Encoder-Decoder(ED) OR Seq2Seq RNN model (originally introduced for language translation) for BATP. The geometry of the dynamic real time BATP problem enables a nice fit with the Encoder-Decoder based RNN structure. We feed relevant additional synchronized inputs (from previous trips) at each step of the decoder (a feature classically unexplored in machine translation applications). Further motivated from accurately modelling congestion influences on travel time prediction, we additionally propose to use a bidirectional layer at the decoder (something unexplored in other time-series based ED application contexts). The effectiveness of the proposed algorithms is demonstrated on real field data collected from challenging traffic conditions. Our experiments indicate that the proposed method outperforms diverse existing state-of-art data-driven approaches proposed for the same problem.
翻訳日:2022-10-05 13:30:51 公開日:2022-10-04
# HYPRO:イベントシーケンスの長期予測のためのハイブリッド正規化確率モデル

HYPRO: A Hybridly Normalized Probabilistic Model for Long-Horizon Prediction of Event Sequences ( http://arxiv.org/abs/2210.01753v1 )

ライセンス: Link先を確認
Siqiao Xue, Xiaoming Shi, James Y Zhang, Hongyuan Mei(参考訳) 本稿では,イベントシーケンスの長期予測を行う上で重要かつ未調査の課題に取り組む。 既存の最先端モデルは、自己回帰構造のため、このタスクではうまく機能しない。 本稿では,この課題に自然に適合するハイブリッド正規化確率モデルHYPROを提案する。第1部は自己回帰ベースモデルであり,第2部はより現実的な予測がより高い確率で終わるように提案を再重み付けするエネルギー関数である。 また,このモデルの効率的な学習と推論アルゴリズムを提案する。 複数の実世界のデータセットに対する実験により、提案したHYPROモデルは、将来の事象の長期予測において、過去のモデルよりも大幅に優れることを示した。 また,提案手法の各成分の有効性を検討するため,様々なアブレーション研究を行った。

In this paper, we tackle the important yet under-investigated problem of making long-horizon prediction of event sequences. Existing state-of-the-art models do not perform well at this task due to their autoregressive structure. We propose HYPRO, a hybridly normalized probabilistic model that naturally fits this task: its first part is an autoregressive base model that learns to propose predictions; its second part is an energy function that learns to reweight the proposals such that more realistic predictions end up with higher probabilities. We also propose efficient training and inference algorithms for this model. Experiments on multiple real-world datasets demonstrate that our proposed HYPRO model can significantly outperform previous models at making long-horizon predictions of future events. We also conduct a range of ablation studies to investigate the effectiveness of each component of our proposed methods.
翻訳日:2022-10-05 13:30:29 公開日:2022-10-04
# テキストキャラクタリゼーションツールキット

Text Characterization Toolkit ( http://arxiv.org/abs/2210.01734v1 )

ライセンス: Link先を確認
Daniel Simig, Tianlu Wang, Verna Dankers, Peter Henderson, Khuyagbaatar Batsuren, Dieuwke Hupkes, Mona Diab(参考訳) NLPでは、モデルは通常、より深く分析することなく、利用可能なベンチマークでシングルナンバーのパフォーマンススコアを報告することによって評価される。 ここでは、特に、ベンチマークがバイアス、アーティファクト、および刺激的な相関を含むことがよく知られている事実を考えると、より深い結果分析は、新しいモデルやベンチマークを示す際にデファクト標準となるべきである。 研究者はデータセットの特性とそれらの特性がモデルの振る舞いに与える影響を研究するために利用できるツールを提案する。 私たちのText Characterization Toolkitには、簡単に使えるアノテーションツールと、特定の分析に使用できる既製のスクリプトの両方が含まれています。 私たちはこのツールを使って、よく知られたトレーニングされたモデルに対して難しい例を予測し、データセットに存在する(潜在的に有害な)バイアスとヒューリスティックを特定します。

In NLP, models are usually evaluated by reporting single-number performance scores on a number of readily available benchmarks, without much deeper analysis. Here, we argue that - especially given the well-known fact that benchmarks often contain biases, artefacts, and spurious correlations - deeper results analysis should become the de-facto standard when presenting new models or benchmarks. We present a tool that researchers can use to study properties of the dataset and the influence of those properties on their models' behaviour. Our Text Characterization Toolkit includes both an easy-to-use annotation tool, as well as off-the-shelf scripts that can be used for specific analyses. We also present use-cases from three different domains: we use the tool to predict what are difficult examples for given well-known trained models and identify (potentially harmful) biases and heuristics that are present in a dataset.
翻訳日:2022-10-05 13:22:55 公開日:2022-10-04
# ASAP:リアルタイムパフォーマンスのための正確なセマンティックセグメンテーション

ASAP: Accurate semantic segmentation for real time performance ( http://arxiv.org/abs/2210.01323v1 )

ライセンス: Link先を確認
Jaehyun Park, Subin Lee, Eon Kim, Byeongjun Moon, Dabeen Yu, Yeonseung Yu, Junghwan Kim(参考訳) エンコーダと自己アテンションモジュールの機能融合モジュールはセマンティックセグメンテーションで採用されている。 しかし、これらのモジュールの計算はコストがかかり、リアルタイム環境では運用上の制限がある。 また,道路面に垂直な環境情報(人,建物,一般物など)を多く含む自動運転環境では,セグメンテーション性能が制限される。 本稿では,マルチレベル・スケールのリッチ・グローバル・コンテクストと,垂直方向のグローバル・コンテクストエンコーディングの複雑さを低減しつつ,ほとんどのコンテクスト情報を保存するセルフ・アテンション前の垂直・プーリング・モジュールを用いた,効率的な特徴融合手法を提案する。 これにより、グローバル空間における表現の性質を処理し、さらなる計算コストを削減できる。 さらに,小型・縦型オブジェクトを含む課題事例における低性能の分析を行った。 73.1のunion(mIoU)と191のFrame Per Second(FPS)の平均相互作用は、Cityscapesテストデータセットの最先端と同等の結果である。

Feature fusion modules from encoder and self-attention module have been adopted in semantic segmentation. However, the computation of these modules is costly and has operational limitations in real-time environments. In addition, segmentation performance is limited in autonomous driving environments with a lot of contextual information perpendicular to the road surface, such as people, buildings, and general objects. In this paper, we propose an efficient feature fusion method, Feature Fusion with Different Norms (FFDN) that utilizes rich global context of multi-level scale and vertical pooling module before self-attention that preserves most contextual information while reducing the complexity of global context encoding in the vertical direction. By doing this, we could handle the properties of representation in global space and reduce additional computational cost. In addition, we analyze low performance in challenging cases including small and vertically featured objects. We achieve the mean Interaction of-union(mIoU) of 73.1 and the Frame Per Second(FPS) of 191, which are comparable results with state-of-the-arts on Cityscapes test datasets.
翻訳日:2022-10-05 13:22:40 公開日:2022-10-04
# 距離に基づく画像分類:生成的分類の畳み込みの解法?

Distance Based Image Classification: A solution to generative classification's conundrum? ( http://arxiv.org/abs/2210.01349v1 )

ライセンス: Link先を確認
Wen-Yan Lin, Siying Liu, Bing Tian Dai, Hongdong Li(参考訳) ほとんどの分類器は、各クラスのインスタンスを他の全てから分離する識別境界に依存している。 判別的境界は、意味を what- they-are-not で定義し、その意味を what- they-are で定義する生成的分類器に置き換えるべきである。 残念ながら、生成型分類器の精度は著しく低い。 これは、生成的モデルが意味的生成因子を容易にモデル化し、重要だがモデル化が難しい非意味的因子を無視する傾向によって引き起こされる。 本稿では,シェル理論の階層的生成過程と非意味的生成過程によって意味的因子が許容される新しい生成モデルを提案する。 本モデルを用いて,意味的手がかりを保ちながら雑音の影響を抑える分類手法を開発した。 その結果、驚くほど正確な生成型分類器となり、修正された近距離-近距離アルゴリズムの形をとり、距離分類と呼ぶ。 識別的分類器とは異なり、距離分類器は、What-they-areによって意味を定義する。

Most classifiers rely on discriminative boundaries that separate instances of each class from everything else. We argue that discriminative boundaries are counter-intuitive as they define semantics by what-they-are-not; and should be replaced by generative classifiers which define semantics by what-they-are. Unfortunately, generative classifiers are significantly less accurate. This may be caused by the tendency of generative models to focus on easy to model semantic generative factors and ignore non-semantic factors that are important but difficult to model. We propose a new generative model in which semantic factors are accommodated by shell theory's hierarchical generative process and non-semantic factors by an instance specific noise term. We use the model to develop a classification scheme which suppresses the impact of noise while preserving semantic cues. The result is a surprisingly accurate generative classifier, that takes the form of a modified nearest-neighbor algorithm; we term it distance classification. Unlike discriminative classifiers, a distance classifier: defines semantics by what-they-are; is amenable to incremental updates; and scales well with the number of classes.
翻訳日:2022-10-05 13:22:21 公開日:2022-10-04
# モジュール設計による時空間予測モデルの強化

Enhancing Spatiotemporal Prediction Model using Modular Design and Beyond ( http://arxiv.org/abs/2210.01500v1 )

ライセンス: Link先を確認
Haoyu Pan, Hao Wu, Tan Yang(参考訳) 予測学習は、ある期間にわたって将来の状態を生成するために既知の状態を使用する。 時空間のシーケンスは時間と空間の両方で異なるため、時空間のシーケンスを予測するのは困難である。 主流となる手法は、RNNベースまたはトランスフォーマーベースアーキテクチャを用いて、空間構造と時間構造を同時にモデル化し、自動回帰の方法で学習した経験を用いて将来のデータを生成することである。 空間的特徴と時間的特徴を同時に学習する方法は、モデルに多くのパラメータをもたらすため、モデルを収束させることが困難になる。 本稿では,空間エンコーダ・デコーダと予測器の2つのモジュールに時空間系列モデルを分解するモジュール設計を提案する。 これら2つのモジュールは空間的特徴を抽出し,それぞれ将来のデータを予測する。 空間エンコーダ・デコーダはデータを潜在埋め込み空間にマッピングし、潜在空間からデータを生成し、予測者は過去から将来の埋め込みを予測する。 この設計をkth-actionとmovingmnistデータセットの現在の研究に適用し,計算性能の向上と最先端の結果を得る。

Predictive learning uses a known state to generate a future state over a period of time. It is a challenging task to predict spatiotemporal sequence because the spatiotemporal sequence varies both in time and space. The mainstream method is to model spatial and temporal structures at the same time using RNN-based or transformer-based architecture, and then generates future data by using learned experience in the way of auto-regressive. The method of learning spatial and temporal features simultaneously brings a lot of parameters to the model, which makes the model difficult to be convergent. In this paper, a modular design is proposed, which decomposes spatiotemporal sequence model into two modules: a spatial encoder-decoder and a predictor. These two modules can extract spatial features and predict future data respectively. The spatial encoder-decoder maps the data into a latent embedding space and generates data from the latent space while the predictor forecasts future embedding from past. By applying the design to the current research and performing experiments on KTH-Action and MovingMNIST datasets, we both improve computational performance and obtain state-of-the-art results.
翻訳日:2022-10-05 13:22:00 公開日:2022-10-04
# 単眼視眼磁図のスケール推定のためのDense Prediction Transformer

Dense Prediction Transformer for Scale Estimation in Monocular Visual Odometry ( http://arxiv.org/abs/2210.01723v1 )

ライセンス: Link先を確認
Andr\'e O. Fran\c{c}ani and Marcos R. O. A. Maximo(参考訳) 単眼視覚オドメトリ(monocular visual odometry)は、単一のカメラの画像を通してエージェントの位置を推定することであり、自動運転車、医療ロボット、拡張現実に適用される。 しかし, 単眼系では, 2次元フレームの奥行き情報の欠如により, 規模の曖昧さが問題となる。 本稿では,単眼視覚オドメトリシステムにおける高密度予測トランスモデルのスケール推定への応用について述べる。 実験結果から, このモデルによる深度マップの正確な推定により, 単分子系のスケールドリフト問題を低減し, ビジュアル・オドメトリー・ベンチマークにおいて, 競合性能を達成できることが示唆された。

Monocular visual odometry consists of the estimation of the position of an agent through images of a single camera, and it is applied in autonomous vehicles, medical robots, and augmented reality. However, monocular systems suffer from the scale ambiguity problem due to the lack of depth information in 2D frames. This paper contributes by showing an application of the dense prediction transformer model for scale estimation in monocular visual odometry systems. Experimental results show that the scale drift problem of monocular systems can be reduced through the accurate estimation of the depth map by this model, achieving competitive state-of-the-art performance on a visual odometry benchmark.
翻訳日:2022-10-05 13:21:38 公開日:2022-10-04
# リカレントニューラルネットワークによる長時間学習のための高速飽和ゲート

Fast Saturating Gate for Learning Long Time Scales with Recurrent Neural Networks ( http://arxiv.org/abs/2210.01348v1 )

ライセンス: Link先を確認
Kentaro Ohno, Sekitoshi Kanai, Yasutoshi Ida(参考訳) LSTMやGRUのような反復モデルにおけるゲート関数は、有界活性化関数を用いて時系列データをモデル化する際の様々な時間スケールの学習において中心的な役割を果たす。 しかし, 飽和問題として知られる大入力の有界関数の勾配の消失により, ゲートが極めて長い時間スケールを取るように訓練することは困難である。 ゲート関数の飽和度とトレーニングの効率との関係を詳細に分析する。 ゲート関数の勾配の消失は飽和関数の収束を加速することで緩和できる、すなわち関数の出力を0または1に早く収束させることで証明する。 解析結果に基づいて、簡単な関数合成による入力に対して2倍の指数収束率を持つ高速ゲートと呼ばれるゲート関数を提案する。 提案手法は,非常に長い時間スケールを含むベンチマークタスクにおいて,従来の手法よりも精度と計算効率が優れていることを示す。

Gate functions in recurrent models, such as an LSTM and GRU, play a central role in learning various time scales in modeling time series data by using a bounded activation function. However, it is difficult to train gates to capture extremely long time scales due to gradient vanishing of the bounded function for large inputs, which is known as the saturation problem. We closely analyze the relation between saturation of the gate function and efficiency of the training. We prove that the gradient vanishing of the gate function can be mitigated by accelerating the convergence of the saturating function, i.e., making the output of the function converge to 0 or 1 faster. Based on the analysis results, we propose a gate function called fast gate that has a doubly exponential convergence rate with respect to inputs by simple function composition. We empirically show that our method outperforms previous methods in accuracy and computational efficiency on benchmark tasks involving extremely long time scales.
翻訳日:2022-10-05 13:14:41 公開日:2022-10-04
# 物理特性とデバイス特性をつなぐインタフェース型memristorのコンパクトモデル

A Compact Model of Interface-Type Memristors Linking Physical and Device Properties ( http://arxiv.org/abs/2210.01455v1 )

ライセンス: Link先を確認
T. F. Tiotto, A. S. Goossens, A. E. Dima, C. Yakopcic, T. Banerjee, J. P. Borst, N. A. Taatgen(参考訳) memristorは、抵抗が2つの端子に適用される電圧履歴に依存する電子機器である。 計算要素としての明らかな利点にもかかわらず、インタフェースベースのmemristorの特殊クラスには適切なトランスポートモデルが欠けている。 本稿では,インターフェース型memristorに関連するトランスポート方程式を含むことで,広く使われているyakopcic compactモデルを適用する。 このモデルはNbドープSrTiO$_3$メムリシティブデバイス上で測定された定性的挙動を再現することができる。 本分析は, デバイスの特性パラメータとモデルとの直接的な相関関係を示す。 このモデルは、異なる抵抗状態における電荷輸送機構を明確に識別することができ、インターフェースベースのmemristorの抵抗スイッチングに関連するパラメータの評価を容易にする。 この研究の明確な応用の1つは、関連するmemristiveデバイスの設計と製造を知らせる能力である。

Memristors are an electronic device whose resistance depends on the voltage history that has been applied to its two terminals. Despite its clear advantage as a computational element, a suitable transport model is lacking for the special class of interface-based memristors. Here, we adapt the widely-used Yakopcic compact model by including transport equations relevant to interface-type memristors. This model is able to reproduce the qualitative behaviour measured upon Nb-doped SrTiO$_3$ memristive devices. Our analysis demonstrates a direct correlation between the devices' characteristic parameters and those of our model. The model can clearly identify the charge transport mechanism in different resistive states thus facilitating evaluation of the relevant parameters pertaining to resistive switching in interface-based memristors. One clear application of our study is its ability to inform the design and fabrication of related memristive devices.
翻訳日:2022-10-05 13:14:24 公開日:2022-10-04
# 朗読型言語モデル

Recitation-Augmented Language Models ( http://arxiv.org/abs/2210.01296v1 )

ライセンス: Link先を確認
Zhiqing Sun, Xuezhi Wang, Yi Tay, Yiming Yang, Denny Zhou(参考訳) 本稿では,RECITation-augmented gEneration (RECITE) と呼ばれる外部コーパスから検索することなく,より正確な事実知識を生成するための新しいパラダイムを提案する。 出力を生成する前に関連文書を検索する検索拡張言語モデルとは異なり、RECITEはまず1つまたは複数の関連するパスをLPMのメモリからサンプリングし、最後に回答を生成する。 知識集約型NLPタスクにおいて,RECITEは強力なパラダイムであることを示す。 具体的には,recite-and-answerスキームを中間ステップとして用いることで,クローズドブック質問応答(cbqa)タスクにおいて,新たな最先端性能を実現することができることを示す。 実験では,3つの事前学習モデル (PaLM, UL2, OPT) と3つのCBQAタスク (Natural Questions, TriviaQA, HotpotQA) に対するRECITEの有効性を検証する。

We propose a new paradigm to help Large Language Models (LLMs) generate more accurate factual knowledge without retrieving from an external corpus, called RECITation-augmented gEneration (RECITE). Different from retrieval-augmented language models that retrieve relevant documents before generating the outputs, given an input, RECITE first recites one or several relevant passages from LLMs' own memory via sampling, and then produces the final answers. We show that RECITE is a powerful paradigm for knowledge-intensive NLP tasks. Specifically, we show that by utilizing recitation as the intermediate step, a recite-and-answer scheme can achieve new state-of-the-art performance in various closed-book question answering (CBQA) tasks. In experiments, we verify the effectiveness of RECITE on three pre-trained models (PaLM, UL2, and OPT) and three CBQA tasks (Natural Questions, TriviaQA, and HotpotQA).
翻訳日:2022-10-05 13:13:52 公開日:2022-10-04
# セマンティクスアンカーを中間監督としてplmを導く: 解釈可能なセマンティクス解析に向けて

Guiding the PLMs with Semantic Anchors as Intermediate Supervision: Towards Interpretable Semantic Parsing ( http://arxiv.org/abs/2210.01425v1 )

ライセンス: Link先を確認
Lunyiu Nie, Jiuding Sun, Yanlin Wang, Lun Du, Shi Han, Dongmei Zhang, Lei Hou, Juanzi Li, Jidong Zhai(参考訳) 最近の事前学習言語モデル(plm)の流行は、自然言語発話から構造化論理形式へのマッピングをseq2seqタスクとして定式化する意味解析のパラダイムを劇的にシフトさせた。 有望な性能にもかかわらず、従来のplmベースのアプローチは、論理形式のキーセマンティクスを構成する文に含まれる構造情報の欠如のために幻覚の問題に苦しむことが多い。 さらに、ほとんどの研究は PLM を、対象の論理形式の生成プロセスがデコーダモジュールの下に隠されているブラックボックスとして扱う。 この2つの問題に対処するために,現在のplmを階層型デコーダネットワークに組み込むことを提案する。 そこで,第一原理構造をセマンティクスアンカーとして,階層的デコーダのトレーニングとモデル中間表現の自己適応的探索のためのセマンティクスアンカー抽出とセマンティクスアンカーアライメントという2つの新しい中間監督タスクを提案する。 いくつかのセマンティック解析ベンチマークで集中的な実験を行い、我々のアプローチがベースラインを一貫して上回ることを示す。 さらに,階層型デコーダの中間表現を解析することにより,意味解析領域におけるPLMの本質的解釈可能性にも大きな一歩を踏み出した。

The recent prevalence of pretrained language models (PLMs) has dramatically shifted the paradigm of semantic parsing, where the mapping from natural language utterances to structured logical forms is now formulated as a Seq2Seq task. Despite the promising performance, previous PLM-based approaches often suffer from hallucination problems due to their negligence of the structural information contained in the sentence, which essentially constitutes the key semantics of the logical forms. Furthermore, most works treat PLM as a black box in which the generation process of the target logical form is hidden beneath the decoder modules, which greatly hinders the model's intrinsic interpretability. To address these two issues, we propose to incorporate the current PLMs with a hierarchical decoder network. By taking the first-principle structures as the semantic anchors, we propose two novel intermediate supervision tasks, namely Semantic Anchor Extraction and Semantic Anchor Alignment, for training the hierarchical decoders and probing the model intermediate representations in a self-adaptive manner alongside the fine-tuning process. We conduct intensive experiments on several semantic parsing benchmarks and demonstrate that our approach can consistently outperform the baselines. More importantly, by analyzing the intermediate representations of the hierarchical decoders, our approach also makes a huge step toward the intrinsic interpretability of PLMs in the domain of semantic parsing.
翻訳日:2022-10-05 13:13:34 公開日:2022-10-04
# 事象列抽出のための因果干渉に基づくプロンプトデバイアス

Causal Intervention-based Prompt Debiasing for Event Argument Extraction ( http://arxiv.org/abs/2210.01561v1 )

ライセンス: Link先を確認
Jiaju Lin, Jie Zhou, Qin Chen(参考訳) プロンプトベースの手法は情報抽出タスク、特に低データシナリオでますます普及している。 細かいタスクを事前学習目的にフォーマットすることで、プロンプトベースの手法はデータの不足問題を効果的に解決する。 しかし,前回の研究では,異なるプロンプト・フォーメーティング・ストラテジーの相違をほとんど調査していない。 本研究では,名前ベースプロンプトとオントロジベースプロンプトの2種類のプロンプトを比較し,ゼロショットイベント引数抽出(eae)においてオントロジベースプロンプトメソッドがそのプロンプトをいかに越えているかを明らかにする。 さらに,オントロジベースプロンプトにおける潜在的なリスクを因果的視点で分析し,因果的介入によるデバイアス法を提案する。 2つのベンチマークによる実験により、debias法によりベースラインモデルがより効果的かつ堅牢になり、敵の攻撃に対する耐性が大幅に向上することを示した。

Prompt-based methods have become increasingly popular among information extraction tasks, especially in low-data scenarios. By formatting a finetune task into a pre-training objective, prompt-based methods resolve the data scarce problem effectively. However, seldom do previous research investigate the discrepancy among different prompt formulating strategies. In this work, we compare two kinds of prompts, name-based prompt and ontology-base prompt, and reveal how ontology-base prompt methods exceed its counterpart in zero-shot event argument extraction (EAE) . Furthermore, we analyse the potential risk in ontology-base prompts via a causal view and propose a debias method by causal intervention. Experiments on two benchmarks demonstrate that modified by our debias method, the baseline model becomes both more effective and robust, with significant improvement in the resistance to adversarial attacks.
翻訳日:2022-10-05 13:13:08 公開日:2022-10-04
# 機械読解に対するモジュール的アプローチ:タスク認識エキスパートの混在

Modular Approach to Machine Reading Comprehension: Mixture of Task-Aware Experts ( http://arxiv.org/abs/2210.01750v1 )

ライセンス: Link先を確認
Anirudha Rayasam, Anusha Kamath, Gabriel Bayomi Tinoco Kalejaiye(参考訳) 本稿では,比較的小さなデータセット上での機械読解のためのタスク認識エキスパートネットワークの混合について述べる。 特に,各パス,質問,選択の三重項間の異なる関係を捉えるために,異なる専門家ネットワークを特別に訓練することにより,常識学習の課題に焦点をあてる。 さらに,近年のマルチタスク・トランスファー学習の進展に対して,各ネットワークに関連性のあるタスクを学習させることで評価を行った。 タスクと関係を強制することで、ネットワークの混在が特定の目標を認識することによって、最先端の成果を達成し、過剰な適合を減らす。

In this work we present a Mixture of Task-Aware Experts Network for Machine Reading Comprehension on a relatively small dataset. We particularly focus on the issue of common-sense learning, enforcing the common ground knowledge by specifically training different expert networks to capture different kinds of relationships between each passage, question and choice triplet. Moreover, we take inspi ration on the recent advancements of multitask and transfer learning by training each network a relevant focused task. By making the mixture-of-networks aware of a specific goal by enforcing a task and a relationship, we achieve state-of-the-art results and reduce over-fitting.
翻訳日:2022-10-05 13:12:52 公開日:2022-10-04
# 画像キャプションのための視覚言語ニューラルモジュールのコロケーション学習

Learning to Collocate Visual-Linguistic Neural Modules for Image Captioning ( http://arxiv.org/abs/2210.01338v1 )

ライセンス: Link先を確認
Xu Yang and Hanwang Zhang and Chongyang Gao and Jianfei Cai(参考訳) 人間は、文章を \textsc{sth do sth at someplace} のような異なる部分に分解し、各部分を特定の内容で満たす傾向がある。 これに触発されて、我々は新しい画像キャプションを提案するために \textit{principle of modular design} に従う: 視覚言語的ニューラルモジュール(cvlnm)のコロケーションを学ぶ。 言語 (\ie, question) が完全に可観測である vqa の \re{widely used} ニューラルモジュールネットワークとは異なり、\re{the task of collocating visual-linguistic modules はより困難である。 これは、画像キャプションのプロセス中にモジュールを動的にコロケーションする必要があるため、言語が部分的に可観測性があるためです。 まとめると、CVLNMの設計と訓練に以下の技術貢献をする。 1) \textit{distinguishable module design} -- \re{four modules in the encoder} 関数語のための1つの言語モジュールと、異なるコンテンツ語(\ie、名詞、形容詞、動詞)のための3つの視覚モジュールと、コモンセンス推論のためのデコーダ内の他の言語モジュールを含む。 2) 視覚的推論を堅牢化するための自己注意に基づく \textit{module controller} 3) CVLNMのトレーニングをさらに規則化するためにモジュールコントローラに課される部分音声ベースの‘textit{syntax loss’。 MS-COCOデータセットの大規模な実験によると、CVLNMはより効果的で、新しい最先端の129.5 CIDEr-Dを達成し、より堅牢で、データセットバイアスに過度に適合せず、トレーニングサンプルが少ない場合の苦痛も少なくなります。 コードは \url{https://github.com/GCYZSL/CVLMN} で入手できる。

Humans tend to decompose a sentence into different parts like \textsc{sth do sth at someplace} and then fill each part with certain content. Inspired by this, we follow the \textit{principle of modular design} to propose a novel image captioner: learning to Collocate Visual-Linguistic Neural Modules (CVLNM). Unlike the \re{widely used} neural module networks in VQA, where the language (\ie, question) is fully observable, \re{the task of collocating visual-linguistic modules is more challenging.} This is because the language is only partially observable, for which we need to dynamically collocate the modules during the process of image captioning. To sum up, we make the following technical contributions to design and train our CVLNM: 1) \textit{distinguishable module design} -- \re{four modules in the encoder} including one linguistic module for function words and three visual modules for different content words (\ie, noun, adjective, and verb) and another linguistic one in the decoder for commonsense reasoning, 2) a self-attention based \textit{module controller} for robustifying the visual reasoning, 3) a part-of-speech based \textit{syntax loss} imposed on the module controller for further regularizing the training of our CVLNM. Extensive experiments on the MS-COCO dataset show that our CVLNM is more effective, \eg, achieving a new state-of-the-art 129.5 CIDEr-D, and more robust, \eg, being less likely to overfit to dataset bias and suffering less when fewer training samples are available. Codes are available at \url{https://github.com/GCYZSL/CVLMN}
翻訳日:2022-10-05 13:12:41 公開日:2022-10-04
# 相乗的マルチタスクニューラルアーキテクチャ探索によるエッジ効率高密度予測に向けて

Toward Edge-Efficient Dense Predictions with Synergistic Multi-Task Neural Architecture Search ( http://arxiv.org/abs/2210.01384v1 )

ライセンス: Link先を確認
Thanh Vu, Yanqi Zhou, Chunfeng Wen, Yueqi Li, Jan-Michael Frahm(参考訳) 本稿では,エッジプラットフォーム上で効率的な高密度予測を実現するための,新しいスケーラブルなソリューションを提案する。 最初の重要な洞察は、マルチタスク学習(MTL)とハードウェア対応のニューラルアーキテクチャサーチ(NAS)が、デバイス上でのDense Predictions(DP)に多大な利益をもたらすためにシナジーで機能できるということです。 実験結果から,2つのパラダイムの合同学習はDP精度の向上に驚くほど有効であり,単一タスクNASの伝達学習とMTLにおける先行技術アプローチの双方に対して,計算の1/10で優れた性能を発揮することがわかった。 我々の知る限り、私たちのフレームワークであるEDNASは、DPのためのNASとMLLの相乗的関係をうまく活用した最初のフレームワークです。 第2の鍵となる洞察は、マルチタスクDPの標準深度トレーニングは、MTL評価に重大な不安定性とノイズを引き起こす可能性があることである。 そこで本研究では,提案手法を改良し,最大88%の雑音を低減し,同時に精度を高めたjaredを提案する。 我々は、標準データセットの広範な評価、強力なベースラインと最先端アプローチに対するベンチマーク、そして発見された最適なアーキテクチャの分析を行う。

In this work, we propose a novel and scalable solution to address the challenges of developing efficient dense predictions on edge platforms. Our first key insight is that MultiTask Learning (MTL) and hardware-aware Neural Architecture Search (NAS) can work in synergy to greatly benefit on-device Dense Predictions (DP). Empirical results reveal that the joint learning of the two paradigms is surprisingly effective at improving DP accuracy, achieving superior performance over both the transfer learning of single-task NAS and prior state-of-the-art approaches in MTL, all with just 1/10th of the computation. To the best of our knowledge, our framework, named EDNAS, is the first to successfully leverage the synergistic relationship of NAS and MTL for DP. Our second key insight is that the standard depth training for multi-task DP can cause significant instability and noise to MTL evaluation. Instead, we propose JAReD, an improved, easy-to-adopt Joint Absolute-Relative Depth loss, that reduces up to 88% of the undesired noise while simultaneously boosting accuracy. We conduct extensive evaluations on standard datasets, benchmark against strong baselines and state-of-the-art approaches, as well as provide an analysis of the discovered optimal architectures.
翻訳日:2022-10-05 13:05:26 公開日:2022-10-04
# VICRegL: ローカルな視覚特徴の自己教師付き学習

VICRegL: Self-Supervised Learning of Local Visual Features ( http://arxiv.org/abs/2210.01571v1 )

ライセンス: Link先を確認
Adrien Bardes and Jean Ponce and Yann LeCun(参考訳) 画像表現を学習するための近年の自己教師型手法は、不変性を持つグローバルな特徴の生成や、局所的な特徴の集合の生成に重点を置いている。 前者は分類タスクに最適であり、後者は検出タスクとセグメンテーションタスクに最適である。 本稿では,局所的特徴とグローバル的特徴との基本的なトレードオフについて考察する。 優れたグローバル特徴とローカル特徴を同時に学習し,分類タスクに優れた性能を維持しつつ,検出および分割タスクに優れた性能を与えるvicreglと呼ばれる新しい手法を提案する。 具体的には、標準畳み込みネットアーキテクチャの2つの同一の分岐を、同じ画像の2つの異なる歪んだバージョンに供給する。 VICRegの基準は、グローバルな特徴ベクトルのペアに適用される。 同時に、VICReg基準が最後のプーリング層の前に発生する局所特徴ベクトルの対に適用される。 2つの局所特徴ベクトルは、l2距離がしきい値以下である場合や、それらの相対位置が2つの入力画像間の既知の幾何学的変換と一致する場合、互いに惹かれる。 線形分類とセグメンテーション転送タスクにおいて,強い性能を示す。 コードおよび事前訓練されたモデルは、https://github.com/facebookresearch/VICRegLで公開されている。

Most recent self-supervised methods for learning image representations focus on either producing a global feature with invariance properties, or producing a set of local features. The former works best for classification tasks while the latter is best for detection and segmentation tasks. This paper explores the fundamental trade-off between learning local and global features. A new method called VICRegL is proposed that learns good global and local features simultaneously, yielding excellent performance on detection and segmentation tasks while maintaining good performance on classification tasks. Concretely, two identical branches of a standard convolutional net architecture are fed two differently distorted versions of the same image. The VICReg criterion is applied to pairs of global feature vectors. Simultaneously, the VICReg criterion is applied to pairs of local feature vectors occurring before the last pooling layer. Two local feature vectors are attracted to each other if their l2-distance is below a threshold or if their relative locations are consistent with a known geometric transformation between the two input images. We demonstrate strong performance on linear classification and segmentation transfer tasks. Code and pretrained models are publicly available at: https://github.com/facebookresearch/VICRegL
翻訳日:2022-10-05 13:05:02 公開日:2022-10-04
# ROAD-R:論理的要求を伴う自律運転データセット

ROAD-R: The Autonomous Driving Dataset with Logical Requirements ( http://arxiv.org/abs/2210.01597v1 )

ライセンス: Link先を確認
Eleonora Giunchiglia and Mihaela C\u{a}t\u{a}lina Stoia and Salman Khan and Fabio Cuzzolin and Thomas Lukasiewicz(参考訳) ニューラルネットワークはコンピュータビジョンタスクにおいて非常に強力であることが証明されている。 しかし、それらはしばしば予期せぬ行動を示し、背景知識を表す既知の要求に違反する。 これはモデルを呼び出す (i)要件から学ぶことができること、 (二)要件そのものに準拠することが保証される。 残念ながら、これらのモデルの開発は、公式に指定された要件を備えたデータセットの欠如によって妨げられている。 本稿では、論理的制約として表現された自律運転のための最初の公開データセットである論理的要件付きROADイベント認識データセット(ROAD-R)を紹介する。 ROAD-Rを考えると、現在の最先端モデルはしばしばその論理的制約に反し、それらを利用してモデルを作成することが可能であることを示す。 (i)パフォーマンスが良く、 (ii)要件そのものに準拠することが保証される。

Neural networks have proven to be very powerful at computer vision tasks. However, they often exhibit unexpected behaviours, violating known requirements expressing background knowledge. This calls for models (i) able to learn from the requirements, and (ii) guaranteed to be compliant with the requirements themselves. Unfortunately, the development of such models is hampered by the lack of datasets equipped with formally specified requirements. In this paper, we introduce the ROad event Awareness Dataset with logical Requirements (ROAD-R), the first publicly available dataset for autonomous driving with requirements expressed as logical constraints. Given ROAD-R, we show that current state-of-the-art models often violate its logical constraints, and that it is possible to exploit them to create models that (i) have a better performance, and (ii) are guaranteed to be compliant with the requirements themselves.
翻訳日:2022-10-05 13:04:43 公開日:2022-10-04
# 分布として空間軌道を表現する

Representing Spatial Trajectories as Distributions ( http://arxiv.org/abs/2210.01322v1 )

ライセンス: Link先を確認
D\'idac Sur\'is, Carl Vondrick(参考訳) 空間軌道の表現学習フレームワークを提案する。 トラジェクタリーの部分的観測を学習潜在空間における確率分布として表現し, 軌道の観測されていない部分の不確かさを特徴付ける。 我々のフレームワークは、任意の連続点の軌道から、補間と外挿の両方のサンプルを得ることができる。 我々の柔軟なアプローチは、軌道の特定の特性、例えばその速度を直接修正することをサポートし、異なる部分的な観察を単一の表現に組み合わせる。 実験により,予測タスクのベースラインに対する手法の優位性を示す。

We introduce a representation learning framework for spatial trajectories. We represent partial observations of trajectories as probability distributions in a learned latent space, which characterize the uncertainty about unobserved parts of the trajectory. Our framework allows us to obtain samples from a trajectory for any continuous point in time, both interpolating and extrapolating. Our flexible approach supports directly modifying specific attributes of a trajectory, such as its pace, as well as combining different partial observations into single representations. Experiments show our method's advantage over baselines in prediction tasks.
翻訳日:2022-10-05 13:04:16 公開日:2022-10-04
# MBW:マルチビューブートストラップ

MBW: Multi-view Bootstrapping in the Wild ( http://arxiv.org/abs/2210.01721v1 )

ライセンス: Link先を確認
Mosam Dabhi, Chaoyang Wang, Tim Clifford, Laszlo Attila Jeni, Ian R. Fasel, Simon Lucey(参考訳) 調音された物体のラベル付けは、エンタテインメント、神経科学、心理学、倫理学、多くの医学分野を含む幅広い応用がある。 大規模なオフラインラベル付きデータセットは、最も一般的なオブジェクトカテゴリ(例えば人間)以外は存在しない。 これらのランドマークをビデオシーケンス内にラベル付けするのは、面倒な作業だ。 学習されたランドマーク検出器は役に立つが、少数の例からトレーニングするとエラーを起こしやすい。 細粒度検出器を訓練するマルチカメラシステムは、このようなエラーを検出することに大きな可能性を秘めており、ビデオシーケンスのごく一部しか手ラベルを付ける必要のない自己教師付きソリューションを可能にする。 しかしこのアプローチは、キャリブレーションされたカメラと剛体形状に基づいており、現実のシナリオでは高価で、管理が難しく、実用的ではない。 本稿では,非剛性3次元ニューラルプレックスと深度流とを組み合わせることで,ビデオから高忠実度ランドマーク推定を2、3台の手持ちカメラで行うことにより,これらのボトルネックに対処する。 わずかなアノテーション(フレームの1-2%)で、最先端の完全な教師付きメソッドに匹敵する2d結果と、他の既存のアプローチでは不可能である3dリコンストラクションを作成できます。 私たちのマルチビューブートストラップ・イン・ザ・ワイルド(mbw)アプローチは、動物園でカジュアルに撮影されたビデオから、トラ、チーター、魚、コロバスザル、チンパンジー、フラミンゴなど、標準的な人間のデータセットで印象的な結果を示しています。 MBWのコードベースと、最小限の人的介入から生成される2D, 3Dラベルと、テールエンド分布カテゴリの画像フレームからなる、この挑戦的な動物園データセットをリリースする。

Labeling articulated objects in unconstrained settings have a wide variety of applications including entertainment, neuroscience, psychology, ethology, and many fields of medicine. Large offline labeled datasets do not exist for all but the most common articulated object categories (e.g., humans). Hand labeling these landmarks within a video sequence is a laborious task. Learned landmark detectors can help, but can be error-prone when trained from only a few examples. Multi-camera systems that train fine-grained detectors have shown significant promise in detecting such errors, allowing for self-supervised solutions that only need a small percentage of the video sequence to be hand-labeled. The approach, however, is based on calibrated cameras and rigid geometry, making it expensive, difficult to manage, and impractical in real-world scenarios. In this paper, we address these bottlenecks by combining a non-rigid 3D neural prior with deep flow to obtain high-fidelity landmark estimates from videos with only two or three uncalibrated, handheld cameras. With just a few annotations (representing 1-2% of the frames), we are able to produce 2D results comparable to state-of-the-art fully supervised methods, along with 3D reconstructions that are impossible with other existing approaches. Our Multi-view Bootstrapping in the Wild (MBW) approach demonstrates impressive results on standard human datasets, as well as tigers, cheetahs, fish, colobus monkeys, chimpanzees, and flamingos from videos captured casually in a zoo. We release the codebase for MBW as well as this challenging zoo dataset consisting image frames of tail-end distribution categories with their corresponding 2D, 3D labels generated from minimal human intervention.
翻訳日:2022-10-05 13:04:07 公開日:2022-10-04
# アシフ氏:連結データはトレーニングなしでユニモーダルモデルをマルチモーダルに変える

ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training ( http://arxiv.org/abs/2210.01738v1 )

ライセンス: Link先を確認
Antonio Norelli, Marco Fumero, Valentino Maiorca, Luca Moschella, Emanuele Rodol\`a, Francesco Locatello(参考訳) CLIPはイメージとテキストエンコーダの両方をトレーニングし、LiTは事前トレーニングされたビジョンネットワークを活用することで、後者のみをトレーニングする。 本稿では,ネットワークを訓練することなく,テキストや画像のアライメントを行うのに十分であることを示す。 本手法は、容易に利用可能な単一ドメインエンコーダと、画像テキストペアの控えめな数(比較)に依存する。 ASIFは、メモリを明示的に処理から切り離すことによって、マルチモーダルモデルを構成するものを再定義する: ここで、モデルは、2つのエンコーダのパラメータに加えて、マルチモーダルデータセットの全エントリの組込みペアによって定義される。 標準ゼロショットビジュアルベンチマークの実験は、画像テキストモデルの典型的な転送能力を示している。 全体として,本手法は,基礎的マルチモーダルモデルにおいて,シンプルながら驚くほど強力なベースラインであり,データ効率や機械学習における検索の役割について重要な疑問を提起する。

Aligning the visual and language spaces requires to train deep neural networks from scratch on giant multimodal datasets; CLIP trains both an image and a text encoder, while LiT manages to train just the latter by taking advantage of a pretrained vision network. In this paper, we show that sparse relative representations are sufficient to align text and images without training any network. Our method relies on readily available single-domain encoders (trained with or without supervision) and a modest (in comparison) number of image-text pairs. ASIF redefines what constitutes a multimodal model by explicitly disentangling memory from processing: here the model is defined by the embedded pairs of all the entries in the multimodal dataset, in addition to the parameters of the two encoders. Experiments on standard zero-shot visual benchmarks demonstrate the typical transfer ability of image-text models. Overall, our method represents a simple yet surprisingly strong baseline for foundation multimodal models, raising important questions on their data efficiency and on the role of retrieval in machine learning.
翻訳日:2022-10-05 13:03:37 公開日:2022-10-04
# less is more: 言語モデル圧縮のためのタスクアウェア層別蒸留

Less is More: Task-aware Layer-wise Distillation for Language Model Compression ( http://arxiv.org/abs/2210.01351v1 )

ライセンス: Link先を確認
Chen Liang, Simiao Zuo, Qingru Zhang, Pengcheng He, Weizhu Chen, Tuo Zhao(参考訳) 層ワイド蒸留は、大きなモデル(すなわち教師モデル)を小さなモデル(すなわち学生モデル)に圧縮する強力なツールである。 生徒は、中間層ごとに教師の隠れた表現を模倣して、教師からの知識を蒸留する。 しかし, 層間蒸留は困難である。 生徒は教師よりもモデル能力が小さいため、しばしば不適合である。 さらに、教師の隠れた表現には、生徒が必ずしも対象タスクの学習に必要としない冗長な情報が含まれている。 これらの課題に対処するために,新しいタスク対応ライEr-wise Distillation (TED)を提案する。 tedは、各層で生徒と教師の隠れた表現を調整するタスク対応フィルタを設計している。 フィルタは、隠れた表現からターゲットタスクに有用な知識を選択する。 そのため、TEDは2つのモデルの知識ギャップを減らし、学生が目的のタスクに適合するのに役立つ。 TEDを連続的な事前学習と微調整の2つのシナリオで評価した。 TEDは、両方のシナリオで既存の蒸留法よりも顕著で一貫した改善を示している。

Layer-wise distillation is a powerful tool to compress large models (i.e. teacher models) into small ones (i.e., student models). The student distills knowledge from the teacher by mimicking the hidden representations of the teacher at every intermediate layer. However, layer-wise distillation is difficult. Since the student has a smaller model capacity than the teacher, it is often under-fitted. Furthermore, the hidden representations of the teacher contain redundant information that the student does not necessarily need for the target task's learning. To address these challenges, we propose a novel Task-aware layEr-wise Distillation (TED). TED designs task-aware filters to align the hidden representations of the student and the teacher at each layer. The filters select the knowledge that is useful for the target task from the hidden representations. As such, TED reduces the knowledge gap between the two models and helps the student to fit better on the target task. We evaluate TED in two scenarios: continual pre-training and fine-tuning. TED demonstrates significant and consistent improvements over existing distillation methods in both scenarios.
翻訳日:2022-10-05 12:57:28 公開日:2022-10-04
# 例外をいつ作るか:人間の道徳判断としての言語モデルを探る

When to Make Exceptions: Exploring Language Models as Accounts of Human Moral Judgment ( http://arxiv.org/abs/2210.01478v1 )

ライセンス: Link先を確認
Zhijing Jin, Sydney Levine, Fernando Gonzalez, Ojasv Kamal, Maarten Sap, Mrinmaya Sachan, Rada Mihalcea, Josh Tenenbaum, Bernhard Sch\"olkopf(参考訳) AIシステムは、ますます人間の生活と絡み合っている。 aiシステムは、人間と効果的に協力し、安全を確保するために、人間の道徳的判断や決定を理解し、解釈し、予測する必要がある。 人間の道徳的判断はしばしば規則によって導かれるが、必ずしもそうではない。 aiの安全性にとっての中心的な課題は、人間の道徳心の柔軟性を捉えることだ - 特に新しい状況や異常な状況において、ルールがいつ破られるべきかを判断する能力。 本稿では,最近のモラル心理学研究から着想を得た,許容可能なルールブレークを含むケースのルールブレーク型質問応答(rbqa)からなる,新たな挑戦セットを提案する。 現状の大規模言語モデル(LLM)を基礎として,LLMの強みと認知科学で発達した道徳的推論理論を組み合わせて人間の道徳的判断を予測する新しい道徳的思考連鎖(MORALCOT)を提案する。 MORALCOT は既存の 7 つの LLM を 6.2% F1 で上回り、人間の道徳心の柔軟性を捉えるためには人間の推論をモデル化する必要があることを示唆している。 また,RBQAを用いたAIの安全性向上に向けた今後の取り組みについて,詳細なエラー解析を行った。 私たちのデータとコードはhttps://github.com/feradauto/MoralCoTで利用可能です。

AI systems are becoming increasingly intertwined with human life. In order to effectively collaborate with humans and ensure safety, AI systems need to be able to understand, interpret and predict human moral judgments and decisions. Human moral judgments are often guided by rules, but not always. A central challenge for AI safety is capturing the flexibility of the human moral mind -- the ability to determine when a rule should be broken, especially in novel or unusual situations. In this paper, we present a novel challenge set consisting of rule-breaking question answering (RBQA) of cases that involve potentially permissible rule-breaking -- inspired by recent moral psychology studies. Using a state-of-the-art large language model (LLM) as a basis, we propose a novel moral chain of thought (MORALCOT) prompting strategy that combines the strengths of LLMs with theories of moral reasoning developed in cognitive science to predict human moral judgments. MORALCOT outperforms seven existing LLMs by 6.2% F1, suggesting that modeling human reasoning might be necessary to capture the flexibility of the human moral mind. We also conduct a detailed error analysis to suggest directions for future work to improve AI safety using RBQA. Our data and code are available at https://github.com/feradauto/MoralCoT
翻訳日:2022-10-05 12:57:11 公開日:2022-10-04
# 有限時間保証付き高次元状態空間におけるマルコフ決定過程の構造推定

Structural Estimation of Markov Decision Processes in High-Dimensional State Space with Finite-Time Guarantees ( http://arxiv.org/abs/2210.01282v1 )

ライセンス: Link先を確認
Siliang Zeng, Mingyi Hong, Alfredo Garcia(参考訳) 本研究では,実施行動と訪問状態の観測可能な履歴に基づいて,人間エージェントによる動的決定の構造モデルの推定作業を検討する。 この問題には固有のネスト構造があり、内部問題では与えられた報酬関数に対する最適ポリシーが特定され、外部問題では適合度の測定が最大化される。 このネストループ構造の計算負担を軽減するためにいくつかの手法が提案されているが、状態空間が大きな濃度で離散的である場合や高次元で連続している場合、これらの手法は依然として高い複雑さに悩まされている。 逆強化学習(IRL)文学における他のアプローチは、報酬推定精度の低下を犠牲にして政策推定を強調する。 本稿では,報酬推定精度を損なうことなく,高次元状態空間を扱うことができる有限時間保証付き単一ループ推定アルゴリズムを提案する。 提案アルゴリズムでは,各ポリシー改善ステップを確率的勾配ステップで追従し,最大化を行う。 提案アルゴリズムは有限時間保証付き定常解に収束することを示す。 さらに, 報酬が線形にパラメータ化される場合, アルゴリズムは極大推定器を線形に近似することを示す。 最後に、MuJoCoにおけるロボット制御問題とその転送設定を用いて、提案アルゴリズムが他のIRLや模倣学習ベンチマークと比較して優れた性能を達成することを示す。

We consider the task of estimating a structural model of dynamic decisions by a human agent based upon the observable history of implemented actions and visited states. This problem has an inherent nested structure: in the inner problem, an optimal policy for a given reward function is identified while in the outer problem, a measure of fit is maximized. Several approaches have been proposed to alleviate the computational burden of this nested-loop structure, but these methods still suffer from high complexity when the state space is either discrete with large cardinality or continuous in high dimensions. Other approaches in the inverse reinforcement learning (IRL) literature emphasize policy estimation at the expense of reduced reward estimation accuracy. In this paper we propose a single-loop estimation algorithm with finite time guarantees that is equipped to deal with high-dimensional state spaces without compromising reward estimation accuracy. In the proposed algorithm, each policy improvement step is followed by a stochastic gradient step for likelihood maximization. We show that the proposed algorithm converges to a stationary solution with a finite-time guarantee. Further, if the reward is parameterized linearly, we show that the algorithm approximates the maximum likelihood estimator sublinearly. Finally, by using robotics control problems in MuJoCo and their transfer settings, we show that the proposed algorithm achieves superior performance compared with other IRL and imitation learning benchmarks.
翻訳日:2022-10-05 12:56:48 公開日:2022-10-04
# 集約出力による回帰のアクティブラーニング

Active Learning for Regression with Aggregated Outputs ( http://arxiv.org/abs/2210.01329v1 )

ライセンス: Link先を確認
Tomoharu Iwata(参考訳) プライバシ保護やデータ収集の難しさのため、各インスタンスの個々のアウトプットは監視できませんが、実際のアプリケーションでは、複数のインスタンスにまたがってまとめられたアウトプットを観測できます。 このような集約データに対する回帰モデルの学習におけるラベリングコストを低減するために,ラベリング対象のセットを順次選択し,ラベル付きセットを少なくして予測性能を向上させるアクティブラーニング手法を提案する。 提案手法では,モデルパラメータの不確かさの低減を,集計出力を観測することで定量化する相互情報を用いる。 ガウス過程やニューラルネットワークを含む入力をモデル化するためのベイズ線形基底関数を用いることで、相互情報をクローズドな形式で効率的に計算することができる。 種々のデータセットを用いた実験により,提案手法は既存の手法よりもラベル付き集合が少なく,予測性能が向上することを示した。

Due to the privacy protection or the difficulty of data collection, we cannot observe individual outputs for each instance, but we can observe aggregated outputs that are summed over multiple instances in a set in some real-world applications. To reduce the labeling cost for training regression models for such aggregated data, we propose an active learning method that sequentially selects sets to be labeled to improve the predictive performance with fewer labeled sets. For the selection measurement, the proposed method uses the mutual information, which quantifies the reduction of the uncertainty of the model parameters by observing the aggregated output. With Bayesian linear basis functions for modeling outputs given an input, which include approximated Gaussian processes and neural networks, we can efficiently calculate the mutual information in a closed form. With the experiments using various datasets, we demonstrate that the proposed method achieves better predictive performance with fewer labeled sets than existing methods.
翻訳日:2022-10-05 12:56:28 公開日:2022-10-04
# 決定理論エントロピーによるベイズ最適化の一般化

Generalizing Bayesian Optimization with Decision-theoretic Entropies ( http://arxiv.org/abs/2210.01383v1 )

ライセンス: Link先を確認
Willie Neiswanger, Lantao Yu, Shengjia Zhao, Chenlin Meng, Stefano Ermon(参考訳) ベイズ最適化(英: bayesian optimization、bo)は、クエリのシーケンスを介して高価なブラックボックス関数のオプティマを効率的に推測する一般的な手法である。 既存の情報理論BO手順は、シャノンエントロピーによって不確実性が捕捉されるオプティマに関する不確実性を最も少なくするクエリを作成することを目的としている。 しかしながら、不確実性の最適尺度は、理想的には、下流の手順で推測された量を使う方法に影響を及ぼす。 そこで本論文では,統計的決定論(DeGroot 1962, Rao 1984)におけるシャノンエントロピーの一般化について考察する。 まず, このエントロピーの特殊な事例は, 知識勾配, 期待された改善, エントロピー探索などのBO手順で広く用いられている獲得関数につながることを示す。 次に、新しい最適化設定で使用するためにカスタマイズできる柔軟な獲得関数群を、損失に対する代替選択肢がいかに生み出すかを示す。 さらに,提案する獲得関数群を効率的に最適化するための勾配ベース手法を開発し,上位$k$最適化,マルチレベル集合推定,シーケンス探索などを含む多様な逐次的意思決定タスクにおいて,強い経験的性能を示す。

Bayesian optimization (BO) is a popular method for efficiently inferring optima of an expensive black-box function via a sequence of queries. Existing information-theoretic BO procedures aim to make queries that most reduce the uncertainty about optima, where the uncertainty is captured by Shannon entropy. However, an optimal measure of uncertainty would, ideally, factor in how we intend to use the inferred quantity in some downstream procedure. In this paper, we instead consider a generalization of Shannon entropy from work in statistical decision theory (DeGroot 1962, Rao 1984), which contains a broad class of uncertainty measures parameterized by a problem-specific loss function corresponding to a downstream task. We first show that special cases of this entropy lead to popular acquisition functions used in BO procedures such as knowledge gradient, expected improvement, and entropy search. We then show how alternative choices for the loss yield a flexible family of acquisition functions that can be customized for use in novel optimization settings. Additionally, we develop gradient-based methods to efficiently optimize our proposed family of acquisition functions, and demonstrate strong empirical performance on a diverse set of sequential decision making tasks, including variants of top-$k$ optimization, multi-level set estimation, and sequence search.
翻訳日:2022-10-05 12:56:12 公開日:2022-10-04
# ベイズの最適緩和としてのSAM

SAM as an Optimal Relaxation of Bayes ( http://arxiv.org/abs/2210.01620v1 )

ライセンス: Link先を確認
Thomas M\"ollenhoff, Mohammad Emtiyaz Khan(参考訳) シャープネスを意識した最小化(SAM)およびそれに関連する逆深層学習法は、一般化を大幅に改善することができるが、その基盤となるメカニズムはまだ完全には理解されていない。 そこで我々は,いわゆるフェンシェル双共役を用いて得られた最適凸下界に,期待負損失が置き換えられるベイズ目標の緩和としてsamを定式化する。 この接続により、新しいAdamのようなSAMの拡張が自動的に妥当な不確実性の推定値を得ることができ、時には精度も向上する。 敵対的手法とベイズ的手法をつなぐことで、我々の研究は堅牢性への新しい道を開きます。

Sharpness-aware minimization (SAM) and related adversarial deep-learning methods can drastically improve generalization, but their underlying mechanisms are not yet fully understood. Here, we establish SAM as a relaxation of the Bayes objective where the expected negative-loss is replaced by the optimal convex lower bound, obtained by using the so-called Fenchel biconjugate. The connection enables a new Adam-like extension of SAM to automatically obtain reasonable uncertainty estimates, while sometimes also improving its accuracy. By connecting adversarial and Bayesian methods, our work opens a new path to robustness.
翻訳日:2022-10-05 12:55:49 公開日:2022-10-04
# L-無限ロバスト性認定のためのリプシッツニューラルネットワークの再検討

Rethinking Lipschitz Neural Networks for Certified L-infinity Robustness ( http://arxiv.org/abs/2210.01787v1 )

ライセンス: Link先を確認
Bohang Zhang, Du Jiang, Di He, Liwei Wang(参考訳) リプシッツ定数が有界なニューラルネットワークの設計は、敵の例に対して確実に堅牢な分類器を得るための有望な方法である。 しかし、重要な$\ell_\infty$摂動設定の関連する進歩は、かなり限定的であり、表現力のある$\ell_\infty$ lipschitzネットワークを設計する方法に関する原則的な理解はまだ不足している。 本稿では, ブール関数を表す新しい視点から, 証明された$\ell_\infty$のロバスト性を研究することによって, ギャップを埋める。 我々は、有限データセット上のロバスト分類とリプシッツ関数近似という、任意の標準リプシッツネットワークに対して保持される2つの基本的な不可能性を導出する。 これらの結果は、通常のアフィン層とリプシッツ活性化上に構築されたネットワークが、2次元の場合においても本質的に表現力を失うことを明らかにし、最近提案されたリプシッツネットワーク(groupsort や $\ell_\infty$- distance nets)がこれらの不合理性を回避し、秩序統計関数を活用できることを示す。 最後に,これらの知見に基づいて,先行研究を一般化した統一型リプシッツネットワークを開発し,効率的なトレーニングが可能な実用版(認定ロバストトレーニングを無償にすること)を設計する。 広範な実験によって、当社のアプローチはスケーラブルで効率的であり、従来のリプシッツネットワークよりも、複数のデータセットと摂動ラジエーションにおいて、より優れた認証堅牢性を実現しています。

Designing neural networks with bounded Lipschitz constant is a promising way to obtain certifiably robust classifiers against adversarial examples. However, the relevant progress for the important $\ell_\infty$ perturbation setting is rather limited, and a principled understanding of how to design expressive $\ell_\infty$ Lipschitz networks is still lacking. In this paper, we bridge the gap by studying certified $\ell_\infty$ robustness from a novel perspective of representing Boolean functions. We derive two fundamental impossibility results that hold for any standard Lipschitz network: one for robust classification on finite datasets, and the other for Lipschitz function approximation. These results identify that networks built upon norm-bounded affine layers and Lipschitz activations intrinsically lose expressive power even in the two-dimensional case, and shed light on how recently proposed Lipschitz networks (e.g., GroupSort and $\ell_\infty$-distance nets) bypass these impossibilities by leveraging order statistic functions. Finally, based on these insights, we develop a unified Lipschitz network that generalizes prior works, and design a practical version that can be efficiently trained (making certified robust training free). Extensive experiments show that our approach is scalable, efficient, and consistently yields better certified robustness across multiple datasets and perturbation radii than prior Lipschitz networks.
翻訳日:2022-10-05 12:55:38 公開日:2022-10-04
# システム一般化のためのニューラルシンボリック再帰機械

Neural-Symbolic Recursive Machine for Systematic Generalization ( http://arxiv.org/abs/2210.01603v1 )

ライセンス: Link先を確認
Qing Li, Yixin Zhu, Yitao Liang, Ying Nian Wu, Song-Chun Zhu, Siyuan Huang(参考訳) 膨大な成功にもかかわらず、既存の機械学習モデルは、まだ人間のような体系的な一般化には欠かせない -- 限られたデータから構成規則を学習し、さまざまなドメインで目に見えない組み合わせに適用する。 本稿では,この障害に対処するためにニューラルシンボリック再帰機械(NSR)を提案する。 NSRの中核的な表現は、組合せ構文と意味論を備えたグラウンドドシンボルシステム(GSS)であり、完全にトレーニングデータから現れる。 知覚、構文、意味処理のための別個の脳システムを提案する神経科学の研究と同様に、nsrは神経知覚、構文解析、意味推論の類似のモジュールを実装している。 nsrは様々なシーケンスからシーケンスへのタスクをモデル化できるほど表現力が高いことが証明される。 上位の体系的一般化は、NSRに埋め込まれた等式と再帰性の帰納バイアスによって達成される。 実験では、NSRは意味解析のためのSCAN、文字列操作のためのPCFG、算術的推論のためのHINTの3つのベンチマークで最先端のパフォーマンスを達成する。 特に、NSRはSCANとPCFGで100%の一般化精度を達成し、HINTの最先端モデルを約23%上回っている。 我々のNSRは、その象徴的表現と帰納的バイアスにより、純粋なニューラルネットワークよりも強力な一般化を示す。 NSRはまた、ドメイン固有の知識が少ないため、既存のニューラルシンボリックアプローチよりも優れた転送可能性を示す。

Despite the tremendous success, existing machine learning models still fall short of human-like systematic generalization -- learning compositional rules from limited data and applying them to unseen combinations in various domains. We propose Neural-Symbolic Recursive Machine (NSR) to tackle this deficiency. The core representation of NSR is a Grounded Symbol System (GSS) with combinatorial syntax and semantics, which entirely emerges from training data. Akin to the neuroscience studies suggesting separate brain systems for perceptual, syntactic, and semantic processing, NSR implements analogous separate modules of neural perception, syntactic parsing, and semantic reasoning, which are jointly learned by a deduction-abduction algorithm. We prove that NSR is expressive enough to model various sequence-to-sequence tasks. Superior systematic generalization is achieved via the inductive biases of equivariance and recursiveness embedded in NSR. In experiments, NSR achieves state-of-the-art performance in three benchmarks from different domains: SCAN for semantic parsing, PCFG for string manipulation, and HINT for arithmetic reasoning. Specifically, NSR achieves 100% generalization accuracy on SCAN and PCFG and outperforms state-of-the-art models on HINT by about 23%. Our NSR demonstrates stronger generalization than pure neural networks due to its symbolic representation and inductive biases. NSR also demonstrates better transferability than existing neural-symbolic approaches due to less domain-specific knowledge required.
翻訳日:2022-10-05 12:54:46 公開日:2022-10-04
# グローバルフォワードおよび逆トーンマッピングのための画像対からの蒸留スタイル

Distilling Style from Image Pairs for Global Forward and Inverse Tone Mapping ( http://arxiv.org/abs/2209.15165v2 )

ライセンス: Link先を確認
Aamir Mustafa, Param Hanji and Rafal K. Mantiuk(参考訳) フォワードや逆トーンマッピングやカラーグレーディングといった多くの画像強調や編集操作は、独自のソリューションではなく、それぞれ異なるスタイルを表す様々なソリューションを持っている。 それにもかかわらず、既存の学習ベースの手法はこのスタイルを無視してユニークなマッピングを学習しようとする。 本研究では,このスタイルに関する情報を画像対の集合から蒸留し,2次元あるいは3次元ベクトルに符号化できることを示す。 これにより、効率的な表現だけでなく、画像スタイルを編集するための解釈可能な潜在空間も提供されます。 画素色に基づく多項式条件を条件とした,画像対間のグローバルカラーマッピングをカスタム正規化フローとして表現する。 このようなネットワークは,低次元空間における画像スタイルの符号化においてPCAやVAEよりも有効であることが示され,40dBに近い精度が得られる。

Many image enhancement or editing operations, such as forward and inverse tone mapping or color grading, do not have a unique solution, but instead a range of solutions, each representing a different style. Despite this, existing learning-based methods attempt to learn a unique mapping, disregarding this style. In this work, we show that information about the style can be distilled from collections of image pairs and encoded into a 2- or 3-dimensional vector. This gives us not only an efficient representation but also an interpretable latent space for editing the image style. We represent the global color mapping between a pair of images as a custom normalizing flow, conditioned on a polynomial basis of the pixel color. We show that such a network is more effective than PCA or VAE at encoding image style in low-dimensional space and lets us obtain an accuracy close to 40 dB, which is about 7-10 dB improvement over the state-of-the-art methods.
翻訳日:2022-10-05 10:42:40 公開日:2022-10-04
# 人文推定のための熱マップ分布マッチング

Heatmap Distribution Matching for Human Pose Estimation ( http://arxiv.org/abs/2210.00740v2 )

ライセンス: Link先を確認
Haoxuan Qu, Li Xu, Yujun Cai, Lin Geng Foo, Jun Liu(参考訳) 2次元人格推定の課題に取り組むため,近年の手法の多くは,この課題をヒートマップ推定問題として捉え,ガウス型ヒートマップを最適化目的とし,画素方向損失(mse)を損失関数として利用するヒートマップ予測を最適化している。 本稿では,本課題の本質的な目的である身体関節局所化のモデル性能を熱マップ予測の最適化過程において一貫した改善が得られないことを示す。 この問題に対処するため,新しい観点から,予測熱マップと生体関節のドットアノテーションとの分布マッチング問題として,熱マップ予測の最適化を定式化することを提案する。 これにより,提案手法はガウス式ヒートマップを構築する必要がなく,ヒートマップ予測の最適化時により一貫したモデル性能向上を実現することができる。 提案手法の有効性を,COCOデータセットとMPIIデータセットの広範な実験により示す。

For tackling the task of 2D human pose estimation, the great majority of the recent methods regard this task as a heatmap estimation problem, and optimize the heatmap prediction using the Gaussian-smoothed heatmap as the optimization objective and using the pixel-wise loss (e.g. MSE) as the loss function. In this paper, we show that optimizing the heatmap prediction in such a way, the model performance of body joint localization, which is the intrinsic objective of this task, may not be consistently improved during the optimization process of the heatmap prediction. To address this problem, from a novel perspective, we propose to formulate the optimization of the heatmap prediction as a distribution matching problem between the predicted heatmap and the dot annotation of the body joint directly. By doing so, our proposed method does not need to construct the Gaussian-smoothed heatmap and can achieve a more consistent model performance improvement during the optimization of the heatmap prediction. We show the effectiveness of our proposed method through extensive experiments on the COCO dataset and the MPII dataset.
翻訳日:2022-10-05 10:42:25 公開日:2022-10-04
# リカレントニューラルネットワークにおける知的財産権保護のための恥ずかしい簡単なアプローチ

An Embarrassingly Simple Approach for Intellectual Property Rights Protection on Recurrent Neural Networks ( http://arxiv.org/abs/2210.00743v2 )

ライセンス: Link先を確認
Zhi Qin Tan, Hao Shan Wong, Chee Seng Chan(参考訳) ディープラーニングモデルに注力し、機械学習・アズ・ア・サービス(MLaaS)の一部として自然言語処理(NLP)ソリューションを提供する。 同時に、これらの有益な深層モデルの作成は自明ではないことが知られている。 したがって、これらの発明の知的財産権(IPR)の侵害、盗難、盗難の防止が不可欠である。 本稿では,既存の IPR ソリューションのすべての鐘や笛を使わずに,リカレントニューラルネットワーク(RNN)における IPR 保護のための実践的アプローチを提案する。 特に,キーを埋め込むためのRNNアーキテクチャの繰り返しの性質に類似したGatekeeperの概念を導入する。 また,保護されたRNNモデルが元の性能フリップを真のキーとして保持するように,モデルトレーニングスキームを設計する。 広汎な実験により,我々の保護スキームは,異なるRNN変種に対するホワイトボックスおよびブラックボックス保護スキームのあいまいさと除去攻撃に対して堅牢かつ効果的であることが判明した。 コードはhttps://github.com/zhiqin1998/recurrentiprで入手できる。

Capitalise on deep learning models, offering Natural Language Processing (NLP) solutions as a part of the Machine Learning as a Service (MLaaS) has generated handsome revenues. At the same time, it is known that the creation of these lucrative deep models is non-trivial. Therefore, protecting these inventions intellectual property rights (IPR) from being abused, stolen and plagiarized is vital. This paper proposes a practical approach for the IPR protection on recurrent neural networks (RNN) without all the bells and whistles of existing IPR solutions. Particularly, we introduce the Gatekeeper concept that resembles the recurrent nature in RNN architecture to embed keys. Also, we design the model training scheme in a way such that the protected RNN model will retain its original performance iff a genuine key is presented. Extensive experiments showed that our protection scheme is robust and effective against ambiguity and removal attacks in both white-box and black-box protection schemes on different RNN variants. Code is available at https://github.com/zhiqin1998/RecurrentIPR
翻訳日:2022-10-05 10:42:07 公開日:2022-10-04
# グラディエントDescentの背景:基底関数分解による軌道解析

Behind the Scenes of Gradient Descent: A Trajectory Analysis via Basis Function Decomposition ( http://arxiv.org/abs/2210.00346v2 )

ライセンス: Link先を確認
Jianhao Ma, Lingjun Guo, Salar Fattahi(参考訳) この研究は、新しい基底関数分解による勾配アルゴリズムの解軌道を解析する。 グラデーションに基づくアルゴリズムの解の軌跡は学習タスクによって異なるが、適切な正規直交関数基底に投影された場合、ほとんど単調に振る舞う。 このような射影は、解軌道の基底関数分解を引き起こす。 理論的には,提案する基底関数分解を用いて,いくつかの代表的な学習タスクにおける勾配降下(gd)の収束性を確立する。 特に、対称行列因子分解におけるgdの収束を改善し、直交対称テンソル分解に対して完全に新しい収束結果を与える。 経験的に、我々は、異なるアーキテクチャ、勾配ベースの解法、データセットをまたいだ、現実的なディープニューラルネットワーク(dnn)に関する提案フレームワークの約束を示す。 我々の重要な発見は、勾配に基づくアルゴリズムが訓練後に共役核の固有ベクトルとして定義されるDNNの特定の正規正規関数基底の係数を単調に学習することである。 私たちのコードはhttps://github.com/jianhaoma/function-basis-decompositionで利用可能です。

This work analyzes the solution trajectory of gradient-based algorithms via a novel basis function decomposition. We show that, although solution trajectories of gradient-based algorithms may vary depending on the learning task, they behave almost monotonically when projected onto an appropriate orthonormal function basis. Such projection gives rise to a basis function decomposition of the solution trajectory. Theoretically, we use our proposed basis function decomposition to establish the convergence of gradient descent (GD) on several representative learning tasks. In particular, we improve the convergence of GD on symmetric matrix factorization and provide a completely new convergence result for the orthogonal symmetric tensor decomposition. Empirically, we illustrate the promise of our proposed framework on realistic deep neural networks (DNNs) across different architectures, gradient-based solvers, and datasets. Our key finding is that gradient-based algorithms monotonically learn the coefficients of a particular orthonormal function basis of DNNs defined as the eigenvectors of the conjugate kernel after training. Our code is available at https://github.com/jianhaoma/function-basis-decomposition.
翻訳日:2022-10-05 10:41:46 公開日:2022-10-04
# 一般状態と作用空間をもつマルコフ決定過程に対する素数双回帰アプローチ

Primal-dual regression approach for Markov decision processes with general state and action space ( http://arxiv.org/abs/2210.00258v2 )

ライセンス: Link先を確認
Denis Belomestny and John Schoenmakers(参考訳) 我々は,有限時間地平線MDPを一般状態と行動空間で解くための回帰に基づく原始双対マーチンゲール手法を開発した。 その結果,提案手法では,値関数の上下のバイアス付き近似値の構成が可能となり,最適方針への厳密な近似値が得られる。 特に, 時間軸に対する多項式依存性と, 無限状態と作用空間の濃度・次元に対する部分線形依存性を特徴とする推定双対性ギャップに対する厳密な誤差境界を証明し, 計算学的観点からは, 文献における最適制御問題に対する通常の双対性に基づく手法とは対照的に, モンテカルロ手順はネストシミュレーションを必要としないため, 提案手法は効率的である。

We develop a regression based primal-dual martingale approach for solving finite time horizon MDPs with general state and action space. As a result, our method allows for the construction of tight upper and lower biased approximations of the value functions, and, provides tight approximations to the optimal policy. In particular, we prove tight error bounds for the estimated duality gap featuring polynomial dependence on the time horizon, and sublinear dependence on the cardinality/dimension of the possibly infinite state and action space.From a computational point of view the proposed method is efficient since, in contrast to usual duality-based methods for optimal control problems in the literature, the Monte Carlo procedures here involved do not require nested simulations.
翻訳日:2022-10-05 10:41:29 公開日:2022-10-04
# impnet: コンパイル型ニューラルネットワークにおけるインセプタブルおよびブラックボックス検出不能バックドア

ImpNet: Imperceptible and blackbox-undetectable backdoors in compiled neural networks ( http://arxiv.org/abs/2210.00108v2 )

ライセンス: Link先を確認
Tim Clifford, Ilia Shumailov, Yiren Zhao, Ross Anderson, Robert Mullins(参考訳) 機械学習に対する初期のバックドア攻撃は、攻撃と防衛開発で武器競争を開始した。 防衛隊はその後、モデル内のバックドアを検知したり、取り除いたりできる能力を示した。 これらの防御は、訓練手順の訓練データ、モデル、または整合性を検査することで機能する。 本研究では,データ準備とモデルトレーニングの段階でのセーフガードを回避して,コンパイル中にバックドアを追加できることを示す。 例示として、攻撃者はトレーニングやデータ準備プロセスでは検出されないハードウェアコンパイルステップ中に、重みベースのバックドアを挿入することができる。 次に、ImpNetのようなバックドアは、挿入された時にのみ確実に検出でき、他の場所で削除することは重大な課題であることを示す。 機械学習モデルのセキュリティには、データ、モデルアーキテクチャ、コンパイラ、ハードウェア仕様を含む、技術パイプライン全体の保証が必要であると結論付けた。

Early backdoor attacks against machine learning set off an arms race in attack and defence development. Defences have since appeared demonstrating some ability to detect backdoors in models or even remove them. These defences work by inspecting the training data, the model, or the integrity of the training procedure. In this work, we show that backdoors can be added during compilation, circumventing any safeguards in the data preparation and model training stages. As an illustration, the attacker can insert weight-based backdoors during the hardware compilation step that will not be detected by any training or data-preparation process. Next, we demonstrate that some backdoors, such as ImpNet, can only be reliably detected at the stage where they are inserted and removing them anywhere else presents a significant challenge. We conclude that machine-learning model security requires assurance of provenance along the entire technical pipeline, including the data, model architecture, compiler, and hardware specification.
翻訳日:2022-10-05 10:41:14 公開日:2022-10-04
# 数値推論による関係プログラム合成

Relational program synthesis with numerical reasoning ( http://arxiv.org/abs/2210.00764v2 )

ライセンス: Link先を確認
C\'eline Hocquette and Andrew Cropper(参考訳) プログラム合成アプローチは、数値でプログラムを学ぶのに苦労する。 特に難しい問題は、間隔のような複数の例で連続的な値を学ぶことだ。 この制限を克服するために,関係学習と数値推論を組み合わせた帰納的論理プログラミング手法を提案する。 我々の手法はNUMSYNTHと呼ばれ、満足度変調理論を用いて数値付きプログラムを効率的に学習する。 提案手法は,実差分論理のような線形算術的断片の数値を実数や整数のような無限領域から同定することができる。 ゲームプレイとプログラム合成を含む4つの異なる領域に関する実験は、我々のアプローチが可能であることを示す。 (i)線形算術推論から数値を用いたプログラムを学習する。 (ii)予測能力や学習時間の観点から既存のアプローチを上回っている。

Program synthesis approaches struggle to learn programs with numerical values. An especially difficult problem is learning continuous values over multiple examples, such as intervals. To overcome this limitation, we introduce an inductive logic programming approach which combines relational learning with numerical reasoning. Our approach, which we call NUMSYNTH, uses satisfiability modulo theories solvers to efficiently learn programs with numerical values. Our approach can identify numerical values in linear arithmetic fragments, such as real difference logic, and from infinite domains, such as real numbers or integers. Our experiments on four diverse domains, including game playing and program synthesis, show that our approach can (i) learn programs with numerical values from linear arithmetical reasoning, and (ii) outperform existing approaches in terms of predictive accuracies and learning times.
翻訳日:2022-10-05 10:40:58 公開日:2022-10-04
# x86のDeep Neural Network Executableのデコンパイル

Decompiling x86 Deep Neural Network Executables ( http://arxiv.org/abs/2210.01075v2 )

ライセンス: Link先を確認
Zhibo Liu, Yuanyuan Yuan, Shuai Wang, Xiaofei Xie, Lei Ma(参考訳) 異種ハードウェアデバイスで広く使われているため、ディープラーニング(dl)モデルはdlコンパイラによって実行可能にコンパイルされ、低レベルのハードウェアプリミティブを十分に活用する。 このアプローチにより、cpu、gpu、様々なハードウェアアクセラレータを含む様々なコンピューティングプラットフォームで、dl計算を低コストで実行することができる。 本稿では、ディープニューラルネットワーク(DNN)実行ファイルの逆コンパイラであるBTD(Bin to DNN)を提案する。 BTDはDNNの実行可能ファイルを取得し、DNN演算子、ネットワークトポロジ、次元、および(ほぼ)入力モデルと同一のパラメータを含む完全なモデル仕様を出力する。 BTDは、異なるDLコンパイラでコンパイルされたDNN実行ファイルを処理するための実用的なフレームワークを提供する。 dnn演算子を推論する学習ベースの手法、ネットワークアーキテクチャを明らかにする動的解析、dnnオペレータの次元やパラメータを推論するためのシンボリックな実行を用いる。 我々の評価では、BTDは数百万のパラメータ(ResNetなど)を持つ複雑なDNNの完全な仕様の正確な回復を可能にする。 復元されたDNN仕様は、入力実行ファイルと同一の振る舞いを示す新しいDNN実行ファイルに再コンパイルすることができる。 BTDは, DNN実行環境に対して, 逆例生成と知識盗難の2つの代表的な攻撃を促進できることを示す。 また,btdを用いたアーキテクチャ上のレガシコードの再利用を実証し,dnnセキュリティ強化やパッチ適用など,他の重要なダウンストリームタスクにbtdが使用されることを想定した。

Due to their widespread use on heterogeneous hardware devices, deep learning (DL) models are compiled into executables by DL compilers to fully leverage low-level hardware primitives. This approach allows DL computations to be undertaken at low cost across a variety of computing platforms, including CPUs, GPUs, and various hardware accelerators. We present BTD (Bin to DNN), a decompiler for deep neural network (DNN) executables. BTD takes DNN executables and outputs full model specifications, including types of DNN operators, network topology, dimensions, and parameters that are (nearly) identical to those of the input models. BTD delivers a practical framework to process DNN executables compiled by different DL compilers and with full optimizations enabled on x86 platforms. It employs learning-based techniques to infer DNN operators, dynamic analysis to reveal network architectures, and symbolic execution to facilitate inferring dimensions and parameters of DNN operators. Our evaluation reveals that BTD enables accurate recovery of full specifications of complex DNNs with millions of parameters (e.g., ResNet). The recovered DNN specifications can be re-compiled into a new DNN executable exhibiting identical behavior to the input executable. We show that BTD can boost two representative attacks, adversarial example generation and knowledge stealing, against DNN executables. We also demonstrate cross-architecture legacy code reuse using BTD, and envision BTD being used for other critical downstream tasks like DNN security hardening and patching.
翻訳日:2022-10-05 10:40:47 公開日:2022-10-04
# 重要重量によるステイン変分勾配明度の改善

Improved Stein Variational Gradient Descent with Importance Weights ( http://arxiv.org/abs/2210.00462v2 )

ライセンス: Link先を確認
Lukang Sun and Peter Richt\'arik(参考訳) Stein Variational Gradient Descent (SVGD) は、機械学習タスクでよく使われるサンプリングアルゴリズムである。 SVGDは、Kullback-Leiblerの発散である$D_{KL}\left(\cdot\mid\pi\right)$の核化勾配フローの離散化から生じることが知られている。 本稿では,重要度重みの導入によるsvgdの拡張を提案し,$\beta$-svgd という新しい手法を提案する。 連続時間と無限粒子状態において、スタイン・フィッシャーの情報によって定量化された平衡分布 $\pi$ にこの流れが収束する時間は、$\rho_0$ と $\pi$ に非常に弱い。 これは、Kulback-Leibler分散の核化勾配フローとは大きく異なり、時間複雑性は$D_{KL}\left(\rho_0\mid\pi\right)$に依存する。 ある仮定の下では、人口制限に対する降下補題を$\beta$-SVGDとし、これは人口制限に対する降下補題を$\beta\to 0$のときにカバーする。 また,簡単な実験によりSVGDに対して$\beta$-SVGDの利点を示す。

Stein Variational Gradient Descent (SVGD) is a popular sampling algorithm used in various machine learning tasks. It is well known that SVGD arises from a discretization of the kernelized gradient flow of the Kullback-Leibler divergence $D_{KL}\left(\cdot\mid\pi\right)$, where $\pi$ is the target distribution. In this work, we propose to enhance SVGD via the introduction of importance weights, which leads to a new method for which we coin the name $\beta$-SVGD. In the continuous time and infinite particles regime, the time for this flow to converge to the equilibrium distribution $\pi$, quantified by the Stein Fisher information, depends on $\rho_0$ and $\pi$ very weakly. This is very different from the kernelized gradient flow of Kullback-Leibler divergence, whose time complexity depends on $D_{KL}\left(\rho_0\mid\pi\right)$. Under certain assumptions, we provide a descent lemma for the population limit $\beta$-SVGD, which covers the descent lemma for the population limit SVGD when $\beta\to 0$. We also illustrate the advantages of $\beta$-SVGD over SVGD by simple experiments.
翻訳日:2022-10-05 10:40:07 公開日:2022-10-04
# 微分プライベートバイアス項のみの基礎モデルの微調整

Differentially Private Bias-Term only Fine-tuning of Foundation Models ( http://arxiv.org/abs/2210.00036v2 )

ライセンス: Link先を確認
Zhiqi Bu, Yu-Xiang Wang, Sheng Zha, George Karypis(参考訳) 我々は、大規模な事前訓練されたモデルの差分プライベート(DP)微調整(differentially private)の問題について検討する。 既存の研究は、高いプライバシー制約の下で高い精度が可能であることを示したが、ネットワークアーキテクチャへの大幅な計算オーバーヘッドや修正が必要である。 DPアルゴリズムの最先端精度と標準BiTFiTの効率とを一致させる差分プライベートバイアス項微調整(DP-BiTFiT)を提案する。 DP-BiTFiTは、モデル非依存(ネットワークアーキテクチャを変更しない)、パラメータ効率(パラメータの約0.1セントのトレーニングのみ)、計算効率(時間と空間の複雑さの両方でDPによって引き起こされるオーバーヘッドを取り除く)である。 幅広いタスクにおいて、dp-bitfitは$2\sim 30\times$高速で、$2\sim 8\times$ dp full fine-tuningよりもメモリ使用量が少ない。 この驚くべき効率により,従来の手法では計算が困難であった長文および高解像度画像を用いて,言語および視覚タスクのDP微調整を行うことができる。

We study the problem of differentially private (DP) fine-tuning of large pre-trained models -- a recent privacy-preserving approach suitable for solving downstream tasks with sensitive data. Existing work has demonstrated that high accuracy is possible under strong privacy constraint, yet requires significant computational overhead or modifications to the network architecture. We propose differentially private bias-term fine-tuning (DP-BiTFiT), which matches the state-of-the-art accuracy for DP algorithms and the efficiency of the standard BiTFiT. DP-BiTFiT is model agnostic (not modifying the network architecture), parameter efficient (only training about $0.1\%$ of the parameters), and computation efficient (almost removing the overhead caused by DP, in both the time and space complexity). On a wide range of tasks, DP-BiTFiT is $2\sim 30\times$ faster and uses $2\sim 8\times$ less memory than DP full fine-tuning, even faster than the standard full fine-tuning. This amazing efficiency enables us to conduct DP fine-tuning on language and vision tasks with long-sequence texts and high-resolution images, which were computationally difficult using existing methods.
翻訳日:2022-10-05 10:33:54 公開日:2022-10-04
# CAST:適応セグメントトークンによる同時認識とセグメンテーション

CAST: Concurrent Recognition and Segmentation with Adaptive Segment Tokens ( http://arxiv.org/abs/2210.00314v2 )

ライセンス: Link先を確認
Tsung-Wei Ke, Jyh-Jing Hwang and Stella X. Yu(参考訳) 画像を認識してコヒーレントな領域に分割することは、しばしば別のタスクとして扱われる。 しかし、人間の視覚は認識される前にセグメンテーション階層の一般的な感覚を持っている。 したがって,ラベルなし画像に基づく階層的画像分割による画像認識の学習に着想を得た。 我々の洞察は、画像インスタンス間の識別を最大化しつつ、特徴誘発セグメンテーションの一貫性と良さを強制し、スーパーピクセル、セグメント、フルイメージレベルで並列に微調整機能を学ぶことである。 我々のモデルは3つの面で視覚トランスフォーマーを革新する。 1)固定形パッチトークンの代わりに適応セグメントトークンを使用する。 2) 変圧器ブロック間のグラフプーリングを挿入してトークン階層を作成し, セグメントサイズを増大させ, トークン数を減少させながら, 自然に一貫したマルチスケールセグメンテーションを創出する。 3) 画像識別の最大化による認識訓練中に, 自由な階層画像分割を行う。 我々の研究は、監督なしに最初の同時認識と階層分割モデルを提供します。 ImageNetとPASCAL VOCで検証され、高い計算効率でより良い認識とセグメンテーションを実現する。

Recognizing an image and segmenting it into coherent regions are often treated as separate tasks. Human vision, however, has a general sense of segmentation hierarchy before recognition occurs. We are thus inspired to learn image recognition with hierarchical image segmentation based entirely on unlabeled images. Our insight is to learn fine-to-coarse features concurrently at superpixels, segments, and full image levels, enforcing consistency and goodness of feature induced segmentations while maximizing discrimination among image instances. Our model innovates vision transformers on three aspects. 1) We use adaptive segment tokens instead of fixed-shape patch tokens. 2) We create a token hierarchy by inserting graph pooling between transformer blocks, naturally producing consistent multi-scale segmentations while increasing the segment size and reducing the number of tokens. 3) We produce hierarchical image segmentation for free while training for recognition by maximizing image-wise discrimination. Our work delivers the first concurrent recognition and hierarchical segmentation model without any supervision. Validated on ImageNet and PASCAL VOC, it achieves better recognition and segmentation with higher computational efficiency.
翻訳日:2022-10-05 10:33:33 公開日:2022-10-04
# 自己教師付き単眼深度推定:エッジファイティング問題を解く

Self-Supervised Monocular Depth Estimation: Solving the Edge-Fattening Problem ( http://arxiv.org/abs/2210.00411v2 )

ライセンス: Link先を確認
Xingyu Chen, Ruonan Zhang, Ji Jiang, Yan Wang, Ge Li, Thomas H. Li(参考訳) 自己教師付き単分子深度推定(MDE)モデルは、悪名高いエッジフェッテリング問題に普遍的に苦しむ。 計量学習に人気があるトリプルト損失は多くのコンピュータビジョンタスクで大きな成功を収めた。 本稿では,MDEにおけるパッチベースのトリプルト損失を再考し,ユビキタスエッジフェッテリング問題を緩和する。 MDEにおける生三重項損失の2つの欠点を示し、問題駆動型再設計を実証する。 まず,全ての負のサンプルに適用した最小演算子に基づく手法を提案する。 第2に、アンカー正距離とアンカー負距離を元の三重項内から分割し、負との相互効果なしに直接正を最適化する。 私たちの強力で汎用性のある三重項損失は、私たちのモデルがこれまでのsataをはるかに上回るだけでなく、多くの既存モデルに大幅なパフォーマンス向上をもたらすと同時に、余分な推論計算も導入していません。

Self-supervised monocular depth estimation (MDE) models universally suffer from the notorious edge-fattening issue. Triplet loss, popular for metric learning, has made a great success in many computer vision tasks. In this paper, we redesign the patch-based triplet loss in MDE to alleviate the ubiquitous edge-fattening issue. We show two drawbacks of the raw triplet loss in MDE and demonstrate our problem-driven redesigns. First, we present a min. operator based strategy applied to all negative samples, to prevent well-performing negatives sheltering the error of edge-fattening negatives. Second, we split the anchor-positive distance and anchor-negative distance from within the original triplet, which directly optimizes the positives without any mutual effect with the negatives. Extensive experiments show the combination of these two small redesigns can achieve unprecedented results: Our powerful and versatile triplet loss not only makes our model outperform all previous SoTA by a large margin, but also provides substantial performance boosts to a large number of existing models, while introducing no extra inference computation at all.
翻訳日:2022-10-05 10:33:13 公開日:2022-10-04
# 自己注意誘導による拡散モデルのサンプル品質改善

Improving Sample Quality of Diffusion Models Using Self-Attention Guidance ( http://arxiv.org/abs/2210.00939v2 )

ライセンス: Link先を確認
Susung Hong, Gyuseong Lee, Wooseok Jang, Seungryong Kim(参考訳) 画像生成のためのデファクト標準モデルであるgans(generative adversarial network)に続いて、ddm(denoising diffusion models)が積極的に研究され、高品質で多様性のある画像を生成する能力から強い注目を集めている。 しかし、内部の自己保持機構は、DDMのUNet内で機能する。 そこで本論文では,まず,ブラックボックス拡散モデルにおける自己着脱操作について検討し,仮説を構築する。 次に, 周波数解析を行い, 生成した物体との関係を検証し, 自己愛マップに関する仮説を検証する。 その結果,注目マップが生成画像の品質と密接に関連していることが判明した。 一方,ラベルなどの付加情報に基づく拡散誘導手法が提案されており,画像の品質が向上している。 これらの手法に着想を得て,既存の事前学習拡散モデルを誘導し,忠実度の高い画像を生成する中間自己アテンションマップに基づくラベルフリーガイダンスを提案する。 単独で使用する場合のサンプル品質の向上に加えて,ImageNet 128x128の分類器ガイダンスと組み合わせることで,結果がさらに改善されることを示す。

Following generative adversarial networks (GANs), a de facto standard model for image generation, denoising diffusion models (DDMs) have been actively researched and attracted strong attention due to their capability to generate images with high quality and diversity. However, the way the internal self-attention mechanism works inside the UNet of DDMs is under-explored. To unveil them, in this paper, we first investigate the self-attention operations within the black-boxed diffusion models and build hypotheses. Next, we verify the hypotheses about the self-attention map by conducting frequency analysis and testing the relationships with the generated objects. In consequence, we find out that the attention map is closely related to the quality of generated images. On the other hand, diffusion guidance methods based on additional information such as labels are proposed to improve the quality of generated images. Inspired by these methods, we present label-free guidance based on the intermediate self-attention map that can guide existing pretrained diffusion models to generate images with higher fidelity. In addition to the enhanced sample quality when used alone, we show that the results are further improved by combining our method with classifier guidance on ImageNet 128x128.
翻訳日:2022-10-05 10:32:53 公開日:2022-10-04
# ベイズ最適化における並列実験の新たなパラダイム

New Paradigms for Exploiting Parallel Experiments in Bayesian Optimization ( http://arxiv.org/abs/2210.01071v2 )

ライセンス: Link先を確認
Leonardo D. Gonz\'alez and Victor M. Zavala(参考訳) ベイズ最適化(BO)は閉ループ実験設計とブラックボックス最適化において最も効果的な手法の一つである。 しかし、BOの鍵となる制限は、本質的にシーケンシャルなアルゴリズムであり(ラウンド毎に1つの実験が提案されている)、したがって高スループット(並列)な実験を直接利用できないことである。 並列実験の活用を可能にするために、boフレームワークの多様な変更が文献に提案されているが、そのようなアプローチは並列化の程度に制限があり、冗長な実験(リソースの浪費と潜在的にパフォーマンスを損なう)につながる可能性がある。 本稿では,設計空間を分割するためにシステム構造を利用する新しい並列boパラダイムを提案する。 具体的には,性能関数のレベルセットに従って設計空間を分割する手法と,得られた性能関数の部分分離構造を利用する手法を提案する。 本研究は,リアクトルケーススタディを用いて広範な数値実験を行い,本論文で報告されている様々な最先端並列アルゴリズムに対するこれらの手法の有効性を検証した。 計算結果から,本手法は探索時間を大幅に削減し,グローバルな(局所的な)解を見つける確率を増大させることが示された。

Bayesian optimization (BO) is one of the most effective methods for closed-loop experimental design and black-box optimization. However, a key limitation of BO is that it is an inherently sequential algorithm (one experiment is proposed per round) and thus cannot directly exploit high-throughput (parallel) experiments. Diverse modifications to the BO framework have been proposed in the literature to enable exploitation of parallel experiments but such approaches are limited in the degree of parallelization that they can achieve and can lead to redundant experiments (thus wasting resources and potentially compromising performance). In this work, we present new parallel BO paradigms that exploit the structure of the system to partition the design space. Specifically, we propose an approach that partitions the design space by following the level sets of the performance function and an approach that exploits partially-separable structures of the performance function found. We conduct extensive numerical experiments using a reactor case study to benchmark the effectiveness of these approaches against a variety of state-of-the-art parallel algorithms reported in the literature. Our computational results show that our approaches significantly reduce the required search time and increase the probability of finding a global (rather than local) solution.
翻訳日:2022-10-05 10:32:33 公開日:2022-10-04
# MEIM:効率的かつ表現力のあるリンク予測のためのブロック項以外の多部埋め込みインタラクション

MEIM: Multi-partition Embedding Interaction Beyond Block Term Format for Efficient and Expressive Link Prediction ( http://arxiv.org/abs/2209.15597v2 )

ライセンス: Link先を確認
Hung Nghiep Tran, Atsuhiro Takasu(参考訳) 知識グラフ埋め込みは、知識グラフにおけるエンティティ間の欠落関係を予測することを目的としている。 ComplExのようなテンソル分解ベースのモデルは、実世界の知識グラフの規模が大きいため、効率性と表現性の間に良いトレードオフをもたらす。 最近のマルチパーティション埋め込み相互作用(MEI)モデルはブロック項テンソル形式を用いてこれらのモデルを仮定し、トレードオフのための体系的な解決策を提供する。 しかし、MEIにはいくつかの欠点があり、そのいくつかはその仮定されたテンソル分解モデルから引き継がれている。 本稿では,これらの欠点を取り上げ,ブロック項形式(meim)モデルを超えて改良された多成分埋め込み相互作用を紹介し,アンサンブル効果の独立コアテンソルと最大ランク写像のソフト直交性,および多成分埋め込みについて述べる。 MEIMは、高効率でありながら表現性を向上し、強力なベースラインを上回り、かなり小さな埋め込みサイズを用いて、難しいリンク予測ベンチマークの最先端の結果を得るのに役立ちます。 ソースコードはhttps://github.com/tranhunghiep/MEIM-KGEで公開されている。

Knowledge graph embedding aims to predict the missing relations between entities in knowledge graphs. Tensor-decomposition-based models, such as ComplEx, provide a good trade-off between efficiency and expressiveness, that is crucial because of the large size of real world knowledge graphs. The recent multi-partition embedding interaction (MEI) model subsumes these models by using the block term tensor format and provides a systematic solution for the trade-off. However, MEI has several drawbacks, some of which carried from its subsumed tensor-decomposition-based models. In this paper, we address these drawbacks and introduce the Multi-partition Embedding Interaction iMproved beyond block term format (MEIM) model, with independent core tensor for ensemble effects and soft orthogonality for max-rank mapping, in addition to multi-partition embedding. MEIM improves expressiveness while still being highly efficient, helping it to outperform strong baselines and achieve state-of-the-art results on difficult link prediction benchmarks using fairly small embedding sizes. The source code is released at https://github.com/tranhungnghiep/MEIM-KGE.
翻訳日:2022-10-05 10:32:13 公開日:2022-10-04
# 良性オートエンコーダ

Benign Autoencoders ( http://arxiv.org/abs/2210.00637v2 )

ライセンス: Link先を確認
Semyon Malamud, Andreas Schrimpf, Teng Andrea Xu, Giuseppe Matera and Antoine Didisheim(参考訳) 現代の機械学習アルゴリズムの成功は、次元還元による効率的なデータ表現と圧縮に大きく依存する。 この慣習は、データ処理が常に情報損失につながるという従来の直観と矛盾している。 私たちはこの直観が間違っていることを証明します。 任意の非凸問題に対して、モデル入力の圧縮によりモデル性能が向上する、より低い次元のデータ表現を抽出する最適な良性オートエンコーダ(bae)が存在する。 我々はBAEが学習モデルの圧縮性次元である多様体にデータを投影していることを証明する。 我々は、BAEの効率的な計算アルゴリズムを開発し、実装し、BAEが検討するデータセットのモデル性能を改善することを示す。 さらに、"悪性"データ次元を圧縮することで、BAEは学習をより安定して堅牢にする。

The success of modern machine learning algorithms depends crucially on efficient data representation and compression through dimensionality reduction. This practice seemingly contradicts the conventional intuition suggesting that data processing always leads to information loss. We prove that this intuition is wrong. For any non-convex problem, there exists an optimal, benign auto-encoder (BAE) extracting a lower-dimensional data representation that is strictly beneficial: Compressing model inputs improves model performance. We prove that BAE projects data onto a manifold whose dimension is the compressibility dimension of the learning model. We develop and implement an efficient algorithm for computing BAE and show that BAE improves model performance in every dataset we consider. Furthermore, by compressing "malignant" data dimensions, BAE makes learning more stable and robust.
翻訳日:2022-10-05 10:31:53 公開日:2022-10-04
# FLCert: テロ攻撃に対するフェデレーション学習はおそらく安全

FLCert: Provably Secure Federated Learning against Poisoning Attacks ( http://arxiv.org/abs/2210.00584v2 )

ライセンス: Link先を確認
Xiaoyu Cao, Zaixi Zhang, Jinyuan Jia, Neil Zhenqiang Gong(参考訳) その分散した性質から、フェデレートされた学習は、悪質なクライアントがローカルなトレーニングデータや/またはローカルなモデルのアップデートをクラウドサーバーに送信することでトレーニングプロセスに悪影響を及ぼすような、有毒な攻撃に対して脆弱である。 既存の防御策は、主にビザンチン・ロバスト連合学習法を利用するか、悪意のあるクライアントを検出する。 しかし、これらの防御は有毒な攻撃に対して保証可能なセキュリティ保証を持たず、より高度な攻撃に対して脆弱である可能性がある。 本研究は,悪意のあるクライアントの限定された有毒な攻撃に対して確実に安全である,連帯学習フレームワークであるflcertを提案することで,このギャップを埋めることを目的とする。 我々のキーとなるアイデアは、クライアントをグループに分割し、既存のフェデレーション学習手法を用いて各クライアントのグローバルモデルを学び、テスト入力を分類するために、グローバルモデルに多数票を投じることです。 具体的には、クライアントをグループ化し、各グループのクライアントをランダムにサンプリングするFLCert-Pと、クライアントを分離したグループに分割するFLCert-Dの2つの変種を提案する。 複数のデータセットに関する広範な実験により、FLCertがテスト入力に対して予測したラベルは、どんな悪質な攻撃であっても、有界なクライアントによって影響を受けていないことが判明した。

Due to its distributed nature, federated learning is vulnerable to poisoning attacks, in which malicious clients poison the training process via manipulating their local training data and/or local model updates sent to the cloud server, such that the poisoned global model misclassifies many indiscriminate test inputs or attacker-chosen ones. Existing defenses mainly leverage Byzantine-robust federated learning methods or detect malicious clients. However, these defenses do not have provable security guarantees against poisoning attacks and may be vulnerable to more advanced attacks. In this work, we aim to bridge the gap by proposing FLCert, an ensemble federated learning framework, that is provably secure against poisoning attacks with a bounded number of malicious clients. Our key idea is to divide the clients into groups, learn a global model for each group of clients using any existing federated learning method, and take a majority vote among the global models to classify a test input. Specifically, we consider two methods to group the clients and propose two variants of FLCert correspondingly, i.e., FLCert-P that randomly samples clients in each group, and FLCert-D that divides clients to disjoint groups deterministically. Our extensive experiments on multiple datasets show that the label predicted by our FLCert for a test input is provably unaffected by a bounded number of malicious clients, no matter what poisoning attacks they use.
翻訳日:2022-10-05 10:31:43 公開日:2022-10-04
# ゼロサムマルコフゲームにおけるポリシー最適化のラストイテレート収束の高速化

Faster Last-iterate Convergence of Policy Optimization in Zero-Sum Markov Games ( http://arxiv.org/abs/2210.01050v2 )

ライセンス: Link先を確認
Shicong Cen, Yuejie Chi, Simon S. Du, Lin Xiao(参考訳) マルチエージェント強化学習(marl:multi-agent reinforcement learning) — 複数のエージェントが共有動的環境で対話することを学ぶ – は、さまざまな重要なアプリケーションに浸透する。 単一エージェントRLにおけるポリシー最適化手法のグローバル収束の理解には大きな進歩があったが、MARLにおける効率的なポリシー最適化アルゴリズムの設計と分析は、残念ながら既存の理論によって高度に不十分に対処されている。 本稿では,競争的マルチエージェントrlの最も基本的な設定,すなわち2人プレイのゼロサムマルコフゲームに着目し,無限ホリゾンディスカウント設定と有限ホリゾンエピソディック設定の両方における均衡探索アルゴリズムについて検討する。 両エージェントの対称更新による単一ループポリシー最適化手法を提案する。この手法は,エントロピー規則化された楽観的乗算重み更新(OMWU)法を用いてポリシーを更新し,より遅い時間スケールで値を更新する。 本手法は,全情報表設定において,正則化量を制御することにより,正則化問題の量子化応答平衡に対する有限時間ラストイテレート線形収束をnash平衡にサブリニアラストイテレート収束に変換する。 我々の収束結果は最もよく知られたイテレーションの複雑さを改善し、競争的マルコフゲームにおけるポリシー最適化の理解を深める。

Multi-Agent Reinforcement Learning (MARL) -- where multiple agents learn to interact in a shared dynamic environment -- permeates across a wide range of critical applications. While there has been substantial progress on understanding the global convergence of policy optimization methods in single-agent RL, designing and analysis of efficient policy optimization algorithms in the MARL setting present significant challenges, which unfortunately, remain highly inadequately addressed by existing theory. In this paper, we focus on the most basic setting of competitive multi-agent RL, namely two-player zero-sum Markov games, and study equilibrium finding algorithms in both the infinite-horizon discounted setting and the finite-horizon episodic setting. We propose a single-loop policy optimization method with symmetric updates from both agents, where the policy is updated via the entropy-regularized optimistic multiplicative weights update (OMWU) method and the value is updated on a slower timescale. We show that, in the full-information tabular setting, the proposed method achieves a finite-time last-iterate linear convergence to the quantal response equilibrium of the regularized problem, which translates to a sublinear last-iterate convergence to the Nash equilibrium by controlling the amount of regularization. Our convergence results improve upon the best known iteration complexities, and lead to a better understanding of policy optimization in competitive Markov games.
翻訳日:2022-10-05 10:31:16 公開日:2022-10-04
# 過度パラメータ化されたReLUニューラルネットは最も単純なモデルを学ぶ:ニューラルアイソメトリーとエクサクサリカバリ

Overparameterized ReLU Neural Networks Learn the Simplest Models: Neural Isometry and Exact Recovery ( http://arxiv.org/abs/2209.15265v2 )

ライセンス: Link先を確認
Yifei Wang, Yixuan Hua, Emmanuel Cand\'es, Mert Pilanci(参考訳) ディープラーニングの実践は、極端な数の学習パラメータでもニューラルネットワークが著しく一般化することを示している。 これは、モデルの複雑さとデータへの適合のトレードオフが不可欠である従来の統計知識と矛盾しているように見える。 この不一致を凸最適化とスパースリカバリの観点から解決しようとした。 標準重崩壊正則化をもつ2層ReLUネットワークのトレーニングと一般化特性について考察する。 データ上の一定の規則性仮定の下で、任意の数のパラメータを持つReLUネットワークが、データを説明する単純なモデルのみを学ぶことを示す。 これは圧縮センシングにおける最遠線形モデルの回復に類似している。 ReLUネットワークと、スキップ接続や正規化層を持つ変種に対しては、植えられたニューロンの正確な回復を保証する等尺条件を示す。 ランダムに生成したデータに対して,ニューラルネットワークモデルの回復における相転移の存在を示す。 サンプル数と次元の比率が数値しきい値を超えると、回復は高い確率で成功し、そうでない場合は高い確率で失敗する。 驚いたことに、ReLUネットワークはラベルがうるさい場合でもシンプルでスパースなモデルを学ぶ。 相転移現象は数値実験により確認される。

The practice of deep learning has shown that neural networks generalize remarkably well even with an extreme number of learned parameters. This appears to contradict traditional statistical wisdom, in which a trade-off between model complexity and fit to the data is essential. We set out to resolve this discrepancy from a convex optimization and sparse recovery perspective. We consider the training and generalization properties of two-layer ReLU networks with standard weight decay regularization. Under certain regularity assumptions on the data, we show that ReLU networks with an arbitrary number of parameters learn only simple models that explain the data. This is analogous to the recovery of the sparsest linear model in compressed sensing. For ReLU networks and their variants with skip connections or normalization layers, we present isometry conditions that ensure the exact recovery of planted neurons. For randomly generated data, we show the existence of a phase transition in recovering planted neural network models. The situation is simple: whenever the ratio between the number of samples and the dimension exceeds a numerical threshold, the recovery succeeds with high probability; otherwise, it fails with high probability. Surprisingly, ReLU networks learn simple and sparse models even when the labels are noisy. The phase transition phenomenon is confirmed through numerical experiments.
翻訳日:2022-10-05 10:30:50 公開日:2022-10-04