このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220928となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子多体系における非エルミート線形応答から動的相関とゆらぎ散逸関係へ From Non-Hermitian Linear Response to Dynamical Correlations and Fluctuation-Dissipation Relations in Quantum Many-Body Systems ( http://arxiv.org/abs/2104.03983v2 ) ライセンス: Link先を確認 | Kevin T. Geier and Philipp Hauke | (参考訳) 量子多体系はその相関によって特徴づけられる。
演算子間の等時コリエータと不等時コミュータは標準的な可観測性を持つが、不等時反コモテータへの直接アクセスは驚くべき実験課題となる。
本稿では,非エルミート摂動に対する系の線形応答を用いた不等時反変量測定法を提案する。
本稿では, ボース・ハッバードモデルを用いて, ゆらぎ-散逸関係の両面を測ることで, 閉量子系における熱平衡へのアプローチを追跡できることを示す。
このスキームを量子ゼノ効果と弱い測定値に関連付け、冷原子系の例で実装可能であることを示す。
提案手法は, 量子多体系における動的相関を特徴付ける手法であり, 強い相関性を持つ物質や新しい量子技術への応用が期待できる。 Quantum many-body systems are characterized by their correlations. While equal-time correlators and unequal-time commutators between operators are standard observables, the direct access to unequal-time anti-commutators poses a formidable experimental challenge. Here, we propose a general technique for measuring unequal-time anti-commutators using the linear response of a system to a non-Hermitian perturbation. We illustrate the protocol at the example of a Bose-Hubbard model, where the approach to thermal equilibrium in a closed quantum system can be tracked by measuring both sides of the fluctuation-dissipation relation. We relate the scheme to the quantum Zeno effect and weak measurements, and illustrate possible implementations at the example of a cold-atom system. Our proposal provides a way of characterizing dynamical correlations in quantum many-body systems with potential applications in understanding strongly correlated matter as well as for novel quantum technologies. | 翻訳日:2023-04-04 11:55:28 公開日:2022-09-28 |
# CircuitQ: 超伝導回路用オープンソースツールボックス CircuitQ: An open-source toolbox for superconducting circuits ( http://arxiv.org/abs/2106.05342v3 ) ライセンス: Link先を確認 | Philipp Aumann, Tim Menke, William D. Oliver, Wolfgang Lechner | (参考訳) 我々はPythonで実装された超伝導回路を解析するためのオープンソースのツールボックスCircuitQを紹介する。
入力回路のシンボリックハミルトニアンの自動構成と、可変基底選択を持つハミルトニアンの動的数値表現を特徴とする。
その他の特徴として、様々なノイズメカニズムの下での回路状態のT1寿命の推定がある。
我々は,既定の回路量子化手法をレビューし,ソフトウェア実装を容易にする方法でそれらを定式化する。
ツールボックスは、実際に関連する量子ビット回路に適用し、専用の回路ソルバーと比較することで展示される。
我々の回路量子化は、大規模な設計空間からの回路入力に適用でき、ソフトウェアはオープンソースである。
これにより、量子情報処理アプリケーションのための新しい量子回路の設計に重要なリソースが加わる。 We introduce CircuitQ, an open-source toolbox for the analysis of superconducting circuits implemented in Python. It features the automated construction of a symbolic Hamiltonian of the input circuit and a dynamic numerical representation of the Hamiltonian with a variable basis choice. Additional features include the estimation of the T1 lifetimes of the circuit states under various noise mechanisms. We review previously established circuit quantization methods and formulate them in a way that facilitates the software implementation. The toolbox is then showcased by applying it to practically relevant qubit circuits and comparing it to specialized circuit solvers. Our circuit quantization is applicable to circuit inputs from a large design space, and the software is open-sourced. We thereby add an important resource for the design of new quantum circuits for quantum information processing applications. | 翻訳日:2023-03-27 04:11:42 公開日:2022-09-28 |
# 摂動量子シミュレーション Perturbative quantum simulation ( http://arxiv.org/abs/2106.05938v2 ) ライセンス: Link先を確認 | Jinzhao Sun, Suguru Endo, Huiping Lin, Patrick Hayden, Vlatko Vedral, and Xiao Yuan | (参考訳) 摂動理論に基づく近似は、量子多体物理学、化学、量子場理論、その他の領域において、量子力学の量的予測のほとんどの基礎である。
量子コンピューティングは摂動パラダイムの代替を提供するが、数十キュービットのノイズを持つ最先端の量子プロセッサは実用性に乏しい。
ここでは、2つのアプローチの相補的な強みを組み合わせた摂動量子シミュレーションを導入し、ノイズの多い中間スケール量子ハードウェアを用いた大規模な実用的な量子問題の解を可能にする。
量子プロセッサは可解な非摂動ハミルトニアンを識別する必要がなく、摂動結合の導入により量子プロセッサは利用可能な物理量子ビットよりも大きいシステムをシミュレートすることができる。
我々は、ダイソン級数展開を模倣し、局所ユニタリ操作のみを含む明示的な摂動拡大を示し、ある条件下での他の拡大に対してその最適性を示す。
我々は、異なるトポロジにおけるボソン、フェルミオン、量子スピンの相互作用法を数値的にベンチマークし、情報伝播、電荷スピン分離、磁性などの異なる物理現象を、最大480ドルキュービットのシステム上で8+1ドルキュービット量子ハードウェアを用いて研究する。
提案手法をIBM量子クラウド上で実験的に実証し,そのノイズ堅牢性を検証するとともに,より小型の量子プロセッサをベンチマークする可能性を示す。 Approximation based on perturbation theory is the foundation for most of the quantitative predictions of quantum mechanics, whether in quantum many-body physics, chemistry, quantum field theory or other domains. Quantum computing provides an alternative to the perturbation paradigm, yet state-of-the-art quantum processors with tens of noisy qubits are of limited practical utility. Here, we introduce perturbative quantum simulation, which combines the complementary strengths of the two approaches, enabling the solution of large practical quantum problems using limited noisy intermediate-scale quantum hardware. The use of a quantum processor eliminates the need to identify a solvable unperturbed Hamiltonian, while the introduction of perturbative coupling permits the quantum processor to simulate systems larger than the available number of physical qubits. We present an explicit perturbative expansion that mimics the Dyson series expansion and involves only local unitary operations, and show its optimality over other expansions under certain conditions. We numerically benchmark the method for interacting bosons, fermions, and quantum spins in different topologies, and study different physical phenomena, such as information propagation, charge-spin separation, and magnetism, on systems of up to $48$ qubits only using an $8+1$ qubit quantum hardware. We experimentally demonstrate our scheme on the IBM quantum cloud, verifying its noise robustness and illustrating its potential for benchmarking large quantum processors with smaller ones. | 翻訳日:2023-03-27 01:53:27 公開日:2022-09-28 |
# 量子マックスコートの特異ゲーム硬度と予想ベクトル値ボレルの不等式 Unique Games hardness of Quantum Max-Cut, and a conjectured vector-valued Borell's inequality ( http://arxiv.org/abs/2111.01254v3 ) ライセンス: Link先を確認 | Yeongwoo Hwang, Joe Neeman, Ojas Parekh, Kevin Thompson, John Wright | (参考訳) 函数 $f:\mathbb{R}^n \to \{-1, 1\}$ のガウス的雑音安定性は $f(\boldsymbol{x}) \cdot f(\boldsymbol{y})$ over $\rho$-correlated Gaussian random variables $\boldsymbol{x}$ and $\boldsymbol{y}$ の期待値である。
ボレルの不等式は、$-1 \leq \rho \leq 0$ に対して、半空間 $f(x) = \mathrm{sign}(x_1)$ によって最小化される。
本研究では、この結果を一般化して、$k$次元単位ベクトルを出力する関数 $f:\mathbb{R}^n \to S^{k-1}$ を保持する。
我々の予想は、$\textit{vector-valued Borell's inequality}$と呼ばれ、期待値 $\langle f(\boldsymbol{x}), f(\boldsymbol{y})\rangle$ は函数 $f(x) = x_{\leq k} / \Vert x_{\leq k} \Vert$ で最小化され、$x_{\leq k} = (x_1, \ldots, x_k)$ となる。
この予想を支持するいくつかの証拠を与えるが、これは実際に$n = k$の特別な場合において成り立つという証明を含む。
この予想の適用例として、量子マックスカットとして知られる反強磁性ハイゼンベルクモデルに関連する局所ハミルトン問題の特別な場合に対して、近似結果のいくつかの困難さを示すことを示す。
これは古典的マックスカット問題の自然な量子アナログと見なすことができ、アルゴリズムを開発するための有用なテストベッドとして提案されている。
1) 基本 SDP の積分性ギャップは 0.498$ であり、既存の丸めアルゴリズムと一致する。
既存の結果と組み合わせることで,基本SDPが最適近似比を達成できないことを示す。
(2) 最適生成状態の値に$(0.956+\varepsilon)$を近似し、既存の近似アルゴリズムに一致する一意なゲームハード(ug-hard)である。
(3) (0.956+\varepsilon)$を最良(おそらくは絡み合っている)状態の値に近似することは難しい。 The Gaussian noise stability of a function $f:\mathbb{R}^n \to \{-1, 1\}$ is the expected value of $f(\boldsymbol{x}) \cdot f(\boldsymbol{y})$ over $\rho$-correlated Gaussian random variables $\boldsymbol{x}$ and $\boldsymbol{y}$. Borell's inequality states that for $-1 \leq \rho \leq 0$, this is minimized by the halfspace $f(x) = \mathrm{sign}(x_1)$. In this work, we generalize this result to hold for functions $f:\mathbb{R}^n \to S^{k-1}$ which output $k$-dimensional unit vectors. Our main conjecture, which we call the $\textit{vector-valued Borell's inequality}$, asserts that the expected value of $\langle f(\boldsymbol{x}), f(\boldsymbol{y})\rangle$ is minimized by the function $f(x) = x_{\leq k} / \Vert x_{\leq k} \Vert$, where $x_{\leq k} = (x_1, \ldots, x_k)$. We give several pieces of evidence in favor of this conjecture, including a proof that it does indeed hold in the special case of $n = k$. As an application of this conjecture, we show that it implies several hardness of approximation results for a special case of the local Hamiltonian problem related to the anti-ferromagnetic Heisenberg model known as Quantum Max-Cut. This can be viewed as a natural quantum analogue of the classical Max-Cut problem and has been proposed as a useful testbed for developing algorithms. We show the following, assuming our conjecture: (1) The integrality gap of the basic SDP is $0.498$, matching an existing rounding algorithm. Combined with existing results, this shows that the basic SDP does not achieve the optimal approximation ratio. (2) It is Unique Games-hard (UG-hard) to compute a $(0.956+\varepsilon)$-approximation to the value of the best product state, matching an existing approximation algorithm. (3) It is UG-hard to compute a $(0.956+\varepsilon)$-approximation to the value of the best (possibly entangled) state. | 翻訳日:2023-03-09 16:51:51 公開日:2022-09-28 |
# 量子入力ベルテストによる局所量子無符号理論の量子性を超えた証明 Certifying beyond quantumness of locally quantum no-signalling theories through quantum input Bell test ( http://arxiv.org/abs/2111.04002v2 ) ライセンス: Link先を確認 | Edwin Peter Lobo, Sahil Gopalkrishna Naik, Samrat Sen, Ram Krishna Patra, Manik Banik, Mir Alimuddin | (参考訳) 局所量子構造に制約され、符号なし原理を満たす物理理論は、量子外大域状態を可能にする。
標準的なベル実験では、そのような量子2部状態から得られる相関は常に量子状態と測定によって再現され、量子相関を分離するための公理である局所量子構造と非シグナリングが示唆される。
しかし、この書簡では、ベル実験が局所的な量子入力を可能にするために一般化された場合、量子外相関は量子外状態ごとに生成可能であることを示す。
これにより、局所量子非シグナリング理論の量子外性を証明する方法が得られ、量子相関を分離するための局所量子構造と非シグナリング原理と共に追加情報原理の必要性が提案される。
さらに重要なことに、我々の研究は、追加の原理は局所入力の量子シグネチャに敏感でなければならないと定めている。
また,この結果から局所量子無符号理論を一般化し,さらに興味深い意味を解析した。 Physical theories constrained with local quantum structure and satisfying the no-signalling principle can allow beyond-quantum global states. In a standard Bell experiment, correlations obtained from any such beyond-quantum bipartite state can always be reproduced by quantum states and measurements, suggesting local quantum structure and no-signalling to be the axioms to isolate quantum correlations. In this letter, however, we show that if the Bell experiment is generalized to allow local quantum inputs, then beyond-quantum correlations can be generated by every beyond-quantum state. This gives us a way to certify beyond-quantumness of locally quantum no-signalling theories and in turn suggests requirement of additional information principles along with local quantum structure and no-signalling principle to isolate quantum correlations. More importantly, our work establishes that the additional principle(s) must be sensitive to the quantum signature of local inputs. We also generalize our results to multipartite locally quantum no-signalling theories and further analyze some interesting implications. | 翻訳日:2023-03-08 22:36:38 公開日:2022-09-28 |
# ガウス和によって決定されるコヒーレント状態の重ね合わせ Superpositions of coherent states determined by Gauss sums ( http://arxiv.org/abs/2112.07613v3 ) ライセンス: Link先を確認 | Vyacheslav P. Spiridonov | (参考訳) 二次ガウス和で定義される係数を持つ調和振動子コヒーレント状態の重ね合わせとして、シュル「オーディンガー猫型」の量子状態の族を記述する。
これらの状態は、正規および分数フーリエ変換に付随するハイゼンベルク・ワイル代数の正準変換後に得られる下降作用素の固有函数として現れる。
この一族の最初のメンバーは有名なユルケ=ストーラー・コヒーレント国家によって与えられる。 We describe a family of quantum states of the Schr\"odinger cat type as superpositions of the harmonic oscillator coherent states with coefficients defined by the quadratic Gauss sums. These states emerge as eigenfunctions of the lowering operators obtained after canonical transformations of the Heisenberg-Weyl algebra associated with the ordinary and fractional Fourier transformation. The first member of this family is given by the well known Yurke-Stoler coherent state. | 翻訳日:2023-03-04 14:03:34 公開日:2022-09-28 |
# manaと熱化:近クリフォード・ハミルトニアン・シミュレーションの可能性を探る Mana and thermalization: probing the feasibility of near-Clifford Hamiltonian simulation ( http://arxiv.org/abs/2201.12367v2 ) ライセンス: Link先を確認 | Troy J. Sewell and Christopher David White | (参考訳) 量子力学 (quantum hydrodynamics) は、一般の強相互作用量子系における保存量の輸送を管理する創発的な古典力学である。
最近の行列積演算子法は1+1dのトラクタブル量子力学をシミュレーションしているが、自然に2+1d以上に一般化するわけではなく、量子コンピュータでのシミュレーションの難しさについて限定的なガイダンスを提供している。
近クリフォードシミュレーションアルゴリズムは1次元に限らず、将来の誤り訂正量子コンピュータは非クリフォード演算によってボトルネックとなる可能性が高い。
そこで,非クリフォード演算の資源理論である `mana'' を用いて,量子流体力学シミュレーションのための非クリフォード資源要件を考察する。
無限温度開始状態に対しては、サブシステムのマナが急速にゼロに近づき、しきい値を超えるエネルギーを持つ状態の開始には、マナはゼロでない値に近づく。
驚くべきことに、各ケースにおいて有限時間マナは熱状態マナではなくサブシステムエントロピーによって制御されている。 Quantum hydrodynamics is the emergent classical dynamics governing transport of conserved quantities in generic strongly-interacting quantum systems. Recent matrix product operator methods have made simulations of quantum hydrodynamics in 1+1d tractable, but they do not naturally generalize to 2+1d or higher, and they offer limited guidance as to the difficulty of simulations on quantum computers. Near-Clifford simulation algorithms are not limited to one dimension, and future error-corrected quantum computers will likely be bottlenecked by non-Clifford operations. We therefore investigate the non-Clifford resource requirements for simulation of quantum hydrodynamics using ``mana'', a resource theory of non-Clifford operations. For infinite-temperature starting states we find that the mana of subsystems quickly approaches zero, while for starting states with energy above some threshold the mana approaches a nonzero value. Surprisingly, in each case the finite-time mana is governed by the subsystem entropy, not the thermal state mana; we argue that this is because mana is a sensitive diagnostic of finite-time deviations from canonical typicality. | 翻訳日:2023-02-27 15:54:12 公開日:2022-09-28 |
# 人工ゲージ場を用いた原子回路用ダッタダストランジスタ Datta-Das transistor for atomtronic circuits using artificial gauge fields ( http://arxiv.org/abs/2203.13360v2 ) ライセンス: Link先を確認 | Chetan Sriram Madasu, Mehedi Hasan, Ketan D. Rathod, Chang Chi Kwong and David Wilkowski | (参考訳) スピン依存型電気注入は記憶装置に有用であるが、スピン軌道の弱い結合や強いスピン緩和のために完全に動作するスピン依存型半導体エレクトロニクスは難しい課題である。
これらの制限はスピンキャリアとして電子や穴の代わりに原子を考慮に入れられる。
この出現する原子エレクトロニクス分野において、三重項レーザービーム法と相互作用するスピンキャリアとしてストロンチウム原子の退化フェルミガスを用いたダッタダストランジスタの等価性を実証する。
スピン回転の依存性について検討し、電界効果トランジスタのゲートソース電圧とドレインソース電圧とを等価と解釈する2つのキー制御パラメータを同定する。
本研究は、スピンセンシティブ回路実装のためのアトムトロニクスデバイスのスペクトルを広げる。 Spin-dependent electrical injection has found useful applications in storage devices, but fully operational spin-dependent semiconductor electronics remain a challenging task because of weak spin-orbit couplings and/or strong spin relaxations. These limitations are lifted considering atoms instead of electrons or holes as spin carriers. In this emerging field of atomtronics, we demonstrate the equivalent of a Datta-Das transistor using a degenerate Fermi gas of strontium atoms as spin carriers in interaction with a tripod laser-beams scheme. We explore the dependence of spin rotation, and we identify two key control parameters which we interpret as equivalent to the gate-source and drain-source voltages of a field effect transistor. Our finding broadens the spectrum of atomtronics devices for implementation of operational spin-sensitive circuits. | 翻訳日:2023-02-21 12:25:32 公開日:2022-09-28 |
# 持続可能なAIと持続可能性のためのAIガバナンスと倫理フレームワーク AI Governance and Ethics Framework for Sustainable AI and Sustainability ( http://arxiv.org/abs/2210.08984v1 ) ライセンス: Link先を確認 | Mahendra Samarawickrama | (参考訳) AIは、データインフォームド意思決定と自律的な意思決定を可能にする、既存のテクノロジの展望を、迅速なフェーズで変革している。
他の技術とは異なり、AIの意思決定能力のため、倫理とガバナンスが重要な関心事となった。
自律兵器、自動化された雇用損失、社会経済的不平等、データやアルゴリズムによる偏見、プライバシー侵害、ディープフェイクなど、人類にとってのAIリスクは数多く発生している。
社会的多様性、公平性、包摂性は、リスクを緩和し、価値を作成し、社会正義を促進するAIの重要な成功要因と考えられている。
サステナビリティは、AIに絡み合った広範で複雑なトピックとなった。
多くの組織(政府、法人、非営利団体、慈善団体、NGO)は、ビジネス最適化と社会環境正義のためにAIを駆動する戦略を多様化してきた。
パートナーシップとコラボレーションは、多様性と分散した人々、データ、能力の多様性のために、これまで以上に重要になっています。
したがって、AIが実現可能な持続可能な未来に向けての旅では、優先事項としてAI倫理とガバナンスに取り組む必要があります。
これらのAI倫理とガバナンスは、人間の倫理に根ざすべきである。 AI is transforming the existing technology landscape at a rapid phase enabling data-informed decision making and autonomous decision making. Unlike any other technology, because of the decision-making ability of AI, ethics and governance became a key concern. There are many emerging AI risks for humanity, such as autonomous weapons, automation-spurred job loss, socio-economic inequality, bias caused by data and algorithms, privacy violations and deepfakes. Social diversity, equity and inclusion are considered key success factors of AI to mitigate risks, create values and drive social justice. Sustainability became a broad and complex topic entangled with AI. Many organizations (government, corporate, not-for-profits, charities and NGOs) have diversified strategies driving AI for business optimization and social-and-environmental justice. Partnerships and collaborations become important more than ever for equity and inclusion of diversified and distributed people, data and capabilities. Therefore, in our journey towards an AI-enabled sustainable future, we need to address AI ethics and governance as a priority. These AI ethics and governance should be underpinned by human ethics. | 翻訳日:2023-02-19 11:47:44 公開日:2022-09-28 |
# 2020年アメリカ合衆国大統領選挙におけるウェブ検索のパーソナライズ Personalization of Web Search During the 2020 US Elections ( http://arxiv.org/abs/2209.14000v1 ) ライセンス: Link先を確認 | Ulrich Matter, Roland Hodler, Johannes Ladwig | (参考訳) 検索エンジンは、市民に政治情報をルーティングする上で中心的な役割を果たす。
Googleのような巨大検索エンジンによる検索結果のアルゴリズムによるパーソナライズは、異なるユーザーが体系的に異なる情報を提供する可能性があることを示唆している。
しかし,ユーザの特徴や行動が検索結果に与える影響を政治的に関係のある文脈で測定することは困難である。
われわれは、米国25都市に150人の合成インターネットユーザー(ボット)を配置し、2020年の米大統領選とその余波の間、数ヶ月にわたって活動している。
これらのユーザーは閲覧好みや政治的イデオロギーが異なるため、現実的な閲覧履歴や検索履歴を構築することができる。
私たちは毎日,すべてのユーザが同じ選挙関連クエリを入力する実験を実施しています。
これらのクエリに対する検索結果はユーザによって大きく異なる。
Googleは以前訪問したウェブサイトやローカルニュースサイトを優先している。
しかし、一般的にはユーザーのイデオロギーを特集するウェブサイトを優先しない。 Search engines play a central role in routing political information to citizens. The algorithmic personalization of search results by large search engines like Google implies that different users may be offered systematically different information. However, measuring the causal effect of user characteristics and behavior on search results in a politically relevant context is challenging. We set up a population of 150 synthetic internet users ("bots") who are randomly located across 25 US cities and are active for several months during the 2020 US Elections and their aftermath. These users differ in their browsing preferences and political ideology, and they build up realistic browsing and search histories. We run daily experiments in which all users enter the same election-related queries. Search results to these queries differ substantially across users. Google prioritizes previously visited websites and local news sites. Yet, it does not generally prioritize websites featuring the user's ideology. | 翻訳日:2023-02-19 11:25:10 公開日:2022-09-28 |
# デジタル通貨を損なう認定ハードウェア要件 Certified Hardware Requirements Undermine Digital Currency ( http://arxiv.org/abs/2209.12076v2 ) ライセンス: Link先を確認 | Geoffrey Goodell | (参考訳) 認定されたハードウェアに基づく設計アプローチは、特に中央銀行デジタル通貨(cbdc)を支援するための大規模デジタル通貨システム全般とシステムに関する最近の議論で顕著に取り上げられている。
認定されたハードウェアはいわゆる"trusted computing"パラダイムの基礎であり、ユーザーがユーザーの意志に優先して第三者の意思を尊重する方法で動作するように設計されたデバイスを持っている。
このようなアプローチの正当性は、通常、オフライン支払いの促進や失われた資産の回収の促進の必要性という観点から与えられる。
本稿では、特に決済の未来と現金の将来に関して、デジタル通貨ソリューションが解決するために提案されている本質的な問題について批判的に評価する。
次に,デジタル通貨システムへの適用状況における信頼性コンピューティングの特徴と,デバイスユーザ,デバイス製造者,さらには企業や州などの強力なアクタ間の電力関係への影響について検討する。
最後に、代替設計、制限、トレードオフの文脈において、認定ハードウェアの共通正当化の有効性を評価する。
消費者の関心は、信頼されたハードウェアの使用を必要としないデジタル通貨へのデザインアプローチによりより良くなるだろうと結論づけた。 Design approaches based on certified hardware have featured prominently in the recent debate concerning the deployment of large-scale digital currency systems in general and systems to support central bank digital currency (CBDC) in particular. Certified hardware is a cornerstone of the so-called "trusted computing" paradigm, wherein a user carries a device designed to operate in a manner that respects the will of a third party in preference to the will of the user. The justification for such approaches is usually given in terms of the perceived need to facilitate offline payments or to facilitate the recovery of lost assets. In this article, we critically assess the essential problems that digital currency solutions are being proposed to solve, particularly with respect to the future of payments and the future of cash. Next, we examine the characteristics of trusted computing within the context of its application to digital currency systems and its potential impact on the power relationships between the users of devices, the manufacturers of devices, and other powerful actors such as corporations and the state. Finally, we assess the validity of common justifications for certified hardware in the context of alternative designs, limitations, and trade-offs. We conclude that the interests of consumers would be better served by design approaches to digital currency that do not require the use of trusted hardware. | 翻訳日:2023-02-19 11:22:21 公開日:2022-09-28 |
# 相互接触発見 Mutual Contact Discovery ( http://arxiv.org/abs/2209.12003v2 ) ライセンス: Link先を確認 | Jaap-Henk Hoepman | (参考訳) メッセージングサービスでは、新規ユーザーがコンタクト発見と呼ばれるプロセスを通じて、すでにそのサービスを使っている既存の連絡先を見つけることができる。
既存のユーザーも同様に、すでに連絡先リストにある新規ユーザーについて通知される。
これはプライバシーの問題を引き起こします: 連絡先発見を有効にすると、すでに連絡先リストに自分の番号を持っているサービスにいる人は、自分が参加したことを通知されます。
たとえその人物を知らない人でも、あるいはあなたが長い間別れた元同僚で、誰の連絡先の詳細をずっと前に削除したとしても。
そこで本稿では,ユーザ同士が(まだ)接触リストにある場合にのみ,お互いを発見できる「emph{mutual} Contact Discovery Protocol」を提案する。
相互接触発見は、信頼されたハードウェアに頼らずに、従来の一方的な接触発見よりもプライバシーに優しい方法で実装できる(例えば、サーバからソーシャルグラフを保護する)という付加的な利点がある。 Messaging services allow new users to find existing contacts that already use that service through a process called contact discovery. Existing users are similarly informed of new users that are already on their contact list. This creates a privacy issue: when you join and enable contact discovery, anyone already on the service that has your number on their contact list gets notified that you joined. Even if you don't know that person, or if it is an ex or former colleague that you long parted with and whose contact details you deleted long ago. To solve this, we propose a \emph{mutual} contact discovery protocol, that only allow users to discover each other when both are (still) in each other's contact list. Mutual contact discovery has the additional advantage that it can be implemented in a more privacy friendly fashion (e.g. protecting the social graph from the server) than traditional, one-sided contact discovery, without even relying on trusted hardware. | 翻訳日:2023-02-19 11:22:02 公開日:2022-09-28 |
# 人工知能とアルゴリズム医学の時代の悪いニュースを破る--ヘドニック計算を用いた開示の探索とその倫理的正当性 Breaking Bad News in the Era of Artificial Intelligence and Algorithmic Medicine: An Exploration of Disclosure and its Ethical Justification using the Hedonic Calculus ( http://arxiv.org/abs/2207.01431v2 ) ライセンス: Link先を確認 | Benjamin Post, Cosmin Badea, Aldo Faisal, Stephen J. Brett | (参考訳) 医療における人工知能(AI)の利用に関する適切な倫理的枠組みは、この技術の普及が進むにつれて、重要視されている。
AIの進歩は、個人のレベルで結果予測の精度を改善するという約束を持っている。
しかし、これらの技術を患者と気候の相互作用に加えることは、人間の複雑な相互作用と同様に、潜在的な落とし穴がある。
医師は常に倫理的背景と行動の意義を慎重に検討しなければならなかったが、迅速な技術進歩に関する詳細な審議は追い付かなかったかもしれない。
私たちは18世紀にJeremy Bentham氏によって開発された哲学的な枠組みが、AIの時代において、いかに時間的に準定量的に応用されているかを説明するために、医療相互作用において共通の、しかし重要な課題、悪いニュース(おそらくは差し迫った死)を公開しています。
この倫理的アルゴリズムが、7つの排他的かつ徹底的なドメインをまたいで、aiが支援する行動が道徳的に正当化できるかどうかを評価するのにどのように役立つかを示す。 An appropriate ethical framework around the use of Artificial Intelligence (AI) in healthcare has become a key desirable with the increasingly widespread deployment of this technology. Advances in AI hold the promise of improving the precision of outcome prediction at the level of the individual. However, the addition of these technologies to patient-clinician interactions, as with any complex human interaction, has potential pitfalls. While physicians have always had to carefully consider the ethical background and implications of their actions, detailed deliberations around fast-moving technological progress may not have kept up. We use a common but key challenge in healthcare interactions, the disclosure of bad news (likely imminent death), to illustrate how the philosophical framework of the 'Felicific Calculus' developed in the 18th century by Jeremy Bentham, may have a timely quasi-quantitative application in the age of AI. We show how this ethical algorithm can be used to assess, across seven mutually exclusive and exhaustive domains, whether an AI-supported action can be morally justified. | 翻訳日:2023-02-19 09:37:00 公開日:2022-09-28 |
# 大きなスパースハイパーグラフおよびスピンガラスモデルにおける一定レベルのQAOAの性能と限界 Performance and limitations of the QAOA at constant levels on large sparse hypergraphs and spin glass models ( http://arxiv.org/abs/2204.10306v2 ) ライセンス: Link先を確認 | Joao Basso, David Gamarnik, Song Mei, Leo Zhou | (参考訳) 量子近似最適化アルゴリズム(Quantum Approximate Optimization Algorithm, QAOA)は、組合せ最適化のために設計された汎用量子アルゴリズムである。
無限大極限におけるランダムな組合せ最適化問題のアンサンブル上で,期待性能を解析し,任意の一定レベル(層数)で濃度特性を証明した。
これらのアンサンブルには混合スピンモデルとスパースランダムハイパーグラフ上のMax-$q$-XORSATが含まれる。
本解析は,sum-over-paths積分のsaddle-point近似によって解釈できる。
これは独立関心の技術的結果である多項定理の一般化を証明することによって厳密にされる。
すると、純粋な$q$-spinモデルにおけるqaoaの性能は、ランダムなスパース erd\h{o}s-r\'{e}nyiハイパーグラフおよび全ての大域正規ハイパーグラフ上のmax-$q$-xorsatのものと漸近的に一致することを示した。
この対応を通じて、一定のレベルでqaoaによって生成される平均ケース値は、$q\ge 4$かつ偶数である純粋な$q$-spinモデルの最適性から切り離される。
この制限は、グラフ全体が見える新しい状態における量子アルゴリズムの近似結果の難しさを与える。 The Quantum Approximate Optimization Algorithm (QAOA) is a general purpose quantum algorithm designed for combinatorial optimization. We analyze its expected performance and prove concentration properties at any constant level (number of layers) on ensembles of random combinatorial optimization problems in the infinite size limit. These ensembles include mixed spin models and Max-$q$-XORSAT on sparse random hypergraphs. Our analysis can be understood via a saddle-point approximation of a sum-over-paths integral. This is made rigorous by proving a generalization of the multinomial theorem, which is a technical result of independent interest. We then show that the performance of the QAOA at constant levels for the pure $q$-spin model matches asymptotically the ones for Max-$q$-XORSAT on random sparse Erd\H{o}s-R\'{e}nyi hypergraphs and every large-girth regular hypergraph. Through this correspondence, we establish that the average-case value produced by the QAOA at constant levels is bounded away from optimality for pure $q$-spin models when $q\ge 4$ and is even. This limitation gives a hardness of approximation result for quantum algorithms in a new regime where the whole graph is seen. | 翻訳日:2023-02-16 03:25:33 公開日:2022-09-28 |
# 2つの吸収状態を有する速度論的拘束した開多体系における量子安定変動相のシグネチャと臨界ダイナミクス Signatures of a quantum stabilized fluctuating phase and critical dynamics in a kinetically-constrained open many-body system with two absorbing states ( http://arxiv.org/abs/2204.10550v2 ) ライセンス: Link先を確認 | Federico Carollo, Markus Gnann, Gabriele Perfetto, Igor Lesanovsky | (参考訳) 運動的に制約されたコヒーレントおよび散逸過程が競合するオープン多体量子システムを紹介し,検討する。
非コヒーレントな散逸ダイナミクスの形式は、密度分類問題に関連する拡散やセル・オートマトンに基づく計算に着想を得たものである。
パラメータ空間における2つの非揺動吸収状態と$\mathcal{Z}_2$-対称点を特徴とする。
コヒーレント進化は、量子XOR-フレドリクソン-アンデルセンモデルに関連する運動論的に制約された$\mathcal{Z}_2$-対称多体ハミルトンによって制御される。
量子コヒーレントダイナミクスは変動状態の安定化を可能とし、この活性相と吸収状態の遷移を特徴付ける。
また、$\mathcal{z}_2$-symmetric 点におけるかなり特異な挙動も特定する。
ここで、系は吸収状態多様体に近づき、その指数はコヒーレント力学の相対強度によって連続的に変化するパワーローに従う。
本研究は,コヒーレント過程と散逸過程の相互作用と対称性の制約が,高度に複雑な非平衡進化を招き,関連する古典的問題に存在しない相を安定化させる可能性を示す。 We introduce and investigate an open many-body quantum system in which kinetically constrained coherent and dissipative processes compete. The form of the incoherent dissipative dynamics is inspired by that of epidemic spreading or cellular-automaton-based computation related to the density-classification problem. It features two non-fluctuating absorbing states as well as a $\mathcal{Z}_2$-symmetric point in parameter space. The coherent evolution is governed by a kinetically constrained $\mathcal{Z}_2$-symmetric many-body Hamiltonian which is related to the quantum XOR-Fredrickson-Andersen model. We show that the quantum coherent dynamics can stabilize a fluctuating state and we characterize the transition between this active phase and the absorbing states. We also identify a rather peculiar behavior at the $\mathcal{Z}_2$-symmetric point. Here the system approaches the absorbing-state manifold with a dynamics that follows a power-law whose exponent continuously varies with the relative strength of the coherent dynamics. Our work shows how the interplay between coherent and dissipative processes as well as symmetry constraints may lead to a highly intricate non-equilibrium evolution and may stabilize phases that are absent in related classical problems. | 翻訳日:2023-02-16 01:06:53 公開日:2022-09-28 |
# 論理ゲートを実装するハイパーグラフ製品符号における分割量子ビット Partitioning qubits in hypergraph product codes to implement logical gates ( http://arxiv.org/abs/2204.10812v2 ) ライセンス: Link先を確認 | Armanda O. Quintavalle, Paul Webster, Michael Vasmer | (参考訳) フォールトトレラント量子計算のオーバーヘッドを大幅に削減する高速低密度パリティチェック(LDPC)符号の約束は、これらの符号上の論理ゲートの効率的なフォールトトレラント実装の構築に依存する。
トランスバーサルゲートは最も単純な耐障害ゲートであるが、LDPC符号上のトランスバーサルゲートの可能性はほとんど無視されている。
LDPC符号のクラスであるハイパーグラフ製品コードに実装可能なトランスバーサルゲートについて検討する。
我々の分析は、ハイパーグラフ積符号の論理演算子に対するシンプレクティック標準基底の構築によって支援される。
これらのコードにおいて、トランスバーサルゲートはすべての論理キュービットに対して(論理スワップゲートまで)ハダマールと制御-zを実装することができる。
さらに,誤り訂正とインターリーブされたトランスバーサル演算のシーケンスにより,論理キュービットの任意の対を同一コードブロック内で絡み合うゲートの実装が可能となることを示した。
これにより、状態注入を補うことでLDPC符号上の普遍量子コンピューティングの基礎として、トランスバーサルゲートが利用できることを示す。 The promise of high-rate low-density parity check (LDPC) codes to substantially reduce the overhead of fault-tolerant quantum computation depends on constructing efficient, fault-tolerant implementations of logical gates on such codes. Transversal gates are the simplest type of fault-tolerant gate, but the potential of transversal gates on LDPC codes has hitherto been largely neglected. We investigate the transversal gates that can be implemented in hypergraph product codes, a class of LDPC codes. Our analysis is aided by the construction of a symplectic canonical basis for the logical operators of hypergraph product codes, a result that may be of independent interest. We show that in these codes transversal gates can implement Hadamard (up to logical SWAP gates) and control-Z on all logical qubits. Moreover, we show that sequences of transversal operations, interleaved with error correction, allow implementation of entangling gates between arbitrary pairs of logical qubits in the same code block. We thereby demonstrate that transversal gates can be used as the basis for universal quantum computing on LDPC codes, when supplemented with state injection. | 翻訳日:2023-02-16 00:49:10 公開日:2022-09-28 |
# 非可換エノンを操作するための適応定数深さ回路 Adaptive constant-depth circuits for manipulating non-abelian anyons ( http://arxiv.org/abs/2205.01933v2 ) ライセンス: Link先を確認 | Sergey Bravyi, Isaac Kim, Alexander Kliesch, Robert Koenig | (参考訳) 有限群 $g$ に基づくキタエフの量子二重モデルを検討し、量子回路を記述する。
(a)基底状態の準備
(b)任意の距離で分離したアノン対の作成、及び
(c)非破壊的トポロジカル電荷測定
任意の可解群$G$に対して、幾何的に局所的なユニタリゲートと中間回路の測定を含む、一定の深度適応回路で実現可能であることを示す。
各ゲートは、以前の測定結果に応じて適応的に選択される。
一定深さの回路は、キュービットコヒーレンス時間内に回路全体を実行することができるため、ノイズの多いハードウェアの実装に適している。
その結果,非可換粒子統計量を持つ物質のエキゾチック相の実験的研究が促進された。
また,回路構築には適応性が不可欠であることを示す。
つまり、タスク
b) は任意の非可換群 $g$ に対して非適応定数深さ局所回路では実現できない。
これは、一般化されたパウリゲートからなる深さ$$の回路によって任意の距離を作成・移動できるアーベル・エノンと鋭く対照的である。 We consider Kitaev's quantum double model based on a finite group $G$ and describe quantum circuits for (a) preparation of the ground state, (b) creation of anyon pairs separated by an arbitrary distance, and (c) non-destructive topological charge measurement. We show that for any solvable group $G$ all above tasks can be realized by constant-depth adaptive circuits with geometrically local unitary gates and mid-circuit measurements. Each gate may be chosen adaptively depending on previous measurement outcomes. Constant-depth circuits are well suited for implementation on a noisy hardware since it may be possible to execute the entire circuit within the qubit coherence time. Thus our results could facilitate an experimental study of exotic phases of matter with a non-abelian particle statistics. We also show that adaptiveness is essential for our circuit construction. Namely, task (b) cannot be realized by non-adaptive constant-depth local circuits for any non-abelian group $G$. This is in a sharp contrast with abelian anyons which can be created and moved over an arbitrary distance by a depth-$1$ circuit composed of generalized Pauli gates. | 翻訳日:2023-02-14 09:16:38 公開日:2022-09-28 |
# バレン高原の向こう側:量子変量アルゴリズムはトラップで歪められている Beyond Barren Plateaus: Quantum Variational Algorithms Are Swamped With Traps ( http://arxiv.org/abs/2205.05786v2 ) ライセンス: Link先を確認 | Eric R. Anschuetz and Bobak T. Kiani | (参考訳) 古典的なニューラルネットワークの最も重要な特性の1つは、トレーニングアルゴリズムが複雑で非凸損失関数の最適化に依存しているにもかかわらず、その驚くほどのトレーニング性である。
これまでの結果、古典的ニューラルネットワークとは異なり、変分量子モデルはしばしば訓練できないことが示されている。
最も研究されている現象は、これらの量子モデルのトレーニング環境における不毛高原の発生であり、典型的にはモデルが非常に深い場合である。
この不毛高原に焦点を当てたこの現象は、量子モデルのトレーサビリティとほぼ同義である。
ここでは、不毛の高原が物語の一部に過ぎないことを示す。
浅く、不毛高原を示さない、幅広い種類の変分量子モデルが、大域的最小値から任意の一定エネルギー内における超多項的に小さな局所極小しか持たないことが証明され、最適パラメータの適切な初期推定が知られていなければこれらのモデルが訓練不能となる。
また,統計クエリフレームワークから変分量子アルゴリズムのトレーサビリティを調査し,多種多様な量子モデルのノイズの最適化は,クエリのサブ指数数では不可能であることを示した。
最後に,様々な問題事例について数値的検証を行った。
ここでは、様々な量子アルゴリズムを除外するが、変分アルゴリズムの特定のクラスに対する最適化の理由を与え、そのようなアルゴリズムの実用性を示す可能性について論じる。 One of the most important properties of classical neural networks is how surprisingly trainable they are, though their training algorithms typically rely on optimizing complicated, nonconvex loss functions. Previous results have shown that unlike the case in classical neural networks, variational quantum models are often not trainable. The most studied phenomenon is the onset of barren plateaus in the training landscape of these quantum models, typically when the models are very deep. This focus on barren plateaus has made the phenomenon almost synonymous with the trainability of quantum models. Here, we show that barren plateaus are only a part of the story. We prove that a wide class of variational quantum models -- which are shallow, and exhibit no barren plateaus -- have only a superpolynomially small fraction of local minima within any constant energy from the global minimum, rendering these models untrainable if no good initial guess of the optimal parameters is known. We also study the trainability of variational quantum algorithms from a statistical query framework, and show that noisy optimization of a wide variety of quantum models is impossible with a sub-exponential number of queries. Finally, we numerically confirm our results on a variety of problem instances. Though we exclude a wide variety of quantum algorithms here, we give reason for optimism for certain classes of variational algorithms and discuss potential ways forward in showing the practical utility of such algorithms. | 翻訳日:2023-02-13 12:12:18 公開日:2022-09-28 |
# blue-detuned non-hermitian cavity optomechanical systemにおける高次例外点 Higher-order exceptional point in a blue-detuned non-Hermitian cavity optomechanical system ( http://arxiv.org/abs/2205.07184v4 ) ライセンス: Link先を確認 | Wei Xiong, Zhuanxia Li, Guo-Qiang Zhang, Mingfeng Wang, Hai-Chao Li, Xiao-Qing Luo, Jianjiao Chen | (参考訳) 非エルミート系における高次例外点 (EP) は、感度の増強と位相的特徴の区別の利点から大きな関心を集めている。
しかし、量子システムでは2階EP(EP2)に比べて、より微細な調整パラメータが一般的に必要であるため、そのようなEPの実現は依然として課題である。
本稿では,3次EP(EP3)を予測するために,ブルーサイドバンド方式の非エルミート三モード光学系を提案する。
提案系の擬エルミート条件を導出することにより、損失のある空洞と利得のある空洞が必要である。
次に、機械共振器(MR)が中性、損失または利得である場合にEP3またはEP2が観測可能であることを示す。
中性MRでは、2つの退化EP3と2つの非退化EP3の両方がパラメータ空間のシステムパラメータをチューニングすることで予測できるのに対し、4つの非退化EP2は、系のパラメータがEP3sから導出されるときに観測できる。
ゲイン(損失)MRでは、強化結合強度を調整して2つの退化EP3またはEP2しか予測できない。
提案手法は,高次EPや複数EP2を予測し,青色の非エルミート光学系を用いてEPのまわりの多重モード量子スクイーズを研究する。 Higher-order exceptional points (EPs) in non-Hermitian systems have attracted great interest due to their advantages in sensitive enhancement and distinct topological features. However, realization of such EPs is still challenged because more fine-tuning parameters is generically required in quantum systems, compared to the second-order EP (EP2). Here, we propose a non-Hermitian three-mode optomechanical system in the blue-sideband regime for predicting the third-order EP (EP3). By deriving the pseudo-Hermitian condition for the proposed system, one cavity with loss and the other one with gain must be required. Then we show EP3 or EP2 can be observed when the mechanical resonator (MR) is neutral, loss or gain. For the neutral MR, we find both two degenerate or two non-degenerate EP3s can be predicted by tuning system parameters in the parameter space, while four non-degenerate EP2s can be observed when the system parameters derivate from EP3s, which is distinguished from the previous study in the red-detuned optomechanical system. For the gain (loss) MR, we find only two degenerate EP3s or EP2s can be predicted by tuning enhanced coupling strength. Our proposal provides a potential way to predict higher-order EPs or multiple EP2s and study multimode quantum squeezing around EPs using the blue-detuned non-Hermitian optomechanical systems. | 翻訳日:2023-02-13 02:11:31 公開日:2022-09-28 |
# 接続性が異なるランダムグラフ上のアンダーソン局在の普遍性 Universality in Anderson localization on random graphs with varying connectivity ( http://arxiv.org/abs/2205.14614v2 ) ライセンス: Link先を確認 | Piotr Sierant, Maciej Lewenstein, Antonello Scardicchio | (参考訳) 正規およびランダム接続を持つランダムグラフのいくつかのモデル上で、アンダーソン局在化遷移の徹底的かつ完全な解析を行う。
前例のない正確な対角化データ(スペクトルと固有状態の両方)の精度と豊富さは、新しい有限サイズスケーリングとグラフアンサンブルの統計的解析とともに、2つの単純で整数のスケーリング指数によって記述される普遍的な振る舞いを公表する。
そのような分析の副産物は、強い障害から生じる摂動理論の結果とそれ以前の数値的な研究の間の緊張の和であり、これは、アンダーソン局所化臨界障害である$W_C$より厳密に小さい障害の値より上の非エルゴード領域が$W_{E}$に存在することを示し、そのような領域が存在しないことを示唆する他の研究の緊張の和である。
w_c$ から分離した $w_{e}$ は存在しないが、完全に発達したエルゴード性が発見された長さスケールは $|w-w_c|^{-1}$ のように分岐するが、非局在化が発達する臨界長さは $\sim |w-w_c|^{-1/2}$ である。
臨界点におけるこれらの2つのスケールの分離は真の非エルゴード非局所化領域を可能にする。
また, 固有状態を見て, 参加エントロピーのシステムサイズ依存性における主観的, 副指導的項を考察することにより, 前者には非エルゴード性体積に関する情報が含まれていることを示した。
また,ランダムグラフ上のアンダーソン遷移と多体局在遷移の定量的類似性についても検討した。 We perform a thorough and complete analysis of the Anderson localization transition on several models of random graphs with regular and random connectivity. The unprecedented precision and abundance of our exact diagonalization data (both spectra and eigenstates), together with new finite size scaling and statistical analysis of the graph ensembles, unveils a universal behavior which is described by two simple, integer, scaling exponents. A by-product of such analysis is a reconciliation of the tension between the results of perturbation theory coming from strong disorder and earlier numerical works, which seemed to suggest that there should be a non-ergodic region above a given value of disorder $W_{E}$ which is strictly less than the Anderson localization critical disorder $W_C$, and that of other works which suggest that there is no such region. We find that, although no separate $W_{E}$ exists from $W_C$, the length scale at which fully developed ergodicity is found diverges like $|W-W_C|^{-1}$, while the critical length over which delocalization develops is $\sim |W-W_C|^{-1/2}$. The separation of these two scales at the critical point allows for a true non-ergodic, delocalized region. In addition, by looking at eigenstates and studying leading and sub-leading terms in system size-dependence of participation entropies, we show that the former contain information about the non-ergodicity volume which becomes non-trivial already deep in the delocalized regime. We also discuss the quantitative similarities between the Anderson transition on random graphs and many-body localization transition. | 翻訳日:2023-02-11 09:00:05 公開日:2022-09-28 |
# 水素様原子に対する相対論的リッツアプローチ I:理論的考察 Relativistic Ritz approach to hydrogen-like atoms I: theoretical considerations ( http://arxiv.org/abs/2206.02494v2 ) ライセンス: Link先を確認 | David M. Jacobs | (参考訳) ライドバーグの公式とリッツの量子欠陥アンサッツは、量子力学の出現以前から原子物理学で用いられる標準的な理論ツールであったが、このアプローチは非相対論的基礎によって制限されている。
ここでは,水素様系を任意の質量比で記述する長距離相対論的有効理論を提示する。
有界QEDによって予測される水素エネルギー準位に相対論的理論を適合させることは、正準非相対論的アプローチよりも優れていることを示している。
解析解析により、高次補正と低次補正を関連付ける有界QEDレベルの予測における非線形整合性関係を明らかにし、将来の摂動計算のガイドポストと、Bethe対数の漸近挙動に関する洞察を提供する。
このアプローチの適用例としては、原子分光データへの適合、大きなスペクトルデータセットからの微細構造定数の決定、および境界状態QEDとは独立にデータの内部一貫性の確認がある。 The Rydberg formula along with the Ritz quantum defect ansatz has been a standard theoretical tool used in atomic physics since before the advent of quantum mechanics, yet this approach has remained limited by its non-relativistic foundation. Here I present a long-distance relativistic effective theory describing hydrogen-like systems with arbitrary mass ratios, thereby extending the canonical Ritz-like approach. Fitting the relativistic theory to the hydrogen energy levels predicted by bound-state QED indicates that it is superior to the canonical, nonrelativistic approach. An analytic analysis reveals nonlinear consistency relations within the bound-state QED level predictions that relate higher-order corrections to those at lower order, providing guideposts for future perturbative calculations as well as insights into the asymptotic behavior of Bethe logarithms. Applications of the approach include fitting to atomic spectroscopic data, allowing for the determination the fine-structure constant from large spectral data sets and also to check for internal consistency of the data independently from bound-state QED. | 翻訳日:2023-02-10 09:41:49 公開日:2022-09-28 |
# 長距離キタエフ鎖の相関、長距離絡み合いおよびダイナミクス Correlations, long-range entanglement and dynamics in long-range Kitaev chains ( http://arxiv.org/abs/2206.09688v2 ) ライセンス: Link先を確認 | Gianluca Francica, Luca Dell'Anna | (参考訳) 長距離の相互作用は、これまで調査されていない驚くべき特徴を示す。
ここでは、長距離ホッピングとペアリングを伴う一次元フェルミオン鎖の研究を行い、長距離絡み合いの存在に関連する一般的な特徴について論じる。
特に、相関関数の代数的減衰を決定した後、減衰の指数が1より大きい場合、長距離量子相互情報が存在することが証明される。
さらに,短距離領域と長距離領域の間の量子クエンチによって引き起こされる時間発展は,相境界を越えることなく動的に量子相転移によって特徴づけられることを示した。
また, 断熱力学は, 量子臨界点における位相的長さスケールの発散によって決定され, 長距離系におけるkibble-zurek機構の破れを明らかにした。 Long-range interactions exhibit surprising features which have been less explored so far. Here, studying a one-dimensional fermionic chain with long-range hopping and pairing, we discuss some general features associated to the presence of long-range entanglement. In particular, after determining the algebraic decays of the correlation functions, we prove that a long-range quantum mutual information exists if the exponent of the decay is not larger than one. Moreover, we show that the time evolution triggered by a quantum quench between short-range and long-range regions, can be characterized by dynamical quantum phase transitions without crossing any phase boundary. We show, also, that the adiabatic dynamics is dictated by the divergence of a topological length scale at the quantum critical point, clarifying the violation of the Kibble-Zurek mechanism for long-range systems. | 翻訳日:2023-02-08 18:58:36 公開日:2022-09-28 |
# 高速局所デコーダと大域デコーダを回路レベルの雑音下で結合する技術 Techniques for combining fast local decoders with global decoders under circuit-level noise ( http://arxiv.org/abs/2208.01178v2 ) ライセンス: Link先を確認 | Christopher Chamberland and Luis Goncalves and Prasahnt Sivarajah and Eric Peterson and Sebastian Grimberg | (参考訳) フォールトトレラントな量子コンピュータ上でのアルゴリズムの実装には、ゲートのアプリケーション間のバッファ時間の指数的な増加を防ぐために、高速な復号スループットと遅延時間が必要となる。
この作業では、これらの要件の定量化から始めます。
次に,3次元畳み込みを用いた局所ニューラルネットワーク(NN)デコーダの構築を紹介する。
これらのローカルデコーダは回路レベルのノイズに適応し、任意の大きさの表面コードボリュームに適用できる。
そのアプリケーションは、特定の数の障害から生じるエラーを取り除き、症候群の密度を実質的に減少させる。
残されるエラーは、BlossomやUnion Findのようなグローバルデコーダによって修正され、シンドローム密度の低下により実装が大幅に高速化される。
しかし、回路レベルの設定では、局所デコーダが適用した補正は多くの垂直対のハイライトされた頂点を導入する。
垂直対の存在下での低シンドローム密度を得るために,多くの垂直対を除去し,グローバルデコーダが使用するデコードグラフのサイズを低減するシンドローム崩壊を行う戦略を検討する。
また、グローバルデコーダを実装する前に、すべてのローカルな垂直ペアを除去する垂直クリーンアップを行う戦略についても検討する。
最後に、フィールドプログラマブルゲートアレイ(FPGA)上でローカルデコーダを実装するコストを見積もる。 Implementing algorithms on a fault-tolerant quantum computer will require fast decoding throughput and latency times to prevent an exponential increase in buffer times between the applications of gates. In this work we begin by quantifying these requirements. We then introduce the construction of local neural network (NN) decoders using three-dimensional convolutions. These local decoders are adapted to circuit-level noise and can be applied to surface code volumes of arbitrary size. Their application removes errors arising from a certain number of faults, which serves to substantially reduce the syndrome density. Remaining errors can then be corrected by a global decoder, such as Blossom or Union Find, with their implementation significantly accelerated due to the reduced syndrome density. However, in the circuit-level setting, the corrections applied by the local decoder introduce many vertical pairs of highlighted vertices. To obtain a low syndrome density in the presence of vertical pairs, we consider a strategy of performing a syndrome collapse which removes many vertical pairs and reduces the size of the decoding graph used by the global decoder. We also consider a strategy of performing a vertical cleanup, which consists of removing all local vertical pairs prior to implementing the global decoder. Lastly, we estimate the cost of implementing our local decoders on Field Programmable Gate Arrays (FPGAs). | 翻訳日:2023-02-02 14:34:49 公開日:2022-09-28 |
# 光機械共振器の単一レーザーフィードバック冷却 Single-laser feedback cooling of optomechanical resonators ( http://arxiv.org/abs/2209.06029v2 ) ライセンス: Link先を確認 | Arvind Shankar Kumar, Joonas N\"atkinniemi, Henri Lyyra, Juha T. Muhonen | (参考訳) 測定に基づく制御は、量子情報処理や量子センシングへの応用のために、純粋量子状態の機械共振器を準備するための重要な技術として登場した。
従来、これは2つの異なるチャネルを必要としており、1つは動作を検知し、もう1つは共振器で振る舞う。
本研究は, 単一レーザフィードバック冷却技術を用いて, 機械的運動の探索と制御を行う手法を実験的に解析・実証するものである。
解析モデルを用いて,一定の安定性要件を満たしている限り,このモードではフィードバック冷却が実現可能であることを示す。
その結果,より実験的に実現可能な構成であることに加えて,単一レーザーフィードバックの干渉効果がパラメータ領域における冷却の促進に有効であることがわかった。 Measurement-based control has emerged as an important technique to prepare mechanical resonators in pure quantum states for applications in quantum information processing and quantum sensing. Conventionally this has required two separate channels, one for probing the motion and another one acting back on the resonator. In this work, we analyze and experimentally demonstrate a technique of single-laser feedback cooling, where one laser is used for both probing and controlling the mechanical motion. We show using an analytical model and experiments that feedback cooling is feasible in this mode as long as certain stability requirements are fulfilled. Our results demonstrate that, in addition to being more experimentally feasible construction, the interference effects of the single-laser feedback can actually be used to enhance cooling at some parameter regimes. | 翻訳日:2023-01-26 19:26:49 公開日:2022-09-28 |
# サブシステム浄化に基づく変分エンコーダによる次元低減 Dimensionality reduction with variational encoders based on subsystem purification ( http://arxiv.org/abs/2209.09791v2 ) ライセンス: Link先を確認 | Raja Selvarajan, Manas Sajjan, Travis S. Humble, and Sabre Kais | (参考訳) 符号化と圧縮の効率的な手法は、高次元ヒルベルト空間上の効率的な訓練可能性の問題への道を開く可能性が高い。
本稿では,高次元ヒルベルト空間で表される状態の次元性を低減するための変分オートエンコーダの代替手法を提案する。
この目的のために、データセットを入力として、パラメータ化量子回路(PQC)アンサッツのパラメータを最適化し、Tr(\rho^2)を最小化することにより、2つのサブシステムのテンソル積として表現できる出力状態を生成する変分ベースのオートエンコーダ回路を構築した。
この回路の出力は、一連の制御されたスワップゲートと測定によって伝達され、古典アルゴリズムで用いられる任意の次元縮小技術と同じ精神で、開始状態の特徴を保持しながら、キュービット数の半分の状態を出力する。
得られた出力は教師付き学習に用いられ、それによって開発された符号化手順の動作を保証する。
我々は、8x8グリッドにBarsとStripesデータセット(BAS)を使用し、効率的な符号化状態を作成し、95%の分類精度を報告します。
したがって、実証された例では、大きなヒルベルト空間で表される状態を減少させながら、それに続く機械学習アルゴリズムに必要な機能を維持できるという方法の証明を示している。 Efficient methods for encoding and compression are likely to pave way towards the problem of efficient trainability on higher dimensional Hilbert spaces overcoming issues of barren plateaus. Here we propose an alternative approach to variational autoencoders to reduce the dimensionality of states represented in higher dimensional Hilbert spaces. To this end we build a variational based autoencoder circuit that takes as input a dataset and optimizes the parameters of Parameterized Quantum Circuit (PQC) ansatz to produce an output state that can be represented as tensor product of 2 subsystems by minimizing Tr(\rho^2). The output of this circuit is passed through a series of controlled swap gates and measurements to output a state with half the number of qubits while retaining the features of the starting state, in the same spirit as any dimension reduction technique used in classical algorithms. The output obtained is used for supervised learning to guarantee the working of the encoding procedure thus developed. We make use of Bars and Stripes dataset (BAS) for an 8x8 grid to create efficient encoding states and report a classification accuracy of 95% on the same. Thus the demonstrated example shows a proof for the working of the method in reducing states represented in large Hilbert spaces while maintaining the features required for any further machine learning algorithm that follow. | 翻訳日:2023-01-25 23:20:34 公開日:2022-09-28 |
# 不確実性量子化のための量子アルゴリズム:偏微分方程式への応用 Quantum algorithms for uncertainty quantification: application to partial differential equations ( http://arxiv.org/abs/2209.11220v2 ) ライセンス: Link先を確認 | Francois Golse, Shi Jin and Nana Liu | (参考訳) 科学計算、応用数学、データ科学におけるユビキタス性にもかかわらず、不確実性定量化のほとんどの問題は、古典的なコンピュータ上では厳しいままである。
偏微分方程式 (pdes) において生じる不確かさに対して, サンプルのm>>>1が正確なアンサンブル平均を得るために必要となる。
これは通常、PDE M の時間を解く。
加えて、PDEにおける確率性を特徴づけるために、ランダムな入力変数の次元 L は大抵の場合高く、古典的アルゴリズムは次元の呪いに悩まされる。
本研究では,mおよびlにおいて古典的手法に比べて効率のよい不確定係数を持つpsdのための新しい量子アルゴリズムを提案する。
本研究では, d-次元方程式(不確かさ係数)をd+l(散逸方程式)またはd+2l(波型方程式)に変換し, 不確かさが初期データにのみ現れるような変換を導入する。
これらの変換により、M の異なる初期データを重畳することもできるので、M の異なるサンプルからアンサンブル平均を得るための計算コストは、M とは独立であり、d, L の利点と、アンサンブル平均解や物理観測値の計算精度を示す。 Most problems in uncertainty quantification, despite its ubiquitousness in scientific computing, applied mathematics and data science, remain formidable on a classical computer. For uncertainties that arise in partial differential equations (PDEs), large numbers M>>1 of samples are required to obtain accurate ensemble averages. This usually involves solving the PDE M times. In addition, to characterise the stochasticity in a PDE, the dimension L of the random input variables is high in most cases, and classical algorithms suffer from curse-of-dimensionality. We propose new quantum algorithms for PDEs with uncertain coefficients that are more efficient in M and L in various important regimes, compared to their classical counterparts. We introduce transformations that transfer the original d-dimensional equation (with uncertain coefficients) into d+L (for dissipative equations) or d+2L (for wave type equations) dimensional equations (with certain coefficients) in which the uncertainties appear only in the initial data. These transformations also allow one to superimpose the M different initial data, so the computational cost for the quantum algorithm to obtain the ensemble average from M different samples is then independent of M, while also showing potential advantage in d, L and precision in computing ensemble averaged solutions or physical observables. | 翻訳日:2023-01-25 17:48:54 公開日:2022-09-28 |
# 量子近似最適化アルゴリズムの深さ進行初期化戦略 A Depth-Progressive Initialization Strategy for Quantum Approximate Optimization Algorithm ( http://arxiv.org/abs/2209.11348v2 ) ライセンス: Link先を確認 | Xinwei Lee, Ningyi Xie, Yoshiyuki Saito, Dongsheng Cai, Nobuyoshi Asai | (参考訳) 量子近似最適化アルゴリズム(QAOA)は、短期量子デバイスにおける組合せ最適化問題を解く能力と普遍性で知られている。
QAOAによって得られる結果は、初期変動パラメータに強く依存する。
したがって、QAOAのパラメータ選択は、特に回路深度の高い結果の品質を劣化させる可能性があるため、研究の活発な領域となる。
まず,QAOAにおける最適パラメータのパターンを,角度指数と回路深さの2つの方向に議論する。
次に、探索空間の境界を決定するのに使用される期待の対称性と周期性について議論する。
最適パラメータのパターンと境界制約に基づいて,従来の最適パラメータの差を考慮し,新しい初期パラメータを予測する戦略を提案する。
他の戦略とは異なり、我々の提案する戦略は成功を保証するために複数の試行を必要としない。
次の深さに進むには1つの予測しか必要ありません。
我々は,この戦略を,近似比と最適化コストの観点から,これまで提案した戦略と,マックスカット問題を解くための階層戦略と比較した。
また, 変動量子アルゴリズムの振る舞いを説明する上での重要性にもかかわらず, 従来のパラメータにおける非最適性についても論じる。 The quantum approximate optimization algorithm (QAOA) is known for its capability and universality in solving combinatorial optimization problems on near-term quantum devices. The results yielded by QAOA depend strongly on its initial variational parameters. Hence, parameters selection for QAOA becomes an active area of research as bad initialization might deteriorate the quality of the results, especially at great circuit depths. We first discuss on the patterns of optimal parameters in QAOA in two directions: the angle index and the circuit depth. Then, we discuss on the symmetries and periodicity of the expectation that is used to determine the bounds of the search space. Based on the patterns in optimal parameters and the bounds restriction, we propose a strategy which predicts the new initial parameters by taking the difference between previous optimal parameters. Unlike most other strategies, the strategy we propose does not require multiple trials to ensure success. It only requires one prediction when progressing to the next depth. We compare this strategy with our previously proposed strategy and the layerwise strategy on solving the Max-cut problem, in terms of the approximation ratio and the optimization cost. We also address the non-optimality in previous parameters, which is seldom discussed in other works, despite its importance in explaining the behavior of variational quantum algorithms. | 翻訳日:2023-01-25 17:40:32 公開日:2022-09-28 |
# 時間依存系における光子数保存 Photon number conservation in time dependent systems ( http://arxiv.org/abs/2209.11576v2 ) ライセンス: Link先を確認 | J B Pendry | (参考訳) 時間依存系は一般に光子を保存せず、エネルギーを保存しない。
しかし、パリティ時間対称性がマクスウェル方程式を保持するとき、光子数とエネルギーを保存できることがある。
ここでは、光子保存法が、前論文で周波数ラダーに登る保存光子の過程として特定された増幅機構にさらなる光を照射することにより、エネルギー保存に違反する状況において、より広く適用可能な法則であることを示す。 Time dependent systems in general do not conserve photons nor do they conserve energy. However when parity time symmetry holds Maxwells equations can sometimes both conserve photon number and energy. Here we show that photon conservation is the more widely applicable law which can hold in circumstances where energy conservation is violated shedding further light on an amplification mechanism identified in previous papers as a process of conserved photons climbing a frequency ladder. | 翻訳日:2023-01-25 10:14:46 公開日:2022-09-28 |
# スカラーモデルにおける量子摩擦振幅の空間依存性 Spatial dependence of quantum friction amplitudes in a scalar model ( http://arxiv.org/abs/2209.12986v2 ) ライセンス: Link先を確認 | Aitor Fern\'andez and C\'esar D. Fosco | (参考訳) 物質面への平行方向に一定の速度で移動する原子に対する量子摩擦効果の空間的依存性について検討する。
特に、単位時間と単位面積当たりの確率を、その位置の関数として、与えられた原子の軌道に対して、平面上の興奮的な自由度に対して決定する。
また、確率密度を積分した結果が、同じ系に対する前の結果と一致することを示す。 We study the spatial dependence of the quantum friction effect for an atom moving at a constant velocity, in a parallel direction to a material plane. In particular, we determine the probability per unit time and unit area, for exciting degrees of freedom on the plane, as a function of their position, for a given trajectory of the atom. We also show that the result of integrating out the probability density agrees with previous results for the same system. | 翻訳日:2023-01-25 02:44:55 公開日:2022-09-28 |
# 分散誘電体におけるマクロ量子電磁力学の積分方程式定式化 Integral Equation Formulation of Macroscopic Quantum Electrodynamics in Dispersive Dielectrics ( http://arxiv.org/abs/2209.13962v1 ) ライセンス: Link先を確認 | Carlo Forestiere and Giovanni Miano | (参考訳) ホップフィールド型モデルの枠組みにおいて, 有限サイズ分散誘電体物体におけるハイゼンベルク像のマクロ量子電磁力学を解析するための積分方程式アプローチを提案する。
この手紙で提案されたアプローチは、既存のものとは異なり、観測対象の時間的進化を評価するためにハミルトニアンの対角化を必要としない。
計算古典電気力学における統合レパートリーの直接応用を可能にし、開放的、分散的、吸収的環境で量子電気力学計算を行うことができるので、特に魅力的である。 We present an integral equation approach for analyzing the macroscopic quantum electrodynamics, in the Heisenberg picture, in finite-size dispersive dielectric objects, in the framework of Hopfield-type models. The approach proposed in this letter, unlike the existing ones, does not require the diagonalization of the Hamiltonian for evaluating the time evolution of the observables. It is particularly attractive because it enables the direct application of consolidated repertory in computational classical electrodynamics to carry out quantum electrodynamic computation in open, dispersive and absorbing environment. | 翻訳日:2023-01-24 19:52:24 公開日:2022-09-28 |
# 原子シミュレーション環境への変量量子固有解エネルギー(VQE-E)と力(VQE-F)計算機のインタフェース(ASE) An Interface for Variational Quantum Eigensolver based Energy (VQE-E) and Force (VQE-F) Calculator to Atomic Simulation Environment (ASE) ( http://arxiv.org/abs/2209.13876v1 ) ライセンス: Link先を確認 | Nirmal M R, Shampa Sarkar, Manoj Nambiar | (参考訳) 量子化学問題を解決する量子アルゴリズムの開発は、原子や分子のスケールでコンピュータシミュレーションを実行するための有望な新しいパラダイムを提供した。
これまでの研究の大部分は、地面と励起状態のエネルギーと力を計算するための量子アルゴリズムの設計に集中しているが、これらのアルゴリズムをサブルーチンとして幾何最適化のような異なるシミュレーションタスクを実行することは有用である。
そこで我々は,変量量子固有解法に基づく分子エネルギー(VQE-E)と分子力(VQE-F)の原子シミュレーション環境(ASE)へのインタフェースを構築した。
aseで実装されたネイティブオプティマイザを用いて,水分子の形状を最適化することで,このハイブリッド量子古典インタフェースの動作を実証する。
さらに、このインタフェースにより、量子アルゴリズムと関連する古典的手法を最小限のコーディング労力で簡単に比較、組み合わせ、使用することができる。 The development of quantum algorithms to solve quantum chemistry problems has offered a promising new paradigm of performing computer simulations at the scale of atoms and molecules. Although majority of the research so far has focused on designing quantum algorithms to compute ground and excited state energies and forces, it is useful to run different simulation tasks, such as geometry optimization, with these algorithms as subroutines. Towards this end, we have created an interface for the Variational Quantum Eigensolver based molecular Energy (VQE-E) and molecular Force (VQE-F) code to the Atomic Simulation Environment (ASE). We demonstrate the working of this hybrid quantum-classical interface by optimizing the geometry of water molecule using a native optimizer implemented in ASE. Furthermore, this interface enables one to compare, combine and use quantum algorithms in conjunction with related classical methods quite easily with minimal coding effort. | 翻訳日:2023-01-24 19:52:14 公開日:2022-09-28 |
# 低周波量子センシング Low-frequency quantum sensing ( http://arxiv.org/abs/2209.13870v1 ) ライセンス: Link先を確認 | E. D. Herbschleb, I. Ohki, K. Morita, Y. Yoshii, H. Kato, T. Makino, S. Yamasaki, N. Mizuochi | (参考訳) 優れた感度は量子センサーの顕著な利点である。
ラムゼー列は直接電流場を正確に測定できるが、ハーンエコー列は交流電流場を測定する。
しかし、後者はコヒーレンス時間によって高周波場(約1ドル kHz 以上)の使用が制限され、低周波数域に対する感度の低い非コヒーレント法が残る。
本稿では,低周波場をコヒーレントに計測するために,周波数非依存な感度を持つフィッティングベースアルゴリズムでギャップを橋渡しする。
アルゴリズムはコヒーレンスに基づく測定から恩恵を受けるため、窒素空孔中心の1つの実験では、0.6$ kHz以下の周波数に対して9.4$ nT Hz$^{-0.5}$の感度を与える。
様々なシナリオにおけるポテンシャルを検査するために,数十nTの背景場にアルゴリズムを適用し,同期による低周波信号の測定を行う。 Exquisite sensitivities are a prominent advantage of quantum sensors. Ramsey sequences allow precise measurement of direct current fields, while Hahn-echo-like sequences measure alternating current fields. However, the latter are restrained for use with high-frequency fields (above approximately $1$ kHz) due to finite coherence times, leaving less-sensitive noncoherent methods for the low-frequency range. In this paper, we propose to bridge the gap with a fitting-based algorithm with a frequency-independent sensitivity to coherently measure low-frequency fields. As the algorithm benefits from coherence-based measurements, its demonstration with a single nitrogen-vacancy center gives a sensitivity of $9.4$ nT Hz$^{-0.5}$ for frequencies below about $0.6$ kHz down to near-constant fields. To inspect the potential in various scenarios, we apply the algorithm at a background field of tens of nTs, and we measure low-frequency signals via synchronization. | 翻訳日:2023-01-24 19:51:56 公開日:2022-09-28 |
# 量子計測による帯電 Charging by quantum measurement ( http://arxiv.org/abs/2209.13868v1 ) ライセンス: Link先を確認 | Jia-shun Yan and Jun Jing | (参考訳) 本稿では,使い捨て充電器として機能する補助量子ビットの測定により,量子帯電方式を提案する。
同一の量子ビットのストリームは、最適化間隔の合同ユニタリ進化の後、N+1$レベルの量子電池に順次結合され、射影演算によって測定される。
クビットチャージャを励起状態にして地上で測定すると、最適化された測定間隔を反復的に更新することにより、その励起(エネルギー)をほぼ完全に電池に転送することができる。
基底状態からすると、バッテリーはより高いエネルギーレベルまで常に充電することができる。
熱状態から始めると、バッテリは人口反転が発生すると、約1単位のエルゴトロピーとエネルギーを$\sim n$で測定することができる。
クビットチャージャーを地上で準備して励起状態で測定した場合、測定のみで抽出した有用な作業は、成功確率がなくなる前に電池を熱状態から高エゴトロピー状態に変換することができる。
本研究は,非平衡系形成における量子計測の新たな特徴を明らかにする。 We propose a quantum charging scheme fueled by measurements on ancillary qubits serving as disposable chargers. A stream of identical qubits are sequentially coupled to a quantum battery of $N+1$ levels and measured by projective operations after joint unitary evolutions of optimized intervals. If qubit-chargers are prepared in excited state and measured on ground state, their excitations (energy) can be near-completely transferred to battery by iteratively updating the optimized measurement intervals. Starting from its ground state, the battery could be constantly charged to an even higher energy level. Starting from a thermal state, the battery could also achieve a near-unit rate of ergotropy and energy under $\sim N$ measurements, when a population inversion occurs. If qubit-chargers are prepared in ground state and measured on excited state, useful work extracted by measurements alone could transform the battery from a thermal state to a high-ergotropy state before the success probability vanishes. Our findings reveal novel features of quantum measurement on shaping the nonequilibrium system. | 翻訳日:2023-01-24 19:51:36 公開日:2022-09-28 |
# スキャミングアクティビティ検出のための符号付き潜時因子 Signed Latent Factors for Spamming Activity Detection ( http://arxiv.org/abs/2209.13814v1 ) ライセンス: Link先を確認 | Yuli Liu | (参考訳) 様々なオンラインプラットフォーム上でスパム行為(Webスパム、偽レビュー、偽フォロワーなど)を行う傾向が高まり、保存されていない利益を得るためにスパム検出がホットな研究課題として浮上している。
スパムに対処する以前の試みは、主にメタデータ、ユーザの振る舞い、リレーショナルな結びつきに関連する機能を利用している。
これらの研究はスパムキャンペーンの理解とフィルタリングに大きな進歩をもたらした。
しかし、この問題は完全な解決には程遠い。
提案された機能のほとんどは、限られた数の観察可能な属性や説明可能な現象に焦点を当てており、既存の方法がさらなる改善を達成するのが困難である。
スパム検出領域におけるスパム問題の解決と長期的課題(クラス不均衡とグラフ不完全性)に対処するための新たな試みとして,署名された潜伏要因を利用して不正行為をフィルタリングする手法を提案する。
このシナリオにおける複数のオンラインアプリケーションのスパム汚染リレーショナルデータセットは、統合署名ネットワークによって解釈される。
遅延因子マイニング(LFM-MRLE)モデルと符号付きペアワイドランキング(LFM-SPR)の2つの競合アルゴリズムと高相似アルゴリズムをそれぞれ設計する。
次に,スパム検出タスクに潜伏要因を適用する方法について検討する。
様々な種類のWebアプリケーション(ソーシャルメディアとWebフォーラム)の現実のデータセットに対する実験は、LFMモデルがスパム行為の検出において最先端のベースラインを上回っていることを示している。
実験データを具体的に操作することで,不完全かつ不均衡な課題に対処する手法の有効性が検証できる。 Due to the increasing trend of performing spamming activities (e.g., Web spam, deceptive reviews, fake followers, etc.) on various online platforms to gain undeserved benefits, spam detection has emerged as a hot research issue. Previous attempts to combat spam mainly employ features related to metadata, user behaviors, or relational ties. These works have made considerable progress in understanding and filtering spamming campaigns. However, this problem remains far from fully solved. Almost all the proposed features focus on a limited number of observed attributes or explainable phenomena, making it difficult for existing methods to achieve further improvement. To broaden the vision about solving the spam problem and address long-standing challenges (class imbalance and graph incompleteness) in the spam detection area, we propose a new attempt of utilizing signed latent factors to filter fraudulent activities. The spam-contaminated relational datasets of multiple online applications in this scenario are interpreted by the unified signed network. Two competitive and highly dissimilar algorithms of latent factors mining (LFM) models are designed based on multi-relational likelihoods estimation (LFM-MRLE) and signed pairwise ranking (LFM-SPR), respectively. We then explore how to apply the mined latent factors to spam detection tasks. Experiments on real-world datasets of different kinds of Web applications (social media and Web forum) indicate that LFM models outperform state-of-the-art baselines in detecting spamming activities. By specifically manipulating experimental data, the effectiveness of our methods in dealing with incomplete and imbalanced challenges is valida | 翻訳日:2023-01-24 19:50:55 公開日:2022-09-28 |
# 量子力学方程式の分散鎖 Dispersion chain of quantum mechanics equations ( http://arxiv.org/abs/2209.14069v1 ) ライセンス: Link先を確認 | E.E. Perepelkin, B.I. Sadovnikov, N.G. Inozemtseva, A.A. Korepanova | (参考訳) 本論文は,vlasov方程式の分散鎖に基づいて,高キネマティック値の量子力学の新しい連星を構成することを考察する。
提案手法は、放射を伴う古典的および量子的システムに応用できる。
ハミルトン作用素、ラグランジュ函数、ハミルトン・ヤコビ方程式、マクスウェル方程式の一般化位相空間への拡張という形で、いくつかの定理が証明されている。
低次元の特別な場合では、量子力学の分散連鎖は位相空間(ウィグナー関数)の量子力学と、ド・ブロイ=ボーム(de broglie-bohm {\guillemotleft}pilot wave{\guillemotright} 理論に還元される。
第二階数(位相空間)のシュリンガー方程式を解く一例を解析し、ウィグナー函数とは対照的に正の分布密度関数を与える。 Based on the dispersion chain of the Vlasov equations, the paper considers the construction of a new chain of equations of quantum mechanics of high kinematical values. The proposed approach can be applied to consideration of classical and quantum systems with radiation. A number of theorems are proved on the form of extensions of the Hamilton operators, Lagrange functions, Hamilton-Jacobi equations, and Maxwell equations to the case of a generalized phase space. In some special cases of lower dimensions, the dispersion chain of quantum mechanics is reduced to quantum mechanics in phase space (the Wigner function) and the de Broglie-Bohm {\guillemotleft}pilot wave{\guillemotright} theory. An example of solving the Schr\"odinger equation of the second rank (for the phase space) is analyzed, which, in contrast to the Wigner function, gives a positive distribution density function. | 翻訳日:2023-01-24 19:46:26 公開日:2022-09-28 |
# 量子センサを用いたラジカル対反応における磁場効果のセンシング Sensing of magnetic field effects in radical-pair reactions using a quantum sensor ( http://arxiv.org/abs/2209.14066v1 ) ライセンス: Link先を確認 | Deepak Khurana, Rasmus H. Jensen, Rakshyakar Giri, Juanita Bocquel, Ulrik L. Andersen, Kirstine Berg-S{\o}rensen, and Alexander Huck | (参考訳) 特定の化学反応における磁場効果(MFE)は過去50年間によく確立されており、スピンダイナミクスが局所磁場と外部磁場によって決定される過渡ラジカルペアの進化に起因している。
これらの反応を調べるために用いられる既存の実験手法の大部分は、アンサンブル平均反応パラメータとスピン化学のみを提供し、単一分子スケールでの量子コヒーレント現象の潜在的存在の観測を妨げる。
そこで, 単一窒素空隙(nv)中心を量子センサとして, 分子の単一・小アンサンブル規模におけるラジカルパイアのスピンダイナミクスにおけるmfe検出の展望と要件について検討した。
我々は,局所スピン環境とセンサとの結合を考慮し,精巧で現実的なラジカルパイアモデルを用いる。
2つのモデル系に対して、ラジカル対とNV量子センサの弱い結合状態においても検出可能なMFEの信号を導出し、ラジカル対の密度行列の特定の集団とコヒーレンス要素のダイナミクスが直接検出可能であることを観察する。
本研究は、生物プロセスにおける量子コヒーレンスの重要性を実証するために必要となる、単一分子規模での生体分子のスピン化学検出のための重要なガイドラインを提供する。 Magnetic field effects (MFE) in certain chemical reactions have been well established in the last five decades and are attributed to the evolution of transient radical-pairs whose spin dynamics are determined by local and external magnetic fields. The majority of existing experimental techniques used to probe these reactions only provide ensemble averaged reaction parameters and spin chemistry, hindering the observation of the potential presence of quantum coherent phenomena at the single molecule scale. Here, considering a single nitrogen vacancy (NV) centre as quantum sensor, we investigate the prospects and requirements for detection of MFEs on the spin dynamics of radical-pairs at the scale of single and small ensemble of molecules. We employ elaborate and realistic models of radical-pairs, considering its coupling to the local spin environment and the sensor. For two model systems, we derive signals of MFE detectable even in the weak coupling regime between radical-pair and NV quantum sensor, and observe that the dynamics of certain populations, as well as coherence elements, of the density matrix of the radical pair are directly detectable. Our investigations will provide important guidelines for potential detection of spin chemistry of bio-molecules at the single molecule scale, required to witness the hypothesised importance of quantum coherence in biological processes. | 翻訳日:2023-01-24 19:46:11 公開日:2022-09-28 |
# $H \to WW$における量子エンタングルメントの実験的検討 Laboratory-frame tests of quantum entanglement in $H \to WW$ ( http://arxiv.org/abs/2209.14033v1 ) ライセンス: Link先を確認 | J. A. Aguilar-Saavedra | (参考訳) ヒッグス粒子の崩壊による2つの$W$ボソン間の量子絡み合いを、荷電レプトン$\ell=e,\mu$のみを含む実験用フレーム観測器を用いてジレプトンチャネル$H \to WW \to \ell \nu \ell \nu$で調べることができる。
LHCのATLASとCMSの協力によって既に測定されているジレンプトン不変質量分布は、統計感度が7\sigma$とRun 2データとの量子エンタングルメントの観測に使用できる。
副生成物として、$W$静止フレーム(4次元)角分布、$H \to WW$減衰振幅、スピン相関係数の関係を記述する。 Quantum entanglement between the two $W$ bosons resulting from the decay of a Higgs boson may be investigated in the dilepton channel $H \to WW \to \ell \nu \ell \nu$ using laboratory-frame observables that only involve the charged leptons $\ell=e,\mu$. The dilepton invariant mass distribution, already measured by the ATLAS and CMS Collaborations at the LHC, can be used to observe the quantum entanglement of the $WW$ pair with a statistical sensitivity of $7\sigma$ with Run 2 data. As a by-product, the relation between $W$ rest frame (four-dimensional) angular distributions, $H \to WW$ decay amplitudes, and spin correlation coefficients, is written down. | 翻訳日:2023-01-24 19:45:49 公開日:2022-09-28 |
# 奇素次元の四重項をもつ文脈的測定に基づく量子計算から状態非依存の文脈性は抽出できない No state-independent contextuality can be extracted from contextual measurement-based quantum computation with qudits of odd prime dimension ( http://arxiv.org/abs/2209.14018v1 ) ライセンス: Link先を確認 | Markus Frembs, Cihan Okay, Ho Yiu Chung | (参考訳) 線形制約系(LCS)は、古典的でない相関や量子基底における様々な関連する問題の研究において、驚くほど多くのツールであることが証明されている。
多くの結果はブールの場合で知られているが、奇次元の系への一般化は概ね開である。
特に、奇数次元の lcs が存在して有限次元量子を許容するが古典解は存在しないかどうかは分かっていない。
本稿では,この問題に計算的観点からアプローチする。
線形側処理によるすべての決定論的非適応計測ベース量子計算(MBQC)はLCSを定義する。
さらに、そのような mbqc の測定作用素は、各 lcs に対する量子解をほぼ定義している: 唯一の違いは、測定作用素は一般に mbqc の資源状態に関してのみ可換である。
これにより、この状態依存がある種のケースで持ち上げられるかどうかという疑問が持ち上がり、ランダム次元のLCSに対する量子解の例を提供する。
我々の主な結果は、p の奇素数に対するポーリ群の大きな拡張の中でそのような例は生じず、これは自然に発生し、線形な側処理を持つ決定論的で非適応な mbqc の計算に普遍的であると主張している。 Linear constraint systems (LCS) have proven to be a surprisingly prolific tool in the study of non-classical correlations and various related issues in quantum foundations. Many results are known for the Boolean case, yet the generalisation to systems of odd dimension is largely open. In particular, it is not known whether there exist LCS in odd dimension, which admit finite-dimensional quantum, but no classical solutions. Here, we approach this question from a computational perspective. We observe that every deterministic, non-adaptive measurement-based quantum computation (MBQC) with linear side-processing defines a LCS. Moreover, the measurement operators of such a MBQC almost define a quantum solution to the respective LCS: the only difference is that measurement operators generally only commute with respect to the resource state of the MBQC. This raises the question whether this state-dependence can be lifted in certain cases, thus providing examples of quantum solutions to LCS in odd dimension. Our main result asserts that no such examples arise within a large extension of the Pauli group for p odd prime, which naturally arises from and is universal for computation in deterministic, non-adaptive MBQC with linear side-processing. | 翻訳日:2023-01-24 19:45:35 公開日:2022-09-28 |
# 表面電極を用いたダイヤモンドnv中心の環境下でのスピン対電荷変換の促進 Enhancement of spin-to-charge conversion of diamond NV centers at ambient conditions using surface electrodes ( http://arxiv.org/abs/2209.14012v1 ) ライセンス: Link先を確認 | Liam Hanlon, Michael Olney-Fraser, Lukas Razinkovas and Marcus W. Dohert | (参考訳) ダイヤモンドの窒素空隙(nv)中心は、量子計測や計算、特に環境条件への応用の可能性から、非常に研究された欠陥である。
あらゆるアプリケーションでnvを使用するための鍵となるメカニズムは、通常光学的に行われる欠陥のスピン状態を読み出す能力である。
光コントラストは、電子スピンの可読性の主要な指標であり、NV全体の性能において重要な制限要素の1つである。
ダイヤモンド導電バンドに対するNVエネルギーレベルを変化させることでスピンコントラストを改善するため,スピン・ツー・チャージ変換(SCC)機構を電極と併用して高コントラスト再生機構を提案する。
理論モデリングは、室温でのNVの最も高い光コントラストである42%の光スピンコントラストを予測し、この手法が議論されるNVの代替研究経路の範囲を開放する。 The nitrogen-vacancy (NV) center in diamond is a heavily studied defect due to its potential applications to quantum metrology and computation, particularly in ambient conditions. The key mechanism to using the NV in any application lies in the ability to read out the spin state of the defect which is typically done optically. The optical contrast is then the key metric for electron spin readout fidelity and one of the key limiting factors in the NV's overall performance. We present a new mechanism for high contrast readout using the spin-to-charge conversion (SCC) mechanism in conjunction with an electrode to improve the spin contrast by altering the NV energy levels relative to the diamond conduction band. Theoretical modelling predicts an optical spin contrast at 42% which would be the highest optical contrast for the NV at room temperature and the technique opens up a range of alternative research pathways for the NV which are discussed. | 翻訳日:2023-01-24 19:45:11 公開日:2022-09-28 |
# スケーラブルな離散量子生成対向ニューラルネットワークを目指して Towards a scalable discrete quantum generative adversarial neural network ( http://arxiv.org/abs/2209.13993v1 ) ライセンス: Link先を確認 | Smit Chaudhary, Patrick Huembeli, Ian MacCormack, Taylor L. Patti, Jean Kossaifi, and Alexey Galda | (参考訳) 本稿では,バイナリデータを用いた完全量子生成対向ネットワークを提案する。
このアーキテクチャには、他の古典的および量子的な機械学習モデルに見られるいくつかの特徴が組み込まれており、この時点では併用されていなかった。
特に,発生器におけるノイズ再ロード,表現性を高めるために識別器内の補助量子ビット,および生成器と判別器回路の直接接続を組み込んで,発生器の確率分布にアクセスする必要性を回避した。
分離したコンポーネントとして、ジェネレータと判別器が必要に応じて実行することを示す。
我々は、Isingモデルの合成データと低エネルギー状態の両方において、我々のモデルの表現力を実証的に示す。
実験では,モデルが離散的なトレーニングデータを再現できるだけでなく,それを一般化する可能性も示唆した。 We introduce a fully quantum generative adversarial network intended for use with binary data. The architecture incorporates several features found in other classical and quantum machine learning models, which up to this point had not been used in conjunction. In particular, we incorporate noise reuploading in the generator, auxiliary qubits in the discriminator to enhance expressivity, and a direct connection between the generator and discriminator circuits, obviating the need to access the generator's probability distribution. We show that, as separate components, the generator and discriminator perform as desired. We empirically demonstrate the expressive power of our model on both synthetic data as well as low energy states of an Ising model. Our demonstrations suggest that the model is not only capable of reproducing discrete training data, but also of potentially generalizing from it. | 翻訳日:2023-01-24 19:44:54 公開日:2022-09-28 |
# 導波路集積シリコンt中心 Waveguide-integrated silicon T centres ( http://arxiv.org/abs/2209.14260v1 ) ライセンス: Link先を確認 | A. DeAbreu, C. Bowness, A. Alizadeh, C. Chartrand, N. A. Brunelle, E. R. MacQuarrie, N. R. Lee-Hone, M. Ruether, M. Kazemi, A. T. K. Kurkjian, S. Roorda, N. V. Abrosimov, H.-J. Pohl, M. L. W. Thewalt, D. B. Higginbottom, S. Simmons | (参考訳) モジュラーでネットワーク化された量子技術の性能は、量子光源相互接続の品質に強く依存する。
固体色中心、特にシリコンのT中心は、量子ネットワーク技術と分散量子コンピューティングの基礎として、競争力のある技術と商業上の優位性を提供する。
これらの新しく発見されたシリコン欠陥は、直接の電気通信バンドフォトニックエミッション、長寿命の電子および核スピン量子ビットを提供し、業界標準のcmos互換シリコンオンインシュレーター(soi)フォトニックチップへのネイティブな統合が証明された。
ここでは、SOIの単一モード導波路におけるT中心スピンアンサンブルを特徴付けることにより、さらなる積分のレベルを示す。
長いスピンT_1回の測定に加えて、集積中心の光学特性について報告する。
これらの導波路一体型エミッタの細く均質な線幅は、キャビティパーセルの強化だけで遠隔スピン絡み込みプロトコルの成功を予測できるほど十分に低いことが判明した。
等方性純バルク結晶中のほぼ一生長寿命の同質線幅を測定することで、さらなる改良が可能であることを示す。
いずれの場合においても、測定された線幅は以前報告したよりも桁違いに小さく、シリコンのt中心に基づく高性能で大規模な分散量子技術が近い将来実現可能であるという見解をさらに支持している。 The performance of modular, networked quantum technologies will be strongly dependent upon the quality of their quantum light-matter interconnects. Solid-state colour centres, and in particular T centres in silicon, offer competitive technological and commercial advantages as the basis for quantum networking technologies and distributed quantum computing. These newly rediscovered silicon defects offer direct telecommunications-band photonic emission, long-lived electron and nuclear spin qubits, and proven native integration into industry-standard, CMOS-compatible, silicon-on-insulator (SOI) photonic chips at scale. Here we demonstrate further levels of integration by characterizing T centre spin ensembles in single-mode waveguides in SOI. In addition to measuring long spin T_1 times, we report on the integrated centres' optical properties. We find that the narrow homogeneous linewidth of these waveguide-integrated emitters is already sufficiently low to predict the future success of remote spin-entangling protocols with only modest cavity Purcell enhancements. We show that further improvements may still be possible by measuring nearly lifetime-limited homogeneous linewidths in isotopically pure bulk crystals. In each case the measured linewidths are more than an order of magnitude lower than previously reported and further support the view that high-performance, large-scale distributed quantum technologies based upon T centres in silicon may be attainable in the near term. | 翻訳日:2023-01-24 19:39:35 公開日:2022-09-28 |
# グローバルクエンチ後の三部構成情報の普遍性 Universality in the tripartite information after global quenches ( http://arxiv.org/abs/2209.14253v1 ) ライセンス: Link先を確認 | Vanja Mari\'c, Maurizio Fagotti | (参考訳) マクロ的に大きな3部分 $(A,B,C)$ 連結部分系の$A\cup B \cup C$ 無限スピン鎖において、R\enyi-$\alpha$三部分情報 $I_3^{(\alpha)}(A,B,C)$ を考える。
局所ハミルトニアンとクリーンな1Dシステムの平衡では、一般的に消滅する。
注目すべき例外は共形臨界系の基底状態であり、$I_3^{(\alpha)}(A,B,C)$は、$x=|A||C|/[(|A|+|B|)(|C|+|B|)]$のクロス比の普遍函数であることが知られている。
我々は、翻訳的不変なハミルトニアンの時間発展が(r\'enyi)3部情報をx$に普遍依存して構築できる3つの状態のクラスを同定する。
自由フェルミオンに双対な系における$i_3^{(\alpha)}$ の数値的研究を報告し、フィールド理論記述を提案し、それらの漸近的挙動を概ね$\alpha=2$ と一般的な$\alpha$ の系のサブクラスで予想する。
これにより、スケーリング制限 $x\rightarrow 1^-$ において、$i_3^{(\alpha)}$ の値を推測することができ、これを "residual tripartite information" と呼ぶ。
非ゼロであれば、我々の分析は R\'enyi index $\alpha$ とは独立に普遍残留値 $-\log 2$ を指し、従って真の (von Neumann) 三部情報にも適用される。 We consider macroscopically large 3-partitions $(A,B,C)$ of connected subsystems $A\cup B \cup C$ in infinite spin chains and study the R\'enyi-$\alpha$ tripartite information $I_3^{(\alpha)}(A,B,C)$. At equilibrium in clean 1D systems with local Hamiltonians it generally vanishes. A notable exception is the ground state of conformal critical systems, in which $I_3^{(\alpha)}(A,B,C)$ is known to be a universal function of the cross ratio $x=|A||C|/[(|A|+|B|)(|C|+|B|)]$, where $|A|$ denotes $A$'s length. We identify three classes of states for which time evolution under translationally invariant Hamiltonians can build up (R\'enyi) tripartite information with a universal dependency on $x$. We report a numerical study of $I_3^{(\alpha)}$ in systems that are dual to free fermions, propose a field-theory description, and conjecture their asymptotic behaviour for $\alpha=2$ in general and for generic $\alpha$ in a subclass of systems. This allows us to infer the value of $I_3^{(\alpha)}$ in the scaling limit $x\rightarrow 1^-$, which we call "residual tripartite information". If nonzero, our analysis points to a universal residual value $-\log 2$ independently of the R\'enyi index $\alpha$, and hence applies also to the genuine (von Neumann) tripartite information. | 翻訳日:2023-01-24 19:39:09 公開日:2022-09-28 |
# 開量子系のマスター方程式に入る作用素の性質と起源 Nature and origin of the operators entering the master equation of an open quantum system ( http://arxiv.org/abs/2209.14209v1 ) ライセンス: Link先を確認 | Giovanni Spaventa and Paola Verrucchi | (参考訳) オープン量子系を記述するための最近導入された形式主義の特異性(Parametric Representation with Environmental Coherent States)を利用することで、有名なゴリーニ=コサコフスキー=スダルシャン=リンドブラッド方程式と同じ構造を持つ開量子系の密度作用素の運動方程式を導出する。
この結果の演算子は、環境との相互作用を記述するハミルトニアンという観点で明示的な表現を持ち、特定のモデルを考えると計算できる。
一般(非マルコフ的)の場合、リンドブラッド作用素の1つの集合の代わりに、環境に付随するシンプレクティック多様体の各点とすべての点に対してリンドブラッド様作用素の集合が存在することが分かる。
この複雑さはいくつかの仮定(マルコビアン性や環境の古典的極限に関連する)の下で消失し、そこでは通常のマスター方程式形式を回復することができる。
最後に、ボソニック環境における2つの異なるモデルの量子ビットに対するリンドブラッドのような作用素を見いだし、環境の古典的極限においてそれらの既知マスター方程式が復元されることを示す。 By exploiting the peculiarities of a recently introduced formalism for describing open quantum systems (the Parametric Representation with Environmental Coherent States) we derive an equation of motion for the reduced density operator of an open quantum system that has the same structure of the celebrated Gorini-Kossakowski-Sudarshan-Lindblad equation, but holds regardless of markovianity being assumed. The operators in our result have explicit expressions in terms of the Hamiltonian describing the interactions with the environment, and can be computed once a specific model is considered. We find that, instead of a single set of Lindblad operators, in the general (non-markovian) case there one set of Lindblad-like operators for each and every point of a symplectic manifold associated to the environment. This intricacy disappears under some assumptions (which are related to markovianity and the classical limit of the environment), under which it is possible to recover the usual master equation formalism. Finally, we find such Lindblad-like operators for two different models of a qubit in a bosonic environment, and show that in the classical limit of the environment their renown master equations are recovered. | 翻訳日:2023-01-24 19:37:58 公開日:2022-09-28 |
# 統計処理:bec-bcsのクロスオーバーにおける量子エンジン Making statistics work: a quantum engine in the BEC-BCS crossover ( http://arxiv.org/abs/2209.14202v1 ) ライセンス: Link先を確認 | Jennifer Koch, Keerthy Menon, Eloisa Cuestas, Sian Barbosa, Eric Lutz, Thom\'as Fogarty, Thomas Busch and Artur Widera | (参考訳) 熱エンジンは熱エネルギーを古典的および量子的状態の両方で機械的作業に変換する。
しかし、量子論は真の非古典的なエネルギー形態を提供しており、これまでサイクルエンジンでは利用されていない熱とは異なっている。
ここでは,パウリの排他原理に従う極低温粒子のフェルミイオンとボソニックアンサンブルのエネルギー差を動力源とする新しい量子多体エンジンを実験的に実現する。
磁気フェシュバッハ共鳴に近い$^6$Liの高流動気体を用いて、ボース=アインシュタインからフェルミ=ディラックへの量子統計を効果的に変化させることができる。
量子オットーサイクルの伝統的な加熱と冷却のストロークを、ボソニック分子のボース・アインシュタイン凝縮物と一元的なフェルミガス(そしてその逆)の間の気体を磁場で調整することで置き換える。
このようなパウリエンジンの量子的性質は、古典的な熱エンジンや純粋に相互作用駆動のデバイスと対比することで明らかにされる。
1サイクルあたり10^6$の振動量子数を最大$25\%の効率で出力する。
本研究は, エネルギー変換装置のパラダイムを新しい世代の量子エンジンにシフトさせることにより, 作業生産に有用な熱力学資源として量子統計学を確立した。 Heat engines convert thermal energy into mechanical work both in the classical and quantum regimes. However, quantum theory offers genuine nonclassical forms of energy, different from heat, which so far have not been exploited in cyclic engines to produce useful work. We here experimentally realize a novel quantum many-body engine fuelled by the energy difference between fermionic and bosonic ensembles of ultracold particles that follows from the Pauli exclusion principle. We employ a harmonically trapped superfluid gas of $^6$Li atoms close to a magnetic Feshbach resonance which allows us to effectively change the quantum statistics from Bose-Einstein to Fermi-Dirac. We replace the traditional heating and cooling strokes of a quantum Otto cycle by tuning the gas between a Bose- Einstein condensate of bosonic molecules and a unitary Fermi gas (and back) through a magnetic field. The quantum nature of such a Pauli engine is revealed by contrasting it to a classical thermal engine and to a purely interaction-driven device. We obtain a work output of several $10^6$ vibrational quanta per cycle with an efficiency of up to $25\%$. Our findings establish quantum statistics as a useful thermodynamic resource for work production, shifting the paradigm of energy-conversion devices to a new class of emergent quantum engines. | 翻訳日:2023-01-24 19:37:32 公開日:2022-09-28 |
# 行列レジェンドレ・ブレグマン射影に基づく古典的および量子的反復最適化アルゴリズム Classical and Quantum Iterative Optimization Algorithms Based on Matrix Legendre-Bregman Projections ( http://arxiv.org/abs/2209.14185v1 ) ライセンス: Link先を確認 | Zhengfeng Ji | (参考訳) エルミート行列空間上で定義されたルジャンドル・ブレグマン射影とそれに基づく反復最適化アルゴリズムを考える。
一般双対定理は、エルミート行列上のブレグマン発散に対して成立し、反復アルゴリズムの収束を証明する上で重要な役割を果たす。
ブレグマン射影アルゴリズムと近似ブレグマン射影アルゴリズムの両方について検討した。
Kullback-Leibler分散の場合、我々の近似反復アルゴリズムは、最大エントロピー推論のための一般化反復スケーリング(GIS)アルゴリズムと機械学習におけるAdaBoostアルゴリズムの両方の非可換バージョンを特殊ケースとして生み出す。
ルジャンドル・ブレグマン射影はエルミート行列上の単純な行列関数であるため、アルゴリズムの各イテレーションで潜在的な高速化を達成するために量子アルゴリズム手法が適用できる。
本稿では,スムーズな関数評価手法,2相量子最小探索法,NISQギブス状態生成法など,この設定に適用可能な量子アルゴリズム設計手法について論じる。 We consider Legendre-Bregman projections defined on the Hermitian matrix space and design iterative optimization algorithms based on them. A general duality theorem is established for Bregman divergences on Hermitian matrices, and it plays a crucial role in proving the convergence of the iterative algorithms. We study both exact and approximate Bregman projection algorithms. In the particular case of Kullback-Leibler divergence, our approximate iterative algorithm gives rise to the non-commutative versions of both the generalized iterative scaling (GIS) algorithm for maximum entropy inference and the AdaBoost algorithm in machine learning as special cases. As the Legendre-Bregman projections are simple matrix functions on Hermitian matrices, quantum algorithmic techniques are applicable to achieve potential speedups in each iteration of the algorithm. We discuss several quantum algorithmic design techniques applicable in our setting, including the smooth function evaluation technique, two-phase quantum minimum finding, and NISQ Gibbs state preparation. | 翻訳日:2023-01-24 19:37:10 公開日:2022-09-28 |
# 散逸性欠陥を有するフェルミオン鎖における絡み合いの負性 Entanglement negativity in a fermionic chain with dissipative defects: Exact results ( http://arxiv.org/abs/2209.14164v1 ) ライセンス: Link先を確認 | Fabio Caceffo and Vincenzo Alba | (参考訳) 局所的損失を有する自由フェルミオン鎖におけるフェルミオン対数ネガティビティのダイナミクスについて検討し, 散逸的不純物として作用する。
この鎖は最初、一般的なフェルミ海で作られる。
大きなサブシステムの標準的な流体力学限界と、その比が固定された長い時間において、2つのサブシステム間の負性は、不純物の効果的な吸収係数にのみ依存する単純な公式によって記述される。
ネガティビティは短時間で線形に成長し、ボリュームロースケーリングに飽和する。
物理的には、これは不純物部位で一対の励起を絡む時間を伴う連続的な生成を反映している。
興味深いことに、負性はR'enyiの相互情報とR'enyi指数の1/2$とは同じではない。
これは散逸過程とユニタリ過程の相互作用を反映している。
エンタングリング対の負性度は、サブシステムに対して有効な2状態混合密度行列を用いて得られる。
初期のフェルミ海での臨界度は対数補正の存在に反映される。
対数スケーリングの前提因子は損失率に依存するため、散逸と臨界の間の非自明な相互作用が示唆される。 We investigate the dynamics of the fermionic logarithmic negativity in a free-fermion chain with a localized loss, which acts as a dissipative impurity. The chain is initially prepared in a generic Fermi sea. In the standard hydrodynamic limit of large subsystems and long times, with their ratio fixed, the negativity between two subsystems is described by a simple formula, which depends only on the effective absorption coefficient of the impurity. The negativity grows linearly at short times, then saturating to a volume-law scaling. Physically, this reflects the continuous production with time of entangling pairs of excitations at the impurity site. Interestingly, the negativity is not the same as the R\'enyi mutual information with R\'enyi index $1/2$, in contrast with the case of unitary dynamics. This reflects the interplay between dissipative and unitary processes. The negativity content of the entangling pairs is obtained in terms of an effective two-state mixed density matrix for the subsystems. Criticality in the initial Fermi sea is reflected in the presence of logarithmic corrections. The prefactor of the logarithmic scaling depends on the loss rate, suggesting a nontrivial interplay between dissipation and criticality. | 翻訳日:2023-01-24 19:36:52 公開日:2022-09-28 |
# 単一量子ビットゲートテレポーテーションは量子アドバンテージを提供する Single-qubit gate teleportation provides a quantum advantage ( http://arxiv.org/abs/2209.14158v1 ) ライセンス: Link先を確認 | Libor Caha, Xavier Coiteux-Roy, Robert Koenig | (参考訳) ゲートテレポーテーション回路は、量子計算の利点をもたらすと信じられている計算の最も基本的な例の1つである: [quantum inf. comput., 4(2):134--145], terhal と divincenzo は、これらの回路が、合理的な複雑性・理論的な仮定の下で、効率的な古典的アルゴリズムによるシミュレーションを免れることを示した。
ここでは、回路の出力分布に非ゼロ確率で現れる文字列を出力することが目的であるこのタスクの特に弱い形式である確率論的シミュレーション [arXiv:1904.05282] を考える。
単一量子Clifford-gate-teleportation回路であっても、このシミュレーション問題はファンインゲートが有界な定深古典回路では解決できない。
その結果,パリティの計算問題,古典的回路複雑性におけるよく研究された問題への還元によって得られた。 Gate-teleportation circuits are arguably among the most basic examples of computations believed to provide a quantum computational advantage: In seminal work [Quantum Inf. Comput., 4(2):134--145], Terhal and DiVincenzo have shown that these circuits elude simulation by efficient classical algorithms under plausible complexity-theoretic assumptions. Here we consider possibilistic simulation [arXiv:1904.05282], a particularly weak form of this task where the goal is to output any string appearing with non-zero probability in the output distribution of the circuit. We show that even for single-qubit Clifford-gate-teleportation circuits this simulation problem cannot be solved by constant-depth classical circuits with bounded fan-in gates. Our results are unconditional and are obtained by a reduction to the problem of computing the parity, a well-studied problem in classical circuit complexity. | 翻訳日:2023-01-24 19:36:31 公開日:2022-09-28 |
# 部分から全体を再構築する Reconstructing the whole from its parts ( http://arxiv.org/abs/2209.14154v1 ) ライセンス: Link先を確認 | Daniel Uzc\'ategui Contreras, Dardo Goyeneche | (参考訳) 量子限界問題は、与えられた限界還元の集合が大域量子状態の存在と相容れないかどうかを決定することである。
本研究では、力学系理論の観点から問題を定式化し、標準的アプローチに関してその利点を考察する。
導入されたフォーマリズムにより、あらゆるマルチパーティイトシナリオにおいて、広範囲の自己一貫性の限界還元から大域量子状態を解析的に決定することができる。
特に、非偏極チャネルを通過した後に、任意の自己整合したマルチパーティリート限界還元は、大域量子状態の存在と相容れないことを示す。
この結果から, 十分に混合された限界に注意を限定する場合, 限界問題に関連する複雑性を劇的に低減できることがわかった。
また、スカラー制約の総数は標準手法で要求されるものよりも小さいという意味で、圧縮された方法で限界問題を定式化する。
この事実は、古典的なアルゴリズムと量子アルゴリズムの両方において、半定値のプログラミング手法を考える時、実行時の指数関数的なスピードアップを示唆する。
最後に、ランダムに選択された混合状態から生成される$n$-qubit量子状態を、$\binom{n}{k}$の限界還元を$k$パーティに再構成する。
数値シミュレーションにより、大域状態を見つけることができる場合の分数は、$5\leq n\leq12$ と $\lfloor(n-1)/\sqrt{2}\rfloor\leq k\leq n-1$ のとき 1 に等しい。 The quantum marginal problem consists in deciding whether a given set of marginal reductions is compatible with the existence of a global quantum state or not. In this work, we formulate the problem from the perspective of dynamical systems theory and study its advantages with respect to the standard approach. The introduced formalism allows us to analytically determine global quantum states from a wide class of self-consistent marginal reductions in any multipartite scenario. In particular, we show that any self-consistent set of multipartite marginal reductions is compatible with the existence of a global quantum state, after passing through a depolarizing channel. This result reveals that the complexity associated to the marginal problem can be drastically reduced when restricting the attention to sufficiently mixed marginals. We also formulate the marginal problem in a compressed way, in the sense that the total number of scalar constraints is smaller than the one required by the standard approach. This fact suggests an exponential speedup in runtime when considering semi-definite programming techniques to solve it, in both classical and quantum algorithms. Finally, we reconstruct $n$-qubit quantum states from all the $\binom{n}{k}$ marginal reductions to $k$ parties, generated from randomly chosen mixed states. Numerical simulations reveal that the fraction of cases where we can find a global state equals 1 when $5\leq n\leq12$ and $\lfloor(n-1)/\sqrt{2}\rfloor\leq k\leq n-1$, where $\lfloor\cdot\rfloor$ denotes the floor function. | 翻訳日:2023-01-24 19:36:12 公開日:2022-09-28 |
# 量子サブルーチン組成 Quantum Subroutine Composition ( http://arxiv.org/abs/2209.14146v1 ) ライセンス: Link先を確認 | Stacey Jeffery | (参考訳) アルゴリズム設計における重要なツールは、サブルーチンとして実行される他のアルゴリズムからアルゴリズムを構築する機能である。
量子アルゴリズムの場合、サブルーチンは異なる入力の重ね合わせで呼ばれ、それが物事を複雑にする。
例えば、サブルーチン$q$を呼び出し、入力$i$でサブルーチンをクエリする平均確率は$p_i$であり、入力$i$のサブルーチンのコストは$t_i$であり、すべてのサブルーチンクエリから期待されるコスト$q\sum_i p_i e[t_i]$となる。
このステートメントは古典的アルゴリズムでは明らかだが、量子アルゴリズムではそうではない。なぜなら、もし入力の重ね合わせで量子サブルーチンを実行するなら、重ね合わせのすべての分岐が次の演算を適用する前に終了するのを待つ必要があるからである。
すべてのクエリに対して$q_i$が$i$の平均クエリ重量であるなら、全ての量子サブルーチンクエリのコストは$Q\sum_i q_i E[T_i]$である。
ここで、特定のクエリに対する$i$に対するクエリの重み付けは、クエリの直前に測定した場合、入力レジスタで$i$を測定する確率です。
この結果は、arxiv:2208.13492で最近導入された多次元量子ウォーク技術を用いて証明する。
例えば、更新コストを$\sqrt{\sum_{u,v}\pi_u P_{u,v} E[T_{u,v}^2]}$に置き換えると、$T_{u,v}$はvertex $u$からvertex $v$に移動するコストである。
量子ウォークで量子サブルーチンを構成することができるのと同じ手法は、量子アルゴリズムで構成することもできる。 An important tool in algorithm design is the ability to build algorithms from other algorithms that run as subroutines. In the case of quantum algorithms, a subroutine may be called on a superposition of different inputs, which complicates things. For example, a classical algorithm that calls a subroutine $Q$ times, where the average probability of querying the subroutine on input $i$ is $p_i$, and the cost of the subroutine on input $i$ is $T_i$, incurs expected cost $Q\sum_i p_i E[T_i]$ from all subroutine queries. While this statement is obvious for classical algorithms, for quantum algorithms, it is much less so, since naively, if we run a quantum subroutine on a superposition of inputs, we need to wait for all branches of the superposition to terminate before we can apply the next operation. We nonetheless show an analogous quantum statement (*): If $q_i$ is the average query weight on $i$ over all queries, the cost from all quantum subroutine queries is $Q\sum_i q_i E[T_i]$. Here the query weight on $i$ for a particular query is the probability of measuring $i$ in the input register if we were to measure right before the query. We prove this result using the technique of multidimensional quantum walks, recently introduced in arXiv:2208.13492. We present a more general version of their quantum walk edge composition result, which yields variable-time quantum walks, generalizing variable-time quantum search, by, for example, replacing the update cost with $\sqrt{\sum_{u,v}\pi_u P_{u,v} E[T_{u,v}^2]}$, where $T_{u,v}$ is the cost to move from vertex $u$ to vertex $v$. The same technique that allows us to compose quantum subroutines in quantum walks can also be used to compose in any quantum algorithm, which is how we prove (*). | 翻訳日:2023-01-24 19:35:41 公開日:2022-09-28 |
# ニューラルシーケンス学習における解釈可能な量子長所 Interpretable Quantum Advantage in Neural Sequence Learning ( http://arxiv.org/abs/2209.14353v1 ) ライセンス: Link先を確認 | Eric R. Anschuetz and Hong-Ye Hu and Jin-Long Huang and Xun Gao | (参考訳) 量子ニューラルネットワークは、ある古典的データを効率的に表現できる能力に関する潜在的な実用性と最近の結果から、近年広く研究されている。
しかし、これまでの分析結果は複雑性理論からの仮定と議論に依存している。
このため、量子ニューラルネットワークの表現力の源泉や、古典的なデータのどのクラスに何らかの利点があるかを合理的に予測できるのかについては、直観はほとんどない。
本稿では,ガウス的でない測定値を用いたガウス的演算に基づくニューラルネットワーク列モデルと逐次的モデルとの相対表現力について検討する。
量子文脈性は2つのモデルクラスの表現性における無条件メモリ分離の源であることを示す。
さらに、この分離の源泉として量子的文脈性を特定することができるので、この直感を用いて、言語的文脈性を示す標準翻訳データセット上で導入したモデルの相対的性能を研究する。
このようにして、我々の導入した量子モデルが、実際にさえも古典的モデルの状態を上回り得ることを実証する。 Quantum neural networks have been widely studied in recent years, given their potential practical utility and recent results regarding their ability to efficiently express certain classical data. However, analytic results to date rely on assumptions and arguments from complexity theory. Due to this, there is little intuition as to the source of the expressive power of quantum neural networks or for which classes of classical data any advantage can be reasonably expected to hold. Here, we study the relative expressive power between a broad class of neural network sequence models and a class of recurrent models based on Gaussian operations with non-Gaussian measurements. We explicitly show that quantum contextuality is the source of an unconditional memory separation in the expressivity of the two model classes. Additionally, as we are able to pinpoint quantum contextuality as the source of this separation, we use this intuition to study the relative performance of our introduced model on a standard translation data set exhibiting linguistic contextuality. In doing so, we demonstrate that our introduced quantum models are able to outperform state of the art classical models even in practice. | 翻訳日:2023-01-24 19:28:34 公開日:2022-09-28 |
# 組合せゲージ対称性を用いた非アベリア量子スピン液体の構築 Constructing Non-Abelian Quantum Spin Liquids Using Combinatorial Gauge Symmetry ( http://arxiv.org/abs/2209.14333v1 ) ライセンス: Link先を確認 | Dmitry Green and Claudio Chamon | (参考訳) 我々は、完全非可換ゲージ対称性(特に、可換ゲージ対称性)を示す1-および2-体相互作用のみを持つハミルトン系を構築する。
スピンハミルトニアンは四元数群に付随する量子二重性を実現する。
これは強磁性および反強磁性の$Z$相互作用と長手および横磁場のみを含み、したがって非アベリア位相を実現する符号問題を持たないスピンハミルトニアンの明示的な例である。
スピンモデルに加えて、同じ対称性を持つ超伝導量子回路バージョンを提案する。 We construct Hamiltonians with only 1- and 2-body interactions that exhibit an exact non-Abelian gauge symmetry (specifically, combinatiorial gauge symmetry). Our spin Hamiltonian realizes the quantum double associated to the group of quaternions. It contains only ferromagnetic and anti-ferromagnetic $ZZ$ interactions, plus longitudinal and transverse fields, and therefore is an explicit example of a spin Hamiltonian with no sign problem that realizes a non-Abelian topological phase. In addition to the spin model, we propose a superconducting quantum circuit version with the same symmetry. | 翻訳日:2023-01-24 19:28:16 公開日:2022-09-28 |
# 量子力学ブートストラップのための半定義型プログラミングアルゴリズム A Semidefinite Programming algorithm for the Quantum Mechanical Bootstrap ( http://arxiv.org/abs/2209.14332v1 ) ライセンス: Link先を確認 | David Berenstein, George Hulsey | (参考訳) 量子力学のブートストラップ法において,schr\"{o}dinger operator の固有値を求める半定値プログラム (sdp) アルゴリズムを提案する。
ブートストラップのアプローチには、変数(エネルギー固有状態の作用素の予測値)に対する非線形的な制約のセットと、満たすべき正の制約(ユニタリティ)の2つの要素が含まれる。
エネルギーを固定することで、すべての制約を線形化し、制約によって固定されない変数と、肯定的な結果の失敗を測定する1つの追加のslack変数に対する最適化問題として実現可能性の問題を示す。
この方法を説明するために、1次元の任意の閉多項式ポテンシャルに対する固有エネルギーの高精度で鋭い境界を求めることができる。 We present a semidefinite program (SDP) algorithm to find eigenvalues of Schr\"{o}dinger operators within the bootstrap approach to quantum mechanics. The bootstrap approach involves two ingredients: a nonlinear set of constraints on the variables (expectation values of operators in an energy eigenstate), plus positivity constraints (unitarity) that need to be satisfied. By fixing the energy we linearize all the constraints and show that the feasability problem can be presented as an optimization problem for the variables that are not fixed by the constraints and one additional slack variable that measures the failure of positivity. To illustrate the method we are able to obtain high-precision, sharp bounds on eigenenergies for arbitrary confining polynomial potentials in 1-D. | 翻訳日:2023-01-24 19:28:06 公開日:2022-09-28 |
# 集積フォトニクスにおける隠れ非線形ノイズの定量化 Quantifying Hidden Nonlinear Noise in Integrated Photonics ( http://arxiv.org/abs/2209.14317v1 ) ライセンス: Link先を確認 | Ben M. Burridge, Imad I. Faruque, John G. Rarity, Jorge Barreto | (参考訳) 自発的4波混合に依存する集積フォトニックデバイスにおける非線形ノイズの影響を定量的に定量化するために,実験およびシミュレーションを行った。
以上の結果から,量子状態の純度低下を緩和する設計規則適応の必要性が浮き彫りとなった。
複数の平行光子源を持つデバイスにおける最善の戦略は、ソース外からの光子生成を厳密に制限することである。
さもなければ, 純度が40%以下に低下する可能性が示唆された。 We present experimental and simulated results to quantify the impact of nonlinear noise in integrated photonic devices relying on spontaneous four-wave mixing. Our results highlight the need for design rule adaptations to mitigate the otherwise intrinsic reduction in quantum state purity. The best strategy in devices with multiple parallel photon sources is to strictly limit photon generation outside of the sources. Otherwise, our results suggest that purity can decrease below 40%. | 翻訳日:2023-01-24 19:27:38 公開日:2022-09-28 |
# 効率的な量子性試験の実験的実装 Experimental Implementation of an Efficient Test of Quantumness ( http://arxiv.org/abs/2209.14316v1 ) ライセンス: Link先を確認 | Laura Lewis, Daiwei Zhu, Alexandru Gheorghiu, Crystal Noel, Or Katz, Bahaa Harraz, Qingfeng Wang, Andrew Risinger, Lei Feng, Debopriyo Biswas, Laird Egan, Thomas Vidick, Marko Cetina, Christopher Monroe | (参考訳) 量子性テスト(英: test of quantumness)とは、ある暗号的仮定の下で非古典的動作を示すかどうかを判断するために、古典的ユーザーが量子デバイスに挑戦するプロトコルである。
最近の量子コンピュータにおけるこのようなテストの実装の試みは、効率的な検証を伴うインタラクティブな課題か、非効率的な(指数時間)検証を伴う非インタラクティブな課題に依存している。
本稿では,イオントラップ量子コンピュータ上で効率よく非インタラクティブな量子性試験を行う。
我々の結果は古典的装置の成功の限界を大幅に上回った。 A test of quantumness is a protocol where a classical user issues challenges to a quantum device to determine if it exhibits non-classical behavior, under certain cryptographic assumptions. Recent attempts to implement such tests on current quantum computers rely on either interactive challenges with efficient verification, or non-interactive challenges with inefficient (exponential time) verification. In this paper, we execute an efficient non-interactive test of quantumness on an ion-trap quantum computer. Our results significantly exceed the bound for a classical device's success. | 翻訳日:2023-01-24 19:27:30 公開日:2022-09-28 |
# トポロジカルデータ解析のための量子アルゴリズムの複雑性理論的限界 Complexity-Theoretic Limitations on Quantum Algorithms for Topological Data Analysis ( http://arxiv.org/abs/2209.14286v1 ) ライセンス: Link先を確認 | Alexander Schmidhuber, Seth Lloyd | (参考訳) トポロジカルデータ解析(TDA)のための量子アルゴリズムは、復調処理やデータローディング問題に免疫を保ちながら、古典的手法よりも指数関数的に有利である。
本稿では,tdaの量子アルゴリズムが(広く信じられている複雑性理論的な予想の下では)ほぼ全ての入力に対して指数関数時間で実行されることを議論する。
具体的には、ベッチ数を正確に計算する問題は \#p-hardであるが、ベッチ数を乗算誤差まで近似する問題はnp-hardである。
さらに、どちらの問題も、TDAの量子アルゴリズムが最善である体制に制限された場合、その困難さを保っている。
量子コンピュータは、サブ指数時間で \#p-hard や np-hard の問題を解くことが期待できないため、tda の量子アルゴリズムは多項式のアドバンテージしか与えないことを示す。
lloyd, garnerone, zanardi \cite{lloydalgo} が開発した tda の独創的な量子アルゴリズムが,平均で最高の古典的アプローチよりも2倍のスピードアップを達成し,最善のケースでは4倍のスピードアップを実現していることを示すことで,我々の主張を検証する。
最後に、データを頂点とエッジのリストとしてではなく、単純化の仕様として指定した場合、指数関数的な量子優位性は、例えば、Facebookユーザ間のペアインタラクションのリストからではなく、FacebookグループとそのメンバーのリストからFacebookのホモロジーを計算したい場合、回復できる、と論じる。 Quantum algorithms for topological data analysis (TDA) seem to provide an exponential advantage over the best classical approach while remaining immune to dequantization procedures and the data-loading problem. In this paper, we argue that quantum algorithms for TDA run in exponential time for almost all inputs by showing that (under widely believed complexity-theoretic conjectures) the central problem of TDA - estimating Betti numbers - is intractable even for quantum computers. Specifically, we prove that the problem of computing Betti numbers exactly is \#P-hard, while the problem of approximating Betti numbers up to multiplicative error is NP-hard. Moreover, both problems retain their hardness if restricted to the regime where quantum algorithms for TDA perform best. Because quantum computers are not expected to solve \#P-hard or NP-hard problems in subexponential time, our results imply that quantum algorithms for TDA offer only a polynomial advantage. We verify our claim by showing that the seminal quantum algorithm for TDA developed by Lloyd, Garnerone and Zanardi \cite{LloydAlgo} achieves a quadratic speedup over the best classical approach on average, and a power-of-four speedup in the best case. Finally, we argue that an exponential quantum advantage can be recovered if the data is given as a specification of simplices rather than as a list of vertices and edges -- for example, if we wish to calculate the homology of Facebook from a list of Facebook groups and their members rather than from a list of pairwise interactions between Facebook users. | 翻訳日:2023-01-24 19:26:47 公開日:2022-09-28 |
# 量子位相処理:量子系の固有情報変換と抽出 Quantum Phase Processing: Transform and Extract Eigen-Information of Quantum Systems ( http://arxiv.org/abs/2209.14278v1 ) ライセンス: Link先を確認 | Xin Wang, Youle Wang, Zhan Yu, Lei Zhang | (参考訳) 量子コンピューティングは、量子系の進化が指数関数的に大きいヒルベルト空間内のユニタリ作用素によって記述されるため、多くの問題を解決するためのスピードアップを提供することができる。
そのようなユニタリ作用素は固有状態の位相を変え、量子アルゴリズムを古典的なものと根本的に異なるものにする。
量子コンピューティングのこの一意な原理に基づき、ユニタリ作用素の固有位相に任意の三角変換を直接適用できる新しいアルゴリズムフレームワーク「量子位相処理」を開発した。
量子位相処理回路は単一の量子ビット回転と制御単位で構成され、通常は1つのアンシラ量子ビットのみを使用する。
位相変換の能力に加えて、特に量子位相処理は、アンシラ量子ビットを測定するだけで量子システムの固有情報を抽出することができ、間接計測と自然に互換性がある。
量子位相処理は量子特異値変換(quantum singular value transformation)として知られる別の強力なフレームワークを補完し、特に位相関係の問題を解くためのより直感的で効率的な量子アルゴリズムをもたらす。
顕著な応用として、量子フーリエ変換を必要としない新しい量子位相推定アルゴリズムを提案する。
さらに,ハミルトニアン・シミュレーション,エンタングルメント・スペクトロスコピー,量子エントロピー推定における多くの応用について検討し,ほぼすべてのケースにおいて改善や最適性を示すことにより,qppフレームワークのパワーをさらに活用する。 Quantum computing can provide speedups in solving many problems as the evolution of a quantum system is described by a unitary operator in an exponentially large Hilbert space. Such unitary operators change the phase of their eigenstates and make quantum algorithms fundamentally different from their classical counterparts. Based on this unique principle of quantum computing, we develop a new algorithmic framework "Quantum phase processing" that can directly apply arbitrary trigonometric transformations to eigenphases of a unitary operator. The quantum phase processing circuit is constructed simply, consisting of single-qubit rotations and controlled-unitaries, typically using only one ancilla qubit. Besides the capability of phase transformation, quantum phase processing in particular can extract the eigen-information of quantum systems by simply measuring the ancilla qubit, making it naturally compatible with indirect measurement. Quantum phase processing complements another powerful framework known as quantum singular value transformation and leads to more intuitive and efficient quantum algorithms for solving problems that are particularly phase-related. As a notable application, we propose a new quantum phase estimation algorithm without quantum Fourier transform, which requires the least ancilla qubits and matches the best performance so far. We further exploit the power of our QPP framework by investigating a plethora of applications in Hamiltonian simulation, entanglement spectroscopy, and quantum entropies estimation, demonstrating improvements or optimality for almost all cases. | 翻訳日:2023-01-24 19:26:11 公開日:2022-09-28 |
# 矛盾を利用してQAシステムを改善する Using contradictions to improve QA systems ( http://arxiv.org/abs/2211.05598v1 ) ライセンス: Link先を確認 | Domenic Rosati | (参考訳) 質問応答システム(qa)の安全性の確保は、生物医学および科学分野への展開に不可欠である。
これらのシステムを改善する1つのアプローチは、自然言語推論(nli)を使用して、何らかの背景コンテキストで回答がサポートされているか、あるいは含まれているかを判断する。
しかし、これらのシステムは間違った、あるいは誤解を招くソースで回答をサポートするのに弱い。
本研究は,背景状況に矛盾した回答を選択することによる批判的アプローチを提案する。
本システムは,複数選択および抽出されたQAに基づいて評価し,矛盾に基づくシステムは,係り受けのみのシステムと競合することが多いが,矛盾や係り受け,QAモデルの信頼性スコアを組み込んだモデルが最適であることを示す。
この結果に基づき,解釈可能性の向上や回答の選択など,矛盾に基づくアプローチを活用するためのユニークな機会を探索する。 Ensuring the safety of question answering (QA) systems is critical for deploying them in biomedical and scientific domains. One approach to improving these systems uses natural language inference (NLI) to determine whether answers are supported, or entailed, by some background context. However, these systems are vulnerable to supporting an answer with a source that is wrong or misleading. Our work proposes a critical approach by selecting answers based on whether they have been contradicted by some background context. We evaluate this system on multiple choice and extractive QA and find that while the contradiction-based systems are competitive with and often better than entailment-only systems, models that incorporate contradiction, entailment, and QA model confidence scores together are the best. Based on this result, we explore unique opportunities for leveraging contradiction-based approaches such for improving interpretability and selecting better answers. | 翻訳日:2023-01-24 19:19:51 公開日:2022-09-28 |
# 深層強化学習を用いた分散型金融のための予測暗号資産自動市場形成アーキテクチャ Predictive Crypto-Asset Automated Market Making Architecture for Decentralized Finance using Deep Reinforcement Learning ( http://arxiv.org/abs/2211.01346v1 ) ライセンス: Link先を確認 | Tristan Lim | (参考訳) 本研究は,実世界のammの流動性向上のためのオフチェーン予測強化学習機能と合わせて,オンチェーン保持機能と決済機能を備えた見積駆動予測自動化マーケットメーカ(amm)プラットフォームを提案する。
提案アーキテクチャは,暗号AMMプロトコルであるUnixwap V3への拡張であり,分散とすべり損失の低減を目的とした新たな市場均衡価格を利用する。
さらに, 提案アーキテクチャは, 流動性集中範囲の予測精度の向上による市場効率の向上を図り, 資産価格の動きに先立って, 期待濃度範囲に流動性が移行し, 流動性利用が向上する, 深層ハイブリッドLong Short-Term Memory (LSTM) とQラーニング強化学習フレームワークを活用した予測的AMM機能を含む。
拡張プロトコルフレームワークは,現実的な影響を期待できる。
(i)流動性提供者における分岐損失の低減
(ii)暗号通貨トレーダーの滑り落ちの低減
(iii)ammプロトコルの流動性確保のための資本効率の向上。
我々の知る限り、実際の実世界の応用において、同様の資本効率と損失最小化の目標を達成する、類似の深層学習強化AMMを提案するプロトコルや文献は知られていない。 The study proposes a quote-driven predictive automated market maker (AMM) platform with on-chain custody and settlement functions, alongside off-chain predictive reinforcement learning capabilities to improve liquidity provision of real-world AMMs. The proposed AMM architecture is an augmentation to the Uniswap V3, a cryptocurrency AMM protocol, by utilizing a novel market equilibrium pricing for reduced divergence and slippage loss. Further, the proposed architecture involves a predictive AMM capability, utilizing a deep hybrid Long Short-Term Memory (LSTM) and Q-learning reinforcement learning framework that looks to improve market efficiency through better forecasts of liquidity concentration ranges, so liquidity starts moving to expected concentration ranges, prior to asset price movement, so that liquidity utilization is improved. The augmented protocol framework is expected have practical real-world implications, by (i) reducing divergence loss for liquidity providers, (ii) reducing slippage for crypto-asset traders, while (iii) improving capital efficiency for liquidity provision for the AMM protocol. To our best knowledge, there are no known protocol or literature that are proposing similar deep learning-augmented AMM that achieves similar capital efficiency and loss minimization objectives for practical real-world applications. | 翻訳日:2023-01-24 19:19:34 公開日:2022-09-28 |
# トータル光子計数による多モードガウス状態解析 Multi-mode Gaussian State Analysis with Total Photon Counting ( http://arxiv.org/abs/2209.14453v1 ) ライセンス: Link先を確認 | Arik Avagyan, Emanuel Knill, Scott Glancy | (参考訳) 光子数分解検出器の品質の継続的な改善は、光の量子状態を測定する新しい可能性を開く。
本研究では、任意の多モードガウス状態の性質が、全光子数を測定する単一の光子数分解検出器によって決定されるかどうかを考察する。
この疑問に対する答えは、正確な光子数確率が知られている理想的な場合にある。
総光子数分布によって決定される量は共分散行列のスペクトルであり、共分散行列の各固有空間における絶対変位であり、他にない。
純粋なガウス状態の場合、スペクトルはスクイーズパラメータを決定する。 The continuing improvement in the qualities of photon-number-resolving detectors opens new possibilities for measuring quantum states of light. In this work we consider the question of what properties of an arbitrary multimode Gaussian state are determined by a single photon-number-resolving detector that measures total photon number. We find an answer to this question in the ideal case where the exact photon-number probabilities are known. We show that the quantities determined by the total photon number distribution are the spectrum of the covariance matrix, the absolute displacement in each eigenspace of the covariance matrix, and nothing else. In the case of pure Gaussian states, the spectrum determines the squeezing parameters. | 翻訳日:2023-01-24 19:18:20 公開日:2022-09-28 |
# ダイヤモンド中の窒素空孔スピン三重項の温度依存性フォノンによる緩和 Temperature-dependent phonon-induced relaxation of the nitrogen-vacancy spin triplet in diamond ( http://arxiv.org/abs/2209.14446v1 ) ライセンス: Link先を確認 | M.C. Cambria, A. Norambuena, H. T. Dinani, G. Thiering, A. Gardill, I. Kemeny, Y. Li, V. Lordi, A. Gali, J. R. Maze, and S. Kolkowitz | (参考訳) フォノンによる窒素空孔(NV)中心の電子基底状態スピン三重項内の緩和はコヒーレンス時間を制限し、量子アプリケーションの性能に影響を及ぼす。
高純度試料中の9Kから474Kの温度関数としてNV中心の$| m_{s}=0\rangle \leftrightarrow | m_{s}=\pm 1 \rangle$ and $| m_{s}=-1 \rangle \leftrightarrow | m_{s}=+1 \rangle $ transitionsの測定を行った。
ab initio計算により、NVスピンフォノン緩和は2つの異なる準局在化フォノン群との2階相互作用の効果によって完全に説明できることを示した。
この理解に基づく新しい解析モデルを用いて、準局在化フォノン群が68.2(17) および 167(12) meV に集中していることを決定する。 Phonon-induced relaxation within the nitrogen-vacancy (NV) center's electronic ground-state spin triplet limits its coherence times, and thereby impacts its performance in quantum applications. We report measurements of the relaxation rates on the NV center's $| m_{s}=0\rangle \leftrightarrow | m_{s}=\pm 1 \rangle$ and $| m_{s}=-1 \rangle \leftrightarrow | m_{s}=+1 \rangle $ transitions as a function of temperature from 9 to 474 K in high-purity samples. Informed by ab initio calculations, we demonstrate that NV spin-phonon relaxation can be completely explained by the effect of second-order interactions with two distinct groups of quasilocalized phonons. Using a novel analytical model based on this understanding, we determine that the quasilocalized phonon groups are centered at 68.2(17) and 167(12) meV. | 翻訳日:2023-01-24 19:18:12 公開日:2022-09-28 |
# 変分量子アルゴリズムにおけるパラメータの役割を探る Exploring the role of parameters in variational quantum algorithms ( http://arxiv.org/abs/2209.14405v1 ) ライセンス: Link先を確認 | Abhinav Anand, Sumner Alperin-Lea, Alexandre Choquette and Al\'an Aspuru-Guzik | (参考訳) 本研究では,各層のエルミート生成器(s)に付随する動的リー代数のランクを用いて,変分量子回路のキャラクタリゼーションを量子制御にインスパイアした手法を提案する。
物理システムの基底状態エネルギーを計算するための変分アルゴリズムの層ベースアーキテクチャが、この探索の焦点となっている。
生成器内の別々の項数よりかなり少ない多くのパラメータを使用する場合であっても、リーランク、計算エネルギーの精度、および所定の回路アーキテクチャを介して目標状態を達成するために必要な深さとの間に有望な接続が見出される。
反復過程による動的リーランクの計算コストが回路内の量子ビット数で指数関数的に増大するにつれて、急速に禁止されるため、信頼性の高い近似が望ましい。
計算の最初の数回における動的リーランクの増加の速さは、完全な計算、精度と計算コストのバランスをとるための(より低い境界の)プロキシであることが判明した。
そこで我々は,変分アルゴリズムにおける層構造量子回路の設計指標として,動的リーランクとそのプロキシを提案する。 In this work, we introduce a quantum-control-inspired method for the characterization of variational quantum circuits using the rank of the dynamical Lie algebra associated with the hermitian generator(s) of the individual layers. Layer-based architectures in variational algorithms for the calculation of ground-state energies of physical systems are taken as the focus of this exploration. A promising connection is found between the Lie rank, the accuracy of calculated energies, and the requisite depth to attain target states via a given circuit architecture, even when using a lot of parameters which is appreciably below the number of separate terms in the generators. As the cost of calculating the dynamical Lie rank via an iterative process grows exponentially with the number of qubits in the circuit and therefore becomes prohibitive quickly, reliable approximations thereto are desirable. The rapidity of the increase of the dynamical Lie rank in the first few iterations of the calculation is found to be a viable (lower bound) proxy for the full calculation, balancing accuracy and computational expense. We, therefore, propose the dynamical Lie rank and proxies thereof as a useful design metric for layer-structured quantum circuits in variational algorithms. | 翻訳日:2023-01-24 19:17:51 公開日:2022-09-28 |
# テンソルネットワークの最小の正準形式 The minimal canonical form of a tensor network ( http://arxiv.org/abs/2209.14358v1 ) ライセンス: Link先を確認 | Arturo Acuaviva and Visu Makam and Harold Nieuwboer and David P\'erez-Garc\'ia and Friedrich Sittner and Michael Walter and Freek Witteveen | (参考訳) テンソルネットワークは、契約された仮想自由度に対してゲージ自由度を持つ。
正準形式は、この自由度を固定する選択である。
行列積状態の場合、正準形式を選択することは理論的目的と数値的目的の両方において強力なツールである。
一方、次元 2 以上のテンソルネットワークに対しては、ゲージ対称性の限定的な理解しか存在しない。
ここでは、任意の次元の射影絡み合ったペア状態(PEPS)に適用可能な、新しい正準形式である最小正準形式を導入し、対応する基本定理を証明する。
行列積に対して既にこれは新しい正準形式を与えるが、高次元ではテンソルの選択に有効な正準形式の最初の厳密な定義である。
2つのテンソルが同じ最小の正準形式を持つことは、それらが極限を取るためのゲージ同値であることと、それに加えて、それらが任意の幾何学に対して同じ量子状態を与える場合に限る。
特に、後者の問題は決定可能であり、グリッド上のPEPSのよく知られた不決定性とは対照的である。
最小の正準形式を計算するための厳密なアルゴリズムも提供しています。
これを達成するために、幾何学的不変理論と非可換群最適化における理論計算機科学の最近の進歩を論じる。 Tensor networks have a gauge degree of freedom on the virtual degrees of freedom that are contracted. A canonical form is a choice of fixing this degree of freedom. For matrix product states, choosing a canonical form is a powerful tool, both for theoretical and numerical purposes. On the other hand, for tensor networks in dimension two or greater there is only limited understanding of the gauge symmetry. Here we introduce a new canonical form, the minimal canonical form, which applies to projected entangled pair states (PEPS) in any dimension, and prove a corresponding fundamental theorem. Already for matrix product states this gives a new canonical form, while in higher dimensions it is the first rigorous definition of a canonical form valid for any choice of tensor. We show that two tensors have the same minimal canonical forms if and only if they are gauge equivalent up to taking limits; moreover, this is the case if and only if they give the same quantum state for any geometry. In particular, this implies that the latter problem is decidable - in contrast to the well-known undecidability for PEPS on grids. We also provide rigorous algorithms for computing minimal canonical forms. To achieve this we draw on geometric invariant theory and recent progress in theoretical computer science in non-commutative group optimization. | 翻訳日:2023-01-24 19:17:35 公開日:2022-09-28 |
# ペンタゴン方程式を用いた量子回路の伝送 Transpiling Quantum Circuits using the Pentagon Equation ( http://arxiv.org/abs/2209.14356v1 ) ライセンス: Link先を確認 | Christos Aravanis, Georgios Korpas, Jakub Marecek | (参考訳) 量子回路圧縮の文脈におけるペンタゴン方程式の適用について考察する。
ペンタゴン方程式の解が見つかると、非ハイゼンベルク型相互作用を含む回路をハイゼンベルク型相互作用のみを含む回路にトランスパイルでき、並行して回路の深さを減少させることができる。
この文脈では、Zhang \emph{et の非局所二ビット演算のモデルを考える。
アル
そして、あるパラメータに対して、それはペンタゴン方程式の解であることを示す。 We consider the application of the pentagon equation in the context of quantum circuit compression. We show that if solutions to the pentagon equation are found, one can transpile a circuit involving non-Heisenberg-type interactions to a circuit involving only Heisenberg-type interactions while, in parallel, reducing the depth of a circuit. In this context, we consider a model of non-local two-qubit operations of Zhang \emph{et. al.} (the $A$ gate), and show that for certain parameters it is a solution of the pentagon equation. | 翻訳日:2023-01-24 19:17:13 公開日:2022-09-28 |
# マルチモーダルカー・ライドシェアリング問題のモデル化と解決 Modeling and solving the multimodal car- and ride-sharing problem ( http://arxiv.org/abs/2001.05490v2 ) ライセンス: Link先を確認 | Miriam Enzi, Sophie N. Parragh, David Pisinger and Matthias Prandtstetter | (参考訳) マルチモーダルカー・ライドシェアリング問題 (MMCRP) では、車両プールが一連の乗車要求をカバーし、未発見の要求を他の交通手段 (MOT) に割り当てる。
車両の経路は1つまたは複数のトリップで構成される。
各トリップには、特定のが非決定的なドライバーがいて、デポから始まり、(おそらくは異なる)デポで終わる必要がある。
利用者間のライドシェアリングは、2つの乗車が同じ起源や目的地を持っていない場合でも許可される。
ユーザは、好みの個々のリストに従って、他の転送モードを使用するオプションを常に持っている。
この問題は車両スケジューリング問題として定式化することができる。
この問題を解決するために,各走行開始と終了をデポで表し,乗り合いをカバーした補助グラフを時間空間グラフの弧としてモデル化する。
本稿では,列生成に基づく2層分解アルゴリズムを提案し,各要求が最大1回しかカバーできないことを保証するとともに,時間空間ネットワークにおける最短経路問題の解法により,新たな経路を生成する。
実例に基づく計算実験が報告されている。
ベンチマークの例はオーストリアのウィーンの人口統計、空間データ、経済データに基づいている。
我々は,列生成に基づく手法を用いて,合理的な時間における近似最適性を求める大規模インスタンスを解決し,さらに様々な厳密かつヒューリスティックな価格体系について検討した。 We introduce the multimodal car- and ride-sharing problem (MMCRP), in which a pool of cars is used to cover a set of ride requests while uncovered requests are assigned to other modes of transport (MOT). A car's route consists of one or more trips. Each trip must have a specific but non-predetermined driver, start in a depot and finish in a (possibly different) depot. Ride-sharing between users is allowed, even when two rides do not have the same origin and/or destination. A user has always the option of using other modes of transport according to an individual list of preferences. The problem can be formulated as a vehicle scheduling problem. In order to solve the problem, an auxiliary graph is constructed in which each trip starting and ending in a depot, and covering possible ride-shares, is modeled as an arc in a time-space graph. We propose a two-layer decomposition algorithm based on column generation, where the master problem ensures that each request can only be covered at most once, and the pricing problem generates new promising routes by solving a kind of shortest-path problem in a time-space network. Computational experiments based on realistic instances are reported. The benchmark instances are based on demographic, spatial, and economic data of Vienna, Austria. We solve large instances with the column generation based approach to near optimality in reasonable time, and we further investigate various exact and heuristic pricing schemes. | 翻訳日:2023-01-11 06:32:34 公開日:2022-09-28 |
# レベルセット法における曲率計算のための深層学習手法 A deep learning approach for the computation of curvature in the level-set method ( http://arxiv.org/abs/2002.02804v4 ) ライセンス: Link先を確認 | Luis \'Angel Larios-C\'ardenas and Frederic Gibou | (参考訳) 本研究では,2次元暗黙インタフェースの平均曲率をレベルセット法で推定する深層学習手法を提案する。
提案手法は,様々な解像度の均一グリッドに没入した円形インターフェースから構築した合成データセットにフィードフォワードニューラルネットワークを適合させるものである。
これらの多層パーセプトロンは、自由境界の隣のメッシュポイントからのレベルセット値を処理し、インターフェース上の最も近い位置で非次元曲率を出力する。
均一格子と適応格子の両方における不規則界面を含む精度解析により、我々のモデルは従来のL^1$と$L^2$ノルムの数値スキームと競合することを示した。
特に、我々のニューラルネットワークは、粗い解像度で同等の精度で曲率を近似し、インターフェイスが急な曲率領域を特徴とし、レベルセット関数を再起動するイテレーションの数が少ない。
従来の数値計算手法は,提案手法よりも頑健であるが,本研究では,レベルセット法が難易度の高い計算タスクを扱うための機械学習の可能性を明らかにする。
また,局所分解能マップをニューラルネットワークに応用することで,平均曲率を普遍的ニューラルネットワークよりも効率的に推定できることを示す。 We propose a deep learning strategy to estimate the mean curvature of two-dimensional implicit interfaces in the level-set method. Our approach is based on fitting feed-forward neural networks to synthetic data sets constructed from circular interfaces immersed in uniform grids of various resolutions. These multilayer perceptrons process the level-set values from mesh points next to the free boundary and output the dimensionless curvature at their closest locations on the interface. Accuracy analyses involving irregular interfaces, in both uniform and adaptive grids, show that our models are competitive with traditional numerical schemes in the $L^1$ and $L^2$ norms. In particular, our neural networks approximate curvature with comparable precision in coarse resolutions, when the interface features steep curvature regions, and when the number of iterations to reinitialize the level-set function is small. Although the conventional numerical approach is more robust than our framework, our results have unveiled the potential of machine learning for dealing with computational tasks where the level-set method is known to experience difficulties. We also establish that an application-dependent map of local resolutions to neural models can be devised to estimate mean curvature more effectively than a universal neural network. | 翻訳日:2023-01-04 02:49:30 公開日:2022-09-28 |
# 複数の代替輸送モードを考慮した車両共有問題のモデル化と解決 Modeling and solving a vehicle-sharing problem considering multiple alternative modes of transport ( http://arxiv.org/abs/2003.08207v2 ) ライセンス: Link先を確認 | Miriam Enzi, Sophie N. Parragh, David Pisinger | (参考訳) モビリティ・パターンの変化にともなう,我々は,集中型計画の企業的視点から,交通手段の代替として,車両共有問題に対するスケジューリング手法を提案する。
1つ以上のデポと固定数のユーザ、すなわち従業員を持つ企業における車両シェアリングを考える。
ユーザーは固定された場所と固定された開始時刻と終了時刻の予約を利用できる。
車両は、デポからデポへの利用者のフルトリップに使用する必要がある。
我々は,他の交通手段と比較して省エネを最大化するために,利用者旅行に車両を割り当てることを目指している。
第一に1種類の車両のみを使用し、第二に複数の車両が使用可能である。
第一に, 車両共有問題は最小コストフロー問題として定式化可能であることを示す。
第二に、複数の種類の車両が利用可能であれば、問題はマルチコモディティフロー問題として定式化することができる。
これらの定式化は, 効率的な解法により, 日常業務に適用可能である。
ウィーンの人口統計,空間データ,経済データに基づいて,両事例について総合的な計算研究を行う。
この問題に対する私たちの定式化は、これらのインスタンスを数秒で解決し、オンライン予約システムで使用できることを示す。
分析では、異なる潜在的な設定について論じる。
本研究では,共有艦隊の最適構成,輸送モードの制限,目的関数の変動について検討した。 Motivated by the change in mobility patterns, we present a scheduling approach for a vehicle-sharing problem, considering several alternative modes of transport, from a company viewpoint with centralized planning. We consider vehicle-sharing in a company having one or more depots and a fixed number of users, i.e. employees. The users have appointments with a fixed location and fixed start and end times. A vehicle must be used for a full trip of a user from depot to depot. We aim at assigning vehicles to user trips so as to maximize savings compared to other modes of transport. We first consider that only one type of vehicle is used, and second that multiple vehicle types can be used. For the first case, we show that the vehicle-sharing problem can be formulated as a minimum-cost flow problem. Secondly, if multiple types of vehicles are available the problem can be formulated as a multi-commodity flow problem. These formulations make the problem applicable in daily operations due to efficient solution methods. We provide a comprehensive computational study for both cases on instances based on demographic, spatial, and economic data of Vienna. We show that our formulations for this problem solve these instances in a few seconds, which makes them usable in an online booking system. In the analysis we discuss different potential settings. We study the optimal composition of a shared fleet, restricted sets of modes of transport, and variations of the objective function. | 翻訳日:2022-12-22 21:50:46 公開日:2022-09-28 |
# ランク付けのための距離ベース正・無ラベル学習 Distance-based Positive and Unlabeled Learning for Ranking ( http://arxiv.org/abs/2005.10700v3 ) ライセンス: Link先を確認 | Hayden S. Helm, Amitabh Basu, Avanti Athreya, Youngser Park, Joshua T. Vogelstein, Carey E. Priebe, Michael Winding, Marta Zlatic, Albert Cardona, Patrick Bourke, Jonathan Larson, Marah Abdin, Piali Choudhury, Weiwei Yang, Christopher W. White | (参考訳) ランク付けを学ぶこと -- クエリに特有の項目のランクリストを作成すること、および一連の監督項目に関して -- は、一般的な関心事である。
我々が考える設定は、良いランキングを構成するものについて分析的な説明ができないものである。
代わりに、表現の集合と(ターゲットアイテム、興味深いアイテムセット)ペアからなる監督情報があります。
我々は、シミュレーションや実データ例において、整数線形プログラムを用いた表現の組み合わせによるランク付けの学習は、監督が「興味のある項目に類似した数少ない項目」である場合に有効であることを示した。
この指名タスクは非常に一般的であるが、具体的にはグラフの頂点指名の観点から方法論を提示する。
ここで説明する方法論はモデル非依存である。 Learning to rank -- producing a ranked list of items specific to a query and with respect to a set of supervisory items -- is a problem of general interest. The setting we consider is one in which no analytic description of what constitutes a good ranking is available. Instead, we have a collection of representations and supervisory information consisting of a (target item, interesting items set) pair. We demonstrate analytically, in simulation, and in real data examples that learning to rank via combining representations using an integer linear program is effective when the supervision is as light as "these few items are similar to your item of interest." While this nomination task is quite general, for specificity we present our methodology from the perspective of vertex nomination in graphs. The methodology described herein is model agnostic. | 翻訳日:2022-12-01 05:24:35 公開日:2022-09-28 |
# 学習アルゴリズムにおける確率力学解析のための一般フレームワーク A General Framework for Analyzing Stochastic Dynamics in Learning Algorithms ( http://arxiv.org/abs/2006.06171v3 ) ライセンス: Link先を確認 | Chi-Ning Chou, Juspreet Singh Sandhu, Mien Brabeeba Wang, Tiancheng Yu | (参考訳) 学習アルゴリズムの分析における課題の1つは、目的値と確率的雑音の間の円形の絡み合いである。
これは鶏卵現象としても知られており、伝統的にこの問題に対処するための原則的な方法はない。
人々は力学の特別な構造を利用して問題を解くため、解析を一般化することは困難である。
本研究では,「チッケン・アンド・エッグ」問題に取り組むための3段階のレシピを合理化し,学習アルゴリズムの確率力学解析のための汎用フレームワークを提案する。
本フレームワークは, 停止時間やマルティンゲール濃度などの確率論から標準技術を構成する。
我々は,最後の繰り返しと強い一様高確率収束保証を伴う3つの全く異なる学習問題を統一的に解析することで,フレームワークのパワーと柔軟性を実証する。
問題は、強凸関数に対する確率勾配降下、ストリーミング主成分分析、確率勾配降下更新を伴う線形バンドイットである。
私たちは、すべての3つのダイナミクスの最先端の境界を改善したり、一致させたりします。 One of the challenges in analyzing learning algorithms is the circular entanglement between the objective value and the stochastic noise. This is also known as the "chicken and egg" phenomenon and traditionally, there is no principled way to tackle this issue. People solve the problem by utilizing the special structure of the dynamic, and hence the analysis would be difficult to generalize. In this work, we present a streamlined three-step recipe to tackle the "chicken and egg" problem and give a general framework for analyzing stochastic dynamics in learning algorithms. Our framework composes standard techniques from probability theory, such as stopping time and martingale concentration. We demonstrate the power and flexibility of our framework by giving a unifying analysis for three very different learning problems with the last iterate and the strong uniform high probability convergence guarantee. The problems are stochastic gradient descent for strongly convex functions, streaming principal component analysis, and linear bandit with stochastic gradient descent updates. We either improve or match the state-of-the-art bounds on all three dynamics. | 翻訳日:2022-11-22 14:42:47 公開日:2022-09-28 |
# 二重降下:線形回帰課題間の伝達学習における一般化誤差について Double Double Descent: On Generalization Errors in Transfer Learning between Linear Regression Tasks ( http://arxiv.org/abs/2006.07002v8 ) ライセンス: Link先を確認 | Yehuda Dar and Richard G. Baraniuk | (参考訳) 2つの線形回帰問題間の伝達学習過程について検討する。
重要かつタイムリーな特別なケースは、レグレッサーがオーバーパラメータ化され、トレーニングデータを完全に補間する時である。
本稿では,対象タスクのパラメータのサブセットを関連するソースタスクで学習した値に制約するパラメータ転送機構について検討する。
本研究では,移動学習アーキテクチャにおける有意な要因,例えば利用可能な例数,各タスクにおける(自由な)パラメータ数,ソースから対象タスクへ転送されるパラメータ数,および2つのタスクの関係から,対象タスクの一般化誤差を解析的に特徴付ける。
非漸近解析により、対象タスクの一般化誤差は、伝達学習因子によって制御される2次元の二重降下傾向(各タスクにおける自由パラメータ数)に従うことが示された。
分析では、パラメータの移動が余剰パラメータ化の代用として有用である場合(すなわち、対象タスクに追加の自由パラメータ)を指摘する。
具体的には、転送学習設定の有用性が脆弱であり、転送パラメータの集合、タスク間の関係、真の解の間の繊細な相互作用に依存することを示す。
また、ソースタスクが目的タスクに近い場合や同一である場合、過パラメータ化転送学習は必ずしも有用ではないことを示す。 We study the transfer learning process between two linear regression problems. An important and timely special case is when the regressors are overparameterized and perfectly interpolate their training data. We examine a parameter transfer mechanism whereby a subset of the parameters of the target task solution are constrained to the values learned for a related source task. We analytically characterize the generalization error of the target task in terms of the salient factors in the transfer learning architecture, i.e., the number of examples available, the number of (free) parameters in each of the tasks, the number of parameters transferred from the source to target task, and the relation between the two tasks. Our non-asymptotic analysis shows that the generalization error of the target task follows a two-dimensional double descent trend (with respect to the number of free parameters in each of the tasks) that is controlled by the transfer learning factors. Our analysis points to specific cases where the transfer of parameters is beneficial as a substitute for extra overparameterization (i.e., additional free parameters in the target task). Specifically, we show that the usefulness of a transfer learning setting is fragile and depends on a delicate interplay among the set of transferred parameters, the relation between the tasks, and the true solution. We also demonstrate that overparameterized transfer learning is not necessarily more beneficial when the source task is closer or identical to the target task. | 翻訳日:2022-11-22 02:30:15 公開日:2022-09-28 |
# クロスドメインニューラルエンティティリンク Cross-Domain Neural Entity Linking ( http://arxiv.org/abs/2210.15616v1 ) ライセンス: Link先を確認 | Hassan Soliman | (参考訳) エンティティリンクは、与えられた知識ベース(kb)内のエンティティへの言及をマッチングするタスクである。
マッチしたエンティティに関する新しい事実を活用するために、Webに存在する大量のドキュメントに注釈をつけることに貢献します。
しかし、既存のエンティティリンクシステムは、訓練された特定の知識ベースに対してのみ、ドメインに依存し、堅牢なモデルの開発に焦点を当てている。
異なるドメインの文書や知識ベースで評価される場合、パフォーマンスは不十分である。
wu et al. (2020)のような事前学習された言語モデルに基づくアプローチでは、一般的なドメインkbで評価した場合の可能性を示しながら、ゼロショット設定を使って問題を解決しようとする。
それでも、ドメイン固有のKBで評価すると、パフォーマンスは同等ではない。
異なるドメイン間でより正確なエンティティリンクを可能にするため、私たちは、クロスドメインニューラルエンティティリンク(CDNEL)というフレームワークを提案します。
我々の目標は、汎用ドメインKBとドメイン固有のKBの両方に同時リンクできる単一のシステムを作ることである。
CDNELは、これらの知識ベースを異なる領域から学習することで機能する。
Logeswaran et al. (2019) が構築した外部エンティティリンクデータセット (Zeshel) とBotzer et al. (2021) が収集したRedditデータセットを用いて評価を行い、提案手法と最先端の結果を比較した。
提案フレームワークは、細調整に異なるタイプのデータセットを使用し、CDNELの異なるモデル変異をもたらす。
Zeshelデータセットに含まれる4つの領域で評価すると、これらの変種は平均精度9%に達する。 Entity Linking is the task of matching a mention to an entity in a given knowledge base (KB). It contributes to annotating a massive amount of documents existing on the Web to harness new facts about their matched entities. However, existing Entity Linking systems focus on developing models that are typically domain-dependent and robust only to a particular knowledge base on which they have been trained. The performance is not as adequate when being evaluated on documents and knowledge bases from different domains. Approaches based on pre-trained language models, such as Wu et al. (2020), attempt to solve the problem using a zero-shot setup, illustrating some potential when evaluated on a general-domain KB. Nevertheless, the performance is not equivalent when evaluated on a domain-specific KB. To allow for more accurate Entity Linking across different domains, we propose our framework: Cross-Domain Neural Entity Linking (CDNEL). Our objective is to have a single system that enables simultaneous linking to both the general-domain KB and the domain-specific KB. CDNEL works by learning a joint representation space for these knowledge bases from different domains. It is evaluated using the external Entity Linking dataset (Zeshel) constructed by Logeswaran et al. (2019) and the Reddit dataset collected by Botzer et al. (2021), to compare our proposed method with the state-of-the-art results. The proposed framework uses different types of datasets for fine-tuning, resulting in different model variants of CDNEL. When evaluated on four domains included in the Zeshel dataset, these variants achieve an average precision gain of 9%. | 翻訳日:2022-10-30 12:16:49 公開日:2022-09-28 |
# 公平かつロバストなレコメンデーションシステム設計のための攻撃と防御に関する議論 Discussion about Attacks and Defenses for Fair and Robust Recommendation System Design ( http://arxiv.org/abs/2210.07817v1 ) ライセンス: Link先を確認 | Mirae Kim, Simon Woo | (参考訳) ビッグデータ時代の到来とともに、インターネットとモバイルで情報が爆発した。
特にレコメンデーションシステムは、大量の情報の中から最高の製品を選ぶのに苦労している消費者を助けるために広く使われている。
しかし、レコメンデーションシステムは、特定の製品を宣伝したりデモしたりするための偽レビューや個人情報を盗む攻撃など、悪意のあるユーザーの偏見に弱い。
このようなバイアスや攻撃は、推薦モデルの公正性を損なうとともに、データを歪ませることでユーザやシステムのプライバシーを侵害するものであり、近年、ディープラーニング協調フィルタリングレコメンデーションシステムは、このバイアスに対してより脆弱であることが示されている。
本稿では,様々な倫理的・社会的問題を引き起こすバイアスの影響を考察し,公平性と安定性のためのロバストなレコメンデーションシステムを設計する必要性について考察する。 Information has exploded on the Internet and mobile with the advent of the big data era. In particular, recommendation systems are widely used to help consumers who struggle to select the best products among such a large amount of information. However, recommendation systems are vulnerable to malicious user biases, such as fake reviews to promote or demote specific products, as well as attacks that steal personal information. Such biases and attacks compromise the fairness of the recommendation model and infringe the privacy of users and systems by distorting data.Recently, deep-learning collaborative filtering recommendation systems have shown to be more vulnerable to this bias. In this position paper, we examine the effects of bias that cause various ethical and social issues, and discuss the need for designing the robust recommendation system for fairness and stability. | 翻訳日:2022-10-23 20:52:06 公開日:2022-09-28 |
# 株取引におけるマルチクラス感性予測 Multiclass Sentiment Prediction for Stock Trading ( http://arxiv.org/abs/2210.00870v1 ) ライセンス: Link先を確認 | Marshall R. McCraw | (参考訳) pythonは、newsapiの400の公開トレーディング、ローキャップに関する記事データをダウンロードしてフォーマットするために使われた。
バイオテック企業。
クラウドソーシングは、これらのデータのサブセットをラベル付けして、各企業の公開感情を分類するために、さまざまなモデルのトレーニングと評価に使用された。
最高のパフォーマンスモデルは、公開感から完全に引き離されたトレーディングが市場を上回るリターンをもたらすことを示すために使用された。 Python was used to download and format NewsAPI article data relating to 400 publicly traded, low cap. Biotech companies. Crowd-sourcing was used to label a subset of this data to then train and evaluate a variety of models to classify the public sentiment of each company. The best performing models were then used to show that trading entirely off public sentiment could provide market beating returns. | 翻訳日:2022-10-09 17:12:17 公開日:2022-09-28 |
# 説明可能な天文学的不確実時系列分類 Explainable classification of astronomical uncertain time series ( http://arxiv.org/abs/2210.00869v1 ) ライセンス: Link先を確認 | Michael Franklin Mbouopda (LIMOS, UCA), Emille E O Ishida (LPC, UCA), Engelbert Mephu Nguifo (LIMOS, UCA), Emmanuel Gangler (LPC, UCA) | (参考訳) 宇宙の膨張史を探求し、進化段階を理解し、将来の進化を予測することは天体物理学の重要な目標である。
現在、機械学習ツールは、不確実な時系列としてモデル化された過渡的なソースを分析することによって、これらの目標を達成するのに役立つ。
ブラックボックス法は高い性能を達成できたが、既存の解釈可能な時系列法はこの種のデータに対して許容できる性能を得られなかった。
さらに、これらの方法でデータ不確実性を考慮することはめったにない。
本研究では,最先端手法に匹敵する分類を実現する不確実性認識サブシーケンスモデルを提案する。
予測におけるモデル不確かさを推定する共形学習とは異なり、本手法はデータ不確かさを追加入力とする。
さらに、我々のアプローチは、ドメインの専門家にモデルを調べ、その予測を説明する能力を与える、説明可能な設計である。
提案手法の解説性は、光曲線形状の詳細を描写する重要な部分列を示唆することにより、理論天体物理学モデリングの新たな発展を刺激する可能性も持つ。
データセット、実験のソースコード、結果が公開リポジトリで公開されています。 Exploring the expansion history of the universe, understanding its evolutionary stages, and predicting its future evolution are important goals in astrophysics. Today, machine learning tools are used to help achieving these goals by analyzing transient sources, which are modeled as uncertain time series. Although black-box methods achieve appreciable performance, existing interpretable time series methods failed to obtain acceptable performance for this type of data. Furthermore, data uncertainty is rarely taken into account in these methods. In this work, we propose an uncertaintyaware subsequence based model which achieves a classification comparable to that of state-of-the-art methods. Unlike conformal learning which estimates model uncertainty on predictions, our method takes data uncertainty as additional input. Moreover, our approach is explainable-by-design, giving domain experts the ability to inspect the model and explain its predictions. The explainability of the proposed method has also the potential to inspire new developments in theoretical astrophysics modeling by suggesting important subsequences which depict details of light curve shapes. The dataset, the source code of our experiment, and the results are made available on a public repository. | 翻訳日:2022-10-09 17:02:31 公開日:2022-09-28 |
# 複目的マルチモーダルカーシェアリング問題 The bi-objective multimodal car-sharing problem ( http://arxiv.org/abs/2010.10344v2 ) ライセンス: Link先を確認 | Miriam Enzi, Sophie N. Parragh, Jakob Puchinger | (参考訳) bi-objective multimodal car-sharing problem(bio-mmcp)の目的は、費用を最小化し、ユーザの満足度を最大化しつつ、旅行の最適な輸送モードを決定し、利用可能な車やユーザのルートをスケジュールすることである。
ユーザ中心の観点からBiO-MMCPについて検討する。
ユーザ満足度は共有モビリティシステムにおいて重要な側面であるため、ユーザの好みを第2の目的として考える。
ユーザーは1日ごとに好みの交通手段を選択してランク付けすることができる。
この方法では、例えば、計画の地平線全体にわたる異なる交通状況について説明します。
我々はその問題の様々な変種を研究する。
基本問題では、ユーザが満たさなければならないタスクのシーケンスは事前に固定され、旅行時間や好みは計画の地平線上で一定である。
変種2では、時間依存の旅行時間と嗜好が導入される。
変分3では、追加のルーティング決定を行う際の課題について検討する。
Variant 4 は変種 2 と 3 を統合する。
この最後の変種に対して,2つの双方向フレームワーク,すなわち$\epsilon$-constraint法と重み付け二分探索法に組み込んだ分岐切断アルゴリズムを開発した。
計算実験により, 分岐切断アルゴリズムはMIPの定式化よりも優れており, パレートフロンティアに沿った解の変更について議論する。 The aim of the bi-objective multimodal car-sharing problem (BiO-MMCP) is to determine the optimal mode of transport assignment for trips and to schedule the routes of available cars and users whilst minimizing cost and maximizing user satisfaction. We investigate the BiO-MMCP from a user-centred point of view. As user satisfaction is a crucial aspect in shared mobility systems, we consider user preferences in a second objective. Users may choose and rank their preferred modes of transport for different times of the day. In this way we account for, e.g., different traffic conditions throughout the planning horizon. We study different variants of the problem. In the base problem, the sequence of tasks a user has to fulfill is fixed in advance and travel times as well as preferences are constant over the planning horizon. In variant 2, time-dependent travel times and preferences are introduced. In variant 3, we examine the challenges when allowing additional routing decisions. Variant 4 integrates variants 2 and 3. For this last variant, we develop a branch-and-cut algorithm which is embedded in two bi-objective frameworks, namely the $\epsilon$-constraint method and a weighting binary search method. Computational experiments show that the branch-and cut algorithm outperforms the MIP formulation and we discuss changing solutions along the Pareto frontier. | 翻訳日:2022-10-06 04:33:28 公開日:2022-09-28 |
# ドメイン適応型アクション検出のための補助源ドメインスーパービジョンによるインスタンスベースの混合サンプリング Exploiting Instance-based Mixed Sampling via Auxiliary Source Domain Supervision for Domain-adaptive Action Detection ( http://arxiv.org/abs/2209.15439v1 ) ライセンス: Link先を確認 | Yifan Lu, Gurkirt Singh, Suman Saha, Luc Van Gool | (参考訳) 本稿では,画像レベルの非教師付きドメイン適応(UDA)技術の最近の進歩を活用し,インスタンスレベルのビデオデータのバガリーを処理する新しいドメイン適応型アクション検出手法と新しい適応プロトコルを提案する。
ドメイン間混合サンプリングと組み合わせた自己学習は、UDA(unsupervised domain adapt)コンテキストにおけるセマンティックセグメンテーションにおいて顕著なパフォーマンス向上を示した。
そこで本研究では,音源領域(注記データセット)から対象領域(注記データセット)に知識を伝達するビデオにおいて,混合サンプリングと擬似ラベルに基づく自己学習を用いて人間の行動検出を行う手法を提案する。
既存のUDA技術はセマンティックセグメンテーションのためのClassMixアルゴリズムに従う。
しかし、アクション検出にClassMixを採用するだけでは、主に2つの全く異なる問題、すなわちピクセルラベル分類とインスタンスラベル検出があるため、機能しない。
そこで本研究では,アクションクラスではなく,アクションインスタンスに基づくドメイン間の情報を組み合わせた新しいアクションインスタンス混合サンプリング手法を提案する。
さらに、補助ソースドメイン(ASD)からの監督を利用して、ロングテールサンプル分布とドメインシフトの問題に対処する新しいUDAトレーニングプロトコルを提案する。
asdでは,フレームレベルの密接なアノテーションを用いた新たなアクション検出データセットを提案する。
提案するフレームワークをドメイン適応型アクションインスタンス混合(DA-AIM)と呼ぶ。
DA-AIMは、挑戦的なドメイン適応ベンチマークにおける先行研究よりも一貫して優れていることを示す。
ソースコードはhttps://github.com/wwwfan628/DA-AIMで入手できる。 We propose a novel domain adaptive action detection approach and a new adaptation protocol that leverages the recent advancements in image-level unsupervised domain adaptation (UDA) techniques and handle vagaries of instance-level video data. Self-training combined with cross-domain mixed sampling has shown remarkable performance gain in semantic segmentation in UDA (unsupervised domain adaptation) context. Motivated by this fact, we propose an approach for human action detection in videos that transfers knowledge from the source domain (annotated dataset) to the target domain (unannotated dataset) using mixed sampling and pseudo-label-based selftraining. The existing UDA techniques follow a ClassMix algorithm for semantic segmentation. However, simply adopting ClassMix for action detection does not work, mainly because these are two entirely different problems, i.e., pixel-label classification vs. instance-label detection. To tackle this, we propose a novel action instance mixed sampling technique that combines information across domains based on action instances instead of action classes. Moreover, we propose a new UDA training protocol that addresses the long-tail sample distribution and domain shift problem by using supervision from an auxiliary source domain (ASD). For the ASD, we propose a new action detection dataset with dense frame-level annotations. We name our proposed framework as domain-adaptive action instance mixing (DA-AIM). We demonstrate that DA-AIM consistently outperforms prior works on challenging domain adaptation benchmarks. The source code is available at https://github.com/wwwfan628/DA-AIM. | 翻訳日:2022-10-03 15:51:49 公開日:2022-09-28 |
# 経路依存偏微分方程式の確率的数値解への深層学習的アプローチ A deep learning approach to the probabilistic numerical solution of path-dependent partial differential equations ( http://arxiv.org/abs/2209.15010v1 ) ライセンス: Link先を確認 | Jiang Yu Nguwi and Nicolas Privault | (参考訳) 経路依存部分微分方程式(PPDE)に関する最近の研究は、PPDE解を確率的表現によって近似できることを示した。
しかし、このアプローチの制限は、関数空間における基底の選択を必要とすることである。
本稿では,この制約を深層学習法を用いて克服し,条件付き期待値の近似に基づく誤差境界の導出を可能にすることを示す。
2人のゼロサムゲームとアジアとバリアオプションの価格設定に基づく数値例を示す。
他のディープラーニング手法と比較して、我々のアルゴリズムは特に大きな次元においてより正確であるように見える。 Recent work on Path-Dependent Partial Differential Equations (PPDEs) has shown that PPDE solutions can be approximated by a probabilistic representation, implemented in the literature by the estimation of conditional expectations using regression. However, a limitation of this approach is to require the selection of a basis in a function space. In this paper, we overcome this limitation by the use of deep learning methods, and we show that this setting allows for the derivation of error bounds on the approximation of conditional expectations. Numerical examples based on a two-person zero-sum game, as well as on Asian and barrier option pricing, are presented. In comparison with other deep learning approaches, our algorithm appears to be more accurate, especially in large dimensions. | 翻訳日:2022-10-03 15:14:00 公開日:2022-09-28 |
# 安全学習による都市エアモビリティのスケジューリング Scheduling for Urban Air Mobility using Safe Learning ( http://arxiv.org/abs/2209.15457v1 ) ライセンス: Link先を確認 | Surya Murthy (University of Illinois, Urbana-Champaign), Natasha A. Neogi (NASA Langley Research Center), Suda Bharadwaj (Skygrid, Inc.) | (参考訳) 本研究は, ハードトリップとソフトトリップの双方で走行する都市エアモビリティ (uam) 車両のスケジューリング問題を検討するものである。
各経路は、旅行完了時間(または遅延)と、固定されたハードまたはソフトの期限とともに、経路の地域間要求(または需要)の確率分布によって記述される。
ソフトな期限には、期限がずれたときに発生するコストが伴う。
オンラインの安全なスケジューラが開発され、ハードデッドラインが見逃されないようにし、ソフトデッドラインが失われる平均コストが最小になる。
システムはマルコフ決定プロセス(MDP)としてモデル化され、経路遅延や需要に対する確率分布の探索に安全なモデルベース学習が使用される。
Monte Carlo Tree Search (MCTS) Earl Most Deadline First (EDF) は、学習したモデルをオンラインで安全に探索し、ほぼ最適に近い非プリエンプティブなスケジューリングポリシーを開発するために使用される。
これらの結果は、値反復(VI)とMCTS(Random)スケジューリングソリューションと比較される。 This work considers the scheduling problem for Urban Air Mobility (UAM) vehicles travelling between origin-destination pairs with both hard and soft trip deadlines. Each route is described by a discrete probability distribution over trip completion times (or delay) and over inter-arrival times of requests (or demand) for the route along with a fixed hard or soft deadline. Soft deadlines carry a cost that is incurred when the deadline is missed. An online, safe scheduler is developed that ensures that hard deadlines are never missed, and that average cost of missing soft deadlines is minimized. The system is modelled as a Markov Decision Process (MDP) and safe model-based learning is used to find the probabilistic distributions over route delays and demand. Monte Carlo Tree Search (MCTS) Earliest Deadline First (EDF) is used to safely explore the learned models in an online fashion and develop a near-optimal non-preemptive scheduling policy. These results are compared with Value Iteration (VI) and MCTS (Random) scheduling solutions. | 翻訳日:2022-10-03 14:40:21 公開日:2022-09-28 |
# 説明可能なレコメンデーションのためのFactual and Informative Review Generation Factual and Informative Review Generation for Explainable Recommendation ( http://arxiv.org/abs/2209.12613v2 ) ライセンス: Link先を確認 | Zhouhang Xie, Sameer Singh, Julian McAuley and Bodhisattwa Prasad Majumder | (参考訳) 最近のモデルでは、ユーザの評価を正確に予測しながら、フルーエントで文法的な合成レビューを生成することができる。
生成したレビューは、関連する製品に対するユーザの推定意見を表現し、共同で予測された評価のための自然言語「合理化」と見なされることが多い。
しかし、以前の研究では、既存のモデルはしばしば反復的、普遍的に適用可能、そして一般的な説明を生成し、非形式的理性をもたらすことが判明した。
さらに, 過去のモデルが生成した内容は, 事実の幻覚を含むことが多い。
これらの問題は、情報と事実の両方に根拠のある説明を生み出す新しい解を求める。
生成のためのパラメトリック知識に加えて,検索コンテンツを用いた最近の成功に触発されて,検索者のアウトプットが外部知識として機能するパーソナライズされたレトリビュータによるジェネレータの拡張を提案する。
Yelp、TripAdvisor、Amazon Movie Reviewsのデータセットでの実験は、我々のモデルが既存のレビューをより確実に複雑にし、より多様性があり、人間の評価者によってより有益であると評価された説明を生成できることを示している。 Recent models can generate fluent and grammatical synthetic reviews while accurately predicting user ratings. The generated reviews, expressing users' estimated opinions towards related products, are often viewed as natural language 'rationales' for the jointly predicted rating. However, previous studies found that existing models often generate repetitive, universally applicable, and generic explanations, resulting in uninformative rationales. Further, our analysis shows that previous models' generated content often contain factual hallucinations. These issues call for novel solutions that could generate both informative and factually grounded explanations. Inspired by recent success in using retrieved content in addition to parametric knowledge for generation, we propose to augment the generator with a personalized retriever, where the retriever's output serves as external knowledge for enhancing the generator. Experiments on Yelp, TripAdvisor, and Amazon Movie Reviews dataset show our model could generate explanations that more reliably entail existing reviews, are more diverse, and are rated more informative by human evaluators. | 翻訳日:2022-10-02 23:40:55 公開日:2022-09-28 |
# 動的データから量子多体ハミルトンをスケーラブルに学習する Scalably learning quantum many-body Hamiltonians from dynamical data ( http://arxiv.org/abs/2209.14328v1 ) ライセンス: Link先を確認 | Frederik Wilde, Augustine Kshetrimayum, Ingo Roth, Dominik Hangleiter, Ryan Sweke, Jens Eisert | (参考訳) 閉量子力学系の物理学はそのハミルトニアンによって制御される。
しかし、最も現実的な状況では、このハミルトニアンは正確には知られておらず、最終的にはシステム上の測定から得られるデータが存在する。
本研究では,動的データから多体ハミルトニアンと相互作用する多体ハミルトニアンを学習するための,高度にスケーラブルでデータ駆動の手法を提案する。
当社のアプローチは非常に実用的で,実験的にフレンドリで,本質的にスケーラブルで,100スピンを超えるシステムサイズを実現しています。
特に,1つの単純な初期状態,少数のシングルキュービット観測可能量,比較的短い時間までの時間発展に制限された場合でも,アルゴリズムが動作することを合成データ上で実証する。
一次元ハイゼンベルクモデルの具体的な例として、我々のアルゴリズムは、システムサイズとスケールの誤差定数をデータセットのサイズの逆二乗根として示す。 The physics of a closed quantum mechanical system is governed by its Hamiltonian. However, in most practical situations, this Hamiltonian is not precisely known, and ultimately all there is are data obtained from measurements on the system. In this work, we introduce a highly scalable, data-driven approach to learning families of interacting many-body Hamiltonians from dynamical data, by bringing together techniques from gradient-based optimization from machine learning with efficient quantum state representations in terms of tensor networks. Our approach is highly practical, experimentally friendly, and intrinsically scalable to allow for system sizes of above 100 spins. In particular, we demonstrate on synthetic data that the algorithm works even if one is restricted to one simple initial state, a small number of single-qubit observables, and time evolution up to relatively short times. For the concrete example of the one-dimensional Heisenberg model our algorithm exhibits an error constant in the system size and scaling as the inverse square root of the size of the data set. | 翻訳日:2022-09-30 18:23:52 公開日:2022-09-28 |
# 近傍勾配クラスタリング:非iidデータ分布の効率的な分散学習法 Neighborhood Gradient Clustering: An Efficient Decentralized Learning Method for Non-IID Data Distributions ( http://arxiv.org/abs/2209.14390v1 ) ライセンス: Link先を確認 | Sai Aparna Aketi, Sangamesh Kodge, Kaushik Roy | (参考訳) 分散学習アルゴリズムは、中央サーバーを必要とせずに、さまざまなデバイスや場所で生成された大規模な分散データセット上でディープラーニングモデルのトレーニングを可能にする。
実用的なシナリオでは、分散データセットはエージェント間で著しく異なるデータ分散を持つことができる。
現在の最先端の分散アルゴリズムは、データ分布が独立かつ同一分散(iid)であることをほとんど想定している。
本稿では,最小の計算およびメモリオーバーヘッドで,非IIDデータ分散による分散学習を改善することに焦点を当てる。
本研究では,各エージェントの局所勾配を自己および横断的情報を用いて修正する分散学習アルゴリズムであるNorborhood Gradient Clustering (NGC)を提案する。
特に,提案手法は,モデルの局所勾配を,自己次数平均,モデル変種交叉勾配(受信した隣人のモデルパラメータの局所データセットへの導出),データ変種交叉勾配(その隣人のデータセットに対する局所モデルの導出)に置き換える。
さらに,NGCの圧縮版であるCompNGCを,クロスグラディエントを圧縮することにより通信オーバーヘッドを32 \times$に削減する。
各種モデルアーキテクチャおよびグラフトポロジ上のCIFAR-10データセットから得られた非IIDデータ分布に対して,提案手法の実証的収束と効率性を示す。
実験の結果,NGCとCompNGCは,非IIDデータの分散学習アルゴリズムであるSoTAを,計算とメモリの要求が大幅に少ない1~5倍の1~5倍の性能で上回っていることがわかった。
さらに,提案手法は,追加の通信を伴わずに,ベースラインを5~40 %$で上回ることを示す。 Decentralized learning algorithms enable the training of deep learning models over large distributed datasets generated at different devices and locations, without the need for a central server. In practical scenarios, the distributed datasets can have significantly different data distributions across the agents. The current state-of-the-art decentralized algorithms mostly assume the data distributions to be Independent and Identically Distributed (IID). This paper focuses on improving decentralized learning over non-IID data distributions with minimal compute and memory overheads. We propose Neighborhood Gradient Clustering (NGC), a novel decentralized learning algorithm that modifies the local gradients of each agent using self- and cross-gradient information. In particular, the proposed method replaces the local gradients of the model with the weighted mean of the self-gradients, model-variant cross-gradients (derivatives of the received neighbors' model parameters with respect to the local dataset), and data-variant cross-gradients (derivatives of the local model with respect to its neighbors' datasets). Further, we present CompNGC, a compressed version of NGC that reduces the communication overhead by $32 \times$ by compressing the cross-gradients. We demonstrate the empirical convergence and efficiency of the proposed technique over non-IID data distributions sampled from the CIFAR-10 dataset on various model architectures and graph topologies. Our experiments demonstrate that NGC and CompNGC outperform the existing state-of-the-art (SoTA) decentralized learning algorithm over non-IID data by $1-5\%$ with significantly less compute and memory requirements. Further, we also show that the proposed NGC method outperforms the baseline by $5-40\%$ with no additional communication. | 翻訳日:2022-09-30 18:23:27 公開日:2022-09-28 |
# fire: エッジコンピューティング移行のための障害対応強化学習フレームワーク FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations ( http://arxiv.org/abs/2209.14399v1 ) ライセンス: Link先を確認 | Marie Siew, Shikhar Sharma, Kun Guo, Chao Xu, Tony Q.S. Quek and Carlee Joe-Wong | (参考訳) エッジコンピューティングでは、ユーザモビリティに応じてユーザのサービスプロファイルを移行する必要があります。
強化学習(RL)フレームワークが提案されている。
しかしながら、これらのフレームワークは、まれではあるが、ユーザのコンピューティングジョブが完了できないため、自律運転やリアルタイム障害検出といった、エッジコンピューティングのレイテンシに敏感なアプリケーションのスムーズで安全な機能を防止することができる、時折サーバ障害を考慮しない。
これらの障害は低い確率で発生するため、本質的にデータ駆動であるrlアルゴリズムが、典型的なイベントシナリオとまれなイベントシナリオの両方に対して最適なサービスマイグレーションソリューションを学ぶことは困難である。
そこで我々は,強化学習に重要サンプリングを統合してバックアップサービスを配置する,まれなイベント適応型レジリエンスフレームワークFIREを提案する。
我々は,その値関数への寄与に比例した頻度でレアイベントをサンプリングし,最適なポリシーを学習する。
当社のフレームワークは、遅延コストとマイグレーションコストの間のサービス移行トレードオフと、障害のコストとバックアップ配置とマイグレーションのコストのバランスをとります。
重要サンプリングに基づくQ-ラーニングアルゴリズムを提案し,その有界性と最適性への収束性を証明する。
次に,線形関数近似と深部Q-ラーニングバージョンを新たに提案し,実世界のシナリオにスケールできるようにする。
私たちは、失敗に対するさまざまなリスク耐性を持つユーザに対応するために、私たちのフレームワークを拡張します。
最後に、トレース駆動実験を用いて、障害発生時のコスト削減をアルゴリズムが実現することを示す。 In edge computing, users' service profiles must be migrated in response to user mobility. Reinforcement learning (RL) frameworks have been proposed to do so. Nevertheless, these frameworks do not consider occasional server failures, which although rare, can prevent the smooth and safe functioning of edge computing users' latency sensitive applications such as autonomous driving and real-time obstacle detection, because users' computing jobs can no longer be completed. As these failures occur at a low probability, it is difficult for RL algorithms, which are inherently data-driven, to learn an optimal service migration solution for both the typical and rare event scenarios. Therefore, we introduce a rare events adaptive resilience framework FIRE, which integrates importance sampling into reinforcement learning to place backup services. We sample rare events at a rate proportional to their contribution to the value function, to learn an optimal policy. Our framework balances service migration trade-offs between delay and migration costs, with the costs of failure and the costs of backup placement and migration. We propose an importance sampling based Q-learning algorithm, and prove its boundedness and convergence to optimality. Following which we propose novel eligibility traces, linear function approximation and deep Q-learning versions of our algorithm to ensure it scales to real-world scenarios. We extend our framework to cater to users with different risk tolerances towards failure. Finally, we use trace driven experiments to show that our algorithm gives cost reductions in the event of failures. | 翻訳日:2022-09-30 18:23:00 公開日:2022-09-28 |
# チャンバーアンサンブル生成器:生成モデルによる限界なし高品質ミールデータ The Chamber Ensemble Generator: Limitless High-Quality MIR Data via Generative Modeling ( http://arxiv.org/abs/2209.14458v1 ) ライセンス: Link先を確認 | Yusong Wu, Josh Gardner, Ethan Manilow, Ian Simon, Curtis Hawthorne, Jesse Engel | (参考訳) データ(Data)は、音楽情報検索(MIR)を含む現代の機械学習システムのライフサイクルである。
しかし、MIRは長い間、小さなデータセットと信頼性の低いラベルによって修正されてきた。
本稿では,生成モデルを用いてこのボトルネックを解消することを提案する。
チャンバーアンサンブル(URMPで訓練されたMIDI-DDSP)の構造化合成モデルを用いて音符生成モデル(バッハ合唱団で訓練されたココネ)をパイプライン化することにより、ミックス、ステム、MIDI、ノートレベルの演奏特性(スタッカト、ビブラートなど)、さらには微粒な合成パラメータ(ピッチ、振幅など)を多量に生成できるシステムを実証する。
このシステムをCEG(Curber Ensemble Generator)と呼び、それを4つの異なる室内アンサンブル(CocoChorales)から大きなコラールのデータセットを生成する。
このアプローチで生成されたデータは,音楽の書き起こしとソース分離の最先端モデルを改善し,mirコミュニティにおける今後の作業のためのオープンソース基盤として,システムとデータセットの両方をリリースする。 Data is the lifeblood of modern machine learning systems, including for those in Music Information Retrieval (MIR). However, MIR has long been mired by small datasets and unreliable labels. In this work, we propose to break this bottleneck using generative modeling. By pipelining a generative model of notes (Coconet trained on Bach Chorales) with a structured synthesis model of chamber ensembles (MIDI-DDSP trained on URMP), we demonstrate a system capable of producing unlimited amounts of realistic chorale music with rich annotations including mixes, stems, MIDI, note-level performance attributes (staccato, vibrato, etc.), and even fine-grained synthesis parameters (pitch, amplitude, etc.). We call this system the Chamber Ensemble Generator (CEG), and use it to generate a large dataset of chorales from four different chamber ensembles (CocoChorales). We demonstrate that data generated using our approach improves state-of-the-art models for music transcription and source separation, and we release both the system and the dataset as an open-source foundation for future work in the MIR community. | 翻訳日:2022-09-30 18:22:36 公開日:2022-09-28 |
# 機械学習のための量子カーネルを用いたパラメータ化量子回路:ハイブリッド量子古典的アプローチ Parameterized Quantum Circuits with Quantum Kernels for Machine Learning: A Hybrid Quantum-Classical Approach ( http://arxiv.org/abs/2209.14449v1 ) ライセンス: Link先を確認 | Daniel T. Chang | (参考訳) 量子機械学習 (quantum machine learning, qml) は、機械学習アルゴリズムの計算に量子コンピューティングを用いる方法である。
古典データの普及と重要性により、QMLに対するハイブリッド量子古典的アプローチが求められている。
パラメータ化量子回路(PQC)、特に量子カーネルPQCはQMLへのハイブリッドアプローチで一般的に使用される。
本稿では、PQC、量子カーネル、量子優位な量子カーネル、量子カーネルのトレーニング可能性など、量子カーネルを用いたPQCの重要な側面について論じる。
量子カーネル法(quantum kernel method)と呼ばれるハイブリッドカーネル法を持つ量子カーネルは、qmlへのハイブリッドアプローチとして明確な利点をもたらすと結論づける。
Noisy Intermediate-Scale Quantum (NISQ) デバイスに適用されるだけでなく、回帰、分類、クラスタリング、次元縮小など、あらゆる種類の機械学習問題を解決するためにも使用できる。
さらに、量子ユーティリティ以外にも、量子カーネル、すなわち量子特徴符号化が古典的に難解であれば、量子優位性が得られる。 Quantum machine learning (QML) is the use of quantum computing for the computation of machine learning algorithms. With the prevalence and importance of classical data, a hybrid quantum-classical approach to QML is called for. Parameterized Quantum Circuits (PQCs), and particularly Quantum Kernel PQCs, are generally used in the hybrid approach to QML. In this paper we discuss some important aspects of PQCs with quantum kernels including PQCs, quantum kernels, quantum kernels with quantum advantage, and the trainability of quantum kernels. We conclude that quantum kernels with hybrid kernel methods, a.k.a. quantum kernel methods, offer distinct advantages as a hybrid approach to QML. Not only do they apply to Noisy Intermediate-Scale Quantum (NISQ) devices, but they also can be used to solve all types of machine learning problems including regression, classification, clustering, and dimension reduction. Furthermore, beyond quantum utility, quantum advantage can be attained if the quantum kernels, i.e., the quantum feature encodings, are classically intractable. | 翻訳日:2022-09-30 18:15:37 公開日:2022-09-28 |
# マルチエージェント強化学習における平衡選択のためのパレートアクタクリティカル Pareto Actor-Critic for Equilibrium Selection in Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.14344v1 ) ライセンス: Link先を確認 | Filippos Christianos, Georgios Papoudakis, Stefano V. Albrecht | (参考訳) マルチエージェントゲームにおける平衡選択は、パレート最適均衡を選択する問題を指す。
多くの最先端マルチエージェント強化学習(MARL)アルゴリズムは、トレーニング中に各エージェントが他のエージェントのポリシーについて持っている不確実性のため、パレート支配均衡に収束する傾向にある。
準最適均衡の選択に対処するため、我々は、非競合ゲーム(同一報酬を持つ協調ゲームのスーパーセット)の単純な原理を利用するアクター批判アルゴリズムであるパレートAC(Pareto-AC)を提案する。
本研究では,マルチエージェントゲームにおけるpacの評価を行い,マルチエージェントゲームにおけるpareto-optimal equilibrium (pareto-optimal equilibrium) に収束し,他のmarlアルゴリズムと比較して高いエピソディックリターンに収束することを示す。
最後に,最大15エージェントのゲームにおいて,効率よくスケールできるグラフニューラルネットワーク拡張を提案する。 Equilibrium selection in multi-agent games refers to the problem of selecting a Pareto-optimal equilibrium. It has been shown that many state-of-the-art multi-agent reinforcement learning (MARL) algorithms are prone to converging to Pareto-dominated equilibria due to the uncertainty each agent has about the policy of the other agents during training. To address suboptimal equilibrium selection, we propose Pareto-AC (PAC), an actor-critic algorithm that utilises a simple principle of no-conflict games (a superset of cooperative games with identical rewards): each agent can assume the others will choose actions that will lead to a Pareto-optimal equilibrium. We evaluate PAC in a diverse set of multi-agent games and show that it converges to higher episodic returns compared to alternative MARL algorithms, as well as successfully converging to a Pareto-optimal equilibrium in a range of matrix games. Finally, we propose a graph neural network extension which is shown to efficiently scale in games with up to 15 agents. | 翻訳日:2022-09-30 18:03:32 公開日:2022-09-28 |
# セマンティックオブジェクトを用いた環境変化におけるビュー不変の局所化 View-Invariant Localization using Semantic Objects in Changing Environments ( http://arxiv.org/abs/2209.14426v1 ) ライセンス: Link先を確認 | Jacqueline Ankenbauer, Kaveh Fathian, Jonathan P. How | (参考訳) 本稿では,参照マップにおける車両のリアルタイム位置推定とエゴモーション追跡のための新しい枠組みを提案する。
中心となる考え方は、車両が観測した意味オブジェクトをマッピングし、対応するオブジェクトに参照マップに登録することである。
いくつかの最近の研究では、意味情報をクロスビューのローカライゼーションに活用しているが、この研究の主な貢献は、オブジェクトが検出可能なあらゆる視点設定に直接適用できるようにするビュー不変の定式化である。
もうひとつの特徴は、極端な外れ値(例えば、90%のアソシエーション異常値)に適したデータアソシエーションスキームによる環境/オブジェクトの変化に対する堅牢性である。
本手法を実証するために,車両のみをオブジェクトとして参照オブジェクトマップに地上車両をローカライズする例を考察する。
地上車両にはステレオカメラのみを用いるが、ステレオカメラとライダースキャンを用いて地上視点から構築した参照地図と、異なる日に撮影された地理参照空中画像を比較して、異なるモダリティ、視点、環境変化に対するフレームワークの堅牢性を示す。
KITTIデータセットの評価では、36秒で3.7kmの軌道でローカライゼーションが行われ、Lidar参照マップでは平均位置誤差8.5mのリアルタイムなエゴモーション追跡が行われ、オブジェクトの77%が外れ値である空中オブジェクトマップでは、平均位置誤差7.9mの71秒でローカライゼーションが達成されている。 This paper proposes a novel framework for real-time localization and egomotion tracking of a vehicle in a reference map. The core idea is to map the semantic objects observed by the vehicle and register them to their corresponding objects in the reference map. While several recent works have leveraged semantic information for cross-view localization, the main contribution of this work is a view-invariant formulation that makes the approach directly applicable to any viewpoint configuration for which objects are detectable. Another distinctive feature is robustness to changes in the environment/objects due to a data association scheme suited for extreme outlier regimes (e.g., 90% association outliers). To demonstrate our framework, we consider an example of localizing a ground vehicle in a reference object map using only cars as objects. While only a stereo camera is used for the ground vehicle, we consider reference maps constructed a priori from ground viewpoints using stereo cameras and Lidar scans, and georeferenced aerial images captured at a different date to demonstrate the framework's robustness to different modalities, viewpoints, and environment changes. Evaluations on the KITTI dataset show that over a 3.7 km trajectory, localization occurs in 36 sec and is followed by real-time egomotion tracking with an average position error of 8.5 m in a Lidar reference map, and on an aerial object map where 77% of objects are outliers, localization is achieved in 71 sec with an average position error of 7.9 m. | 翻訳日:2022-09-30 17:58:05 公開日:2022-09-28 |
# 周波数選択メッシュ-グリッドリサンプリングによるニューラルネットワークの精度向上 Increasing the Accuracy of a Neural Network Using Frequency Selective Mesh-to-Grid Resampling ( http://arxiv.org/abs/2209.14431v1 ) ライセンス: Link先を確認 | Andreas Spruck, Viktoria Heimann, Andr\'e Kaup | (参考訳) ニューラルネットワークは、画像コンテンツ認識のほとんどあらゆるタスクで広く使われている。
効率的なネットワークアーキテクチャ、オプティマイザ、トレーニング戦略の調査に多くの努力がなされているが、ニューラルネットワークの性能に対する画像補間の影響は十分に研究されていない。
さらに、研究により、ニューラルネットワークは入力画像の小さな変化に敏感で、パフォーマンスが大幅に低下することが示されている。
そこで本論文では,ニューラルネットワークの入力データの処理におけるキーポイント非依存周波数選択メッシュ-グリッドリサンプリング(fsmr)の利用を提案する。
このモデルに基づく補間法は、PSNRの点で一般的な補間法よりも優れていることを示した。
ネットワークアーキテクチャや分類タスクによって、トレーニング中のFSMRの適用が学習プロセスに役立つことを示す。
さらに,アプリケーションフェーズにおけるFSMRの利用が有用であることを示す。
ResNet50とOxflower17データセットの分類精度は最大4.31ポイント向上できる。 Neural networks are widely used for almost any task of recognizing image content. Even though much effort has been put into investigating efficient network architectures, optimizers, and training strategies, the influence of image interpolation on the performance of neural networks is not well studied. Furthermore, research has shown that neural networks are often sensitive to minor changes in the input image leading to drastic drops of their performance. Therefore, we propose the use of keypoint agnostic frequency selective mesh-to-grid resampling (FSMR) for the processing of input data for neural networks in this paper. This model-based interpolation method already showed that it is capable of outperforming common interpolation methods in terms of PSNR. Using an extensive experimental evaluation we show that depending on the network architecture and classification task the application of FSMR during training aids the learning process. Furthermore, we show that the usage of FSMR in the application phase is beneficial. The classification accuracy can be increased by up to 4.31 percentage points for ResNet50 and the Oxflower17 dataset. | 翻訳日:2022-09-30 17:57:33 公開日:2022-09-28 |
# 水中ロボットインタラクションにおけるダイバーアテンタビリティの視覚的検出 Visual Detection of Diver Attentiveness for Underwater Human-Robot Interaction ( http://arxiv.org/abs/2209.14447v1 ) ライセンス: Link先を確認 | Sadman Sakib Enan and Junaed Sattar | (参考訳) ケーブル・アンド・レッカージ・インスペクション、捜索・救助など多くの水中作業は、堅牢なヒューマン・ロボット・インタラクション(HRI)能力の恩恵を受ける。
近年の視覚に基づく水中HRI手法の進歩により、自律型水中車両(AUV)はミッション中にも人間のパートナーと通信することができる。
しかし、これらの相互作用は通常、特に人間からの積極的な参加を必要とする(例えば、相互作用中にロボットを見続ける必要がある)。
したがって、AUVはいつ人間のパートナーと対話し始めるか、すなわち人間がAUVに注意を払っているかを知る必要がある。
本稿では,AUVがダイバーの注意力を自律的に検出し,必要なら,ダイバーが対話を開始するために自分自身をナビゲートし,順応させるためのダイバーアテンション推定フレームワークを提案する。
フレームワークの中核となる要素は深層ニューラルネットワーク(datt-netと呼ばれる)で、ダイバーの10のキーポイント間の幾何学的関係を利用して頭部の向きを決定する。
その結果,提案したDATT-Netアーキテクチャは,有望な精度でダイバーの注意力を決定することができることがわかった。
我々の実世界の実験は、リアルタイム推論を可能にするDATT-Netの有効性も確認し、AUVがAUV-バイバー相互作用のために自身を配置できるようにする。 Many underwater tasks, such as cable-and-wreckage inspection, search-and-rescue, benefit from robust human-robot interaction (HRI) capabilities. With the recent advancements in vision-based underwater HRI methods, autonomous underwater vehicles (AUVs) can communicate with their human partners even during a mission. However, these interactions usually require active participation especially from humans (e.g., one must keep looking at the robot during an interaction). Therefore, an AUV must know when to start interacting with a human partner, i.e., if the human is paying attention to the AUV or not. In this paper, we present a diver attention estimation framework for AUVs to autonomously detect the attentiveness of a diver and then navigate and reorient itself, if required, with respect to the diver to initiate an interaction. The core element of the framework is a deep neural network (called DATT-Net) which exploits the geometric relation among 10 facial keypoints of the divers to determine their head orientation. Our on-the-bench experimental evaluations (using unseen data) demonstrate that the proposed DATT-Net architecture can determine the attentiveness of human divers with promising accuracy. Our real-world experiments also confirm the efficacy of DATT-Net which enables real-time inference and allows the AUV to position itself for an AUV-diver interaction. | 翻訳日:2022-09-30 17:57:17 公開日:2022-09-28 |
# ライセンスプレート認識のためのレンダリングベースパイプラインによるアノテーション付き画像と映像データの合成 Synthesizing Annotated Image and Video Data Using a Rendering-Based Pipeline for Improved License Plate Recognition ( http://arxiv.org/abs/2209.14448v1 ) ライセンス: Link先を確認 | Andreas Spruck, Maximilane Gruber, Anatol Maier, Denise Moussa, J\"urgen Seiler, Christian Riess, Andr\'e Kaup | (参考訳) ニューラルネットワークアプリケーションでは、トレーニングサンプルの不足が一般的な問題である。
データ拡張法は少なくともサンプル数を必要とするが、アノテーション付きデータセットを合成するための新しいレンダリングベースのパイプラインを提案する。
本手法は既存のサンプルを修正せず,全く新しいサンプルを合成する。
提案するレンダリングベースパイプラインは、合成および部分実画像および映像データを完全に自動で生成・注釈することができる。
さらに、パイプラインは実際のデータの取得を支援することができる。
提案されたパイプラインはレンダリングプロセスに基づいている。
このプロセスは合成データを生成する。
一部実際のデータは、取得プロセス中に実際のカメラを組み込むことで、合成シーケンスを現実に近づける。
提案したデータ生成パイプラインの利点は、特に利用可能なトレーニングデータに制限のある機械学習シナリオにおいて、自動ナンバープレート認識の文脈における広範な実験的検証によって実証される。
実験では、実際のデータセットでのみ訓練されたOCRアルゴリズムと比較して、文字誤り率とミス率を73.74%と100%から14.11%と41.27%に大幅に削減した。
これらの改善は、合成データのみにアルゴリズムを訓練することで達成される。
さらに実データを組み込むと、エラー率をさらに低下させることができる。
これにより、文字誤り率とミスレートをそれぞれ11.90%と39.88%に減らすことができる。
実験で使用されるすべてのデータと、自動データ生成のためのレンダリングベースのパイプラインは、公開されている(URLが公開される)。 An insufficient number of training samples is a common problem in neural network applications. While data augmentation methods require at least a minimum number of samples, we propose a novel, rendering-based pipeline for synthesizing annotated data sets. Our method does not modify existing samples but synthesizes entirely new samples. The proposed rendering-based pipeline is capable of generating and annotating synthetic and partly-real image and video data in a fully automatic procedure. Moreover, the pipeline can aid the acquisition of real data. The proposed pipeline is based on a rendering process. This process generates synthetic data. Partly-real data bring the synthetic sequences closer to reality by incorporating real cameras during the acquisition process. The benefits of the proposed data generation pipeline, especially for machine learning scenarios with limited available training data, are demonstrated by an extensive experimental validation in the context of automatic license plate recognition. The experiments demonstrate a significant reduction of the character error rate and miss rate from 73.74% and 100% to 14.11% and 41.27% respectively, compared to an OCR algorithm trained on a real data set solely. These improvements are achieved by training the algorithm on synthesized data solely. When additionally incorporating real data, the error rates can be decreased further. Thereby, the character error rate and miss rate can be reduced to 11.90% and 39.88% respectively. All data used during the experiments as well as the proposed rendering-based pipeline for the automated data generation is made publicly available under (URL will be revealed upon publication). | 翻訳日:2022-09-30 17:56:51 公開日:2022-09-28 |
# 深部条件生成モデルを用いた腹部ctスライスにおける位置ばらつきの低減 Reducing Positional Variance in Cross-sectional Abdominal CT Slices with Deep Conditional Generative Models ( http://arxiv.org/abs/2209.14467v1 ) ライセンス: Link先を確認 | Xin Yu, Qi Yang, Yucheng Tang, Riqiang Gao, Shunxing Bao, LeonY. Cai, Ho Hin Lee, Yuankai Huo, Ann Zenobia Moore, Luigi Ferrucci, Bennett A. Landman | (参考訳) 2D低用量腹部CTスライスにより, 身体組成の直接測定が可能であり, 加齢に伴う健康関係を定量的に評価することが重要である。
しかし, 2次元腹部スライスを用いた体組成変化の経時的解析は, 経年変化による位置的変化により困難である。
位置差を低減するため, 腹部領域の任意の軸スライスを条件として用いた条件生成モデルをC-SliceGenに拡張し, 潜伏空間の構造変化を推定し, 定義された椎骨レベルスライスを生成する。
BTCV MICCAI Challenge 2015では、社内データセットから1170名、BTCV MICCAI Challenge 2015から50名を対象に実験を行い、現実性と類似性の観点から高品質な画像を生成することができた。
経時的単腹部スライスを含むボルチモア縦断的老化研究(BLSA)データセットから得られた20名の被験者の外部的実験から, 筋および内臓脂肪面積のスライス位置の分散を調和させることが確認できた。
本手法は, 異なる脊椎レベルから標的スライスへのスライスマッピングの有望な方向を提供し, 単一スライス縦断解析における位置差を低減する。
ソースコードはhttps://github.com/masilab/c-slicegen。 2D low-dose single-slice abdominal computed tomography (CT) slice enables direct measurements of body composition, which are critical to quantitatively characterizing health relationships on aging. However, longitudinal analysis of body composition changes using 2D abdominal slices is challenging due to positional variance between longitudinal slices acquired in different years. To reduce the positional variance, we extend the conditional generative models to our C-SliceGen that takes an arbitrary axial slice in the abdominal region as the condition and generates a defined vertebral level slice by estimating the structural changes in the latent space. Experiments on 1170 subjects from an in-house dataset and 50 subjects from BTCV MICCAI Challenge 2015 show that our model can generate high quality images in terms of realism and similarity. External experiments on 20 subjects from the Baltimore Longitudinal Study of Aging (BLSA) dataset that contains longitudinal single abdominal slices validate that our method can harmonize the slice positional variance in terms of muscle and visceral fat area. Our approach provides a promising direction of mapping slices from different vertebral levels to a target slice to reduce positional variance for single slice longitudinal analysis. The source code is available at: https://github.com/MASILab/C-SliceGen. | 翻訳日:2022-09-30 17:56:28 公開日:2022-09-28 |
# オーディオバーロウツイン:自己監督型音声表現学習 Audio Barlow Twins: Self-Supervised Audio Representation Learning ( http://arxiv.org/abs/2209.14345v1 ) ライセンス: Link先を確認 | Jonah Anton, Harry Coppock, Pancham Shukla, Bjorn W.Schuller | (参考訳) barlow twins self-supervised learning objectiveは、否定的なサンプルも非対称な学習アップデートも必要とせず、現在のコンピュータビジョンの最先端と同等の結果が得られる。
そこで,本研究では,新しい音声表現学習手法であるAudio Barlow Twinsを紹介し,Barlow Twinsを音声領域に適用する。
我々は,大規模オーディオデータセット音声セットを事前学習し,hear 2021チャレンジから18タスクにおける学習表現の品質を評価し,その結果が現在と同等である場合,例えば,音声表現学習に対する自己教師付き学習アプローチを識別する最先端技術を達成する。
コード: https://github.com/jonahanton/ssl_audio。 The Barlow Twins self-supervised learning objective requires neither negative samples or asymmetric learning updates, achieving results on a par with the current state-of-the-art within Computer Vision. As such, we present Audio Barlow Twins, a novel self-supervised audio representation learning approach, adapting Barlow Twins to the audio domain. We pre-train on the large-scale audio dataset AudioSet, and evaluate the quality of the learnt representations on 18 tasks from the HEAR 2021 Challenge, achieving results which outperform, or otherwise are on a par with, the current state-of-the-art for instance discrimination self-supervised learning approaches to audio representation learning. Code at https://github.com/jonahanton/SSL_audio. | 翻訳日:2022-09-30 17:48:07 公開日:2022-09-28 |
# 運動スキルの安全学習のための制約付き動的運動プリミティブ Constrained Dynamic Movement Primitives for Safe Learning of Motor Skills ( http://arxiv.org/abs/2209.14461v1 ) ライセンス: Link先を確認 | Seiji Shaw, Devesh K. Jha, Arvind Raghunathan, Radu Corcodel, Diego Romeres, George Konidaris and Daniel Nikovski | (参考訳) ダイナミックムーブメントプリミティブは、熟練した人間やコントローラによってロボットに実演できる学習スキルとして広く使われている。
一般化能力と単純な定式化は使用を非常に魅力的にしますが、タスクの運用上の安全性の制約を満たす強力な保証を持っていません。
本稿では,ロボット作業空間における制約満足度を実現するための制約付き動的運動プリミティブ(CDMP)を提案する。
本稿では,dmp強制重みを局所重み付け回帰により摂動させ,ワークスペース制約満足度を保証するゼロリングバリア関数(zbf)を許容する非線形最適化の定式化を提案する。
ロボットの障害物回避や作業空間制約といったエンドエフェクタ運動に異なる制約の下で提案したCDMPを実証する。
異なる環境における異なるマニピュレータを用いた提案アルゴリズムの実装を示すビデオは、https://youtu.be/hjegjjjjfysで見ることができる。 Dynamic movement primitives are widely used for learning skills which can be demonstrated to a robot by a skilled human or controller. While their generalization capabilities and simple formulation make them very appealing to use, they possess no strong guarantees to satisfy operational safety constraints for a task. In this paper, we present constrained dynamic movement primitives (CDMP) which can allow for constraint satisfaction in the robot workspace. We present a formulation of a non-linear optimization to perturb the DMP forcing weights regressed by locally-weighted regression to admit a Zeroing Barrier Function (ZBF), which certifies workspace constraint satisfaction. We demonstrate the proposed CDMP under different constraints on the end-effector movement such as obstacle avoidance and workspace constraints on a physical robot. A video showing the implementation of the proposed algorithm using different manipulators in different environments could be found here https://youtu.be/hJegJJkJfys. | 翻訳日:2022-09-30 17:47:53 公開日:2022-09-28 |
# 遅延確率的ロードマップの再検討 Lazy Probabilistic Roadmaps Revisited ( http://arxiv.org/abs/2209.14471v1 ) ライセンス: Link先を確認 | Miquel Ramirez, Daniel Selvaratnam, Chris Manzie | (参考訳) 本稿では,従来の遅延確率的ロードマップアルゴリズム(Lazy PRM)の改訂について述べる。
カットは、PRMによって選択された幾何グラフに対して最小のコストパスに課される動的に生成される制約である。
カットは、適切に定義されたキネマティック制約を満たす滑らかな計画にマッピングできないパスを排除する。
最小コスト経路の頂点にスプラインを組み込むことにより, 候補平滑な計画を生成する。
計画は、固定的な離散化ステップを選択することなく、それらを有限トレースにマッピングする最近提案されたアルゴリズムで検証される。
トレース要素は、計画が制約境界を超えたときに正確に記述される。
今回提案するbarnベンチマークより,提案手法を用いたプランナー数名の評価を行い,提案手法のスケーラビリティのエビデンスを報告する。 This paper describes a revision of the classic Lazy Probabilistic Roadmaps algorithm (Lazy PRM), that results from pairing PRM and a novel Branch-and-Cut (BC) algorithm. Cuts are dynamically generated constraints that are imposed on minimum cost paths over the geometric graphs selected by PRM. Cuts eliminate paths that cannot be mapped into smooth plans that satisfy suitably defined kinematic constraints. We generate candidate smooth plans by fitting splines to vertices in minimum-cost path. Plans are validated with a recently proposed algorithm that maps them into finite traces, without need to choose a fixed discretization step. Trace elements exactly describe when plans cross constraint boundaries modulo arithmetic precision. We evaluate several planners using our methods over the recently proposed BARN benchmark, and we report evidence of the scalability of our approach. | 翻訳日:2022-09-30 17:47:36 公開日:2022-09-28 |
# 予習型リモートセンシングトランスによる転送学習 Transfer Learning with Pretrained Remote Sensing Transformers ( http://arxiv.org/abs/2209.14969v1 ) ライセンス: Link先を確認 | Anthony Fuller, Koreen Millard, and James R. Green | (参考訳) リモートセンシング(rs)コミュニティはトランスフォーマー(rsタスクで微調整される予定)の事前訓練を開始したが、これらのモデルがどのように分布シフトで実行されるのかは明らかではない。
ここでは、SatViT-V2と呼ばれる新しいRS変換器を130万個の衛星由来のRS画像にプリトレーニングした後、(他の5つのモデルとともに)微調整して、トレーニング中に見えない分布に対してどのように動作するかを調査する。
筆者らは,専門的なラベル付き土地被覆データセットを,ソースバイオームに基づく14のデータセットに分割した。
各バイオームのモデルを個別に訓練し、他の全てのバイオームでテストします。
総じて、これは1638年のバイオーム転移実験に相当する。
微調整後、SatViT-V2がSatViT-V1を3.1%上回り(バイオミームのマッチング)、2.8%のアウト・オブ・ディストリビューション(バイオミームのミスマッチ)データを上回ります。
さらに,線形プローブ溶液(lpft[1])からの微調整の初期化により,satvit-v2の性能が1.2%向上し,分散データの2.4%向上した。
次に、事前学習したRSトランスは、非事前学習モデルよりも分布シフト下でのキャリブレーションが良く、LPFTを活用することにより、モデルキャリブレーションがさらに改善されることを見出した。
最後に, 分布変化の5つの指標が, バイオム伝達性能と適度に相関していることを見いだした。
コードと事前訓練されたモデルの重みを共有します。
(https://github.com/antofuller/SatViT) Although the remote sensing (RS) community has begun to pretrain transformers (intended to be fine-tuned on RS tasks), it is unclear how these models perform under distribution shifts. Here, we pretrain a new RS transformer--called SatViT-V2--on 1.3 million satellite-derived RS images, then fine-tune it (along with five other models) to investigate how it performs on distributions not seen during training. We split an expertly labeled land cover dataset into 14 datasets based on source biome. We train each model on each biome separately and test them on all other biomes. In all, this amounts to 1638 biome transfer experiments. After fine-tuning, we find that SatViT-V2 outperforms SatViT-V1 by 3.1% on in-distribution (matching biomes) and 2.8% on out-of-distribution (mismatching biomes) data. Additionally, we find that initializing fine-tuning from the linear probed solution (i.e., leveraging LPFT [1]) improves SatViT-V2's performance by another 1.2% on in-distribution and 2.4% on out-of-distribution data. Next, we find that pretrained RS transformers are better calibrated under distribution shifts than non-pretrained models and leveraging LPFT results in further improvements in model calibration. Lastly, we find that five measures of distribution shift are moderately correlated with biome transfer performance. We share code and pretrained model weights. (https://github.com/antofuller/SatViT) | 翻訳日:2022-09-30 17:30:18 公開日:2022-09-28 |
# 時間不変性を破る:RNNの時間正規化 Breaking Time Invariance: Assorted-Time Normalization for RNNs ( http://arxiv.org/abs/2209.14439v1 ) ライセンス: Link先を確認 | Cole Pospisil, Vasily Zadorozhnyy, Qiang Ye | (参考訳) 階層正規化(LN)やバッチ正規化(BN)のような手法は、リカレントニューラルネットワーク(RNN)のトレーニングを改善するのに有効であることが証明されている。
しかし、既存の方法は、ある特定の時間ステップで瞬時情報のみを使用して正規化し、正規化の結果は、時間に依存しない分布を持つ事前活性化状態である。
この実装は、RNNの入力とアーキテクチャに固有の時間差を考慮できない。
これらのネットワークは時間ステップ間で重みを共有しているため、正規化方式における時間ステップ間の接続を考慮することも望ましい。
本稿では,複数の連続時間ステップから情報を保存し,それを用いて正規化を行うassorted-time normalization(atn)と呼ばれる正規化手法を提案する。
このセットアップにより、新しいトレーニング可能なパラメータを導入することなく、従来の正規化メソッドに長い時間依存を導入することができます。
本稿では,勾配伝播の理論的導出を行い,重量スケーリング不変性を証明する。
ATN を LN に適用した実験では,追加,コピー,デノイズ問題,言語モデリング問題など,様々なタスクにおいて一貫した改善が示された。 Methods such as Layer Normalization (LN) and Batch Normalization (BN) have proven to be effective in improving the training of Recurrent Neural Networks (RNNs). However, existing methods normalize using only the instantaneous information at one particular time step, and the result of the normalization is a preactivation state with a time-independent distribution. This implementation fails to account for certain temporal differences inherent in the inputs and the architecture of RNNs. Since these networks share weights across time steps, it may also be desirable to account for the connections between time steps in the normalization scheme. In this paper, we propose a normalization method called Assorted-Time Normalization (ATN), which preserves information from multiple consecutive time steps and normalizes using them. This setup allows us to introduce longer time dependencies into the traditional normalization methods without introducing any new trainable parameters. We present theoretical derivations for the gradient propagation and prove the weight scaling invariance property. Our experiments applying ATN to LN demonstrate consistent improvement on various tasks, such as Adding, Copying, and Denoise Problems and Language Modeling Problems. | 翻訳日:2022-09-30 17:28:32 公開日:2022-09-28 |
# Tiny Actions Challengeのための低分解能行動認識 Low-Resolution Action Recognition for Tiny Actions Challenge ( http://arxiv.org/abs/2209.14711v1 ) ライセンス: Link先を確認 | Boyu Chen, Yu Qiao, Yali Wang | (参考訳) tiny actions challengeは、現実世界の監視における人間の活動の理解に焦点を当てている。
基本的に、このシナリオでは、アクティビティ認識には2つの大きな困難がある。
第一に、人間の活動はしばしば遠くで記録され、差別的な手がかりなしに小さな解像度で現れる。
第二に、これらの活動は自然に長い時間をかけて分散されます。
このような重いカテゴリーの不均衡に対するデータのバイアスを軽減するのは難しい。
これらの問題に対処するため,本稿では包括的認識ソリューションを提案する。
まず、ビデオバックボーンをデータバランスでトレーニングし、チャレンジベンチマークのオーバーフィットを緩和します。
第2に,高分解能知識による低分解能動作認識を効果的に導出できる,二重分解能蒸留フレームワークを設計する。
最後に, モデルエンセンブルに後処理を適用することで, ロングテールのカテゴリにおいて, フォーム毎の処理がさらに促進される。
我々の解決策はリーダーボードでトップ1にランクインする。 Tiny Actions Challenge focuses on understanding human activities in real-world surveillance. Basically, there are two main difficulties for activity recognition in this scenario. First, human activities are often recorded at a distance, and appear in a small resolution without much discriminative clue. Second, these activities are naturally distributed in a long-tailed way. It is hard to alleviate data bias for such heavy category imbalance. To tackle these problems, we propose a comprehensive recognition solution in this paper. First, we train video backbones with data balance, in order to alleviate overfitting in the challenge benchmark. Second, we design a dual-resolution distillation framework, which can effectively guide low-resolution action recognition by super-resolution knowledge. Finally, we apply model en-semble with post-processing, which can further boost per-formance on the long-tailed categories. Our solution ranks Top-1 on the leaderboard. | 翻訳日:2022-09-30 17:20:46 公開日:2022-09-28 |
# 見たい変化は The Change You Want to See ( http://arxiv.org/abs/2209.14341v1 ) ライセンス: Link先を確認 | Ragav Sachdeva, Andrew Zisserman | (参考訳) 私たちは常に変化する動的な世界に住んでいる。
同じシーンの2つのイメージが与えられると、その変更を自動的に検出できるため、さまざまなドメインで実用的利用が可能になる。
本稿では,視点や照明の違いにかかわらず,画像対の「対象レベル」変化を検出することを目的として,変化検出問題に取り組む。
この目的のために、私たちは以下の4つの貢献をします。
i)既存のオブジェクトセグメンテーションベンチマークを利用して大規模変更検出訓練データセットを得るためのスケーラブルな手法を提案する。
(II)画像ペア間の対応を暗黙的に決定し,境界ボックス予測の形式で変化を見出すことのできる,コアテンションに基づく新しいアーキテクチャを導入する。
3) 合成画像の変化, 3Dシーンの実際の監視画像, カメラモーションによる合成3Dシーンを含む, さまざまな領域と変換をカバーする4つの評価データセットをコントリビュートする。
(iv)これら4つのデータセット上でモデルを評価し,ゼロショットおよびトレーニング変換一般化を超えて実演する。 We live in a dynamic world where things change all the time. Given two images of the same scene, being able to automatically detect the changes in them has practical applications in a variety of domains. In this paper, we tackle the change detection problem with the goal of detecting "object-level" changes in an image pair despite differences in their viewpoint and illumination. To this end, we make the following four contributions: (i) we propose a scalable methodology for obtaining a large-scale change detection training dataset by leveraging existing object segmentation benchmarks; (ii) we introduce a co-attention based novel architecture that is able to implicitly determine correspondences between an image pair and find changes in the form of bounding box predictions; (iii) we contribute four evaluation datasets that cover a variety of domains and transformations, including synthetic image changes, real surveillance images of a 3D scene, and synthetic 3D scenes with camera motion; (iv) we evaluate our model on these four datasets and demonstrate zero-shot and beyond training transformation generalization. | 翻訳日:2022-09-30 17:11:37 公開日:2022-09-28 |
# unest:階層型トランスフォーマによる局所空間表現学習による医療セグメンテーションの効率化 UNesT: Local Spatial Representation Learning with Hierarchical Transformer for Efficient Medical Segmentation ( http://arxiv.org/abs/2209.14378v1 ) ライセンス: Link先を確認 | Xin Yu, Qi Yang, Yinchi Zhou, Leon Y. Cai, Riqiang Gao, Ho Hin Lee, Thomas Li, Shunxing Bao, Zhoubing Xu, Thomas A. Lasko, Richard G. Abramson, Zizhao Zhang, Yuankai Huo, Bennett A. Landman, Yucheng Tang | (参考訳) グローバル依存性をよりよく学習できるトランスフォーマーベースのモデルは、コンピュータビジョンと医用画像解析において、例外的な表現学習能力を示している。
トランスフォーマーは画像を別々のパッチに再構成し、自己着脱機構を介してグローバル通信を実現する。
しかし, パッチ間の位置情報の保存は困難であり, 3次元医用画像セグメンテーションにおいて, 多量の異種組織を扱う際には, その損失が準最適性能をもたらす可能性がある。
さらに、現在の方法は、多くの組織クラスを予測したり、グローバルに接続された組織構造をモデリングするといった、重度な医療区分作業において堅牢で効率的ではない。
視覚変換器のネスト型階層構造にインスパイアされた新しい3次元医用画像分割法 (UNesT) を提案する。
本手法は,脳の133構造,腹部の14臓器,腎臓の4階層的成分,腎間腫瘍からなる複数の課題データセットに対して広範囲に検証した。
UNesTは最先端の性能を一貫して達成し,その一般化性とデータ効率を評価する。
特に,1つのネットワークで133の組織クラスを持つ全脳セグメント化タスクのROIを達成し,従来手法のSLANT27と27のネットワークタイルのアンサンブルを上回り,我々のモデル性能は,一般に利用可能なColinおよびCANDIデータセットの平均DSCスコアを0.7264から0.7444,0.6968から0.7025に向上させた。 Transformer-based models, capable of learning better global dependencies, have recently demonstrated exceptional representation learning capabilities in computer vision and medical image analysis. Transformer reformats the image into separate patches and realize global communication via the self-attention mechanism. However, positional information between patches is hard to preserve in such 1D sequences, and loss of it can lead to sub-optimal performance when dealing with large amounts of heterogeneous tissues of various sizes in 3D medical image segmentation. Additionally, current methods are not robust and efficient for heavy-duty medical segmentation tasks such as predicting a large number of tissue classes or modeling globally inter-connected tissues structures. Inspired by the nested hierarchical structures in vision transformer, we proposed a novel 3D medical image segmentation method (UNesT), employing a simplified and faster-converging transformer encoder design that achieves local communication among spatially adjacent patch sequences by aggregating them hierarchically. We extensively validate our method on multiple challenging datasets, consisting anatomies of 133 structures in brain, 14 organs in abdomen, 4 hierarchical components in kidney, and inter-connected kidney tumors). We show that UNesT consistently achieves state-of-the-art performance and evaluate its generalizability and data efficiency. Particularly, the model achieves whole brain segmentation task complete ROI with 133 tissue classes in single network, outperforms prior state-of-the-art method SLANT27 ensembled with 27 network tiles, our model performance increases the mean DSC score of the publicly available Colin and CANDI dataset from 0.7264 to 0.7444 and from 0.6968 to 0.7025, respectively. | 翻訳日:2022-09-30 17:11:21 公開日:2022-09-28 |
# ファウンダス画像における光学ディスクとカップセグメンテーションのための粗大な深層学習モデルの評価 Assessing Coarse-to-Fine Deep Learning Models for Optic Disc and Cup Segmentation in Fundus Images ( http://arxiv.org/abs/2209.14383v1 ) ライセンス: Link先を確認 | Eugenia Moris and Nicol\'as Dazeo and Maria Paula Albina de Rueda and Francisco Filizzola and Nicol\'as Iannuzzo and Danila Nejamkin and Kevin Wignall and Mercedes Legu\'ia and Ignacio Larrabide and Jos\'e Ignacio Orlando | (参考訳) 眼科領域でよく用いられるバイオマーカーである垂直カップ・ツー・ディスク比(vCDR)を,眼科領域で効率よく測定し,緑内障性視神経障害の度合いを判定するために有用である。
一般に、第1段階がodに近似し、第2段階がこの領域の作物を用いてod/ocマスクを予測した粗いディープラーニングアルゴリズムを用いて解く。
このアプローチは文献に広く適用されているが、結果に対する実際の貢献を分析する研究はない。
本稿では,標準的なセグメンテーションの観点と緑内障評価のためのvCDR推定のための5つの公開データベースを用いて,OD/OCセグメンテーションのための粗大な設計を包括的に分析する。
分析の結果,多種多様なトレーニングセットから学習された場合,これらのアルゴリズムは必ずしも標準の多クラス単段モデルを上回るものではないことがわかった。
さらに, 粗い段では細い段よりもODセグメンテーションが良好であること, そして第2段にODを監督することが, 正確なOCマスクの確保に不可欠であることに気付いた。
さらに、マルチデータセット設定でトレーニングされたシングルステージモデルと2ステージモデルの両方が、他の最先端の代替モデルよりもペアかそれ以上良い結果を示した。
最後に,AIROGS画像のサブセットにおける6人の眼科医との比較により,vCDR予測モデルの評価を行い,サーバ間変動の文脈で理解した。
単段モデルと粗視モデルの両方から得られたvcdr推定値が,専門家の手作業による測定値と高い相関がなくても良好な緑内障検出結果が得られることがわかった。 Automated optic disc (OD) and optic cup (OC) segmentation in fundus images is relevant to efficiently measure the vertical cup-to-disc ratio (vCDR), a biomarker commonly used in ophthalmology to determine the degree of glaucomatous optic neuropathy. In general this is solved using coarse-to-fine deep learning algorithms in which a first stage approximates the OD and a second one uses a crop of this area to predict OD/OC masks. While this approach is widely applied in the literature, there are no studies analyzing its real contribution to the results. In this paper we present a comprehensive analysis of different coarse-to-fine designs for OD/OC segmentation using 5 public databases, both from a standard segmentation perspective and for estimating the vCDR for glaucoma assessment. Our analysis shows that these algorithms not necessarily outperfom standard multi-class single-stage models, especially when these are learned from sufficiently large and diverse training sets. Furthermore, we noticed that the coarse stage achieves better OD segmentation results than the fine one, and that providing OD supervision to the second stage is essential to ensure accurate OC masks. Moreover, both the single-stage and two-stage models trained on a multi-dataset setting showed results in pair or even better than other state-of-the-art alternatives, while ranking first in REFUGE for OD/OC segmentation. Finally, we evaluated the models for vCDR prediction in comparison with six ophthalmologists on a subset of AIROGS images, to understand them in the context of inter-observer variability. We noticed that vCDR estimates recovered both from single-stage and coarse-to-fine models can obtain good glaucoma detection results even when they are not highly correlated with manual measurements from experts. | 翻訳日:2022-09-30 17:10:47 公開日:2022-09-28 |
# マルチハイポテーゼ点クラウド対応によるカテゴリーレベルグローバルカメラポーズ推定 Category-Level Global Camera Pose Estimation with Multi-Hypothesis Point Cloud Correspondences ( http://arxiv.org/abs/2209.14419v1 ) ライセンス: Link先を確認 | Jun-Jee Chao, Selim Engin, Nicolai H\"ani and Volkan Isler | (参考訳) 対応探索は、剛点クラウド登録アルゴリズムにおける重要なステップである。
ほとんどの方法は各ステップで単一の対応を維持し、間違った対応を徐々に除去する。
しかし、特に局所的に類似した特徴を持つ2点の雲と一致する場合、ハード割り当てによる1対1対応の構築は非常に困難である。
本稿では,部分点クラウドと完全点クラウドとをマッチングする場合に,各キーポイントに対する全ての対応性を保持する最適化手法を提案する。
これらの不確かな対応は、一致するコストを考慮して、推定された剛性変換で徐々に更新される。
さらに,局所的なクラウド領域間の類似度を測定する新しいポイント特徴記述子を提案する。
実験の結果,同カテゴリの異なるオブジェクトをマッチングした場合においても,本手法は最先端(SoTA)手法よりも優れていた。
特に,本手法は,実世界のノイズ奥行き画像をテンプレート形状に最大20%性能で登録する場合,soma法を上回っている。 Correspondence search is an essential step in rigid point cloud registration algorithms. Most methods maintain a single correspondence at each step and gradually remove wrong correspondances. However, building one-to-one correspondence with hard assignments is extremely difficult, especially when matching two point clouds with many locally similar features. This paper proposes an optimization method that retains all possible correspondences for each keypoint when matching a partial point cloud to a complete point cloud. These uncertain correspondences are then gradually updated with the estimated rigid transformation by considering the matching cost. Moreover, we propose a new point feature descriptor that measures the similarity between local point cloud regions. Extensive experiments show that our method outperforms the state-of-the-art (SoTA) methods even when matching different objects within the same category. Notably, our method outperforms the SoTA methods when registering real-world noisy depth images to a template shape by up to 20% performance. | 翻訳日:2022-09-30 17:10:10 公開日:2022-09-28 |
# マルチレベルトレーニングによるミニマックス最適カーネルオペレータ学習 Minimax Optimal Kernel Operator Learning via Multilevel Training ( http://arxiv.org/abs/2209.14430v1 ) ライセンス: Link先を確認 | Jikai Jin, Yiping Lu, Jose Blanchet, Lexing Ying | (参考訳) 無限次元関数空間間の学習マッピングは、生成モデリング、関数データ分析、因果推論、マルチエージェント強化学習など、機械学習の多くの分野において経験的な成功を収めてきた。
本稿では,2つの無限次元ソボレフ再生成核ヒルベルト空間間のヒルベルト・シュミット作用素を学習する統計的極限について検討する。
ソボレフ・ヒルベルト=シュミットノルムの観点で情報理論上の下限を確立し、バイアス輪郭の下のスペクトル成分を学習し、分散輪郭より上にあるものを無視する正規化が最適な学習率を達成することを示す。
同時に、バイアスと分散輪郭の間のスペクトル成分は、計算可能な機械学習アルゴリズムを設計する際の柔軟性をもたらす。
そこで本研究では,無限次元関数空間間の線形作用素の学習に最適なマルチレベルカーネル演算子学習アルゴリズムを提案する。 Learning mappings between infinite-dimensional function spaces has achieved empirical success in many disciplines of machine learning, including generative modeling, functional data analysis, causal inference, and multi-agent reinforcement learning. In this paper, we study the statistical limit of learning a Hilbert-Schmidt operator between two infinite-dimensional Sobolev reproducing kernel Hilbert spaces. We establish the information-theoretic lower bound in terms of the Sobolev Hilbert-Schmidt norm and show that a regularization that learns the spectral components below the bias contour and ignores the ones that are above the variance contour can achieve the optimal learning rate. At the same time, the spectral components between the bias and variance contours give us flexibility in designing computationally feasible machine learning algorithms. Based on this observation, we develop a multilevel kernel operator learning algorithm that is optimal when learning linear operators between infinite-dimensional function spaces. | 翻訳日:2022-09-30 17:03:30 公開日:2022-09-28 |
# GPT-3って誰?
人格、価値観、人口動態の探求 Who is GPT-3? An Exploration of Personality, Values and Demographics ( http://arxiv.org/abs/2209.14338v1 ) ライセンス: Link先を確認 | Maril\`u Miotto, Nicola Rossberg, Bennett Kleinberg | (参考訳) gpt-3のような言語モデルが研究コミュニティの怒りを引き起こした。
一部の研究では、GPT-3は創造性があり、人間の行動と同等の間違いを犯している。
本論文は,GPT-3とは何者かという,関連する疑問に答える。
gpt-3に2つの検証済み測定ツールを適用し,そのパーソナリティ,保持する価値,自己報告人口層を評価した。
以上の結果から,gpt-3は,人格やモデル応答記憶が提供された場合,その保持する値の観点で,ヒトのサンプルと類似したスコアを示した。
我々は、GPT-3モデルの心理的評価の最初の証拠を提示し、GPT-3モデルの理解を深める。
我々は、社会科学を言語モデルに近づける将来の研究を提案するとともに、その逆も提案する。 Language models such as GPT-3 have caused a furore in the research community. Some studies found that GPT-3 has some creative abilities and makes mistakes that are on par with human behaviour. This paper answers a related question: who is GPT-3? We administered two validated measurement tools to GPT-3 to assess its personality, the values it holds and its self-reported demographics. Our results show that GPT-3 scores similarly to human samples in terms of personality and - when provided with a model response memory - in terms of the values it holds. We provide the first evidence of psychological assessment of the GPT-3 model and thereby add to our understanding of the GPT-3 model. We close with suggestions for future research that moves social science closer to language models and vice versa. | 翻訳日:2022-09-30 17:03:15 公開日:2022-09-28 |
# 幸せか不機嫌か?
飛行機の乗客のツイートに対する感情分析のための機械学習手法 Happy or grumpy? A Machine Learning Approach to Analyze the Sentiment of Airline Passengers' Tweets ( http://arxiv.org/abs/2209.14363v1 ) ライセンス: Link先を確認 | Shengyang Wu, Yi Gao | (参考訳) ソーシャルネットワーキングサービスとしては、2022年時点でTwitterのアクティブユーザー数は3億人を超えている。
その多くの機能の中でtwitterは、商用航空会社が提供するフライトサービスなど、消費者が製品や経験について意見を共有するためのgo-toプラットフォームの1つとなっている。
本研究の目的は、機械学習アプローチを用いて航空会社に言及したつぶやきの感情を分析し、顧客満足度を測定することである。
関連するツイートはTwitterのAPIから検索され、トークン化とベクトル化によって処理される。
その後、これらの処理されたベクトルは、トレーニング済みの機械学習分類器に渡されて、感情を予測する。
感情分析に加えて、収集したつぶやきの語彙分析を行い、キーワードの頻度をモデル化し、感情の解釈を容易にする意味のある文脈を提供する。
次に,ボルリンガーバンドなどの時系列法を適用し,感情データの異常を検出する。
2022年1月から7月にかけての記録から, 乗客の感情の急激な変化を捉えることが可能であることが判明した。
この研究は、航空会社が他のいくつかの顧客向けビジネスと共に顧客感情の急激な変化を効果的に検出し、それに対応するための適切な対策を講じるアプリケーションに発展する可能性がある。 As one of the most extensive social networking services, Twitter has more than 300 million active users as of 2022. Among its many functions, Twitter is now one of the go-to platforms for consumers to share their opinions about products or experiences, including flight services provided by commercial airlines. This study aims to measure customer satisfaction by analyzing sentiments of Tweets that mention airlines using a machine learning approach. Relevant Tweets are retrieved from Twitter's API and processed through tokenization and vectorization. After that, these processed vectors are passed into a pre-trained machine learning classifier to predict the sentiments. In addition to sentiment analysis, we also perform lexical analysis on the collected Tweets to model keywords' frequencies, which provide meaningful contexts to facilitate the interpretation of sentiments. We then apply time series methods such as Bollinger Bands to detect abnormalities in sentiment data. Using historical records from January to July 2022, our approach is proven to be capable of capturing sudden and significant changes in passengers' sentiment. This study has the potential to be developed into an application that can help airlines, along with several other customer-facing businesses, efficiently detect abrupt changes in customers' sentiments and take adequate measures to counteract them. | 翻訳日:2022-09-30 17:03:02 公開日:2022-09-28 |
# 臨床言語理解評価(CLUE) Clinical Language Understanding Evaluation (CLUE) ( http://arxiv.org/abs/2209.14377v1 ) ライセンス: Link先を確認 | Travis R. Goodwin, and Dina Demner-Fushman | (参考訳) 近年,臨床言語処理に注目が集まっており,疾患の表現型付けや死亡予測などの新しいモデルや手法が提案されている。
残念ながら、これらのアプローチの多くは異なる実験的な設定(例えば、データソース、トレーニングとテストの分割、メトリクス、評価基準など)でテストされており、アプローチの比較や最先端の判断が難しい。
これらの課題に対処し、再現性と比較を容易にするために、MIMICデータから派生した4つの臨床言語理解タスク、標準訓練、開発、検証、テストセット、およびソフトウェアツールキットを備えた臨床言語理解評価(CLUE)ベンチマークを示す。
これらのデータにより、アプローチの直接比較、再現性の向上、臨床言語理解タスクのための新しいモデルや手法の開発における障壁の低減が期待できる。 Clinical language processing has received a lot of attention in recent years, resulting in new models or methods for disease phenotyping, mortality prediction, and other tasks. Unfortunately, many of these approaches are tested under different experimental settings (e.g., data sources, training and testing splits, metrics, evaluation criteria, etc.) making it difficult to compare approaches and determine state-of-the-art. To address these issues and facilitate reproducibility and comparison, we present the Clinical Language Understanding Evaluation (CLUE) benchmark with a set of four clinical language understanding tasks, standard training, development, validation and testing sets derived from MIMIC data, as well as a software toolkit. It is our hope that these data will enable direct comparison between approaches, improve reproducibility, and reduce the barrier-to-entry for developing novel models or methods for these clinical language understanding tasks. | 翻訳日:2022-09-30 17:02:43 公開日:2022-09-28 |
# きめ細かいクエリ理解によるテキストからSQLへの意味解析の改善 Improving Text-to-SQL Semantic Parsing with Fine-grained Query Understanding ( http://arxiv.org/abs/2209.14415v1 ) ライセンス: Link先を確認 | Jun Wang, Patrick Ng, Alexander Hanbo Li, Jiarong Jiang, Zhiguo Wang, Ramesh Nallapati, Bing Xiang, Sudipta Sengupta | (参考訳) Text-to-SQLセマンティックパーシングに関する最近の研究は、構文解析自体か、自然言語クエリ(NLQ)を理解するための単純なヒューリスティックなアプローチに依存している。
sqlクエリを合成する場合、パーサに利用可能なnlqの明示的なセマンティック情報は存在せず、望ましくない一般化パフォーマンスをもたらす。
さらに、語彙レベルのきめ細かいクエリ理解がなければ、クエリとデータベースのリンクはファジィ文字列マッチングにのみ依存するので、実際のアプリケーションではサブ最適性能が得られる。
本稿では,トークンレベルのきめ細かなクエリ理解に基づく汎用モジュール型ニューラルネットワーク構文解析フレームワークを提案する。
我々のフレームワークは、名前付きエンティティ認識(NER)、ニューラルエンティティリンカ(NEL)、ニューラルセマンティックパーサ(NSP)の3つのモジュールから構成される。
クエリとデータベースを共同でモデリングすることで、NERモデルはユーザの意図を分析し、クエリ内のエンティティを識別する。
NELモデルはデータベース内のスキーマとセル値に型付きエンティティをリンクする。
Parserモデルは利用可能なセマンティック情報とリンク結果を活用し、動的に生成された文法に基づいてツリー構造化SQLクエリを合成する。
新たにリリースされたセマンティック解析データセットであるSQUALLの実験では、WikiTableQuestions(WTQ)テストセットで56.8%の実行精度が達成でき、最先端のモデルを2.7%上回っている。 Most recent research on Text-to-SQL semantic parsing relies on either parser itself or simple heuristic based approach to understand natural language query (NLQ). When synthesizing a SQL query, there is no explicit semantic information of NLQ available to the parser which leads to undesirable generalization performance. In addition, without lexical-level fine-grained query understanding, linking between query and database can only rely on fuzzy string match which leads to suboptimal performance in real applications. In view of this, in this paper we present a general-purpose, modular neural semantic parsing framework that is based on token-level fine-grained query understanding. Our framework consists of three modules: named entity recognizer (NER), neural entity linker (NEL) and neural semantic parser (NSP). By jointly modeling query and database, NER model analyzes user intents and identifies entities in the query. NEL model links typed entities to schema and cell values in database. Parser model leverages available semantic information and linking results and synthesizes tree-structured SQL queries based on dynamically generated grammar. Experiments on SQUALL, a newly released semantic parsing dataset, show that we can achieve 56.8% execution accuracy on WikiTableQuestions (WTQ) test set, which outperforms the state-of-the-art model by 2.7%. | 翻訳日:2022-09-30 17:02:27 公開日:2022-09-28 |
# 慣性モーションキャプチャデータを用いた光学的モーションキャプチャ駆動筋骨格モデリングのための機械学習 Machine Learning for Optical Motion Capture-driven Musculoskeletal Modeling from Inertial Motion Capture Data ( http://arxiv.org/abs/2209.14456v1 ) ライセンス: Link先を確認 | Abhishek Dasgupta, Rahul Sharma, Challenger Mishra, Vikranth H. Nagaraja | (参考訳) マーカーベースの光学的モーションキャプチャ(omc)システムとそれに伴う筋骨格モデリング予測は、生体内関節と筋肉の負荷に関する洞察を得るだけでなく、臨床的な意思決定にも役立つ。
しかし、omcシステムはラボベースで高価であり、視線線を必要とする。
慣性モーションキャプチャ(inertial motion capture, imc)システムは、omcシステムほど正確ではないが、ポータブルでユーザフレンドリーで比較的低価格である。
モーションキャプチャ技術の選択を無視すると、運動と運動の出力を得るためにMSKモデルを使う必要があり、機械学習(ML)手法によってよりよく近似される計算コストの高いツールである。
本稿では,OCC入力データから計算したヒト上肢MSK出力にIMCデータをマッピングするML手法を提案する。
本質的には、比較的容易なIMCデータから高品質なMSK出力を予測しようとする。
IMC測定からOPCに基づくMSK出力を予測するML(feed-forward multi-layer perceptron)モデルをトレーニングするために、同じ被験者に対して同時に収集されたOCCとIMCのデータを使用する。
我々は,我々のml予測が所望のomcベースのmsk推定値と高い一致率を持つことを示す。
このアプローチは,OCC ベースのシステムが実現不可能な 'lab to field' から技術を得る上で有効である。 Marker-based Optical Motion Capture (OMC) systems and the associated musculoskeletal (MSK) modeling predictions have offered the ability to gain insights into in vivo joint and muscle loading non-invasively as well as aid clinical decision-making. However, an OMC system is lab-based, expensive, and requires a line of sight. A widely used alternative is the Inertial Motion Capture (IMC) system, which is portable, user-friendly, and relatively low cost, although it is not as accurate as an OMC system. Irrespective of the choice of motion capture technique, one needs to use an MSK model to obtain the kinematic and kinetic outputs, which is a computationally expensive tool increasingly well approximated by machine learning (ML) methods. Here, we present an ML approach to map IMC data to the human upper-extremity MSK outputs computed from OMC input data. Essentially, we attempt to predict high-quality MSK outputs from the relatively easier-to-obtain IMC data. We use OMC and IMC data simultaneously collected for the same subjects to train an ML (feed-forward multi-layer perceptron) model that predicts OMC-based MSK outputs from IMC measurements. We demonstrate that our ML predictions have a high degree of agreement with the desired OMC-based MSK estimates. Thus, this approach will be instrumental in getting the technology from 'lab to field' where OMC-based systems are infeasible. | 翻訳日:2022-09-30 16:55:15 公開日:2022-09-28 |
# medigan: 医用画像におけるリッチデータアクセスのための事前訓練された生成モデルのPythonライブラリ medigan: A Python Library of Pretrained Generative Models for Enriched Data Access in Medical Imaging ( http://arxiv.org/abs/2209.14472v1 ) ライセンス: Link先を確認 | Richard Osuala, Grzegorz Skorupko, Noussair Lazrak, Lidia Garrucho, Eloy Garc\'ia, Smriti Joshi, Socayna Jouide, Michael Rutherford, Fred Prior, Kaisar Kushibar, Oliver Diaz, Karim Lekadir | (参考訳) 生成モデルによって生成された合成データは、医療画像におけるデータハングリー深層学習モデルの性能と能力を高めることができる。
しかし,(1)(合成)データセットの可用性は限定的であり,(2)生成モデルは訓練に複雑であり,研究や臨床応用への導入を妨げている。
この参入障壁を減らすため、オープンソースフレームワークに依存しないPythonライブラリとして実装された事前学習された生成モデルのためのワンストップショップであるmediganを提案する。
mediganは、研究者や開発者がほんの数行のコードで、トレーニングデータの作成、拡張、ドメイン適応を可能にする。
収集されたエンドユーザー要求に基づく設計決定により、生成モデルのためのモジュラーコンポーネントに基づくメディガンを実装する。
(i)実行
(ii)可視化
(iii)検索・ランキング、及び
(iv) 貢献。
ライブラリのスケーラビリティと設計は、21のモデルで構成され、マンモグラフィ、内視鏡、x線、mriの4つのドメインから11のデータセットでトレーニングされた9つの異なる生成型adversarial networkアーキテクチャを利用する。
さらに,本研究では,メディガンの3つの応用について分析する。
(a)制限されたデータのコミュニティ全体の共有を可能にする。
b)生成モデル評価指標の調査、及び
(c) 臨床下流業務の改善。
院
b) 一般的な医用画像合成評価および報告基準に基づき, 画像正規化と放射線学的特徴抽出に基づくFr'echet Inception Distanceの変動を示す。 Synthetic data generated by generative models can enhance the performance and capabilities of data-hungry deep learning models in medical imaging. However, there is (1) limited availability of (synthetic) datasets and (2) generative models are complex to train, which hinders their adoption in research and clinical applications. To reduce this entry barrier, we propose medigan, a one-stop shop for pretrained generative models implemented as an open-source framework-agnostic Python library. medigan allows researchers and developers to create, increase, and domain-adapt their training data in just a few lines of code. Guided by design decisions based on gathered end-user requirements, we implement medigan based on modular components for generative model (i) execution, (ii) visualisation, (iii) search & ranking, and (iv) contribution. The library's scalability and design is demonstrated by its growing number of integrated and readily-usable pretrained generative models consisting of 21 models utilising 9 different Generative Adversarial Network architectures trained on 11 datasets from 4 domains, namely, mammography, endoscopy, x-ray, and MRI. Furthermore, 3 applications of medigan are analysed in this work, which include (a) enabling community-wide sharing of restricted data, (b) investigating generative model evaluation metrics, and (c) improving clinical downstream tasks. In (b), extending on common medical image synthesis assessment and reporting standards, we show Fr\'echet Inception Distance variability based on image normalisation and radiology-specific feature extraction. | 翻訳日:2022-09-30 16:54:50 公開日:2022-09-28 |
# 森林誘導無監督検出器を用いた油流出検出のためのハイパースペクトルリモートセンシングベンチマークデータベース Hyperspectral Remote Sensing Benchmark Database for Oil Spill Detection with an Isolation Forest-Guided Unsupervised Detector ( http://arxiv.org/abs/2209.14971v1 ) ライセンス: Link先を確認 | Puhong Duan and Xudong Kang and Pedram Ghamisi | (参考訳) 近年、海洋石油流出事故が環境、天然資源、沿岸住民の生活に深刻な影響を与え、石油流出の検出が注目されている。
ハイパースペクトルリモートセンシング画像は、複雑な海洋シナリオにおける石油流出のモニタリングに有用な豊富なスペクトル情報を提供する。
しかし、既存のアプローチのほとんどは、ハイパースペクトル画像(HSI)からのオイル流出を検出するための教師付きおよび半教師付きフレームワークに基づいている。
本研究では,HSIの孤立林を基盤とした非監督型油流出検出手法の開発を初めて試みる。
まず、異なる帯域間でノイズレベルが変化することを考慮し、異なる帯域のノイズレベルを評価するノイズ分散推定法を活用し、重騒音で破損した帯域を除去する。
次に、カーネル主成分分析(KPCA)を用いて、HSIの高次元性を低減する。
そして、この隔離林から海水・油流出の類に属する各画素の確率を推定し、検出された確率に基づいてクラスタリングアルゴリズムを用いて擬似ラベル付きトレーニングサンプルのセットを自動生成する。
そして、この寸法低減データ上で支持ベクトルマシン(SVM)を実行して初期検出マップを得ることができ、次いで、拡張ランダムウォーカ(ERW)モデルにより初期検出結果をさらに最適化し、オイル流出の検出精度を向上させる。
航空機搭載超スペクトル油流出データ(hosd)を用いた実験により,提案手法は他の最先端検出手法に比べて優れた検出性能を得た。 Oil spill detection has attracted increasing attention in recent years since marine oil spill accidents severely affect environments, natural resources, and the lives of coastal inhabitants. Hyperspectral remote sensing images provide rich spectral information which is beneficial for the monitoring of oil spills in complex ocean scenarios. However, most of the existing approaches are based on supervised and semi-supervised frameworks to detect oil spills from hyperspectral images (HSIs), which require a huge amount of effort to annotate a certain number of high-quality training sets. In this study, we make the first attempt to develop an unsupervised oil spill detection method based on isolation forest for HSIs. First, considering that the noise level varies among different bands, a noise variance estimation method is exploited to evaluate the noise level of different bands, and the bands corrupted by severe noise are removed. Second, kernel principal component analysis (KPCA) is employed to reduce the high dimensionality of the HSIs. Then, the probability of each pixel belonging to one of the classes of seawater and oil spills is estimated with the isolation forest, and a set of pseudo-labeled training samples is automatically produced using the clustering algorithm on the detected probability. Finally, an initial detection map can be obtained by performing the support vector machine (SVM) on the dimension-reduced data, and then, the initial detection result is further optimized with the extended random walker (ERW) model so as to improve the detection accuracy of oil spills. Experiments on airborne hyperspectral oil spill data (HOSD) created by ourselves demonstrate that the proposed method obtains superior detection performance with respect to other state-of-the-art detection approaches. | 翻訳日:2022-09-30 16:46:21 公開日:2022-09-28 |
# フルフィルメントネットワークにおける監査機器の重複検出・スロットリング・優先化のための機械学習の適用 Applying Machine Learning for Duplicate Detection, Throttling and Prioritization of Equipment Commissioning Audits at Fulfillment Network ( http://arxiv.org/abs/2209.14409v1 ) ライセンス: Link先を確認 | Farouq Halawa, Majid Abdul, Raashid Mohammed | (参考訳) VQ (Vendor Qualification) とIOQ (Installation and Operation Qualification) の監査は倉庫で実施され、フルフィルメントネットワークにあるすべての機器が品質基準を満たすことを保証する。
短時間で実施すべき多くのチェックがある場合、監査チェックはスキップされる可能性が高い。
さらに、探索データ分析により、類似したチェックが同じ資産で実施されているいくつかの事例が明らかになった。
本研究は,自然言語処理と機械学習を適用し,類似点や重複点を識別することで,倉庫網の大規模チェックリストデータセットをトリミングし,非クリティカルなデータセットを高いパスレートで予測する。
本研究は,IOQとVQの確率が高いチェックを識別するML分類器を提案する。
本研究では,NLPベースのBlazingText分類器を用いて,チェックリストの10%~37%を削減し,大幅なコスト削減を実現することを提案する。
適用されたアルゴリズムはランダムフォレストとニューラルネットワークの分類を行い、曲線の90%以下の領域を達成する。
不均衡なデータのため、ダウンサンプリングとアップウェイトはF1スコアを使用してモデルの精度に肯定的な影響を示し、8%から75%に改善した。
さらに,提案する重複検出プロセスでは,冗長なチェックをトリミングする可能性のある17%を同定する。 VQ (Vendor Qualification) and IOQ (Installation and Operation Qualification) audits are implemented in warehouses to ensure all equipment being turned over in the fulfillment network meets the quality standards. Audit checks are likely to be skipped if there are many checks to be performed in a short time. In addition, exploratory data analysis reveals several instances of similar checks being performed on the same assets and thus, duplicating the effort. In this work, Natural Language Processing and Machine Learning are applied to trim a large checklist dataset for a network of warehouses by identifying similarities and duplicates, and predict the non-critical ones with a high passing rate. The study proposes ML classifiers to identify checks which have a high passing probability of IOQ and VQ and assign priorities to checks to be prioritized when the time is not available to perform all checks. This research proposes using NLP-based BlazingText classifier to throttle the checklists with a high passing rate, which can reduce 10%-37% of the checks and achieve significant cost reduction. The applied algorithm over performs Random Forest and Neural Network classifiers and achieves an area under the curve of 90%. Because of imbalanced data, down-sampling and upweighting have shown a positive impact on the models' accuracy using F1 score, which improve from 8% to 75%. In addition, the proposed duplicate detection process identifies 17% possible redundant checks to be trimmed. | 翻訳日:2022-09-30 16:45:55 公開日:2022-09-28 |
# 一般化カーネル正規化最小正方形 Generalized Kernel Regularized Least Squares ( http://arxiv.org/abs/2209.14355v1 ) ライセンス: Link先を確認 | Qing Chang, Max Goplerud | (参考訳) Kernel Regularized Least Squares (KRLS) は、変数間の複雑な関係を持つモデルを柔軟に推定する一般的な方法である。
しかし、多くの研究者にとって有用性には2つの理由がある。
第一に、既存のアプローチは柔軟性がなく、KRLSを固定効果や非線形結果のような理論的に動機付けられた拡張と組み合わせることができない。
第二に、控えめな大きさのデータセットでは、推定は非常に計算集約的です。
本稿では、一般化KRLS(gKRLS)を導入することにより、両方の問題に対処する。
KRLSは階層モデルとして再構成できるので、推論やモジュラーモデルの構築が容易である。
また,予測品質の制限を伴いながら,推定を劇的に高速化するためにランダムスケッチを実装した。
我々は、gKRLSが1分以内で数万の観測結果を持つデータセットに適合できることを実証した。
さらに、モデルに何十回も適合する必要のある最先端技術(メタラーナーなど)を素早く推定することができる。 Kernel Regularized Least Squares (KRLS) is a popular method for flexibly estimating models that may have complex relationships between variables. However, its usefulness to many researchers is limited for two reasons. First, existing approaches are inflexible and do not allow KRLS to be combined with theoretically-motivated extensions such as fixed effects or non-linear outcomes. Second, estimation is extremely computationally intensive for even modestly sized datasets. Our paper addresses both concerns by introducing generalized KRLS (gKRLS). We note that KRLS can be re-formulated as a hierarchical model thereby allowing easy inference and modular model construction. Computationally, we also implement random sketching to dramatically accelerate estimation while incurring a limited penalty in estimation quality. We demonstrate that gKRLS can be fit on datasets with tens of thousands of observations in under one minute. Further, state-of-the-art techniques that require fitting the model over a dozen times (e.g. meta-learners) can be estimated quickly. | 翻訳日:2022-09-30 16:43:56 公開日:2022-09-28 |
# ロバストレーダ単一物体追跡のための変分ベイズ Variational Bayes for robust radar single object tracking ( http://arxiv.org/abs/2209.14397v1 ) ライセンス: Link先を確認 | Alp Sar{\i}, Tak Kaneko, Lense H.M. Swaenen, Wouter M. Kouw | (参考訳) 我々は,レーダーによる物体追跡と現在の最先端手法のロバスト性に対処し,異常値の処理を行う。
標準追跡アルゴリズムは、レーダ画像空間から検出を抽出し、フィルタリング段階で使用する。
フィルタはカルマンフィルタによって行われ、ガウス分布ノイズを仮定する。
しかし、この仮定は大きなモデリングエラーを考慮せず、突然の動作中に追跡性能が低下する。
本稿では,ガウス型Sumフィルタ(多仮説トラッカーの単一対象変種)をベースラインとして,ガウス型よりも重い分布を持つプロセスノイズをモデル化して修正を提案する。
variational bayesは高速で計算コストの安い推論アルゴリズムを提供する。
シミュレーションにより,プロセスアウトレーヤの存在下では,ロバストトラッカーは単一物体の追跡においてガウス・サムフィルタよりも優れていることがわかった。 We address object tracking by radar and the robustness of the current state-of-the-art methods to process outliers. The standard tracking algorithms extract detections from radar image space to use it in the filtering stage. Filtering is performed by a Kalman filter, which assumes Gaussian distributed noise. However, this assumption does not account for large modeling errors and results in poor tracking performance during abrupt motions. We take the Gaussian Sum Filter (single-object variant of the Multi Hypothesis Tracker) as our baseline and propose a modification by modelling process noise with a distribution that has heavier tails than a Gaussian. Variational Bayes provides a fast, computationally cheap inference algorithm. Our simulations show that - in the presence of process outliers - the robust tracker outperforms the Gaussian Sum filter when tracking single objects. | 翻訳日:2022-09-30 16:43:41 公開日:2022-09-28 |
# RADACS:自律走行車における行動認識を用いた高次推論に向けて RADACS: Towards Higher-Order Reasoning using Action Recognition in Autonomous Vehicles ( http://arxiv.org/abs/2209.14408v1 ) ライセンス: Link先を確認 | Alex Zhuang, Eddy Zhou, Quanquan Li, Rowan Dempster, Alikasim Budhwani, Mohammad Al-Sharman, Derek Rayside, William Melek | (参考訳) 自動運転車の設定に適用すると、行動認識は環境モデルの世界の理解を深め、将来の行動計画を改善するのに役立つ。
本稿では、自動運転車の意思決定におけるこれらの改善に向けて、2段階のオンライン行動認識システムであるRADACSを提案する。
radacsはアクティブエージェント検出の問題を定式化し、アクション検出と分類のための素直な2段階パイプラインにおいて、人間の行動認識からアクタとコンテキストの関係に関するアイデアを適応させる。
提案手法は、ICCV2021ロードチャレンジデータセットのベースラインを上回り、実際の車両プラットフォームにデプロイすることで、環境におけるエージェントアクションの高次理解が実際の自動運転車における意思決定をどのように改善するかを示す。 When applied to autonomous vehicle settings, action recognition can help enrich an environment model's understanding of the world and improve plans for future action. Towards these improvements in autonomous vehicle decision-making, we propose in this work a novel two-stage online action recognition system, termed RADACS. RADACS formulates the problem of active agent detection and adapts ideas about actor-context relations from human activity recognition in a straightforward two-stage pipeline for action detection and classification. We show that our proposed scheme can outperform the baseline on the ICCV2021 Road Challenge dataset and by deploying it on a real vehicle platform, we demonstrate how a higher-order understanding of agent actions in an environment can improve decisions on a real autonomous vehicle. | 翻訳日:2022-09-30 16:43:27 公開日:2022-09-28 |
# 類似性学習への非矛盾的アプローチ - ポジティブな例だけ Non-contrastive approaches to similarity learning: positive examples are all you need ( http://arxiv.org/abs/2209.14750v1 ) ライセンス: Link先を確認 | Alexander Marusov, Valerii Baianov, Alexey Zaytsev | (参考訳) 石油・ガス産業における類似性学習問題は,ログデータの間隔測定の類似性を推定するモデルを構築することを目的としている。
これまでの試みは、主に経験則に基づいていますので、このプロセスの自動化と、高価で時間を要する専門家のラベルの排除を目標としています。
類似性学習のアプローチの1つは、自己教師付き学習(SSL)である。
教師付きパラダイムとは対照的に、データのラベルはほとんど、あるいは全く必要としない。
したがって、データラベリングが欠如している場合でも、そのようなモデルを学ぶことができる。
現在、ほとんどのSSLアプローチは対照的で非コントラスト的です。
しかし、正と負のサンプルの誤ったラベル付けのため、対照的なメソッドはオブジェクトの数とうまくスケールしない。
非矛盾的手法は負のサンプルに依存しない。
このようなアプローチはコンピュータビジョンで積極的に使われている。
時系列データに対する非コントラストSSLを導入する。
特に,BYOL法とBarlow Twins法に基づいて,負のペアの使用を回避し,正のペアにのみ焦点を合わせる。
これらの方法の重要な部分は強化戦略である。
時系列の異なる拡張は存在するが、その性能への影響は正と負の両方である。
BYOLとBarlow Twinsの強化戦略と適応により、他の自己教師付き手法(ARI $= 0.34$)よりも高い品質(ARI $= 0.49$)を達成することができ、時間間隔類似性問題や時系列表現学習に対する非競合的自己教師付きアプローチの有用性を証明できる。 The similarity learning problem in the oil \& gas industry aims to construct a model that estimates similarity between interval measurements for logging data. Previous attempts are mostly based on empirical rules, so our goal is to automate this process and exclude expensive and time-consuming expert labelling. One of the approaches for similarity learning is self-supervised learning (SSL). In contrast to the supervised paradigm, this one requires little or no labels for the data. Thus, we can learn such models even if the data labelling is absent or scarce. Nowadays, most SSL approaches are contrastive and non-contrastive. However, due to possible wrong labelling of positive and negative samples, contrastive methods don't scale well with the number of objects. Non-contrastive methods don't rely on negative samples. Such approaches are actively used in the computer vision. We introduce non-contrastive SSL for time series data. In particular, we build on top of BYOL and Barlow Twins methods that avoid using negative pairs and focus only on matching positive pairs. The crucial part of these methods is an augmentation strategy. Different augmentations of time series exist, while their effect on the performance can be both positive and negative. Our augmentation strategies and adaption for BYOL and Barlow Twins together allow us to achieve a higher quality (ARI $= 0.49$) than other self-supervised methods (ARI $= 0.34$ only), proving usefulness of the proposed non-contrastive self-supervised approach for the interval similarity problem and time series representation learning in general. | 翻訳日:2022-09-30 16:29:36 公開日:2022-09-28 |
# 少数のサンプルとタイト保証者による強化学習のための最適後部サンプリング Optimistic Posterior Sampling for Reinforcement Learning with Few Samples and Tight Guarantees ( http://arxiv.org/abs/2209.14414v1 ) ライセンス: Link先を確認 | Daniil Tiapkin, Denis Belomestny, Daniele Calandriello, Eric Moulines, Remi Munos, Alexey Naumov, Mark Rowland, Michal Valko, Pierre Menard | (参考訳) 我々は,horizon$h$と$s$状態,および$a$アクションのエピソディック,有限、ステージ依存のマルコフ決定過程によってモデル化された環境における強化学習を考える。
エージェントのパフォーマンスは、T$エピソードの環境と対話した後の後悔によって測定される。
本稿では, 補助学習のための楽観的後部サンプリングアルゴリズム(OPSRL)を提案する。これは単純な後部サンプリングの変種であり, 後部サンプルの対数値が$H$, $S$, $A$, $T$でのみ必要である。
OPSRL では、高確率のリフレッシュバウンダリを $\widetilde{\mathcal{O}}(\sqrt{H^3SAT})$ ignoring $\text{poly}\log(HSAT)$ terms で保証する。
重要な新しい技術的要素は、独立興味を持つかもしれない線型形式に対する新しい鋭い反集中不等式である。
具体的には、alfers と dinges [1984] によるベータ分布の正規近似に基づく下限をディリクレ分布に拡張する。
我々の境界は位数 $\Omega(\sqrt{H^3SAT})$ の下界と一致するので、エピソード的設定に対して Agrawal と Jia [2017b] が提起した開問題に答える。 We consider reinforcement learning in an environment modeled by an episodic, finite, stage-dependent Markov decision process of horizon $H$ with $S$ states, and $A$ actions. The performance of an agent is measured by the regret after interacting with the environment for $T$ episodes. We propose an optimistic posterior sampling algorithm for reinforcement learning (OPSRL), a simple variant of posterior sampling that only needs a number of posterior samples logarithmic in $H$, $S$, $A$, and $T$ per state-action pair. For OPSRL we guarantee a high-probability regret bound of order at most $\widetilde{\mathcal{O}}(\sqrt{H^3SAT})$ ignoring $\text{poly}\log(HSAT)$ terms. The key novel technical ingredient is a new sharp anti-concentration inequality for linear forms which may be of independent interest. Specifically, we extend the normal approximation-based lower bound for Beta distributions by Alfers and Dinges [1984] to Dirichlet distributions. Our bound matches the lower bound of order $\Omega(\sqrt{H^3SAT})$, thereby answering the open problems raised by Agrawal and Jia [2017b] for the episodic setting. | 翻訳日:2022-09-30 16:28:19 公開日:2022-09-28 |
# CompNet:画像とデザイン機能の組み合わせを扱う設計モデル CompNet: A Designated Model to Handle Combinations of Images and Designed features ( http://arxiv.org/abs/2209.14454v1 ) ライセンス: Link先を確認 | Bowen Qiu, Daniela Raicu, Jacob Furst, Roselyne Tchoua | (参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョン(CV)におけるニューラルネットワーク(ANN)の最も一般的なモデルの一つである。
画像分類、物体検出、画像類似度測定などの問題を解決するために、研究者によって様々なCNNベースの構造が開発された。
cnnはほとんどの場合、その価値を示していますが、それでも欠点があります。データセットに十分なサンプルがない場合、簡単に過剰に適合します。
ほとんどの医療画像データセットはそのようなデータセットの例である。
さらに、多くのデータセットには、デザインされた機能とイメージの両方が含まれているが、CNNはイメージを直接扱うことができる。
これは追加情報を活用する機会の欠如を表している。
そこで本研究では,複合畳み込みニューラルネットワーク compnet という cnn モデルの新しい構造を提案する。
これは、画像と特徴の組み合わせを入力として受け入れ、利用可能なすべての情報を活用する特別に設計されたニューラルネットワークである。
この構造の新規性は、画像から学習した特徴を重み付けし、画像と設計した特徴の両方から全ての情報を取得することである。
この構造を分類タスクに使用することにより,提案手法が過剰フィッティングを著しく低減できることを示す。
さらに、他の研究者が提案した、画像とデザイン機能を組み合わせた類似したアプローチもいくつか見出した。
比較するために、まずこれらの類似したアプローチをLIDCに適用し、その結果をCompNetの結果と比較し、その類似したアプローチをもともと研究に用いていたデータセットにCompNetを適用し、論文で提案した結果と比較した。
これらの比較結果は、LIDCデータセットや提案したデータセットの分類タスクにおける類似したアプローチよりも優れていた。 Convolutional neural networks (CNNs) are one of the most popular models of Artificial Neural Networks (ANN)s in Computer Vision (CV). A variety of CNN-based structures were developed by researchers to solve problems like image classification, object detection, and image similarity measurement. Although CNNs have shown their value in most cases, they still have a downside: they easily overfit when there are not enough samples in the dataset. Most medical image datasets are examples of such a dataset. Additionally, many datasets also contain both designed features and images, but CNNs can only deal with images directly. This represents a missed opportunity to leverage additional information. For this reason, we propose a new structure of CNN-based model: CompNet, a composite convolutional neural network. This is a specially designed neural network that accepts combinations of images and designed features as input in order to leverage all available information. The novelty of this structure is that it uses learned features from images to weight designed features in order to gain all information from both images and designed features. With the use of this structure on classification tasks, the results indicate that our approach has the capability to significantly reduce overfitting. Furthermore, we also found several similar approaches proposed by other researchers that can combine images and designed features. To make comparison, we first applied those similar approaches on LIDC and compared the results with the CompNet results, then we applied our CompNet on the datasets that those similar approaches originally used in their works and compared the results with the results they proposed in their papers. All these comparison results showed that our model outperformed those similar approaches on classification tasks either on LIDC dataset or on their proposed datasets. | 翻訳日:2022-09-30 16:20:08 公開日:2022-09-28 |
# グラフニューラルネットワークを説明するための学習 Learning to Explain Graph Neural Networks ( http://arxiv.org/abs/2209.14402v1 ) ライセンス: Link先を確認 | Giuseppe Serra, Mathias Niepert | (参考訳) グラフニューラルネットワーク(GNN)は、機械学習モデルの一般的なクラスである。
L2X(L2X)のパラダイムを説明する学習に触発されて、設計による忠実な説明を提供する説明可能なGNNのフレームワークであるL2XGNNを提案する。
L2XGNNは、GNNのメッセージパッシング操作でのみ使用される説明サブグラフ(モチーフ)を選択するメカニズムを学習する。
L2XGNNは各入力グラフに対してスパースや接続などの特定の特性を持つグラフを選択することができる。
このような制約をモチーフに課すことは、しばしばより解釈可能で効果的な説明につながる。
いくつかのデータセットの実験では、L2XGNNは入力グラフ全体を用いたベースライン法と同じ分類精度を達成し、提供された説明のみが予測に使用されることを保証している。
さらに,L2XGNNは,予測対象のグラフの性質に責任を持つモチーフを識別可能であることを示す。 Graph Neural Networks (GNNs) are a popular class of machine learning models. Inspired by the learning to explain (L2X) paradigm, we propose L2XGNN, a framework for explainable GNNs which provides faithful explanations by design. L2XGNN learns a mechanism for selecting explanatory subgraphs (motifs) which are exclusively used in the GNNs message-passing operations. L2XGNN is able to select, for each input graph, a subgraph with specific properties such as being sparse and connected. Imposing such constraints on the motifs often leads to more interpretable and effective explanations. Experiments on several datasets suggest that L2XGNN achieves the same classification accuracy as baseline methods using the entire input graph while ensuring that only the provided explanations are used to make predictions. Moreover, we show that L2XGNN is able to identify motifs responsible for the graph's properties it is intended to predict. | 翻訳日:2022-09-30 16:17:50 公開日:2022-09-28 |
# 将来情報を用いたマルチステップ多変量時系列予測 Masked Multi-Step Multivariate Time Series Forecasting with Future Information ( http://arxiv.org/abs/2209.14413v1 ) ライセンス: Link先を確認 | Yiwei Fu, Honggang Wang, Nurali Virani | (参考訳) 本稿では,時系列予測のための新しい,汎用的な自己教師型学習フレームワークであるMasked Multi-Step Multi-Step Multivariate Forecasting (MMMF)を紹介する。
多くの実世界の予測シナリオでは、例えば短期的な電力需要予測を行う際の天気情報や、飛行機の出発予測を行う際の原油価格予測など、将来の情報が知られている。
既存の機械学習予測フレームワークは,(1)個々の予測を独立に行うサンプルベースアプローチ,(2)将来の情報が完全に組み込まれていない時系列回帰アプローチに分類することができる。
既存のアプローチの限界を克服するために、過去の時間的情報と、未来に関する既知の情報を組み合わせてより良い予測を行う、一連の出力を生成するニューラルネットワークモデルをトレーニングするフレームワークであるMMMFを提案する。
1) 中間電力需要予測, (2) 飛行開始2か月先予測のための実世界の2つのデータセットについて実験を行った。
提案したMMMFフレームワークは,サンプルベース手法だけでなく,全く同じベースモデルを持つ既存の時系列予測モデルよりも優れていることを示す。
さらに、ニューラルネットワークモデルがMMMFでトレーニングされると、その推論速度は従来の回帰定式化でトレーニングされたモデルと似ているため、将来情報が得られれば、既存の回帰学習時系列予測モデルにより良い代替となる。 In this paper, we introduce Masked Multi-Step Multivariate Forecasting (MMMF), a novel and general self-supervised learning framework for time series forecasting with known future information. In many real-world forecasting scenarios, some future information is known, e.g., the weather information when making a short-to-mid-term electricity demand forecast, or the oil price forecasts when making an airplane departure forecast. Existing machine learning forecasting frameworks can be categorized into (1) sample-based approaches where each forecast is made independently, and (2) time series regression approaches where the future information is not fully incorporated. To overcome the limitations of existing approaches, we propose MMMF, a framework to train any neural network model capable of generating a sequence of outputs, that combines both the temporal information from the past and the known information about the future to make better predictions. Experiments are performed on two real-world datasets for (1) mid-term electricity demand forecasting, and (2) two-month ahead flight departures forecasting. They show that the proposed MMMF framework outperforms not only sample-based methods but also existing time series forecasting models with the exact same base models. Furthermore, once a neural network model is trained with MMMF, its inference speed is similar to that of the same model trained with traditional regression formulations, thus making MMMF a better alternative to existing regression-trained time series forecasting models if there is some available future information. | 翻訳日:2022-09-30 16:17:35 公開日:2022-09-28 |
# ナレッジグラフを用いた論理推論のためのニューラル手法 Neural Methods for Logical Reasoning Over Knowledge Graphs ( http://arxiv.org/abs/2209.14464v1 ) ライセンス: Link先を確認 | Alfonso Amayuelas, Shuai Zhang, Susie Xi Rao, Ce Zhang | (参考訳) 推論はコンピュータの基本問題であり、人工知能で深く研究されている。
本稿では,知識グラフ(KGs)上でのマルチホップ論理的クエリの応答に着目した。
実世界のシナリオでは、グラフは巨大で不完全になる傾向があるため、これは複雑なタスクです。
これまでのほとんどの作業では、負のクエリを含む完全な一階論理(FOL)クエリを受け入れるモデルを作成することができず、限られたクエリ構造しか処理できなかった。
さらに、ほとんどのメソッドは、目的とする論理演算しか実行できない論理演算子を提示する。
本稿では,ニューラルネットワークを用いて一点ベクトル埋め込みを生成し,問合せに答えるモデルを提案する。
ニューラルネットワークの汎用性により、フレームワークはConjunction($\wedge$)、Disjunction($\vee$)、Negation($\neg$)演算子でFOLクエリを処理できる。
我々は、よく知られたベンチマークデータセットの広範な実験を通して、モデルの性能を実験的に実証する。
より多用途な演算子を持つことに加えて、このモデルは、最高のパフォーマンス状態よりも10\%、単一点ベクトル埋め込みに基づく元の手法よりも30\%以上の相対的な増加を達成する。 Reasoning is a fundamental problem for computers and deeply studied in Artificial Intelligence. In this paper, we specifically focus on answering multi-hop logical queries on Knowledge Graphs (KGs). This is a complicated task because, in real-world scenarios, the graphs tend to be large and incomplete. Most previous works have been unable to create models that accept full First-Order Logical (FOL) queries, which include negative queries, and have only been able to process a limited set of query structures. Additionally, most methods present logic operators that can only perform the logical operation they are made for. We introduce a set of models that use Neural Networks to create one-point vector embeddings to answer the queries. The versatility of neural networks allows the framework to handle FOL queries with Conjunction ($\wedge$), Disjunction ($\vee$) and Negation ($\neg$) operators. We demonstrate experimentally the performance of our model through extensive experimentation on well-known benchmarking datasets. Besides having more versatile operators, the models achieve a 10\% relative increase over the best performing state of the art and more than 30\% over the original method based on single-point vector embeddings. | 翻訳日:2022-09-30 16:17:12 公開日:2022-09-28 |
# 対象者の判断による対話エージェントのアライメントの改善 Improving alignment of dialogue agents via targeted human judgements ( http://arxiv.org/abs/2209.14375v1 ) ライセンス: Link先を確認 | Amelia Glaese, Nat McAleese, Maja Tr\k{e}bacz, John Aslanides, Vlad Firoiu, Timo Ewalds, Maribeth Rauh, Laura Weidinger, Martin Chadwick, Phoebe Thacker, Lucy Campbell-Gillingham, Jonathan Uesato, Po-Sen Huang, Ramona Comanescu, Fan Yang, Abigail See, Sumanth Dathathri, Rory Greig, Charlie Chen, Doug Fritz, Jaume Sanchez Elias, Richard Green, So\v{n}a Mokr\'a, Nicholas Fernando, Boxi Wu, Rachel Foley, Susannah Young, Iason Gabriel, William Isaac, John Mellor, Demis Hassabis, Koray Kavukcuoglu, Lisa Anne Hendricks, Geoffrey Irving | (参考訳) 本稿では,言語モデルベースラインに対して,より役に立つように訓練された情報検索対話エージェントであるSparrowを紹介する。
人間のフィードバックから強化学習し、2つの新しい追加でモデルをトレーニングし、ヒューマン・レートラーがエージェントの振る舞いを判断するのに役立つ。
まず、エージェントをより便利で無害にするために、エージェントが従うべき自然言語ルールへの適切な対話の要求を分解し、各ルールについてラティアに個別に尋ねる。
この分解により、エージェントの行動のより標的となる人間の判断を収集することができ、より効率的なルール条件報酬モデルが実現可能であることを実証する。
第2に,本エージェントは,モデル文よりも優先判断を収集する際に,事実主張を支持する情報源から証拠を提供する。
事実的な質問に対しては、sparrowが提供した証拠が、サンプル化された回答の78%をサポートする。
スプローはベースラインよりも好まれることが多いが、人間による敵の探究に対する耐性は高く、我々の規則は調査された時間のわずか8%に満たない。
最後に,モデルが規則に従うことを学ぶ一方で,分布バイアスを示すことができることを示す広範な分析を行う。 We present Sparrow, an information-seeking dialogue agent trained to be more helpful, correct, and harmless compared to prompted language model baselines. We use reinforcement learning from human feedback to train our models with two new additions to help human raters judge agent behaviour. First, to make our agent more helpful and harmless, we break down the requirements for good dialogue into natural language rules the agent should follow, and ask raters about each rule separately. We demonstrate that this breakdown enables us to collect more targeted human judgements of agent behaviour and allows for more efficient rule-conditional reward models. Second, our agent provides evidence from sources supporting factual claims when collecting preference judgements over model statements. For factual questions, evidence provided by Sparrow supports the sampled response 78% of the time. Sparrow is preferred more often than baselines while being more resilient to adversarial probing by humans, violating our rules only 8% of the time when probed. Finally, we conduct extensive analyses showing that though our model learns to follow our rules it can exhibit distributional biases. | 翻訳日:2022-09-30 16:09:26 公開日:2022-09-28 |
# 下流のデータセットは驚くほど良い事前学習コーパスを作る Downstream Datasets Make Surprisingly Good Pretraining Corpora ( http://arxiv.org/abs/2209.14389v1 ) ライセンス: Link先を確認 | Kundan Krishna, Saurabh Garg, Jeffrey P. Bigham, Zachary C. Lipton | (参考訳) ほとんどの自然言語処理タスクでは、より小さな下流データセットを使用して、大きな事前訓練されたトランスフォーマーモデル(例えばBERT)を微調整する。
このアプローチの成功にもかかわらず、これらの利益が、事前訓練に使用される巨大な背景コーパスと、事前訓練目的自体にどの程度寄与するかは、まだ不明である。
本稿では,事前学習と微調整の両方に同じ(下流)トレーニングデータを用いる自己訓練の大規模研究を紹介する。
ELECTRAとRoBERTaのモデルと10の異なる下流データセットに対処する実験では、BookWikiコーパスで事前トレーニングを行うセルフトレーニングのライバルが(約10\times$--500\times$ less dataを使用して)、それぞれ7ドルと5ドルのデータセットで後者を上回っている。
驚いたことに、これらのタスク固有の事前訓練されたモデルは、GLUEベンチマークを含む他のタスクでよく機能する。
以上の結果から,多くのシナリオにおいて,事前学習に起因する性能向上は,主に事前学習対象自体によって促進され,大規模データセットの組み入れに起因しているとは限らないことが示唆された。
これらの知見は,Webスケール事前学習データにおける知的財産権や攻撃的コンテンツに対する懸念から,特に関連性が高い。 For most natural language processing tasks, the dominant practice is to finetune large pretrained transformer models (e.g., BERT) using smaller downstream datasets. Despite the success of this approach, it remains unclear to what extent these gains are attributable to the massive background corpora employed for pretraining versus to the pretraining objectives themselves. This paper introduces a large-scale study of self-pretraining, where the same (downstream) training data is used for both pretraining and finetuning. In experiments addressing both ELECTRA and RoBERTa models and 10 distinct downstream datasets, we observe that self-pretraining rivals standard pretraining on the BookWiki corpus (despite using around $10\times$--$500\times$ less data), outperforming the latter on $7$ and $5$ datasets, respectively. Surprisingly, these task-specific pretrained models often perform well on other tasks, including the GLUE benchmark. Our results suggest that in many scenarios, performance gains attributable to pretraining are driven primarily by the pretraining objective itself and are not always attributable to the incorporation of massive datasets. These findings are especially relevant in light of concerns about intellectual property and offensive content in web-scale pretraining data. | 翻訳日:2022-09-30 16:09:06 公開日:2022-09-28 |
# 深層学習を用いたリモートセンシング画像における植生のセマンティックセグメンテーション Semantic Segmentation of Vegetation in Remote Sensing Imagery Using Deep Learning ( http://arxiv.org/abs/2209.14364v1 ) ライセンス: Link先を確認 | Alexandru Munteanu, Marian Neagul | (参考訳) 近年,地理空間産業は着実に発展している。
この成長は、衛星画像やその他のリモートセンシングデータを日常的に供給する衛星星座の追加を意味する。
この情報は、たとえ公開データを参照している場合であっても、その大きさのために考慮されていない場合もあります。
このような大量のデータを、人間の労働力や従来の自動化手法で処理することは、時間とリソースの両方の観点から、必ずしも有効なソリューションではない。
本稿では,公開されているリモートセンシングデータからなるマルチモーダル・時空間データセットの作成と,最先端の機械学習(ml)技術を用いて実現可能性をテストする手法を提案する。
正確には、提案されたデータセットに存在する異なる種類の植生を分離できる畳み込みニューラルネットワーク(cnn)モデルの使用。
地理情報システム(GIS)とコンピュータビジョン(CV)の文脈における類似した手法の普及と成功は、一般的に、同様の手法が考慮され、さらに分析され、開発されるべきであることを示している。 In recent years, the geospatial industry has been developing at a steady pace. This growth implies the addition of satellite constellations that produce a copious supply of satellite imagery and other Remote Sensing data on a daily basis. Sometimes, this information, even if in some cases we are referring to publicly available data, it sits unaccounted for due to the sheer size of it. Processing such large amounts of data with the help of human labour or by using traditional automation methods is not always a viable solution from the standpoint of both time and other resources. Within the present work, we propose an approach for creating a multi-modal and spatio-temporal dataset comprised of publicly available Remote Sensing data and testing for feasibility using state of the art Machine Learning (ML) techniques. Precisely, the usage of Convolutional Neural Networks (CNN) models that are capable of separating different classes of vegetation that are present in the proposed dataset. Popularity and success of similar methods in the context of Geographical Information Systems (GIS) and Computer Vision (CV) more generally indicate that methods alike should be taken in consideration and further analysed and developed. | 翻訳日:2022-09-30 16:08:15 公開日:2022-09-28 |
# 自己教師付き学習による効率的な医用画像評価 Efficient Medical Image Assessment via Self-supervised Learning ( http://arxiv.org/abs/2209.14434v1 ) ライセンス: Link先を確認 | Chun-Yin Huang, Qi Lei, and Xiaoxiao Li | (参考訳) 高性能な深層学習法は一般的に大量の注釈付きトレーニングデータセットに依存しており、医療画像のラベル付けのコストが高いため、多くの臨床応用では入手が困難である。
既存のデータアセスメント手法では、事前にラベルを知る必要があるが、「ラベルにどのデータを知るか」という目標を達成することは不可能である。
そこで本研究では,自己教師型学習(SSL)ネットワークから抽出した有意な潜伏表現に基づいて,ラベルのない医用画像データの品質をランク付けするために,EXAMINEスコア(ExponentiAl Marginal sINgular valuE)の新規かつ効率的なデータ評価戦略を定式化し,提案する。
SSL埋め込み空間の理論的含意により、我々は特徴抽出にMasked Autoencoderを利用する。
さらに,データセット内のデータポイントを除外した後,最大の特異値の限界変化に基づいてデータ品質を評価する。
我々は病理データについて広範な実験を行う。
提案手法の有効性と有効性を示し,ラベルに最も価値の高いデータを選択する。 High-performance deep learning methods typically rely on large annotated training datasets, which are difficult to obtain in many clinical applications due to the high cost of medical image labeling. Existing data assessment methods commonly require knowing the labels in advance, which are not feasible to achieve our goal of 'knowing which data to label.' To this end, we formulate and propose a novel and efficient data assessment strategy, EXponentiAl Marginal sINgular valuE (EXAMINE) score, to rank the quality of unlabeled medical image data based on their useful latent representations extracted via Self-supervised Learning (SSL) networks. Motivated by theoretical implication of SSL embedding space, we leverage a Masked Autoencoder for feature extraction. Furthermore, we evaluate data quality based on the marginal change of the largest singular value after excluding the data point in the dataset. We conduct extensive experiments on a pathology dataset. Our results indicate the effectiveness and efficiency of our proposed methods for selecting the most valuable data to label. | 翻訳日:2022-09-30 16:07:57 公開日:2022-09-28 |
# LiDARを用いた3次元物体検出のための分布外検出 Out-of-Distribution Detection for LiDAR-based 3D Object Detection ( http://arxiv.org/abs/2209.14435v1 ) ライセンス: Link先を確認 | Chengjie Huang, Van Duong Nguyen, Vahdat Abdelzad, Christopher Gus Mannes, Luke Rowe, Benjamin Therien, Rick Salay, Krzysztof Czarnecki | (参考訳) 3Dオブジェクト検出は自動運転の重要な部分であり、ディープニューラルネットワーク(DNN)はこのタスクで最先端のパフォーマンスを達成した。
しかし、深層モデルは、トレーニング分布から引き出されることのない入力であるout-of-distribution (ood)入力に高い信頼度スコアを割り当てることで悪名高い。
OOD入力の検出は、モデルの安全なデプロイに不可欠である。
OOD検出は分類タスクのために広く研究されているが、オブジェクト検出タスク、特にLiDARベースの3Dオブジェクト検出には十分な注意が払われていない。
本稿では,LiDARを用いた3Dオブジェクト検出のためのOOD入力の検出に焦点をあてる。
我々は、OOD入力がオブジェクト検出に何を意味するかを定式化し、オブジェクト検出に複数のOOD検出手法を適用することを提案する。
提案手法を特徴抽出法により実現した。
OOD検出手法を評価するため,対象物検出モデルに対して,OODオブジェクトを生成するための簡易かつ効果的な手法を開発した。
KITTIデータセットを用いて評価した結果,OOD検出法はOOD検出に偏りがあることが判明した。
OOD検出方法の併用の重要性と、この方向におけるさらなる研究の重要性を強調している。 3D object detection is an essential part of automated driving, and deep neural networks (DNNs) have achieved state-of-the-art performance for this task. However, deep models are notorious for assigning high confidence scores to out-of-distribution (OOD) inputs, that is, inputs that are not drawn from the training distribution. Detecting OOD inputs is challenging and essential for the safe deployment of models. OOD detection has been studied extensively for the classification task, but it has not received enough attention for the object detection task, specifically LiDAR-based 3D object detection. In this paper, we focus on the detection of OOD inputs for LiDAR-based 3D object detection. We formulate what OOD inputs mean for object detection and propose to adapt several OOD detection methods for object detection. We accomplish this by our proposed feature extraction method. To evaluate OOD detection methods, we develop a simple but effective technique of generating OOD objects for a given object detection model. Our evaluation based on the KITTI dataset shows that different OOD detection methods have biases toward detecting specific OOD objects. It emphasizes the importance of combined OOD detection methods and more research in this direction. | 翻訳日:2022-09-30 15:58:54 公開日:2022-09-28 |
# オープン集合認識のための自己教師あり表現学習における特徴分離 Feature Decoupling in Self-supervised Representation Learning for Open Set Recognition ( http://arxiv.org/abs/2209.14385v1 ) ライセンス: Link先を確認 | Jingyun Jia, Philip K. Chan | (参考訳) 分類中に未知のクラスが存在すると仮定すると、オープンセット認識(OSR)タスクは、インスタンスを既知のクラスに分類したり、未知として拒否することを目的としている。
本稿では,OSR問題に対して2段階のトレーニング戦略を用いる。
最初の段階では、既知のクラスから入力されたサンプルの内容の特徴を抽出する自己教師付き特徴分離手法を導入する。
具体的には、機能分離アプローチは、コンテンツ機能とトランスフォーメーション機能に分割可能な表現を学習します。
第2段階では、コンテンツの特徴をクラスラベルで微調整します。
微調整されたコンテンツ機能はOSRの問題に使用される。
さらに、第1段階から学んだコンテンツ機能をクラスタ化する、教師なしOSRシナリオについても検討する。
表現の質を測定するために,イントラインター比(IIR)を導入する。
実験の結果,提案手法は画像およびマルウェアOSR問題において他者よりも優れていることがわかった。
また,IIRがOSR性能と相関していることを示す。 Assuming unknown classes could be present during classification, the open set recognition (OSR) task aims to classify an instance into a known class or reject it as unknown. In this paper, we use a two-stage training strategy for the OSR problems. In the first stage, we introduce a self-supervised feature decoupling method that finds the content features of the input samples from the known classes. Specifically, our feature decoupling approach learns a representation that can be split into content features and transformation features. In the second stage, we fine-tune the content features with the class labels. The fine-tuned content features are then used for the OSR problems. Moreover, we consider an unsupervised OSR scenario, where we cluster the content features learned from the first stage. To measure representation quality, we introduce intra-inter ratio (IIR). Our experimental results indicate that our proposed self-supervised approach outperforms others in image and malware OSR problems. Also, our analyses indicate that IIR is correlated with OSR performance. | 翻訳日:2022-09-30 15:51:10 公開日:2022-09-28 |
# geonet:wasserstein測地学学習用ニューラルネットワーク GeONet: a neural operator for learning the Wasserstein geodesic ( http://arxiv.org/abs/2209.14440v1 ) ライセンス: Link先を確認 | Andrew Gracyk, Xiaohui Chen | (参考訳) 最適なトランスポート(ot)は、複雑なデータ分布を幾何学的に意味のある方法で比較するための汎用フレームワークを提供する。
従来の確率測度間のワッサーシュタイン距離と測地線を計算する方法はメッシュに依存した領域の離散化を必要とし、次元の呪いに苦しむ。
本稿では,初期分布と終端分布の入力対から2つの終端分布を接続するwasserstein測地線への非線形写像を学習するメッシュ不変深層ニューラルネットワークgeonetを提案する。
オフライントレーニング段階において、GeONetは、結合されたPDEシステムによって特徴づけられる原始空間と双対空間におけるOT問題の動的定式化のためのサドル点最適条件を学習する。
その後の推論段階は瞬時に行われ、オンライン学習環境でリアルタイムの予測にデプロイできる。
シミュレーション例とCIFAR-10データセットを用いて,GeONetが標準OTソルバに匹敵する精度を実現し,予測段階の計算コストを桁違いに大幅に削減したことを示す。 Optimal transport (OT) offers a versatile framework to compare complex data distributions in a geometrically meaningful way. Traditional methods for computing the Wasserstein distance and geodesic between probability measures require mesh-dependent domain discretization and suffer from the curse-of-dimensionality. We present GeONet, a mesh-invariant deep neural operator network that learns the non-linear mapping from the input pair of initial and terminal distributions to the Wasserstein geodesic connecting the two endpoint distributions. In the offline training stage, GeONet learns the saddle point optimality conditions for the dynamic formulation of the OT problem in the primal and dual spaces that are characterized by a coupled PDE system. The subsequent inference stage is instantaneous and can be deployed for real-time predictions in the online learning setting. We demonstrate that GeONet achieves comparable testing accuracy to the standard OT solvers on a simulation example and the CIFAR-10 dataset with considerably reduced inference-stage computational cost by orders of magnitude. | 翻訳日:2022-09-30 15:42:56 公開日:2022-09-28 |
# 人工ニューラルネットワークのアーキテクチャ表現としての生物学的コネクトーム Biological connectomes as a representation for the architecture of artificial neural networks ( http://arxiv.org/abs/2209.14406v1 ) ライセンス: Link先を確認 | Samuel Schmidgall, Catherine Schuman, Maryam Parsa | (参考訳) 神経科学における大きな取り組みは、ショウジョウバエのメラノガスターのほぼ完成を含む多くの新種のコネクトームのマッピングに取り組んでいる。
これらのモデルが人工知能に有用かどうかを問うことが重要である。
本研究では,(1)生体コネクトームが機械学習で利用可能である場合,(2)コネクトームの優れた表現を抽出するために,どの設計原理が必要か,という2つの基本的な質問を行う。
そこで我々は,C. Elegans nematode の運動回路を生物物理学的リアリズムの様々なレベルにおいて人工ニューラルネットワークに変換し,これらのネットワークを運動と非運動の行動タスクでトレーニングした結果を評価する。
生体回路の利点を享受するために、生物物理リアリズムを維持できないことを示す。
また、正確な配線図が保持されていなくても、アーキテクチャ上の統計値に価値があることも確認します。
最後に,C. Elegans の移動回路は移動問題に強力な帰納バイアスを与えるが,その構造は視覚的分類問題などの移動に関係のないタスクのパフォーマンスを阻害する可能性があることを示す。 Grand efforts in neuroscience are working toward mapping the connectomes of many new species, including the near completion of the Drosophila melanogaster. It is important to ask whether these models could benefit artificial intelligence. In this work we ask two fundamental questions: (1) where and when biological connectomes can provide use in machine learning, (2) which design principles are necessary for extracting a good representation of the connectome. Toward this end, we translate the motor circuit of the C. Elegans nematode into artificial neural networks at varying levels of biophysical realism and evaluate the outcome of training these networks on motor and non-motor behavioral tasks. We demonstrate that biophysical realism need not be upheld to attain the advantages of using biological circuits. We also establish that, even if the exact wiring diagram is not retained, the architectural statistics provide a valuable prior. Finally, we show that while the C. Elegans locomotion circuit provides a powerful inductive bias on locomotion problems, its structure may hinder performance on tasks unrelated to locomotion such as visual classification problems. | 翻訳日:2022-09-30 15:41:22 公開日:2022-09-28 |
# Mine yOur owN anatomy: Revising Medical Image Segmentation with Extremely Limited Labels (特集 バイオサイバネティックスとバイオサイバネティックス) Mine yOur owN Anatomy: Revisiting Medical Image Segmentation with Extremely Limited Labels ( http://arxiv.org/abs/2209.13476v2 ) ライセンス: Link先を確認 | Chenyu You, Weicheng Dai, Fenglin Liu, Haoran Su, Xiaoran Zhang, Lawrence Staib, James S. Duncan | (参考訳) 近年のコントラスト学習の研究は, 医療画像セグメンテーションの文脈において, ほとんどラベルを活用せず, 優れた成果を上げている。
既存の手法は主にインスタンス識別と不変写像に焦点を当てている。
しかし、それらは3つの共通の落とし穴に直面している: (1) テールネス: 医療画像データは通常、暗黙のロングテールクラス分布に従う。
トレーニングですべてのピクセルを盲目的に活用することで、データの不均衡やパフォーマンスの低下につながる可能性がある。 (2) 一貫性: セグメンテーションモデルが、異なる解剖学的特徴間のクラス内変異によって有意義かつ一貫性のある解剖学的特徴を学習したかどうか、(3) 多様性: データセット全体におけるスライス内相関の注目度は大幅に低下している。
これは、異なる解剖学的視点から類似しているが異なるサンプルを発見するために、データセット自体を戦略的に利用するための原則に基づくアプローチを求める動機付けとなります。
本稿では,Mine yOur owN Anatomy (MONA) と呼ばれる新しい半教師型医用画像分割フレームワークを紹介し,その3つの貢献について述べる。
まず、先行研究は全てのピクセルがモデルトレーニングに等しく重要であると主張する。我々は、このだけでは、主に監督信号の欠如のために、有意義な解剖学的特徴を定義することは不可能であると実証的に観察する。
より強力なデータ拡張と最も近い隣人を使って、不変性を学ぶための2つの簡単なソリューションを示します。
第2に,医療画像の解剖学的特徴の集合体への分解を教師なしで行うことをモデルに促す目的の集合を構築した。
最後に,ラベル付き設定の異なる3つのベンチマークデータセットの広範な結果から,提案するmonaの有効性が検証された。 Recent studies on contrastive learning have achieved remarkable performance solely by leveraging few labels in the context of medical image segmentation. Existing methods mainly focus on instance discrimination and invariant mapping. However, they face three common pitfalls: (1) tailness: medical image data usually follows an implicit long-tail class distribution. Blindly leveraging all pixels in training hence can lead to the data imbalance issues, and cause deteriorated performance; (2) consistency: it remains unclear whether a segmentation model has learned meaningful and yet consistent anatomical features due to the intra-class variations between different anatomical features; and (3) diversity: the intra-slice correlations within the entire dataset have received significantly less attention. This motivates us to seek a principled approach for strategically making use of the dataset itself to discover similar yet distinct samples from different anatomical views. In this paper, we introduce a novel semi-supervised medical image segmentation framework termed Mine yOur owN Anatomy (MONA), and make three contributions. First, prior work argues that every pixel equally matters to the model training; we observe empirically that this alone is unlikely to define meaningful anatomical features, mainly due to lacking the supervision signal. We show two simple solutions towards learning invariances - through the use of stronger data augmentations and nearest neighbors. Second, we construct a set of objectives that encourage the model to be capable of decomposing medical images into a collection of anatomical features in an unsupervised manner. Lastly, our extensive results on three benchmark datasets with different labeled settings validate the effectiveness of our proposed MONA which achieves new state-of-the-art under different labeled settings. | 翻訳日:2022-09-30 13:26:23 公開日:2022-09-28 |
# 感情的発声解析のための効率的なマルチタスク学習アーキテクチャ An Efficient Multitask Learning Architecture for Affective Vocal Burst Analysis ( http://arxiv.org/abs/2209.13914v1 ) ライセンス: Link先を確認 | Tobias Hallmen, Silvan Mertes, Dominik Schiller, Elisabeth Andr\'e | (参考訳) 感情音声分析は研究の現在進行中の課題である。
この分野では比較的新しい問題は、笑いやため息のような非言語的な発声である発声の分析である。
情緒的発声解析への最先端のアプローチは、主にwav2vec2 や HuBERT の特徴に基づいている。
本稿では,wav2vecの後継データ2vecとマルチタスク学習パイプラインを組み合わせることで,異なる解析問題に一度に対処する方法について検討する。
効率的なマルチタスク学習アーキテクチャの性能を評価するために,我々は2022 acii affective vocal burst challenge に参加し,このアプローチが3つのサブタスクで確立されたベースラインを大きく上回ることを示した。 Affective speech analysis is an ongoing topic of research. A relatively new problem in this field is the analysis of vocal bursts, which are nonverbal vocalisations such as laughs or sighs. Current state-of-the-art approaches to address affective vocal burst analysis are mostly based on wav2vec2 or HuBERT features. In this paper, we investigate the use of the wav2vec successor data2vec in combination with a multitask learning pipeline to tackle different analysis problems at once. To assess the performance of our efficient multitask learning architecture, we participate in the 2022 ACII Affective Vocal Burst Challenge, showing that our approach substantially outperforms the baseline established there in three different subtasks. | 翻訳日:2022-09-29 18:29:16 公開日:2022-09-28 |
# LL-GNN:粒子検出器のためのFPGA上の低レイテンシグラフニューラルネットワーク LL-GNN: Low Latency Graph Neural Networks on FPGAs for Particle Detectors ( http://arxiv.org/abs/2209.14065v1 ) ライセンス: Link先を確認 | Zhiqiang Que, Marcus Loo, Hongxiang Fan, Michaela Blott, Maurizio Pierini, Alexander D Tapper and Wayne Luk | (参考訳) 本研究は,粒子検出器に特化した低レイテンシグラフニューラルネットワーク(GNN)設計のための,新しい再構成可能なアーキテクチャを提案する。
CERNの大型ハドロン衝突型加速器実験において、オンラインイベント選択のためにネットワークをデプロイするために、サブマイクロ秒レイテンシを必要とするため、粒子検出器のGNNの高速化は難しい。
本稿では、完全に連結されたグラフを持つ相互作用ネットワークベースGNNにおける行列乗算演算の強度を低減したカスタムコード変換を提案する。
スパーシティパターンとバイナリ隣接行列を利用し、不規則なメモリアクセスを回避し、レイテンシの低減とハードウェア効率の向上につながる。
さらに,低レイテンシ設計のための強度低減により強化された外部積ベースの行列乗算手法を提案する。
また、設計遅延をさらに低減するために、融合ステップが導入される。
さらに、GNN固有のアルゴリズム-ハードウェア共設計アプローチが提示され、より優れたレイテンシを持つ設計を見つけるだけでなく、与えられたレイテンシ制約の下で高精度な設計を求める。
最後に、この低レイテンシGNNハードウェアアーキテクチャのためのカスタマイズ可能なテンプレートを設計、オープンソース化し、高レベル合成ツールを用いて効率的な資源利用による低レイテンシFPGA設計を可能にする。
評価結果から,FPGA実装は最大24倍高速で,GPU実装の最大45倍の消費電力を消費することがわかった。
従来のFPGA実装と比較して、この作業は6.51から16.7倍のレイテンシを実現する。
さらに、FPGA設計のレイテンシは十分低く、サブマイクロ秒のリアルタイムコライダートリガシステムにGNNを配置できるため、精度の向上によるメリットが期待できる。 This work proposes a novel reconfigurable architecture for low latency Graph Neural Network (GNN) design specifically for particle detectors. Accelerating GNNs for particle detectors is challenging since it requires sub-microsecond latency to deploy the networks for online event selection in the Level-1 triggers at the CERN Large Hadron Collider experiments. This paper proposes a custom code transformation with strength reduction for the matrix multiplication operations in the interaction-network based GNNs with fully connected graphs, which avoids the costly multiplication. It exploits sparsity patterns as well as binary adjacency matrices, and avoids irregular memory access, leading to a reduction in latency and improvement in hardware efficiency. In addition, we introduce an outer-product based matrix multiplication approach which is enhanced by the strength reduction for low latency design. Also, a fusion step is introduced to further reduce the design latency. Furthermore, an GNN-specific algorithm-hardware co-design approach is presented which not only finds a design with a much better latency but also finds a high accuracy design under a given latency constraint. Finally, a customizable template for this low latency GNN hardware architecture has been designed and open-sourced, which enables the generation of low-latency FPGA designs with efficient resource utilization using a high-level synthesis tool. Evaluation results show that our FPGA implementation is up to 24 times faster and consumes up to 45 times less power than a GPU implementation. Compared to our previous FPGA implementations, this work achieves 6.51 to 16.7 times lower latency. Moreover, the latency of our FPGA design is sufficiently low to enable deployment of GNNs in a sub-microsecond, real-time collider trigger system, enabling it to benefit from improved accuracy. | 翻訳日:2022-09-29 18:29:03 公開日:2022-09-28 |
# 神経フィードバックループの後方到達性解析:線形および非線形システムのための手法 Backward Reachability Analysis of Neural Feedback Loops: Techniques for Linear and Nonlinear Systems ( http://arxiv.org/abs/2209.14076v1 ) ライセンス: Link先を確認 | Nicholas Rober, Sydney M. Katz, Chelsea Sidrane, Esen Yel, Michael Everett, Mykel J. Kochenderfer, Jonathan P. How | (参考訳) 安全クリティカルなアプリケーションにおけるニューラルネットワーク(NN)の普及は、安全な行動を証明する方法を求めている。
本稿では,ニューラルフィードバックループ(NFL)の安全性検証,すなわちNN制御ポリシを備えた閉ループシステムに対する後方到達性アプローチを提案する。
最近の研究はnflの安全認定戦略としての前方到達性に焦点を当てているが、後方到達性は前方戦略、特に障害物回避シナリオよりも優れている。
以前の研究は、nnを持たないシステムの後方到達可能性解析技術を開発したが、フィードバックループにおけるnnの存在は、その活性化関数の非線形性と、nnモデルが一般に可逆ではないため、ユニークな問題群を示している。
これらの課題を克服するために、既存のフォワードNN分析ツールを使用して、バックプロジェクション(BP)セットの過剰な近似、すなわちNN制御ポリシーが所定のターゲットセットにシステムを駆動する状態の集合を効率的に見つける。
フィードフォワードNNで表される制御ポリシを持つ線形系と非線形系のBP過近似を計算するためのフレームワークを提案し、計算効率の良い戦略を提案する。
6次元システムの安全性保証の実証を含む,様々なモデルから得られた数値結果を用いて提案アルゴリズムを実証する。 The increasing prevalence of neural networks (NNs) in safety-critical applications calls for methods to certify safe behavior. This paper presents a backward reachability approach for safety verification of neural feedback loops (NFLs), i.e., closed-loop systems with NN control policies. While recent works have focused on forward reachability as a strategy for safety certification of NFLs, backward reachability offers advantages over the forward strategy, particularly in obstacle avoidance scenarios. Prior works have developed techniques for backward reachability analysis for systems without NNs, but the presence of NNs in the feedback loop presents a unique set of problems due to the nonlinearities in their activation functions and because NN models are generally not invertible. To overcome these challenges, we use existing forward NN analysis tools to efficiently find an over-approximation of the backprojection (BP) set, i.e., the set of states for which the NN control policy will drive the system to a given target set. We present frameworks for calculating BP over-approximations for both linear and nonlinear systems with control policies represented by feedforward NNs and propose computationally efficient strategies. We use numerical results from a variety of models to showcase the proposed algorithms, including a demonstration of safety certification for a 6D system. | 翻訳日:2022-09-29 18:28:34 公開日:2022-09-28 |
# Brezis-Ekeland 原理を用いた勾配流の深層学習 Deep learning for gradient flows using the Brezis-Ekeland principle ( http://arxiv.org/abs/2209.14115v1 ) ライセンス: Link先を確認 | Laura Carini, Max Jensen, Robert N\"urnberg | (参考訳) 勾配流として発生する偏微分方程式の数値解のための深層学習法を提案する。
この方法は、目的関数の最小化を自然に定義するbrezis-ekeland原理に依存しているため、深層ニューラルネットワークを用いた機械学習アプローチに理想的に適している。
提案手法は,空間次元2~7の熱方程式の例を用いて,一般的な枠組みで記述し,提案手法を例示する。 We propose a deep learning method for the numerical solution of partial differential equations that arise as gradient flows. The method relies on the Brezis--Ekeland principle, which naturally defines an objective function to be minimized, and so is ideally suited for a machine learning approach using deep neural networks. We describe our approach in a general framework and illustrate the method with the help of an example implementation for the heat equation in space dimensions two to seven. | 翻訳日:2022-09-29 18:28:11 公開日:2022-09-28 |
# パラメータフリーメタノード近似による効率的なブロックコントラスト学習 Efficient block contrastive learning via parameter-free meta-node approximation ( http://arxiv.org/abs/2209.14067v1 ) ライセンス: Link先を確認 | Gayan K. Kulatilleke, Marius Portmann, Shekhar S. Chandra | (参考訳) コントラスト学習はグラフを含む多くの領域で最近目覚ましい成功を収めている。
しかし、対照的な損失、特にグラフの場合、多くの負のサンプルが必要であり、これは2次時間複雑性で計算不可能で、計算的に禁じられている。
サブサンプリングは最適ではなく、誤った負のサンプリングはサンプリングバイアスにつながる。
本研究では,メタノードに基づく近似手法を提案する。
(a)すべての負の組み合わせを代理する
(b)二次クラスターサイズの時間複雑性。
(c) ノードレベルではなく,グラフレベルで,
(d)グラフスパーシティを利用する。
ノードパイアを付加クラスタパイアに置き換えることで,クラスタ時の負をグラフレベルで計算する。
結果として得られるProxy近似メタノードコントラスト(PamC)損失は、単純な最適化GPU演算に基づいて、負の完全なセットをキャプチャするが、線形時間複雑性では効率的である。
サンプリングを避けることで,サンプルバイアスを効果的に排除する。
我々は、より多くのサンプルの基準を満たすため、ペアワイズ損失よりも優れたブロックコントラスト性が得られる。
我々はメタノード制限のための学習ソフトクラスタ割り当てを使用し、エッジ生成時に付加されるヘテロフィリエやノイズを回避する。
理論的には、実世界のグラフは近似に必要な条件を容易に満たすことができる。
実験により、6つのベンチマーク上での最先端グラフクラスタリングよりも有望な精度向上を示す。
トレーニング時間に最大3倍、推論時間に1.8倍、GPUメモリの削減に5倍の効率を実現しています。 Contrastive learning has recently achieved remarkable success in many domains including graphs. However contrastive loss, especially for graphs, requires a large number of negative samples which is unscalable and computationally prohibitive with a quadratic time complexity. Sub-sampling is not optimal and incorrect negative sampling leads to sampling bias. In this work, we propose a meta-node based approximation technique that can (a) proxy all negative combinations (b) in quadratic cluster size time complexity, (c) at graph level, not node level, and (d) exploit graph sparsity. By replacing node-pairs with additive cluster-pairs, we compute the negatives in cluster-time at graph level. The resulting Proxy approximated meta-node Contrastive (PamC) loss, based on simple optimized GPU operations, captures the full set of negatives, yet is efficient with a linear time complexity. By avoiding sampling, we effectively eliminate sample bias. We meet the criterion for larger number of samples, thus achieving block-contrastiveness, which is proven to outperform pair-wise losses. We use learnt soft cluster assignments for the meta-node constriction, and avoid possible heterophily and noise added during edge creation. Theoretically, we show that real world graphs easily satisfy conditions necessary for our approximation. Empirically, we show promising accuracy gains over state-of-the-art graph clustering on 6 benchmarks. Importantly, we gain substantially in efficiency; up to 3x in training time, 1.8x in inference time and over 5x in GPU memory reduction. | 翻訳日:2022-09-29 18:25:35 公開日:2022-09-28 |
# テンソルネットワークによる強化学習:動的大偏差への応用 Reinforcement Learning with Tensor Networks: Application to Dynamical Large Deviations ( http://arxiv.org/abs/2209.14089v1 ) ライセンス: Link先を確認 | Edward Gillman, Dominic C. Rose and Juan P. Garrahan | (参考訳) 本稿では、動的最適化タスクを解くために、テンソルネットワーク(TN)と強化学習(RL)を統合するフレームワークを提案する。
我々は,RL問題に対するモデルフリーアプローチであるアクター批判法を考察し,そのポリシーと値関数の近似としてTNを導入する。
acten(actor-critic with tensor networks)法は,大規模かつ因果的状態と動作空間の問題に特に適している。
アクテンの適用可能性を示す例として、ガラスの東モデルと非対称単純排他過程(asep)という2つのパラダイム的確率モデルにおいて、希少な軌跡をサンプリングするという指数関数的に難しいタスクを解決する。
既存のRL法とさらなる統合の可能性があり、ここで導入されたアプローチは物理学の応用とマルチエージェントのRL問題をより一般的に実現することを約束している。 We present a framework to integrate tensor network (TN) methods with reinforcement learning (RL) for solving dynamical optimisation tasks. We consider the RL actor-critic method, a model-free approach for solving RL problems, and introduce TNs as the approximators for its policy and value functions. Our "actor-critic with tensor networks" (ACTeN) method is especially well suited to problems with large and factorisable state and action spaces. As an illustration of the applicability of ACTeN we solve the exponentially hard task of sampling rare trajectories in two paradigmatic stochastic models, the East model of glasses and the asymmetric simple exclusion process (ASEP), the latter being particularly challenging to other methods due to the absence of detailed balance. With substantial potential for further integration with the vast array of existing RL methods, the approach introduced here is promising both for applications in physics and to multi-agent RL problems more generally. | 翻訳日:2022-09-29 18:25:13 公開日:2022-09-28 |
# フィルタに基づく圧縮ブラインドデコンボリューションの学習 Learning Filter-Based Compressed Blind-Deconvolution ( http://arxiv.org/abs/2209.14165v1 ) ライセンス: Link先を確認 | Bahareh Tolooshams, Satish Mulleti, Demba Ba, Yonina C. Eldar | (参考訳) マルチチャネルブラインドデコンボリューション(S-MBD)の問題は、レーダー/ソナー/超音波イメージングなどの多くの工学的応用で頻繁に発生する。
計算と実装のコストを削減するため,本研究では,受信した全信号に対してはるかに少ない測定値からブラインドリカバリが可能な圧縮手法を提案する。
提案した圧縮は、フィルタを介して信号を測定し、次にサブサンプリングを行い、実装コストを大幅に削減する。
圧縮された測定値からスパースフィルタの識別性と回復を理論的に保証する。
この結果から,広範囲の圧縮フィルタの設計が可能となった。
そこで我々は,圧縮フィルタを学習し,S-MBD問題を解くために,データ駆動型アンロール学習フレームワークを提案する。
エンコーダはリカレント推論ネットワークであり、圧縮された測定値をスパースフィルタの推定にマッピングする。
提案手法はソース形状の選択に対して頑健であり,最適化に基づく手法に比べて回復性能が向上することを示す。
さらに,データ量が少ないアプリケーション(fewshot learning)では,従来のディープラーニングと比較して,未ロール学習の優れた一般化能力を強調した。 The problem of sparse multichannel blind deconvolution (S-MBD) arises frequently in many engineering applications such as radar/sonar/ultrasound imaging. To reduce its computational and implementation cost, we propose a compression method that enables blind recovery from much fewer measurements with respect to the full received signal in time. The proposed compression measures the signal through a filter followed by a subsampling, allowing for a significant reduction in implementation cost. We derive theoretical guarantees for the identifiability and recovery of a sparse filter from compressed measurements. Our results allow for the design of a wide class of compression filters. We, then, propose a data-driven unrolled learning framework to learn the compression filter and solve the S-MBD problem. The encoder is a recurrent inference network that maps compressed measurements into an estimate of sparse filters. We demonstrate that our unrolled learning method is more robust to choices of source shapes and has better recovery performance compared to optimization-based methods. Finally, in applications with limited data (fewshot learning), we highlight the superior generalization capability of unrolled learning compared to conventional deep learning. | 翻訳日:2022-09-29 18:24:54 公開日:2022-09-28 |
# 未知動環境における高速運動計画のための障害物同定と楕円形分解 Obstacle Identification and Ellipsoidal Decomposition for Fast Motion Planning in Unknown Dynamic Environments ( http://arxiv.org/abs/2209.14233v1 ) ライセンス: Link先を確認 | Mehmetcan Kaymaz and Nazim Kemal Ure | (参考訳) 未知の環境における動的障害物の存在による衝突回避は、無人システムにとって最も重要な課題の1つである。
本稿では,楕円体の観点から障害物を識別し,線形および角障害物速度を推定する手法を提案する。
提案手法は,任意の物体を楕円体で近似的に表現できるという考えに基づいている。
そこで本研究では,ガウス混合モデルの変分ベイズ推定法,カチヤンアルゴリズム,精細化アルゴリズムを提案する。
提案手法はクラスタ数の知識を必要とせず,既存の最適化手法と異なり,リアルタイムに動作可能である。
さらに,2つの時間的近接点フレームの障害物に一致する楕円型特徴ベクトルを定義する。
本手法は, 回転する障害物を含む静的および動的障害のある環境に適用することができる。
このアルゴリズムを他のクラスタリング手法と比較し,軌道プランナーと組み合わせることで,動的障害が存在する場合,システム全体が未知の環境を効率的に横断できることを示す。 Collision avoidance in the presence of dynamic obstacles in unknown environments is one of the most critical challenges for unmanned systems. In this paper, we present a method that identifies obstacles in terms of ellipsoids to estimate linear and angular obstacle velocities. Our proposed method is based on the idea of any object can be approximately expressed by ellipsoids. To achieve this, we propose a method based on variational Bayesian estimation of Gaussian mixture model, the Kyachiyan algorithm, and a refinement algorithm. Our proposed method does not require knowledge of the number of clusters and can operate in real-time, unlike existing optimization-based methods. In addition, we define an ellipsoid-based feature vector to match obstacles given two timely close point frames. Our method can be applied to any environment with static and dynamic obstacles, including the ones with rotating obstacles. We compare our algorithm with other clustering methods and show that when coupled with a trajectory planner, the overall system can efficiently traverse unknown environments in the presence of dynamic obstacles. | 翻訳日:2022-09-29 18:24:37 公開日:2022-09-28 |
# ディープニューラルネットワークに対するビットフリップ攻撃の評価について A Closer Look at Evaluating the Bit-Flip Attack Against Deep Neural Networks ( http://arxiv.org/abs/2209.14243v1 ) ライセンス: Link先を確認 | Kevin Hector, Mathieu Dumont, Pierre-Alain Moellic, Jean-Max Dutertre | (参考訳) ディープニューラルネットワークモデルは、さまざまなハードウェアプラットフォームに大規模にデプロイされる。
これにより、敵機械学習コミュニティによって広く研究され、標準的な攻撃面を著しく拡張する新たな攻撃ベクトルが出現する。
メモリに格納されたパラメータ(重み)をターゲットとして、モデルのパフォーマンスを劇的に低下させることを目的とした最初の攻撃の1つは、Bit-Flip Attack (BFA)である。
本稿では,BFAに関するいくつかの評価課題を指摘する。
第一に、標準的な脅威モデルにおける敵の予算不足は、特に物理的な攻撃を扱う際に問題となる。
さらに、BFAは臨界変動を示すため、いくつかのトレーニングパラメータの影響とモデルアーキテクチャの重要性について論じる。
この研究は、畳み込みニューラルネットワークと異なる振る舞いを示す完全接続アーキテクチャに対するbfaの影響を初めて提示するものである。
これらの結果は, パラメータベースの攻撃の危険性を適切に評価し, 防御がもたらすロバスト性の実レベルを測定することの重要性を強調した。 Deep neural network models are massively deployed on a wide variety of hardware platforms. This results in the appearance of new attack vectors that significantly extend the standard attack surface, extensively studied by the adversarial machine learning community. One of the first attack that aims at drastically dropping the performance of a model, by targeting its parameters (weights) stored in memory, is the Bit-Flip Attack (BFA). In this work, we point out several evaluation challenges related to the BFA. First of all, the lack of an adversary's budget in the standard threat model is problematic, especially when dealing with physical attacks. Moreover, since the BFA presents critical variability, we discuss the influence of some training parameters and the importance of the model architecture. This work is the first to present the impact of the BFA against fully-connected architectures that present different behaviors compared to convolutional neural networks. These results highlight the importance of defining robust and sound evaluation methodologies to properly evaluate the dangers of parameter-based attacks as well as measure the real level of robustness offered by a defense. | 翻訳日:2022-09-29 18:24:21 公開日:2022-09-28 |
# 局所ナビゲーション問題における深層強化学習法の一般化について On the Generalization of Deep Reinforcement Learning Methods in the Problem of Local Navigation ( http://arxiv.org/abs/2209.14271v1 ) ライセンス: Link先を確認 | Victor R. F. Miranda, Armando A. Neto, Gustavo M. Freitas, Leonardo A. Mozelli | (参考訳) 本稿では,LDARのような限られた範囲の外部受動センサのみを備えた未知の作業空間において,ロボットが目標位置に向かって移動する局所ナビゲーション問題におけるDRLアルゴリズムの適用について検討する。
DRLに基づく衝突回避ポリシーにはいくつかの利点があるが、適切な行動を学ぶ能力がセンサー範囲に限られると、局所的なミニマの影響を受けやすい。
ほとんどのロボットは非構造環境でタスクを実行するため、特に訓練されていないシナリオにおいて、局所的なミニマを回避できる一般的なローカルナビゲーションポリシーを求めることが非常に興味深い。
そこで本研究では,訓練段階で得られた地図情報を組み込んだ新たな報酬機能を提案する。
また、ANNのトレーニングにはSACアルゴリズムを使用し、最先端の文献では他のものよりも効果的であることを示す。
sim-to-sim とsim-to-real の一連の実験により,提案した報酬と SAC は局所最小値と衝突回避率で比較した手法より優れていることを示した。 In this paper, we study the application of DRL algorithms in the context of local navigation problems, in which a robot moves towards a goal location in unknown and cluttered workspaces equipped only with limited-range exteroceptive sensors, such as LiDAR. Collision avoidance policies based on DRL present some advantages, but they are quite susceptible to local minima, once their capacity to learn suitable actions is limited to the sensor range. Since most robots perform tasks in unstructured environments, it is of great interest to seek generalized local navigation policies capable of avoiding local minima, especially in untrained scenarios. To do so, we propose a novel reward function that incorporates map information gained in the training stage, increasing the agent's capacity to deliberate about the best course of action. Also, we use the SAC algorithm for training our ANN, which shows to be more effective than others in the state-of-the-art literature. A set of sim-to-sim and sim-to-real experiments illustrate that our proposed reward combined with the SAC outperforms the compared methods in terms of local minima and collision avoidance. | 翻訳日:2022-09-29 18:24:06 公開日:2022-09-28 |
# マルチスケール拡張畳み込みニューラルネットワークによる画像圧縮センシング Image Compressed Sensing with Multi-scale Dilated Convolutional Neural Network ( http://arxiv.org/abs/2209.13761v1 ) ライセンス: Link先を確認 | Zhifeng Wang, Zhenghui Wang, Chunyan Zeng, Yan Yu, Xiangkui Wan | (参考訳) 深層学習(DL)に基づく圧縮センシング(CS)は,従来のCS法よりも画像再構成の性能向上に有効である。
しかし,既存のDL手法の多くはブロック・バイ・ブロック計測を利用しており,各測定ブロックは別々に復元されている。
さらに、これらの手法の受容野は各層で同じ大きさに設計されており、単一の空間情報のみを収集することができ、再建過程に悪影響を及ぼす。
本稿では,CS計測と再構成のためのMsDCNN(Multiscale Dilated Convolution Neural Network)という新しいフレームワークを提案する。
測定期間中, 完全に畳み込み構造を用い, 入力画像から再構成ネットワークと共同で訓練した訓練された測定ネットワークから, 測定値を直接取得する。
ブロックにカットする必要はなく、効果的にブロック効果を回避できる。
再建期間中に,人間の視覚システムを模倣したマルチスケール特徴抽出(MFE)アーキテクチャを提案し,同じ特徴マップからマルチスケール特徴をキャプチャし,フレームワークの画像特徴抽出能力を向上し,画像再構成の性能を向上させる。
MFEには、マルチスケールの特徴情報を得るために複数の並列畳み込みチャネルがある。
そして、マルチスケール特徴情報を融合し、原画像を高品質に再構成する。
実験の結果,提案手法はPSNRとSSIMの両面で最先端の手法に対して良好に動作することがわかった。 Deep Learning (DL) based Compressed Sensing (CS) has been applied for better performance of image reconstruction than traditional CS methods. However, most existing DL methods utilize the block-by-block measurement and each measurement block is restored separately, which introduces harmful blocking effects for reconstruction. Furthermore, the neuronal receptive fields of those methods are designed to be the same size in each layer, which can only collect single-scale spatial information and has a negative impact on the reconstruction process. This paper proposes a novel framework named Multi-scale Dilated Convolution Neural Network (MsDCNN) for CS measurement and reconstruction. During the measurement period, we directly obtain all measurements from a trained measurement network, which employs fully convolutional structures and is jointly trained with the reconstruction network from the input image. It needn't be cut into blocks, which effectively avoids the block effect. During the reconstruction period, we propose the Multi-scale Feature Extraction (MFE) architecture to imitate the human visual system to capture multi-scale features from the same feature map, which enhances the image feature extraction ability of the framework and improves the performance of image reconstruction. In the MFE, there are multiple parallel convolution channels to obtain multi-scale feature information. Then the multi-scale features information is fused and the original image is reconstructed with high quality. Our experimental results show that the proposed method performs favorably against the state-of-the-art methods in terms of PSNR and SSIM. | 翻訳日:2022-09-29 18:23:33 公開日:2022-09-28 |
# 話者検証によるディープフェイク音声検出 Deepfake audio detection by speaker verification ( http://arxiv.org/abs/2209.14098v1 ) ライセンス: Link先を確認 | Alessandro Pianese and Davide Cozzolino and Giovanni Poggi and Luisa Verdoliva | (参考訳) 近年のディープラーニングの進歩により、非常に現実的な合成音声を生成する高度な生成ツールが存在する。
しかし、このようなツールを悪用することは可能であり、社会に深刻な脅威をもたらす可能性がある。
そのため, 合成音声検出はプレス研究の対象となり, 近年, 様々な検出方法が提案されている。
残念なことに、トレーニング段階では見られないツールによって生成された合成オーディオにはほとんど一般化しないため、現実のシナリオに直面するには適さない。
本研究は,話者の生体特性のみを活用する新しい検出手法を提案し,特定の操作に言及せずに,この問題を克服することを目的とする。
検出器は実データのみに基づいて訓練されるため、一般化は自動的に保証される。
提案手法は,既成話者検証ツールに基づいて実装することができる。
そこで我々は,3つの一般的なテストセット上で,優れた性能,高い一般化能力,高ロバスト性を実現した。 Thanks to recent advances in deep learning, sophisticated generation tools exist, nowadays, that produce extremely realistic synthetic speech. However, malicious uses of such tools are possible and likely, posing a serious threat to our society. Hence, synthetic voice detection has become a pressing research topic, and a large variety of detection methods have been recently proposed. Unfortunately, they hardly generalize to synthetic audios generated by tools never seen in the training phase, which makes them unfit to face real-world scenarios. In this work, we aim at overcoming this issue by proposing a new detection approach that leverages only the biometric characteristics of the speaker, with no reference to specific manipulations. Since the detector is trained only on real data, generalization is automatically ensured. The proposed approach can be implemented based on off-the-shelf speaker verification tools. We test several such solutions on three popular test sets, obtaining good performance, high generalization ability, and high robustness to audio impairment. | 翻訳日:2022-09-29 18:23:11 公開日:2022-09-28 |
# 人気駆動型データ統合 Popularity Driven Data Integration ( http://arxiv.org/abs/2209.14049v1 ) ライセンス: Link先を確認 | Fausto Giunchiglia, Simone Bocca, Mattia Fumagalli, Mayukh Bagchi and Alessio Zamboni | (参考訳) 大規模分析への注目が高まる中、私たちは複数のソースからのデータを統合する必要性に直面しています。
問題は、これらのデータがそのまま再利用できないことだ。
ネットの結果はコストが高く、結果として得られる統合データが再び再利用可能なものにならないという欠点もある。
iTelosは、このプロセスの効果を最小化するための汎用方法論である。
データの特定のセットが再利用されるほど、再利用され、再利用によって変更される可能性が少なくなるため、後方互換性と将来の共有性が向上しつつ、データ全体の前処理コストが削減される。 More and more, with the growing focus on large scale analytics, we are confronted with the need of integrating data from multiple sources. The problem is that these data are impossible to reuse as-is. The net result is high cost, with the further drawback that the resulting integrated data will again be hardly reusable as-is. iTelos is a general purpose methodology aiming at minimizing the effects of this process. The intuition is that data will be treated differently based on their popularity: the more a certain set of data have been reused, the more they will be reused and the less they will be changed across reuses, thus decreasing the overall data preprocessing costs, while increasing backward compatibility and future sharing | 翻訳日:2022-09-29 18:17:21 公開日:2022-09-28 |
# DMAP: 身体を変えることを学ぶための分散型形態的注意ポリシー DMAP: a Distributed Morphological Attention Policy for Learning to Locomote with a Changing Body ( http://arxiv.org/abs/2209.14218v1 ) ライセンス: Link先を確認 | Alberto Silvio Chiappa and Alessandro Marin Vargas and Alexander Mathis | (参考訳) 生物学的および人工的なエージェントは、現実世界の絶え間ない変化に対処する必要がある。
形態的摂動を付加した4つの古典的連続制御環境においてこの問題を研究する。
異なる身体部位の長さと厚さが変化した場合にロコモトを学ぶことは困難であり、その制御方針は、エージェントのバランスと前進を成功させるために形態に適応する必要がある。
固有受容状態に基づく制御ポリシーは、非常に可変なボディ構成ではうまく動作しないが、摂動の学習されたエンコーディングにアクセスする(oracle)エージェントは、かなりよく機能することを示す。
我々は,生物学的にインスパイアされた,注意に基づくポリシネットワークアーキテクチャであるdmapを紹介する。
DMAPは、独立した受容処理、各関節の個々のコントローラとの分散ポリシ、および注意機構を組み合わせて、異なる身体部分から異なるコントローラーへの感覚情報を動的にゲートする。
隠れた)形態情報にアクセスできないにもかかわらず、DMAPはすべての考慮された環境において、全体的な一致またはオラクルエージェントのパフォーマンスを上回る訓練をすることができる。
したがって、生物学的運動制御の原理を実装したDMAPは、困難な感覚運動のタスクを学習するために強い誘導バイアスを与える。
全体として、私たちの仕事は、ロコモーションタスクに挑戦する上で、これらの原則の力を裏付けています。 Biological and artificial agents need to deal with constant changes in the real world. We study this problem in four classical continuous control environments, augmented with morphological perturbations. Learning to locomote when the length and the thickness of different body parts vary is challenging, as the control policy is required to adapt to the morphology to successfully balance and advance the agent. We show that a control policy based on the proprioceptive state performs poorly with highly variable body configurations, while an (oracle) agent with access to a learned encoding of the perturbation performs significantly better. We introduce DMAP, a biologically-inspired, attention-based policy network architecture. DMAP combines independent proprioceptive processing, a distributed policy with individual controllers for each joint, and an attention mechanism, to dynamically gate sensory information from different body parts to different controllers. Despite not having access to the (hidden) morphology information, DMAP can be trained end-to-end in all the considered environments, overall matching or surpassing the performance of an oracle agent. Thus DMAP, implementing principles from biological motor control, provides a strong inductive bias for learning challenging sensorimotor tasks. Overall, our work corroborates the power of these principles in challenging locomotion tasks. | 翻訳日:2022-09-29 18:16:56 公開日:2022-09-28 |
# 時空間交通データ復元のためのパラメータフリー非凸低ランクテンソル補完モデル A Parameter-free Nonconvex Low-rank Tensor Completion Model for Spatiotemporal Traffic Data Recovery ( http://arxiv.org/abs/2209.13786v1 ) ライセンス: Link先を確認 | Yang He, Yuheng Jia, Liyang Hu, Chengchuan An, Zhenbo Lu and Jingxin Xia | (参考訳) 交通データは慢性的に欠落や腐敗に悩まされ、その後のIntelligent Transportation System (ITS) アプリケーションでは精度と実用性が低下する。
トラヒックデータの固有の低ランク性に注目し、多くの研究が低ランクテンソル補完(LRTC)問題として交通データの回復を定式化した。
LRTCにおけるランク最小化の非凸性と離散性のため、既存の手法はランク関数からかなり離れている凸級数に置換するか、多くのパラメータを含む非凸級数に近似する。
本研究では,トラヒックデータ回復のためのパラメータフリー非凸テンソル補完モデル (TC-PFNC) を提案し,このモデルを用いてテンソル代数ランクを近似するログベース緩和項を設計した。
さらに、以前の研究は通常、観測結果が異常なく信頼できると仮定していた。
そこで,tc-pfncをrtc-pfnc(ロバストバージョン)に拡張し,トラヒックデータ異常をモデル化した。
TC-PFNCとRTC-PFNCの数値解を交互方向乗算器法(ADMM)に基づいて精査した。
実世界の4つのトラヒックデータセットで行った広範な実験結果から,提案手法は,不足データと破損データの両方において,他の最先端手法よりも優れていることがわかった。
この論文で使用されたコードは、https://github.com/YoungHe49/T-ITSPFNCで公開されている。 Traffic data chronically suffer from missing and corruption, leading to accuracy and utility reduction in subsequent Intelligent Transportation System (ITS) applications. Noticing the inherent low-rank property of traffic data, numerous studies formulated missing traffic data recovery as a low-rank tensor completion (LRTC) problem. Due to the non-convexity and discreteness of the rank minimization in LRTC, existing methods either replaced rank with convex surrogates that are quite far away from the rank function or approximated rank with nonconvex surrogates involving many parameters. In this study, we proposed a Parameter-Free Non-Convex Tensor Completion model (TC-PFNC) for traffic data recovery, in which a log-based relaxation term was designed to approximate tensor algebraic rank. Moreover, previous studies usually assumed the observations are reliable without any outliers. Therefore, we extended the TC-PFNC to a robust version (RTC-PFNC) by modeling potential traffic data outliers, which can recover the missing value from partial and corrupted observations and remove the anomalies in observations. The numerical solutions of TC-PFNC and RTC-PFNC were elaborated based on the alternating direction multiplier method (ADMM). The extensive experimental results conducted on four real-world traffic data sets demonstrated that the proposed methods outperform other state-of-the-art methods in both missing and corrupted data recovery. The code used in this paper is available at: https://github.com/YoungHe49/T-ITSPFNC. | 翻訳日:2022-09-29 18:14:23 公開日:2022-09-28 |
# ニューラルネットワークの解釈における可変許容因子 Variance Tolerance Factors For Interpreting Neural Networks ( http://arxiv.org/abs/2209.13858v1 ) ライセンス: Link先を確認 | Sichao Li, Amanda Barnard | (参考訳) ブラックボックスモデルは、ディープラーニングタスクに対してのみ結果を提供し、これらの結果の取得方法に関する情報的詳細を欠いている。
本稿では,特徴の重要性をランク付けしてニューラルネットワークを解釈するための分散耐性因子(distribution tolerance factor, vtf)を定義し,その有用性を示すためのベースモデルと特徴モデルからなる新しいアーキテクチャを構築する一般理論を提案する。
2つの特徴重要度ランキング方法と、vtfに基づく特徴選択方法が作成される。
合成、ベンチマーク、および実際のデータセットに関する徹底的な評価が提供される。 Black box models only provide results for deep learning tasks and lack informative details about how these results were obtained. In this paper, we propose a general theory that defines a variance tolerance factor (VTF) to interpret the neural networks by ranking the importance of features and constructing a novel architecture consisting of a base model and feature model to demonstrate its utility. Two feature importance ranking methods and a feature selection method based on the VTF are created. A thorough evaluation on synthetic, benchmark, and real datasets is provided. | 翻訳日:2022-09-29 18:13:55 公開日:2022-09-28 |
# USEEK:unsupervised SE(3)-equivariant 3D Keypoints for Generalizable Manipulation USEEK: Unsupervised SE(3)-Equivariant 3D Keypoints for Generalizable Manipulation ( http://arxiv.org/abs/2209.13864v1 ) ライセンス: Link先を確認 | Zhengrong Xue, Zhecheng Yuan, Jiashun Wang, Xueqian Wang, Yang Gao, Huazhe Xu | (参考訳) ロボットは、一つのオブジェクトのインスタンスで、ただの把持ポーズのデモンストレーションで、任意のポーズでカテゴリ内見えないオブジェクトを操作できるだろうか?
本稿では、カテゴリ内のインスタンス間のアライメントを享受する教師なしSE(3)-equivariant keypoints法であるUSEEKを用いて、一般化可能な操作を行うことにより、この興味深い課題に対処する。
UEEKは教師なしのキーポイント発見とSE(3)-同変キーポイント検出を分離するために教師/学生構造に従う。
useekを使えば、ロボットはカテゴリーレベルのタスク関連オブジェクトフレームを効率的かつ説明可能な方法で推論でき、あらゆるカテゴリー内オブジェクトを任意のポーズから操作できる。
広範にわたる実験を通して,USEEKが生成するキーポイントがリッチセマンティクスを持っていることを実証し,その機能的知識を実証対象から新しいものへ伝達することに成功した。
操作対象の他の表現と比較して、USEEKはカテゴリ内形状のばらつきの大きな面においてより適応的であり、限られたデモンストレーションでより堅牢であり、推論時により効率的である。 Can a robot manipulate intra-category unseen objects in arbitrary poses with the help of a mere demonstration of grasping pose on a single object instance? In this paper, we try to address this intriguing challenge by using USEEK, an unsupervised SE(3)-equivariant keypoints method that enjoys alignment across instances in a category, to perform generalizable manipulation. USEEK follows a teacher-student structure to decouple the unsupervised keypoint discovery and SE(3)-equivariant keypoint detection. With USEEK in hand, the robot can infer the category-level task-relevant object frames in an efficient and explainable manner, enabling manipulation of any intra-category objects from and to any poses. Through extensive experiments, we demonstrate that the keypoints produced by USEEK possess rich semantics, thus successfully transferring the functional knowledge from the demonstration object to the novel ones. Compared with other object representations for manipulation, USEEK is more adaptive in the face of large intra-category shape variance, more robust with limited demonstrations, and more efficient at inference time. | 翻訳日:2022-09-29 18:08:17 公開日:2022-09-28 |
# 視覚言語検索のためのペア類似度最適化の統一損失 Unified Loss of Pair Similarity Optimization for Vision-Language Retrieval ( http://arxiv.org/abs/2209.13869v1 ) ライセンス: Link先を確認 | Zheng Li, Caili Guo, Xin Wang, Zerun Feng, Jenq-Neng Hwang, Zhongtian Du | (参考訳) 視覚言語検索によく使われる2つの損失関数、すなわち三重項損失と対照的な学習損失があり、どちらも本質的に負の対と正の対の類似性の違いを最小化している。
より具体的には、既存の検索モデルにおいて識別能力を向上させるために広く使われている硬い負のマイニング(triplet-hn)による三重項損失は、訓練において局所的なミニマムに陥りやすい。
一方、視覚言語事前学習で広く用いられている視覚言語コントラスト学習損失(VLC)は、視覚言語検索において顕著な性能向上が示されているが、小さなデータセット上でのVLCによる微調整の性能は十分ではない。
本稿では、視覚言語検索のためのペア類似度最適化の統一的損失を提案し、既存の損失関数を理解する強力なツールを提供する。
我々の統合的損失は、VLCのハードサンプルマイニング戦略を含み、類似性分離を改善するために三重項損失が使用するマージンを導入する。
その結果,Triplet-HN と VLC は共に統合損失の特別な形態であることがわかった。
Triplet-HNと比較して、我々の統合損失は高速収束速度を持つ。
VLCと比較して、統一的な損失はより差別的であり、下流の微調整タスクにおいてより良い一般化を提供することができる。
画像テキストおよびビデオテキスト検索ベンチマークによる実験では,統一的損失が最先端検索モデルの性能を著しく向上できることが示されている。 There are two popular loss functions used for vision-language retrieval, i.e., triplet loss and contrastive learning loss, both of them essentially minimize the difference between the similarities of negative pairs and positive pairs. More specifically, Triplet loss with Hard Negative mining (Triplet-HN), which is widely used in existing retrieval models to improve the discriminative ability, is easy to fall into local minima in training. On the other hand, Vision-Language Contrastive learning loss (VLC), which is widely used in the vision-language pre-training, has been shown to achieve significant performance gains on vision-language retrieval, but the performance of fine-tuning with VLC on small datasets is not satisfactory. This paper proposes a unified loss of pair similarity optimization for vision-language retrieval, providing a powerful tool for understanding existing loss functions. Our unified loss includes the hard sample mining strategy of VLC and introduces the margin used by the triplet loss for better similarity separation. It is shown that both Triplet-HN and VLC are special forms of our unified loss. Compared with the Triplet-HN, our unified loss has a fast convergence speed. Compared with the VLC, our unified loss is more discriminative and can provide better generalization in downstream fine-tuning tasks. Experiments on image-text and video-text retrieval benchmarks show that our unified loss can significantly improve the performance of the state-of-the-art retrieval models. | 翻訳日:2022-09-29 18:07:58 公開日:2022-09-28 |
# 逆レンダリングのための一般散乱位相関数 A General Scattering Phase Function for Inverse Rendering ( http://arxiv.org/abs/2209.13875v1 ) ライセンス: Link先を確認 | Thanh-Trung Ngo and Hajime Nagahara | (参考訳) 均一な半透明材料の光散乱をモデル化し、散乱パラメータを推定する問題に取り組む。
散乱位相関数は、散乱放射の分布に影響を与えるパラメータの1つである。
これは実際にモデル化される最も複雑で困難なパラメータであり、経験的位相関数は通常使用される。
経験的位相関数(ヘニー・グリーンスタイン(HG)相関数やその修正相関数など)は、通常、特定の散乱材料に限られる。
この制限は、対象物質が一般に未知である逆レンダリング問題に対する懸念を引き起こす。
このような状況では、より一般的な位相関数が好ましい。
ルジャンドル多項式 \cite{Fowler 1983} のような基底を用いた多項式形式にそのような一般位相関数が存在するが、この位相関数による逆レンダリングは単純ではない。
これは基底多項式がどこかで負であり、位相函数は不可能であるからである。
本研究では,この問題を回避できる新しい一般位相関数と,この位相関数を用いた逆レンダリングアプリケーションを提案する。
提案した位相関数は三重散乱理論をモデルとした幅広い材料で正に評価された。
シミュレーションおよび実世界の実験により, 位相関数を用いた散乱パラメータの推定を行った。 We tackle the problem of modeling light scattering in homogeneous translucent material and estimating its scattering parameters. A scattering phase function is one of such parameters which affects the distribution of scattered radiation. It is the most complex and challenging parameter to be modeled in practice, and empirical phase functions are usually used. Empirical phase functions (such as Henyey-Greenstein (HG) phase function or its modified ones) are usually presented and limited to a specific range of scattering materials. This limitation raises concern for an inverse rendering problem where the target material is generally unknown. In such a situation, a more general phase function is preferred. Although there exists such a general phase function in the polynomial form using a basis such as Legendre polynomials \cite{Fowler1983}, inverse rendering with this phase function is not straightforward. This is because the base polynomials may be negative somewhere, while a phase function cannot. This research presents a novel general phase function that can avoid this issue and an inverse rendering application using this phase function. The proposed phase function was positively evaluated with a wide range of materials modeled with Mie scattering theory. The scattering parameters estimation with the proposed phase function was evaluated with simulation and real-world experiments. | 翻訳日:2022-09-29 18:07:32 公開日:2022-09-28 |
# 3次元ニューラルスカルプティング(DNS):ニューラルサイン付き距離関数の編集 3D Neural Sculpting (3DNS): Editing Neural Signed Distance Functions ( http://arxiv.org/abs/2209.13971v1 ) ライセンス: Link先を確認 | Petros Tzathas, Petros Maragos, Anastasios Roussos | (参考訳) 近年、符号付き距離を符号化するニューラルネットワークによる暗黙の表面表現が人気を集め、様々なタスク(例えば、形状表現、形状再構成、学習形態先行)で最先端の結果を得た。
しかし、ポリゴンメッシュのような従来の形状表現とは対照的に、暗黙の表現は容易に編集できず、この問題に対処しようとする既存の研究は極めて限定的である。
本研究では,ニューラルネットワークで表現された符号付き距離関数を対話的に効率的に編集する手法を提案する。
メッシュのための3D彫刻ソフトウェアにインスパイアされた私たちは、直感的で将来彫刻家やデジタルアーティストが利用できるブラシベースのフレームワークを使用しています。
所望の表面変形を局所化するために,そのコピーを用いてネットワークを制御し,前述した表面をサンプリングする。
本稿では,インタラクティブな表面サンプリングとネットワーク重み付けの効率的な適応と合わせて,彫刻スタイルの表面編集をシミュレートする新しいフレームワークを提案する。
本手法を様々な3次元オブジェクトおよび様々な編集条件下で定性的に定量的に評価する。
その結果,提案手法は,所望の編集を行うと同時に,相互作用領域の外側の幾何を保存しながら,高い精度が得られることがわかった。 In recent years, implicit surface representations through neural networks that encode the signed distance have gained popularity and have achieved state-of-the-art results in various tasks (e.g. shape representation, shape reconstruction, and learning shape priors). However, in contrast to conventional shape representations such as polygon meshes, the implicit representations cannot be easily edited and existing works that attempt to address this problem are extremely limited. In this work, we propose the first method for efficient interactive editing of signed distance functions expressed through neural networks, allowing free-form editing. Inspired by 3D sculpting software for meshes, we use a brush-based framework that is intuitive and can in the future be used by sculptors and digital artists. In order to localize the desired surface deformations, we regulate the network by using a copy of it to sample the previously expressed surface. We introduce a novel framework for simulating sculpting-style surface edits, in conjunction with interactive surface sampling and efficient adaptation of network weights. We qualitatively and quantitatively evaluate our method in various different 3D objects and under many different edits. The reported results clearly show that our method yields high accuracy, in terms of achieving the desired edits, while at the same time preserving the geometry outside the interaction areas. | 翻訳日:2022-09-29 18:07:14 公開日:2022-09-28 |
# 冠動脈造影画像解析における最近のアプローチ A Review of Modern Approaches for Coronary Angiography Imaging Analysis ( http://arxiv.org/abs/2209.13997v1 ) ライセンス: Link先を確認 | Maxim Popov, Temirgali Aimyshev, Eldar Ismailov, Ablay Bulegenov, Siamac Fazli | (参考訳) 慢性心疾患(Corronary Heart Disease,CHD)は、現代における死因の一つ。
CHDの診断・治療のための現代の分析ツールの開発は、科学界から大きな注目を集めている。
セグメンテーションネットワークや検出器といった深層学習に基づくアルゴリズムは、患者のアンギオグラムのタイムリーな分析を提供することで、医療専門家を支援する上で重要な役割を果たす。
本稿では,CHDの診断と治療における「金の標準」と考えられるX線冠動脈造影(XCA)に焦点を当てた。
まず,XCA画像の公開データセットについて述べる。
次に、画像前処理の古典的・近代的な技術について概観する。
さらに,入力品質の重要な要因である共通フレーム選択手法について考察し,モデル性能について考察した。
以下の2章では,最新の血管分節と狭窄検出ネットワークについて論じ,最後には開放的問題と現状の限界について論じる。 Coronary Heart Disease (CHD) is a leading cause of death in the modern world. The development of modern analytical tools for diagnostics and treatment of CHD is receiving substantial attention from the scientific community. Deep learning-based algorithms, such as segmentation networks and detectors, play an important role in assisting medical professionals by providing timely analysis of a patient's angiograms. This paper focuses on X-Ray Coronary Angiography (XCA), which is considered to be a "gold standard" in the diagnosis and treatment of CHD. First, we describe publicly available datasets of XCA images. Then, classical and modern techniques of image preprocessing are reviewed. In addition, common frame selection techniques are discussed, which are an important factor of input quality and thus model performance. In the following two chapters we discuss modern vessel segmentation and stenosis detection networks and, finally, open problems and current limitations of the current state-of-the-art. | 翻訳日:2022-09-29 18:06:50 公開日:2022-09-28 |
# 可変場条件下における視覚に基づく作物の作付けナビゲーション Vision based Crop Row Navigation under Varying Field Conditions in Arable Fields ( http://arxiv.org/abs/2209.14003v1 ) ライセンス: Link先を確認 | Rajitha de Silva, Grzegorz Cielniak, Junfeng Gao | (参考訳) 正確な作物列の検出は、実世界のアーラブルフィールドに存在する様々なフィールド条件によってしばしば挑戦される。
伝統的な色に基づくセグメンテーションは、このようなバリエーションすべてに対応できない。
農業環境における包括的なデータセットの欠如は、研究者が作物の列を検出する堅牢なセグメンテーションモデルを開発するのを妨げている。
そこで本研究では,サトウキビとトウモロコシの11種類の畑種を用いた作物列検出データセットを提案する。
また,作物列フィールドにおける視覚サーボのための新しい作物列検出アルゴリズムを提案する。
本アルゴリズムは, 耕作列, 雑草の有無, 不連続性, 成長段階, 路面電車, 影, 光レベルなど, 様々な条件下で作物列を検出する。
本手法は,ハスキーロボットの前面カメラからのRGB画像のみを用いて,作物列の予測を行う。
本手法は,古典色に基づく作物列検出基準を上回った。
群落間空間における雑草の存在と作列の不連続性は,作列検出アルゴリズムにおいて最も困難なフィールド条件であった。
本手法は,収穫行の終端を検知し,収穫行の終端に達すると,ロボットをヘッドランドエリアへ移動させる。 Accurate crop row detection is often challenged by the varying field conditions present in real-world arable fields. Traditional colour based segmentation is unable to cater for all such variations. The lack of comprehensive datasets in agricultural environments limits the researchers from developing robust segmentation models to detect crop rows. We present a dataset for crop row detection with 11 field variations from Sugar Beet and Maize crops. We also present a novel crop row detection algorithm for visual servoing in crop row fields. Our algorithm can detect crop rows against varying field conditions such as curved crop rows, weed presence, discontinuities, growth stages, tramlines, shadows and light levels. Our method only uses RGB images from a front-mounted camera on a Husky robot to predict crop rows. Our method outperformed the classic colour based crop row detection baseline. Dense weed presence within inter-row space and discontinuities in crop rows were the most challenging field conditions for our crop row detection algorithm. Our method can detect the end of the crop row and navigate the robot towards the headland area when it reaches the end of the crop row. | 翻訳日:2022-09-29 18:06:33 公開日:2022-09-28 |
# 3層サンプリングとパノプティカル表現を用いた都市規模インクリメンタルニューラルマッピング City-scale Incremental Neural Mapping with Three-layer Sampling and Panoptic Representation ( http://arxiv.org/abs/2209.14072v1 ) ライセンス: Link先を確認 | Yongliang Shi, Runyi Yang, Pengfei Li, Zirui Wu, Hao Zhao, Guyue Zhou | (参考訳) ニューラルな暗黙の表現は、表現力があり、連続的でコンパクトであるため、最近ロボットコミュニティから多くの注目を集めている。
しかし、疎LiDAR入力に基づく都市規模インクリメンタルな濃密マッピングは、まだ未探索の課題である。
この目的のために,我々は,環境レベルとインスタンスレベルの両方のモデリングからなるpanoptic表現を用いた,最初の都市規模のインクリメンタルニューラルマッピングシステムの構築に成功した。
疎いLiDAR点雲のストリームが与えられると、3D座標を符号付き距離場(SDF)値にマッピングする動的生成モデルを維持する。
都市空間の異なるレベルにおける幾何学的情報を表現することの難しさに対処するために,グローバル,ローカル,および近地領域を動的にサンプリングする3層サンプリング戦略を提案する。
一方、高忠実度マッピングを実現するために、幾何学的詳細をよりよくモデル化するためにカテゴリ固有事前が導入され、汎視表現に繋がる。
本研究では,semantickittiデータセットの評価と,新たに提案する3層サンプリング戦略とパンオプティカル表現の意義を定量的および定性的に検証した。
コードとデータは公開される予定だ。 Neural implicit representations are drawing a lot of attention from the robotics community recently, as they are expressive, continuous and compact. However, city-scale incremental implicit dense mapping based on sparse LiDAR input is still an under-explored challenge. To this end,we successfully build the first city-scale incremental neural mapping system with a panoptic representation that consists of both environment-level and instance-level modelling. Given a stream of sparse LiDAR point cloud, it maintains a dynamic generative model that maps 3D coordinates to signed distance field (SDF) values. To address the difficulty of representing geometric information at different levels in city-scale space, we propose a tailored three-layer sampling strategy to dynamically sample the global, local and near-surface domains. Meanwhile, to realize high fidelity mapping, category-specific prior is introduced to better model the geometric details, leading to a panoptic representation. We evaluate on the public SemanticKITTI dataset and demonstrate the significance of the newly proposed three-layer sampling strategy and panoptic representation, using both quantitative and qualitative results. Codes and data will be publicly available. | 翻訳日:2022-09-29 18:06:18 公開日:2022-09-28 |
# 重み付きコントラストハッシュ Weighted Contrastive Hashing ( http://arxiv.org/abs/2209.14099v1 ) ライセンス: Link先を確認 | Jiaguo Yu, Huming Qiu, Dubing Chen, Haofeng Zhang | (参考訳) 教師なしハッシュの開発は、最近の一般的なコントラスト学習パラダイムによって進められている。
しかし,(1)グローバル画像表現に基づくデータ類似度マイニングの不足,(2)データ拡張によるハッシュコード意味喪失などにより,従来のコントラスト学習に基づく研究は妨げられている。
本稿では,これら2つの問題を解決するための一歩を踏み出すために,重み付き対向ハッシュ法(wch)を提案する。
コントラスト増強時の画像構造の欠如に起因するネットワーク特徴における情報非対称性の問題を軽減するために,新たな相互注意モジュールを導入する。
さらに,画像間の詳細な意味関係,すなわち,複数のパッチに分割し,パッチ間の類似度を計算する。
奥行き画像関係を反映した集約重み付き類似度を蒸留することにより、蒸留損失を伴うハッシュコード学習が容易になり、検索性能が向上する。
大規模な実験により、提案されたWCHは既存の教師なしハッシュ法を3つのベンチマークデータセットで大幅に上回っていることが示された。 The development of unsupervised hashing is advanced by the recent popular contrastive learning paradigm. However, previous contrastive learning-based works have been hampered by (1) insufficient data similarity mining based on global-only image representations, and (2) the hash code semantic loss caused by the data augmentation. In this paper, we propose a novel method, namely Weighted Contrative Hashing (WCH), to take a step towards solving these two problems. We introduce a novel mutual attention module to alleviate the problem of information asymmetry in network features caused by the missing image structure during contrative augmentation. Furthermore, we explore the fine-grained semantic relations between images, i.e., we divide the images into multiple patches and calculate similarities between patches. The aggregated weighted similarities, which reflect the deep image relations, are distilled to facilitate the hash codes learning with a distillation loss, so as to obtain better retrieval performance. Extensive experiments show that the proposed WCH significantly outperforms existing unsupervised hashing methods on three benchmark datasets. | 翻訳日:2022-09-29 18:05:55 公開日:2022-09-28 |
# 画像超解像のためのマルチスケール注意ネットワーク Multi-scale Attention Network for Image Super-Resolution ( http://arxiv.org/abs/2209.14145v1 ) ライセンス: Link先を確認 | Yan Wang, Yusen Li, Gang Wang, and Xiaoguang Liu | (参考訳) カーネルの大規模な分解とアテンション機構を活用することで、畳み込みニューラルネットワーク(CNN)は多くのハイレベルコンピュータビジョンタスクにおいてトランスフォーマーベースの手法と競合することができる。
しかし、長距離モデリングの利点により、自己注意型変圧器は依然として超解像度タスクを含む低レベルの視界を支配している。
本稿では、畳み込みSRネットワークの性能向上を図るため、MLKAとGSAUからなるCNNベースのマルチスケールアテンションネットワーク(MAN)を提案する。
mlka内では、lkaを多スケールおよびゲートスキームで修正し、様々な粒度レベルで豊富な注意マップを取得することにより、グローバルおよびローカル情報を統合し、潜在的なブロッキングアーティファクトを回避する。
GSAUでは、不要な線形層を除去し、情報的空間文脈を集約するためにゲート機構と空間的注意を統合する。
設計の有効性を確認するため,MLKAとGSAUの異なる数のMLKAとGSAUを単純に積み重ねることで,MANを複数の複雑度で評価する。
実験結果から,我々のMANは,最先端の性能と計算とのトレードオフを様々に達成できることが示された。
コードはhttps://github.com/icandle/man.comから利用できる。 By exploiting large kernel decomposition and attention mechanisms, convolutional neural networks (CNN) can compete with transformer-based methods in many high-level computer vision tasks. However, due to the advantage of long-range modeling, the transformers with self-attention still dominate the low-level vision, including the super-resolution task. In this paper, we propose a CNN-based multi-scale attention network (MAN), which consists of multi-scale large kernel attention (MLKA) and a gated spatial attention unit (GSAU), to improve the performance of convolutional SR networks. Within our MLKA, we rectify LKA with multi-scale and gate schemes to obtain the abundant attention map at various granularity levels, therefore jointly aggregating global and local information and avoiding the potential blocking artifacts. In GSAU, we integrate gate mechanism and spatial attention to remove the unnecessary linear layer and aggregate informative spatial context. To confirm the effectiveness of our designs, we evaluate MAN with multiple complexities by simply stacking different numbers of MLKA and GSAU. Experimental results illustrate that our MAN can achieve varied trade-offs between state-of-the-art performance and computations. Code is available at https://github.com/icandle/MAN. | 翻訳日:2022-09-29 18:05:37 公開日:2022-09-28 |
# 2次元位相コントラスト心筋磁気共鳴画像の自動品質制御解析 Automated Quality Controlled Analysis of 2D Phase Contrast Cardiovascular Magnetic Resonance Imaging ( http://arxiv.org/abs/2209.14212v1 ) ライセンス: Link先を確認 | Emily Chan, Ciaran O'Hanlon, Carlota Asegurado Marquez, Marwenie Petalcorin, Jorge Mariscal-Harana, Haotian Gu, Raymond J. Kim, Robert M. Judd, Phil Chowienczyk, Julia A. Schnabel, Reza Razavi, Andrew P. King, Bram Ruijsink, Esther Puyol-Ant\'on | (参考訳) 位相コントラスト心磁気共鳴画像(PC-CMR)を用いた血流解析により、心血管機能評価に使用される重要なパラメータの定量化が可能となる。
この分析の重要な部分は、流れの定量化に影響を与える人工物を検出するための正しいCMRビューと品質制御(QC)を特定することである。
本稿では,2つの逐次畳み込みニューラルネットワークを用いた全CMRスキャンからのフローの完全自動解析とQCステップ,次いで自動大動脈と肺動脈セグメンテーションによるキーフローパラメータの定量化を提案する。
ビュー分類では0.958および0.914の精度値が得られた。
diceスコアは$0.969で、bland-altmanプロットは手動と自動的なピークフロー値に優れた一致を示した。
さらに,外部検証データセット上でパイプラインをテストした結果,パイプラインの堅牢性が示された。
本研究は,986例からなる多施設臨床データを用いて実施し,このパイプラインを臨床現場で活用する可能性を示唆した。 Flow analysis carried out using phase contrast cardiac magnetic resonance imaging (PC-CMR) enables the quantification of important parameters that are used in the assessment of cardiovascular function. An essential part of this analysis is the identification of the correct CMR views and quality control (QC) to detect artefacts that could affect the flow quantification. We propose a novel deep learning based framework for the fully-automated analysis of flow from full CMR scans that first carries out these view selection and QC steps using two sequential convolutional neural networks, followed by automatic aorta and pulmonary artery segmentation to enable the quantification of key flow parameters. Accuracy values of 0.958 and 0.914 were obtained for view classification and QC, respectively. For segmentation, Dice scores were $>$0.969 and the Bland-Altman plots indicated excellent agreement between manual and automatic peak flow values. In addition, we tested our pipeline on an external validation data set, with results indicating good robustness of the pipeline. This work was carried out using multivendor clinical data consisting of 986 cases, indicating the potential for the use of this pipeline in a clinical setting. | 翻訳日:2022-09-29 18:05:15 公開日:2022-09-28 |
# オープンRANアーキテクチャを用いた5Gネットワークにおけるトラヒックステアリングのためのプログラマブルでカスタマイズ可能なインテリジェンス Programmable and Customized Intelligence for Traffic Steering in 5G Networks Using Open RAN Architectures ( http://arxiv.org/abs/2209.14171v1 ) ライセンス: Link先を確認 | Andrea Lacava, Michele Polese, Rajarajan Sivaraj, Rahul Soundrarajan, Bhawani Shanker Bhati, Tarunjeet Singh, Tommaso Zugno, Francesca Cuomo, Tommaso Melodia | (参考訳) 5gおよびbeyond mobile networksは、前例のない規模で異種ユースケースをサポートするため、個々のユーザのニーズに合わせてカスタマイズされたネットワーク機能の自動制御と最適化を要求する。
無線アクセスネットワーク(RAN)のこのようなきめ細かい制御は、現在のセルアーキテクチャでは不可能である。
このギャップを埋めるために、Open RANパラダイムとその仕様は、クローズドループ制御を可能にし、ユーザレベルでRANのインテリジェントな最適化を提供する抽象化を備えたオープンアーキテクチャを導入している。
これは、ネットワークの端にある、リアルタイムに近いRAN Intelligent Controller(近RT RIC)上にデプロイされるカスタムRAN制御アプリケーション(xApps)を通して得られる。
これらの前提にもかかわらず、現在、研究コミュニティはデータ駆動型xAppsを構築し、効果的なAIトレーニングのための大規模なデータセットを作成するためのサンドボックスを欠いている。
本稿では,ns-3上で実世界の実運用レベルの近RT RICと3GPPベースのシミュレーション環境を統合したソフトウェアフレームワークであるns-O-RANを導入することにより,xAppsの開発とユーザレベルでの学習駆動制御ポリシの大規模データ収集とテストの自動化を実現する。
さらに,最初のユーザ固有のo-ranトラフィックステアリング(ts)インテリジェントハンドオーバフレームワークを提案する。
Random Ensemble Mixtureと最先端の畳み込みニューラルネットワークアーキテクチャを組み合わせることで、ネットワークの各ユーザに対して、サービスベースステーションを最適に割り当てる。
我々のTS xAppは、ns-O-RANが収集した4000万以上のデータポイントでトレーニングされ、ほぼRT RIC上で動作し、ベースステーションを制御する。
我々は、xAppベースのハンドオーバにより、従来のハンドオーバヒューリスティックよりも平均50%のスループットとスペクトル効率が向上し、モビリティのオーバーヘッドが軽減されることを示す。 5G and beyond mobile networks will support heterogeneous use cases at an unprecedented scale, thus demanding automated control and optimization of network functionalities customized to the needs of individual users. Such fine-grained control of the Radio Access Network (RAN) is not possible with the current cellular architecture. To fill this gap, the Open RAN paradigm and its specification introduce an open architecture with abstractions that enable closed-loop control and provide data-driven, and intelligent optimization of the RAN at the user level. This is obtained through custom RAN control applications (i.e., xApps) deployed on near-real-time RAN Intelligent Controller (near-RT RIC) at the edge of the network. Despite these premises, as of today the research community lacks a sandbox to build data-driven xApps, and create large-scale datasets for effective AI training. In this paper, we address this by introducing ns-O-RAN, a software framework that integrates a real-world, production-grade near-RT RIC with a 3GPP-based simulated environment on ns-3, enabling the development of xApps and automated large-scale data collection and testing of Deep Reinforcement Learning-driven control policies for the optimization at the user-level. In addition, we propose the first user-specific O-RAN Traffic Steering (TS) intelligent handover framework. It uses Random Ensemble Mixture, combined with a state-of-the-art Convolutional Neural Network architecture, to optimally assign a serving base station to each user in the network. Our TS xApp, trained with more than 40 million data points collected by ns-O-RAN, runs on the near-RT RIC and controls its base stations. We evaluate the performance on a large-scale deployment, showing that the xApp-based handover improves throughput and spectral efficiency by an average of 50% over traditional handover heuristics, with less mobility overhead. | 翻訳日:2022-09-29 17:59:49 公開日:2022-09-28 |
# WavText5KとCLAPによる音声検索 Audio Retrieval with WavText5K and CLAP Training ( http://arxiv.org/abs/2209.14275v1 ) ライセンス: Link先を確認 | Soham Deshmukh, Benjamin Elizalde, Huaming Wang | (参考訳) 音声テキスト検索は自然言語クエリを受け取り、データベース内の関連するオーディオファイルを取得する。
逆に、テキスト音声検索は、音声ファイルをクエリとして、関連する自然言語記述を取得する。
1つの音声キャプションデータセットを用いた検索システムはほとんどが、複数のデータセットを用いたトレーニングのメリットの評価は未検討である。
さらに,検索システムは,数秒から数分間の可変長の音声内容を記述する精巧な文間のアライメントを学習する必要がある。
本研究では,Web音声テキストペアの新しいコレクションと検索のための新しいフレームワークを提案する。
まず、WavText5Kと呼ぶ約5万のWebオーディオテキストペアの新しいコレクションを提供する。
検索システムのトレーニングに使用すると、WavText5Kは他のオーディオキャプションデータセットよりもパフォーマンスが向上した。
第2に,テキストエンコーダと2つのオーディオエンコーダ,およびコントラスト学習目標を用いて,言語と音声コンテンツを接続することを学ぶ。
両オーディオエンコーダの組み合わせは、可変長オーディオの処理に役立つ。
この2つのコントリビューションは、Audio-Audio検索におけるAudioCapsとClothoのアートパフォーマンスを2%と16%、Audio-Text検索を6%と23%で上回った。 Audio-Text retrieval takes a natural language query to retrieve relevant audio files in a database. Conversely, Text-Audio retrieval takes an audio file as a query to retrieve relevant natural language descriptions. Most of the literature train retrieval systems with one audio captioning dataset, but evaluating the benefit of training with multiple datasets is underexplored. Moreover, retrieval systems have to learn the alignment between elaborated sentences describing audio content of variable length ranging from a few seconds to several minutes. In this work, we propose a new collection of web audio-text pairs and a new framework for retrieval. First, we provide a new collection of about five thousand web audio-text pairs that we refer to as WavText5K. When used to train our retrieval system, WavText5K improved performance more than other audio captioning datasets. Second, our framework learns to connect language and audio content by using a text encoder, two audio encoders, and a contrastive learning objective. Combining both audio encoders helps to process variable length audio. The two contributions beat state of the art performance for AudioCaps and Clotho on Text-Audio retrieval by a relative 2% and 16%, and Audio-Text retrieval by 6% and 23%. | 翻訳日:2022-09-29 17:59:16 公開日:2022-09-28 |
# AAAI-FSS 2022「AI-HRIシンポジウム」の開催報告 Proceedings of the AI-HRI Symposium at AAAI-FSS 2022 ( http://arxiv.org/abs/2209.14292v1 ) ライセンス: Link先を確認 | Zhao Han, Emmanuel Senft, Muneeb I. Ahmad, Shelly Bagchi, Amir Yazdani, Jason R. Wilson, Boyoung Kim, Ruchen Wen, Justin W. Hart, Daniel Hern\'andez Garc\'ia, Matteo Leonetti, Ross Mead, Reuth Mirsky, Ahalya Prabhakar, Megan L. Zimmerman | (参考訳) The Artificial Intelligence (AI) for Human-Robot Interaction (HRI) Symposiumは、2014年以来、HRIを対象としたAI理論と手法に関する議論とコラボレーションの場として成功している。
今年、2021年のAI-HRIコミュニティの過去10年間の成果をレビューした後、私たちは、AI-HRIの将来を探求する、というビジョン的なテーマに集中しています。
そこで、私たちはBlue Sky Ideasトラックを追加し、AIとHRIの交差点で将来の研究について前方から検討した。
いつものように、ai/hriに関するあらゆるトピックに関する貢献に感謝し、この成長するコミュニティに参加したい新しい研究者を歓迎します。
過去のシンポジウムの成功により、AI-HRIは様々なコミュニティや問題に影響を与え、最近のトレンドや関心事における議論の先駆けとなった。
今年のAI-HRI Fall Symposiumは、世界中の研究者と実践者が集まって、大学、政府、産業研究所を代表することを目的としている。
そうすることで、この分野の研究を加速し、技術移行とユーザ導入を支援し、我々のグループと研究の将来的な方向性を判断したいと思っています。 The Artificial Intelligence (AI) for Human-Robot Interaction (HRI) Symposium has been a successful venue of discussion and collaboration on AI theory and methods aimed at HRI since 2014. This year, after a review of the achievements of the AI-HRI community over the last decade in 2021, we are focusing on a visionary theme: exploring the future of AI-HRI. Accordingly, we added a Blue Sky Ideas track to foster a forward-thinking discussion on future research at the intersection of AI and HRI. As always, we appreciate all contributions related to any topic on AI/HRI and welcome new researchers who wish to take part in this growing community. With the success of past symposia, AI-HRI impacts a variety of communities and problems, and has pioneered the discussions in recent trends and interests. This year's AI-HRI Fall Symposium aims to bring together researchers and practitioners from around the globe, representing a number of university, government, and industry laboratories. In doing so, we hope to accelerate research in the field, support technology transition and user adoption, and determine future directions for our group and our research. | 翻訳日:2022-09-29 17:58:53 公開日:2022-09-28 |
# SDO/HMIベクトル磁気データを用いた統計的・機械学習手法による太陽フレア指数予測 Solar Flare Index Prediction Using SDO/HMI Vector Magnetic Data Products with Statistical and Machine Learning Methods ( http://arxiv.org/abs/2209.13779v1 ) ライセンス: Link先を確認 | Hewei Zhang, Qin Li, Yanxing Yang, Ju Jing, Jason T.L. Wang, Haimin Wang, Zuofeng Shang | (参考訳) 太陽フレア、特にm型およびx型フレアはしばしばコロナ質量放出(cmes)と関連している。
それらは、地球近傍の環境に大きな影響を与える宇宙の気象効果の最も重要な源である。
したがって、フレア(特にM型とX型)を予測し、破壊的で有害な結果を軽減することが不可欠である。
本稿では,arのフレア生産性を一定時間内における異なるクラスフレアの数を考慮して定量化するar's flare index(fi)の予測に,いくつかの統計的・機械学習的アプローチを導入する。
具体的には、2010年5月から2017年12月までに、太陽ディスクに563個のARが出現した。
ソーラー・ダイナミクス・オブザーバトリー(SDO)に搭載されたHelioseismic and Magnetic Imager(HMI)のSARP(Space-weather HMI Active Region Patches)によって提供された25の磁気パラメータは、ARに格納されたコロナ磁気エネルギーをプロキシで特徴付け、予測器として使用される。
これらの鋭いパラメータとarsのfiとの関係を機械学習アルゴリズム(スプライン回帰)と再サンプリング法(ガウス雑音を伴う回帰のための合成的マイノリティオーバーサンプリング手法、smogn)を用いて検討した。
確立された関係に基づいて、1日以内に所定のARに対するFIの価値を予測することができる。
他の4つの一般的な機械学習アルゴリズムと比較して、この手法はfi予測の精度を向上させる。
さらに,9つの異なる機械学習手法によって描画されるランクから算出したボルダ数法により,SHARPパラメータの重要性をソートする。 Solar flares, especially the M- and X-class flares, are often associated with coronal mass ejections (CMEs). They are the most important sources of space weather effects, that can severely impact the near-Earth environment. Thus it is essential to forecast flares (especially the M-and X-class ones) to mitigate their destructive and hazardous consequences. Here, we introduce several statistical and Machine Learning approaches to the prediction of the AR's Flare Index (FI) that quantifies the flare productivity of an AR by taking into account the numbers of different class flares within a certain time interval. Specifically, our sample includes 563 ARs appeared on solar disk from May 2010 to Dec 2017. The 25 magnetic parameters, provided by the Space-weather HMI Active Region Patches (SHARP) from Helioseismic and Magnetic Imager (HMI) on board the Solar Dynamics Observatory (SDO), characterize coronal magnetic energy stored in ARs by proxy and are used as the predictors. We investigate the relationship between these SHARP parameters and the FI of ARs with a machine-learning algorithm (spline regression) and the resampling method (Synthetic Minority Over-Sampling Technique for Regression with Gaussian Noise, short by SMOGN). Based on the established relationship, we are able to predict the value of FIs for a given AR within the next 1-day period. Compared with other 4 popular machine learning algorithms, our methods improve the accuracy of FI prediction, especially for large FI. In addition, we sort the importance of SHARP parameters by Borda Count method calculated from the ranks that are rendered by 9 different machine learning methods. | 翻訳日:2022-09-29 17:58:35 公開日:2022-09-28 |
# 機能キャリブレーションによる非同期・誤りやすい縦断データの学習 Learning Asynchronous and Error-prone Longitudinal Data via Functional Calibration ( http://arxiv.org/abs/2209.13807v1 ) ライセンス: Link先を確認 | Xinyue Chang, Yehua Li, Yi Li | (参考訳) 多くの縦方向の設定では、時間変化の共変量は応答と同時に測定されず、しばしば測定誤差が生じる。
ナイーブ・ラストオブザーブ・キャリードフォワード法は推定バイアスを負い、既存のカーネルベースの手法は収束率の低下と大きな変動に苦しむ。
これらの課題に対処するために,計測誤差を伴うスパース関数データに基づいて,経時的共変過程を効率的に学習する機能キャリブレーション手法を提案する。
機能的主成分分析から派生した本手法では,観測された非同期およびエラーを起こしやすい共変量から,観測されていない同期共変値の校正を行う。
時間不変係数を持つ回帰に対しては, この推定器は漸近的に偏りが無く, ルートn一貫性があり, 漸近的に正常である。
いずれの場合においても, 推定器は既存の手法よりも漸近的特性を示す。
提案手法の有効性とユーザビリティをシミュレーションにより検証し,中年期の女性の健康に関する大規模多地点縦断研究である,全国女性健康研究(Women's Health Across the Nation)に応用した。 In many longitudinal settings, time-varying covariates may not be measured at the same time as responses and are often prone to measurement error. Naive last-observation-carried-forward methods incur estimation biases, and existing kernel-based methods suffer from slow convergence rates and large variations. To address these challenges, we propose a new functional calibration approach to efficiently learn longitudinal covariate processes based on sparse functional data with measurement error. Our approach, stemming from functional principal component analysis, calibrates the unobserved synchronized covariate values from the observed asynchronous and error-prone covariate values, and is broadly applicable to asynchronous longitudinal regression with time-invariant or time-varying coefficients. For regression with time-invariant coefficients, our estimator is asymptotically unbiased, root-n consistent, and asymptotically normal; for time-varying coefficient models, our estimator has the optimal varying coefficient model convergence rate with inflated asymptotic variance from the calibration. In both cases, our estimators present asymptotic properties superior to the existing methods. The feasibility and usability of the proposed methods are verified by simulations and an application to the Study of Women's Health Across the Nation, a large-scale multi-site longitudinal study on women's health during mid-life. | 翻訳日:2022-09-29 17:58:05 公開日:2022-09-28 |
# ROS2: 必要なものから自律ロボットまで Monitoring ROS2: from Requirements to Autonomous Robots ( http://arxiv.org/abs/2209.14030v1 ) ライセンス: Link先を確認 | Ivan Perez (KBR at NASA Ames Research Center), Anastasia Mavridou (KBR at NASA Ames Research Center), Tom Pressburger (NASA Ames Research Center), Alexander Will (Virginia Commonwealth University), Patrick J. Martin (Virginia Commonwealth University) | (参考訳) 実行時検証(RV)は、ロボットオペレーティングシステム2(ROS2)アプリケーションなど、公式に検証するには複雑すぎる安全クリティカルシステムの安全な運用を可能にする可能性がある。
正しいモニターを書くことはそれ自体が複雑であり、監視サブシステムのエラーはミッション全体を脅かす。
本稿では,構造化自然言語で記述された要件から自律ロボットのランタイムモニタを生成するための形式的アプローチの概要を示す。
当社のアプローチでは,FRET(Formal Requirement Elicitation Tool)とランタイム検証フレームワークのCopilotを,Ogma統合ツールを通じて統合しています。
FRETは不明瞭なセマンティクスで要求を指定するために使用され、その後自動的に時間論理式に変換される。
ogmaはfret出力からモニタ仕様を生成し、ハードリアルタイムc99にコンパイルする。
ROS2におけるモニタの統合を容易にするため、モニタリングノードを定義するROS2パッケージを生成するためにOgmaを拡張しました。
このアプローチの目的は、生成されたROS2パッケージをブラックボックスとして扱い、最小限の労力でより大きなROS2システムに統合することである。 Runtime verification (RV) has the potential to enable the safe operation of safety-critical systems that are too complex to formally verify, such as Robot Operating System 2 (ROS2) applications. Writing correct monitors can itself be complex, and errors in the monitoring subsystem threaten the mission as a whole. This paper provides an overview of a formal approach to generating runtime monitors for autonomous robots from requirements written in a structured natural language. Our approach integrates the Formal Requirement Elicitation Tool (FRET) with Copilot, a runtime verification framework, through the Ogma integration tool. FRET is used to specify requirements with unambiguous semantics, which are then automatically translated into temporal logic formulae. Ogma generates monitor specifications from the FRET output, which are compiled into hard-real time C99. To facilitate integration of the monitors in ROS2, we have extended Ogma to generate ROS2 packages defining monitoring nodes, which run the monitors when new data becomes available, and publish the results of any violations. The goal of our approach is to treat the generated ROS2 packages as black boxes and integrate them into larger ROS2 systems with minimal effort. | 翻訳日:2022-09-29 17:57:22 公開日:2022-09-28 |
# 目標特徴が視覚検索に与える影響 : 眼球固定の検討 Target Features Affect Visual Search, A Study of Eye Fixations ( http://arxiv.org/abs/2209.13771v1 ) ライセンス: Link先を確認 | Manoosh Samiei, James J. Clark | (参考訳) ビジュアル検索は、視覚ディスプレイ内の注意をそらすオブジェクトのセットの中でターゲットオブジェクトを見つけるタスクである。
本稿では,coco-search18データセットの独立解析に基づいて,対象オブジェクトのサイズや偏心度などの異なるパラメータが,視覚探索時の被験者のパフォーマンスに与える影響について検討する。
また,被験者の誤り率と探索性能の相関について検討した。
我々の研究では、より大きく偏心的な目標が、より少ない数の固定でより早く見つかることが示されている。
グラフィックのコードは、 \url{https://github.com/manooshsamiei/cocosearch18_ analysis} で公開されている。 Visual Search is referred to the task of finding a target object among a set of distracting objects in a visual display. In this paper, based on an independent analysis of the COCO-Search18 dataset, we investigate how the performance of human participants during visual search is affected by different parameters such as the size and eccentricity of the target object. We also study the correlation between the error rate of participants and search performance. Our studies show that a bigger and more eccentric target is found faster with fewer number of fixations. Our code for the graphics are publicly available at: \url{https://github.com/ManooshSamiei/COCOSearch18_Analysis} | 翻訳日:2022-09-29 17:56:40 公開日:2022-09-28 |
# voxel-wise hybrid residual MLP-CNNモデルを用いた3次元MR画像のノイズ化による微小病変診断精度の向上 Denoising of 3D MR images using a voxel-wise hybrid residual MLP-CNN model to improve small lesion diagnostic confidence ( http://arxiv.org/abs/2209.13818v1 ) ライセンス: Link先を確認 | Haibo Yang, Shengjie Zhang, Xiaoyang Han, Botao Zhao, Yan Ren, Yaru Sheng, and Xiao-Yong Zhang | (参考訳) mri画像における小病変は,様々な疾患の臨床診断に重要である。
しかし、MRIの品質は様々なノイズによって容易に劣化し、小さな病変の診断精度に大きな影響を与える可能性がある。
mr画像の弁別法が提案されているが,小病変の診断信頼度向上のためのタスク特異的弁別法が不足している。
そこで本研究では,3次元MR画像に小さな病変を付加したボクセルワイド残差MLP-CNNモデルを提案する。
我々は,MLPとCNNという基本的深層学習アーキテクチャを組み合わせることで,画像の固有バイアスを求め,各出力層をMLPとCNNに統合し,残差接続を加えて長距離情報を活用する。
ノイズレベルが小さい720T2-FLAIR脳画像に対して,提案手法の評価を行った。
その結果, テストデータセットの定量的および視覚的評価において, 最先端の手法と比較して, 提案手法の優位性を示した。
また, 2人の経験豊富な放射線科医は, 中等度, 高騒音レベルでは, 小型病変の回復や画像の全体的な劣化品質において, 他の方法よりも優れていた。
このメソッドの実装はhttps://github.com/laowangbobo/residual_mlp_cnn_mixerで利用可能である。 Small lesions in magnetic resonance imaging (MRI) images are crucial for clinical diagnosis of many kinds of diseases. However, the MRI quality can be easily degraded by various noise, which can greatly affect the accuracy of diagnosis of small lesion. Although some methods for denoising MR images have been proposed, task-specific denoising methods for improving the diagnosis confidence of small lesions are lacking. In this work, we propose a voxel-wise hybrid residual MLP-CNN model to denoise three-dimensional (3D) MR images with small lesions. We combine basic deep learning architecture, MLP and CNN, to obtain an appropriate inherent bias for the image denoising and integrate each output layers in MLP and CNN by adding residual connections to leverage long-range information. We evaluate the proposed method on 720 T2-FLAIR brain images with small lesions at different noise levels. The results show the superiority of our method in both quantitative and visual evaluations on testing dataset compared to state-of-the-art methods. Moreover, two experienced radiologists agreed that at moderate and high noise levels, our method outperforms other methods in terms of recovery of small lesions and overall image denoising quality. The implementation of our method is available at https://github.com/laowangbobo/Residual_MLP_CNN_Mixer. | 翻訳日:2022-09-29 17:56:29 公開日:2022-09-28 |
# 衝突攻撃者に対するフェデレーション学習の確保 Securing Federated Learning against Overwhelming Collusive Attackers ( http://arxiv.org/abs/2209.14093v1 ) ライセンス: Link先を確認 | Priyesh Ranjan, Ashish Gupta, Federico Cor\`o, and Sajal K. Das | (参考訳) さまざまな場所でローカライズされた大量のデータを格納するIoT(Internet of Things)デバイスを備えたデータ駆動型社会の時代に、分散学習は、デバイス間で独立した、同一の分散データ(iid)を仮定して、多くの注目を集めてきた。
デバイスが異質な性質のために現実に保持されないという仮定を緩和する一方で、フェデレーション学習(fl)は、膨大な数のデバイスに分散した非iidデータに対して協調モデルをトレーニングするためのプライバシ保護ソリューションとして浮上している。
しかし、FLモデルを破損させようとする悪意あるデバイス(攻撃者)の出現は、制限のない参加のため避けられない。
本研究では,このような攻撃者を特定し,そのモデルへの影響を軽減することを目的としている。
局所モデル間の相関を利用して,最小スパンニング木とk-Densestグラフに基づく2つのグラフ理論アルゴリズムを提案する。
私たちのflモデルは、すべてのクライアントの70%まででも攻撃者の影響を無効にできますが、以前の作業では攻撃者としてクライアントの50%以上を享受できませんでした。
アルゴリズムの有効性は、2つのベンチマークデータセット、すなわちMNISTとFashion-MNISTの実験によって確認される。
我々は、精度、攻撃成功率、早期検出ラウンドを用いて、既存のアルゴリズムよりも優れたアルゴリズムを確立する。 In the era of a data-driven society with the ubiquity of Internet of Things (IoT) devices storing large amounts of data localized at different places, distributed learning has gained a lot of traction, however, assuming independent and identically distributed data (iid) across the devices. While relaxing this assumption that anyway does not hold in reality due to the heterogeneous nature of devices, federated learning (FL) has emerged as a privacy-preserving solution to train a collaborative model over non-iid data distributed across a massive number of devices. However, the appearance of malicious devices (attackers), who intend to corrupt the FL model, is inevitable due to unrestricted participation. In this work, we aim to identify such attackers and mitigate their impact on the model, essentially under a setting of bidirectional label flipping attacks with collusion. We propose two graph theoretic algorithms, based on Minimum Spanning Tree and k-Densest graph, by leveraging correlations between local models. Our FL model can nullify the influence of attackers even when they are up to 70% of all the clients whereas prior works could not afford more than 50% of clients as attackers. The effectiveness of our algorithms is ascertained through experiments on two benchmark datasets, namely MNIST and Fashion-MNIST, with overwhelming attackers. We establish the superiority of our algorithms over the existing ones using accuracy, attack success rate, and early detection round. | 翻訳日:2022-09-29 17:50:37 公開日:2022-09-28 |
# アーキテクチャと逆ロバスト一般化の関係を探る Exploring the Relationship between Architecture and Adversarially Robust Generalization ( http://arxiv.org/abs/2209.14105v1 ) ライセンス: Link先を確認 | Shiyu Tang, Siyuan Liang, Ruihao Gong, Aishan Liu, Xianglong Liu, Dacheng Tao | (参考訳) 敵意トレーニングは、敵意的な例を守るための最も効果的な治療の1つとして証明されているが、しばしば非知覚的テスト敵に対する巨大な堅牢性一般化ギャップに苦しめられている。
反対に堅牢な一般化に関する予備的な理解にもかかわらず、アーキテクチャの観点からはほとんど知られていない。
そこで本稿では,最も代表的なアーキテクチャ(視覚トランスフォーマーやcnnなど)を体系的に検討することにより,ギャップの橋渡しを試みる。
特に,ImageNette と CIFAR-10 のデータセットを複数の敵(複数$\ell_p$-norm 対向攻撃)に対して総合的に評価した結果,視覚変換器 (PVT, CoAtNet など) がより堅牢な一般化をもたらすことが判明した。
建築材料が敵対的にロバストな一般化を好むかをさらに理解するため、我々はいくつかの重要なビルディングブロックを掘り下げ、高重量のスパース性が視覚トランスフォーマーの敵対的ロバストな一般化に大きく寄与するラデマシェ複雑性のレンズを通して、注意層によってしばしば達成できる事実を明らかにした。
我々の広範な研究は、アーキテクチャ設計と逆向きに堅牢な一般化との密接な関係を発見し、いくつかの重要な洞察をインスタンス化した。
私たちの発見は、堅牢なディープラーニングアーキテクチャを設計するためのメカニズムをより深く理解するのに役立ちます。 Adversarial training has been demonstrated to be one of the most effective remedies for defending adversarial examples, yet it often suffers from the huge robustness generalization gap on unseen testing adversaries, deemed as the \emph{adversarially robust generalization problem}. Despite the preliminary understandings devoted on adversarially robust generalization, little is known from the architectural perspective. Thus, this paper tries to bridge the gap by systematically examining the most representative architectures (e.g., Vision Transformers and CNNs). In particular, we first comprehensively evaluated \emph{20} adversarially trained architectures on ImageNette and CIFAR-10 datasets towards several adversaries (multiple $\ell_p$-norm adversarial attacks), and found that Vision Transformers (e.g., PVT, CoAtNet) often yield better adversarially robust generalization. To further understand what architectural ingredients favor adversarially robust generalization, we delve into several key building blocks and revealed the fact via the lens of Rademacher complexity that the higher weight sparsity contributes significantly towards the better adversarially robust generalization of Vision Transformers, which can be often achieved by attention layers. Our extensive studies discovered the close relationship between architectural design and adversarially robust generalization, and instantiated several important insights. We hope our findings could help to better understand the mechanism towards designing robust deep learning architectures. | 翻訳日:2022-09-29 17:50:12 公開日:2022-09-28 |
# ウェイクストプレコンディションによる安全探査の指導 Guiding Safe Exploration with Weakest Preconditions ( http://arxiv.org/abs/2209.14148v1 ) ライセンス: Link先を確認 | Greg Anderson, Swarat Chaudhuri, Isil Dillig | (参考訳) 安全クリティカルな設定のための強化学習では、訓練中を含むあらゆる時点における安全制約に従うことが望ましいことが多い。
我々はこの安全な探索問題を解決するためにSPICEと呼ばれる新しいニューロシンボリックアプローチを提案する。
SPICEは、トレーニングプロセスに不完全な影響を及ぼすことなく、既存のツールよりも正確な安全性分析を実現するために、象徴的な弱い前提条件に基づくオンライン遮蔽層を使用している。
我々は,一連の連続制御ベンチマークによるアプローチを評価し,安全性違反を少なく抑えながら,既存の安全学習技術に匹敵する性能が得られることを示した。
さらに,SPICEが合理的な仮定の下で最適な安全政策に収束することを示す理論的結果を示す。 In reinforcement learning for safety-critical settings, it is often desirable for the agent to obey safety constraints at all points in time, including during training. We present a novel neurosymbolic approach called SPICE to solve this safe exploration problem. SPICE uses an online shielding layer based on symbolic weakest preconditions to achieve a more precise safety analysis than existing tools without unduly impacting the training process. We evaluate the approach on a suite of continuous control benchmarks and show that it can achieve comparable performance to existing safe learning techniques while incurring fewer safety violations. Additionally, we present theoretical results showing that SPICE converges to the optimal safe policy under reasonable assumptions. | 翻訳日:2022-09-29 17:49:44 公開日:2022-09-28 |
# 重み付き損失による相補的ラベル学習 Class-Imbalanced Complementary-Label Learning via Weighted Loss ( http://arxiv.org/abs/2209.14189v1 ) ライセンス: Link先を確認 | Meng Wei, Yong Zhou, Zhongnian Li, Xinzheng Xu | (参考訳) CLL(Complementary-label Learning)は、弱い監督のシナリオにおいて一般的な応用である。
しかし、実世界のデータセットでは、CLLはクラス不均衡のトレーニングサンプルに遭遇し、あるクラスのサンプルの量は他のクラスのサンプルよりもかなり少ない。
残念ながら、既存のCLLアプローチでは、特に不均衡なクラスにおいて予測精度を低下させるクラス不均衡サンプルの問題はまだ検討されていない。
本稿では,マルチクラス分類のためのクラス不均衡ラベル付きサンプルからの学習を可能にする新しい問題設定を提案する。
そこで我々は,この新たな問題に対処するために,Weighted Complementary-Label Learning (WCLL)と呼ばれる新しいCLLアプローチを提案する。
提案手法は,重み付き経験的リスク最小化損失を,多クラス不均衡トレーニングサンプルにも適用可能な相補的ラベル付き情報を利用してモデル化する。
さらに,提案手法の推定誤差境界を理論的に保証するために導出した。
最後に,既存の最先端手法との比較により,提案手法の優位性を検証するために,広く利用されているベンチマークデータセットについて広範な実験を行った。 Complementary-label learning (CLL) is a common application in the scenario of weak supervision. However, in real-world datasets, CLL encounters class-imbalanced training samples, where the quantity of samples of one class is significantly lower than those of other classes. Unfortunately, existing CLL approaches have yet to explore the problem of class-imbalanced samples, which reduces the prediction accuracy, especially in imbalanced classes. In this paper, we propose a novel problem setting to allow learning from class-imbalanced complementarily labeled samples for multi-class classification. Accordingly, to deal with this novel problem, we propose a new CLL approach, called Weighted Complementary-Label Learning (WCLL). The proposed method models a weighted empirical risk minimization loss by utilizing the class-imbalanced complementarily labeled information, which is also applicable to multi-class imbalanced training samples. Furthermore, the estimation error bound of the proposed method was derived to provide a theoretical guarantee. Finally, we do extensive experiments on widely-used benchmark datasets to validate the superiority of our method by comparing it with existing state-of-the-art methods. | 翻訳日:2022-09-29 17:49:32 公開日:2022-09-28 |
# Active Transfer Prototypeal Network: 時系列データの効率的なラベリングアルゴリズム Active Transfer Prototypical Network: An Efficient Labeling Algorithm for Time-Series Data ( http://arxiv.org/abs/2209.14199v1 ) ライセンス: Link先を確認 | Yuqicheng Zhu, Mohamed-Ali Tnani, Timo Jahnz, Klaus Diepold | (参考訳) ラベル付きデータのpaucityは、自動車業界における典型的な課題である。
時系列計測の注釈付けには、厳密なドメイン知識と深い探索的データ分析が必要である。
従来のアクティブラーニング(AL)は、推定された分類確率に基づいて最も情報性の高いインスタンスを積極的にクエリし、反復的にモデルを再訓練することでこの問題に対処する。
しかし、学習効率は初期モデルに強く依存しており、初期データセットのサイズとクエリ番号の間のトレードオフをもたらす。
本稿では,プロトタイプネットワーク(ProtoNet)をALイテレーションに組み込むことで,トレードオフ問題に対処する新しいFew-Shot Learning(FSL)ベースのALフレームワークを提案する。
その結果,初期モデルに対するロバスト性や,各イテレーションにおけるサポートセットのアクティブ選択によるProtoNetの学習効率の向上が示された。
このフレームワークは、uci har/haptデータセットと現実世界のブレーキ操作データセットで検証された。
学習性能は、両方のデータセットにおける従来のALアルゴリズムを大幅に上回り、それぞれ10%と5%のラベル付け作業で90%の分類精度を達成した。 The paucity of labeled data is a typical challenge in the automotive industry. Annotating time-series measurements requires solid domain knowledge and in-depth exploratory data analysis, which implies a high labeling effort. Conventional Active Learning (AL) addresses this issue by actively querying the most informative instances based on the estimated classification probability and retraining the model iteratively. However, the learning efficiency strongly relies on the initial model, resulting in the trade-off between the size of the initial dataset and the query number. This paper proposes a novel Few-Shot Learning (FSL)-based AL framework, which addresses the trade-off problem by incorporating a Prototypical Network (ProtoNet) in the AL iterations. The results show an improvement, on the one hand, in the robustness to the initial model and, on the other hand, in the learning efficiency of the ProtoNet through the active selection of the support set in each iteration. This framework was validated on UCI HAR/HAPT dataset and a real-world braking maneuver dataset. The learning performance significantly surpasses traditional AL algorithms on both datasets, achieving 90% classification accuracy with 10% and 5% labeling effort, respectively. | 翻訳日:2022-09-29 17:49:15 公開日:2022-09-28 |
# B2B広告: アカウントとユーザの共同ダイナミックスコーディング B2B Advertising: Joint Dynamic Scoring of Account and Users ( http://arxiv.org/abs/2209.14250v1 ) ライセンス: Link先を確認 | Atanu R. Sinha, Gautam Choudhary, Mansi Agarwal, Shivansh Bindal, Abhishek Pande, Camille Girabawe | (参考訳) ビジネスが他のビジネス(b2b)に販売されると、購入ビジネスは、購入するかどうかを集団で決定するアカウントと呼ばれる個人のグループによって代表される。
売り手は各個人に対して広告を行い、主にデジタル手段で交流する。
販売サイクルは長く、ほとんどの場合数ヶ月以上である。
情報を求める際、口座に属する個人には異質性があるため、売り手は、どの個人がいつ到達すべきかを決定するために、長期にわたって各個人の利害をスコアする必要がある。
さらに、購入決定は口座に従属し、購入の可能性を予測するためにスコアを付けなければならない。
我々は、口座とその個人の決定を動的にスコア付けする。
動的スコアリングは、長い地平線上の異なる時間ポイントで異なるメンバーに影響を与える機会を与える。
データセットには、各個人と販売者とのコミュニケーション活動の行動ログが含まれているが、決定を下す個人間の相談に関するデータはない。
ニューラルネットワークアーキテクチャを用いて,各メンバの行動から情報を集約し,グループ全体の意思決定を予測する手法を提案する。
複数の評価が強力なモデル性能を見出す。 When a business sells to another business (B2B), the buying business is represented by a group of individuals, termed account, who collectively decide whether to buy. The seller advertises to each individual and interacts with them, mostly by digital means. The sales cycle is long, most often over a few months. There is heterogeneity among individuals belonging to an account in seeking information and hence the seller needs to score the interest of each individual over a long horizon to decide which individuals must be reached and when. Moreover, the buy decision rests with the account and must be scored to project the likelihood of purchase, a decision that is subject to change all the way up to the actual decision, emblematic of group decision making. We score decision of the account and its individuals in a dynamic manner. Dynamic scoring allows opportunity to influence different individual members at different time points over the long horizon. The dataset contains behavior logs of each individual's communication activities with the seller; but, there are no data on consultations among individuals which result in the decision. Using neural network architecture, we propose several ways to aggregate information from individual members' activities, to predict the group's collective decision. Multiple evaluations find strong model performance. | 翻訳日:2022-09-29 17:48:54 公開日:2022-09-28 |
# ランダムウォークの帰納確率に基づくパーシステンス図のための多スケールグラフシグネチャ A Multi-scale Graph Signature for Persistence Diagrams based on Return Probabilities of Random Walks ( http://arxiv.org/abs/2209.14264v1 ) ライセンス: Link先を確認 | Chau Pham, Trung Dang, Peter Chin | (参考訳) 永続図(PD)は、しばしばホモロジークラスの死と誕生の集合として特徴づけられるが、しばしば機械学習タスクにおいて有用なグラフ構造のトポロジ的表現を提供することで知られている。
事前の作業は、pdsを構築するために単一のグラフシグネチャに依存する。
本稿では,位相特徴のロバスト性を高めるために,多スケールグラフシグネチャ群の利用について検討する。
このセット入力を処理するためのディープラーニングアーキテクチャを提案する。
ベンチマークグラフ分類データセットを用いた実験により,提案手法は他の持続的ホモロジーに基づく手法よりも優れており,グラフニューラルネットワークを用いた最先端手法に比べて競争力が向上することが示された。
さらに,本手法は,グラフカーネル法に問題となるようなスケーラビリティの制限に悩まされないため,入力グラフの大規模化にも容易に適用できる。 Persistence diagrams (PDs), often characterized as sets of death and birth of homology class, have been known for providing a topological representation of a graph structure, which is often useful in machine learning tasks. Prior works rely on a single graph signature to construct PDs. In this paper, we explore the use of a family of multi-scale graph signatures to enhance the robustness of topological features. We propose a deep learning architecture to handle this set input. Experiments on benchmark graph classification datasets demonstrate that our proposed architecture outperforms other persistent homology-based methods and achieves competitive performance compared to state-of-the-art methods using graph neural networks. In addition, our approach can be easily applied to large size of input graphs as it does not suffer from limited scalability which can be an issue for graph kernel methods. | 翻訳日:2022-09-29 17:48:36 公開日:2022-09-28 |
# 道路のルールについて自動運転車に助言する Advising Autonomous Cars about the Rules of the Road ( http://arxiv.org/abs/2209.14035v1 ) ライセンス: Link先を確認 | Joe Collenette (The University of Manchester), Louise A. Dennis (The University of Manchester), Michael Fisher (The University of Manchester) | (参考訳) 本稿では、人間レベルのルールの集合から生成される推奨かつ可能なアクションを提供するエージェントである(R)ules (o)f (T)he (R)oad (A)dvisorについて述べる。
我々はrotraのアーキテクチャと設計について、形式的かつ一例を挙げて説明する。
具体的には、RoTRAを使用して、英国における「道路のルール」を定式化し、それを自動運転車に組み込む方法を説明し、道路の規則に従うことを内部で説明します。
さらに、生成された可能性のあるアクションは、イギリス高速道路法(道路規則)に従って、そのアクションを取るべきかどうか、または、アクションを取るべきことをしか推奨していないかを示すためにアノテートされる。
このシステムを利用する利点は、異なる管轄区域で異なる規則に適応できること、ルールから振る舞いへの明確なトレーサビリティを許容すること、特定の状況でルールが従ったかどうかを外部の自動化説明責任メカニズムを提供することである。
自動運転車のシミュレーションは、具体的な例を通じて、自動運転車が道路の規則に従う能力をテストするいくつかのシナリオを通すことによって、いかに信頼が構築されるかを示す。
このシステムを組み込んだ自律走行車は、道路の規則に従うことを確実にすることができ、車両やメーカーがソースコードを公開したり、その動作を透明化することなく、自動車会社、司法機関、および一般大衆の間での信頼を深めることができる。 This paper describes (R)ules (o)f (T)he (R)oad (A)dvisor, an agent that provides recommended and possible actions to be generated from a set of human-level rules. We describe the architecture and design of RoTRA, both formally and with an example. Specifically, we use RoTRA to formalise and implement the UK "Rules of the Road", and describe how this can be incorporated into autonomous cars such that they can reason internally about obeying the rules of the road. In addition, the possible actions generated are annotated to indicate whether the rules state that the action must be taken or that they only recommend that the action should be taken, as per the UK Highway Code (Rules of The Road). The benefits of utilising this system include being able to adapt to different regulations in different jurisdictions; allowing clear traceability from rules to behaviour, and providing an external automated accountability mechanism that can check whether the rules were obeyed in some given situation. A simulation of an autonomous car shows, via a concrete example, how trust can be built by putting the autonomous vehicle through a number of scenarios which test the car's ability to obey the rules of the road. Autonomous cars that incorporate this system are able to ensure that they are obeying the rules of the road and external (legal or regulatory) bodies can verify that this is the case, without the vehicle or its manufacturer having to expose their source code or make their working transparent, thus allowing greater trust between car companies, jurisdictions, and the general public. | 翻訳日:2022-09-29 17:47:55 公開日:2022-09-28 |
# イベントBにおける行動樹の安全性検証 Verifying Safety of Behaviour Trees in Event-B ( http://arxiv.org/abs/2209.14045v1 ) ライセンス: Link先を確認 | Matteo Tadiello (KTH), Elena Troubitsyna (KTH) | (参考訳) 行動木(BT)はロボティクスコミュニティでますます人気が高まっている。
BTツールは、ロボットが人間にも説明できるながら複雑な動作を行えるようにするための意思決定用途に適している。
BTが安全と信頼性の要求に対して十分に構築されていることを検証することは、特に重要な環境で動作しているロボットにとって不可欠である。
そこで本研究では,すでに使用されている木の不変性を証明し,最終的なユーザにとって単純なツリーの形式化の複雑さを保ちながら,行動ツリーの形式的仕様と方法論を提案する。
形式化のより抽象的なレベルを知る必要なしに、行動ツリーの特定のインスタンスをテストすることができる。 Behavior Trees (BT) are becoming increasingly popular in the robotics community. The BT tool is well suited for decision-making applications allowing a robot to perform complex behavior while being explainable to humans as well. Verifying that BTs used are well constructed with respect to safety and reliability requirements is essential, especially for robots operating in critical environments. In this work, we propose a formal specification of Behavior Trees and a methodology to prove invariants of already used trees, while keeping the complexity of the formalization of the tree simple for the final user. Allowing the possibility to test the particular instance of the behavior tree without the necessity to know the more abstract levels of the formalization. | 翻訳日:2022-09-29 17:47:29 公開日:2022-09-28 |
# 腎癌ステージ分類のための相互情報とアンサンブルに基づく特徴レコメンダ Mutual Information and Ensemble Based Feature Recommender for Renal Cancer Stage Classification ( http://arxiv.org/abs/2209.13836v1 ) ライセンス: Link先を確認 | Abhishek Dey, Debayan Goswami, Rahul Roy, Susmita Ghosh, Yu Shrike Zhang, Jonathan H. Chan | (参考訳) 腎臓は人体に不可欠な器官である。
ホメオスタシスを維持し、尿から有害物質を除去する。
腎細胞癌 (rcc) は腎臓がんの最も一般的な形態である。
全腎がんの約90%はRCCによるものである。
最も有害なRCCはクリア細胞腎細胞癌(ccRCC)であり、全RCC症例の約80%を占める。
ccRCCの早期かつ正確な検出は、他の臓器における疾患のさらなる拡散を防ぐために必要である。
本稿では,ccRCCの診断に有効な重要な特徴を明らかにするための詳細な実験を行う。
ccRCCデータセットはThe Cancer Genome Atlas (TCGA)から得られる。
8つの特徴選択法から得られる特徴の順序を考慮した新しい相互情報とアンサンブルに基づく特徴ランキング手法を提案する。
提案手法の性能は,2つの異なる分類器 (ANN, SVM) を用いて総合的な分類精度で評価した。
実験結果から,提案手法は,既存の作業に比べて機能セットの少ないccRCCの異なるステージを分類する上で,高い精度(SVMとNNを用いて96.6\%,98.6\%)を達成できることが示唆された。
また,既存のTNMシステム (AJCCとUICCが提案) で言及されている3つの特徴のうち, 提案手法は2つの特徴(腫瘍の大きさ, 転移状態)を最上位として選択することができた。
これは提案手法の有効性を立証する。 Kidney is an essential organ in human body. It maintains homeostasis and removes harmful substances through urine. Renal cell carcinoma (RCC) is the most common form of kidney cancer. Around 90\% of all kidney cancers are attributed to RCC. Most harmful type of RCC is clear cell renal cell carcinoma (ccRCC) that makes up about 80\% of all RCC cases. Early and accurate detection of ccRCC is necessary to prevent further spreading of the disease in other organs. In this article, a detailed experimentation is done to identify important features which can aid in diagnosing ccRCC at different stages. The ccRCC dataset is obtained from The Cancer Genome Atlas (TCGA). A novel mutual information and ensemble based feature ranking approach considering the order of features obtained from 8 popular feature selection methods is proposed. Performance of the proposed method is evaluated by overall classification accuracy obtained using 2 different classifiers (ANN and SVM). Experimental results show that the proposed feature ranking method is able to attain a higher accuracy (96.6\% and 98.6\% using SVM and NN, respectively) for classifying different stages of ccRCC with a reduced feature set as compared to existing work. It is also to be noted that, out of 3 distinguishing features as mentioned by the existing TNM system (proposed by AJCC and UICC), our proposed method was able to select two of them (size of tumour, metastasis status) as the top-most ones. This establishes the efficacy of our proposed approach. | 翻訳日:2022-09-29 17:41:32 公開日:2022-09-28 |
# VREN:表現表記言語を用いたバレーボールラリーデータセット VREN: Volleyball Rally Dataset with Expression Notation Language ( http://arxiv.org/abs/2209.13846v1 ) ライセンス: Link先を確認 | Haotian Xia, Rhys Tracy, Yun Zhao, Erwan Fraisse, Yuan-Fang Wang, Linda Petzold | (参考訳) 第一の目的は、プロとncaa div-iの屋内バレーボール競技における、選手の行動と位置およびバレーボールの前後移動パターンに関する重要かつ簡潔な要約を含む、大規模で情報豊富なデータセットをキュレートすることである。
以前の研究では、他のスポーツ(バドミントンやサッカーなど)向けに同様のデータセットを作成することを目標としていたが、屋内バレーボールのためのデータセットの作成はまだ実現されていない。
2つ目の目標は、ゲームのラリープロセスを完全に記述し、言語をデータセットに適用するための、バレーボール記述言語の導入です。
Based on the curated dataset and our descriptive sports language, we introduce three tasks for automated volleyball action and tactic analysis using our dataset: (1) Volleyball Rally Prediction, aimed at predicting the outcome of a rally and helping players and coaches improve decision-making in practice, (2) Setting Type and Hitting Type Prediction, to help coaches and players prepare more effectively for the game, and (3) Volleyball Tactics and Attacking Zone Statistics, to provide advanced volleyball statistics and help coaches understand the game and opponent's tactics better.
実験結果がバレーボール分析コミュニティにどのような洞察を与えるかを示すために事例研究を行った。
さらに、実世界データに基づく実験評価により、データセットと言語の将来研究と応用のためのベースラインが確立される。
本研究は,室内バレーボールとコンピュータ科学のギャップを埋めるものである。 This research is intended to accomplish two goals: The first goal is to curate a large and information rich dataset that contains crucial and succinct summaries on the players' actions and positions and the back-and-forth travel patterns of the volleyball in professional and NCAA Div-I indoor volleyball games. While several prior studies have aimed to create similar datasets for other sports (e.g. badminton and soccer), creating such a dataset for indoor volleyball is not yet realized. The second goal is to introduce a volleyball descriptive language to fully describe the rally processes in the games and apply the language to our dataset. Based on the curated dataset and our descriptive sports language, we introduce three tasks for automated volleyball action and tactic analysis using our dataset: (1) Volleyball Rally Prediction, aimed at predicting the outcome of a rally and helping players and coaches improve decision-making in practice, (2) Setting Type and Hitting Type Prediction, to help coaches and players prepare more effectively for the game, and (3) Volleyball Tactics and Attacking Zone Statistics, to provide advanced volleyball statistics and help coaches understand the game and opponent's tactics better. We conducted case studies to show how experimental results can provide insights to the volleyball analysis community. Furthermore, experimental evaluation based on real-world data establishes a baseline for future studies and applications of our dataset and language. This study bridges the gap between the indoor volleyball field and computer science. | 翻訳日:2022-09-29 17:41:09 公開日:2022-09-28 |
# NSGA-IIIによる形状拘束型シンボリック回帰 Shape-constrained Symbolic Regression with NSGA-III ( http://arxiv.org/abs/2209.13851v1 ) ライセンス: Link先を確認 | Christian Haider | (参考訳) shape-constrained symbolic regression (scsr)は、データベースのモデリングに事前知識を含めることができる。
この包含によって、ある期待される振る舞いが結果のモデルによってよりよく反映されることが保証される。
期待される挙動は制約によって定義され、例えば単調性、凹凸性、凸性、モデル画像の境界といった関数形式を参照する。
関数の形状に関する制約を定義することによって、より堅牢で信頼性の高いモデルを得るという利点に加えて、SCSRを使用することで、ノイズに対してより堅牢でより良い補間挙動を持つモデルを見つけることができる。
本稿では,近似誤差の最小化と制約違反の最小化に準じた手法を提案する。
2つのアルゴリズム NSGA-II と NSGA-III が実装され、モデル品質と実行時間で比較される。
どちらのアルゴリズムも複数の目的を扱うことができるが、nsga-iiは3つの目的を持つインスタンスでうまく機能するよく確立された多目的アプローチである。
NSGA-IIIはNSGA-IIアルゴリズムの拡張であり、「多くの」目的(3つ以上の目的)の問題に対処するために開発された。
どちらのアルゴリズムも、物理教科書から選択したベンチマークインスタンスで実行される。
その結果,両アルゴリズムともほぼ実現可能な解を見出すことができ,nsga-iiiはモデル品質の面でわずかに改善できることがわかった。
さらに、多目的アプローチを使用してランタイムの改善を見ることができる。 Shape-constrained symbolic regression (SCSR) allows to include prior knowledge into data-based modeling. This inclusion allows to ensure that certain expected behavior is better reflected by the resulting models. The expected behavior is defined via constraints, which refer to the function form e.g. monotonicity, concavity, convexity or the models image boundaries. In addition to the advantage of obtaining more robust and reliable models due to defining constraints over the functions shape, the use of SCSR allows to find models which are more robust to noise and have a better extrapolation behavior. This paper presents a mutlicriterial approach to minimize the approximation error as well as the constraint violations. Explicitly the two algorithms NSGA-II and NSGA-III are implemented and compared against each other in terms of model quality and runtime. Both algorithms are capable of dealing with multiple objectives, whereas NSGA-II is a well established multi-objective approach performing well on instances with up-to 3 objectives. NSGA-III is an extension of the NSGA-II algorithm and was developed to handle problems with "many" objectives (more than 3 objectives). Both algorithms are executed on a selected set of benchmark instances from physics textbooks. The results indicate that both algorithms are able to find largely feasible solutions and NSGA-III provides slight improvements in terms of model quality. Moreover, an improvement in runtime can be observed using the many-objective approach. | 翻訳日:2022-09-29 17:40:47 公開日:2022-09-28 |
# 非線形系のスパース同定による血液グルコース予測のための微分方程式の同定 Identifying Differential Equations to predict Blood Glucose using Sparse Identification of Nonlinear Systems ( http://arxiv.org/abs/2209.13852v1 ) ライセンス: Link先を確認 | David J\"odicke, Daniel Parra, Gabriel Kronberger, Stephan Winkler | (参考訳) 機械学習を使って動的医療システムを記述することは、幅広いアプリケーションで挑戦的なトピックである。
本研究は,糖尿病患者の血糖値を測定データに基づいて純粋にモデル化する可能性について述べる。
インスリンとカロリーに影響を及ぼす変数の組み合わせは、解釈可能なモデルを見つけるために用いられる。
人体の外部物質の吸収速度は外部の影響に強く依存しているため、影響する変数には時間シフトが加えられる。
その焦点は、他の未知の外部の影響とは無関係に、予測精度の良い堅牢なモデルを提供する最良の時間シフトを特定することである。
モデリングは、非線形ダイナミクスのスパース同定を用いた測定データに基づいている。
初期値から、血糖値の動態をシミュレートする微分方程式が決定される。
テストデータに最良のモデルを適用することで、微分方程式とほとんど影響しない変数を用いて、長期的な血糖変動をシミュレートできることを示すことができる。 Describing dynamic medical systems using machine learning is a challenging topic with a wide range of applications. In this work, the possibility of modeling the blood glucose level of diabetic patients purely on the basis of measured data is described. A combination of the influencing variables insulin and calories are used to find an interpretable model. The absorption speed of external substances in the human body depends strongly on external influences, which is why time-shifts are added for the influencing variables. The focus is put on identifying the best timeshifts that provide robust models with good prediction accuracy that are independent of other unknown external influences. The modeling is based purely on the measured data using Sparse Identification of Nonlinear Dynamics. A differential equation is determined which, starting from an initial value, simulates blood glucose dynamics. By applying the best model to test data, we can show that it is possible to simulate the long-term blood glucose dynamics using differential equations and few, influencing variables. | 翻訳日:2022-09-29 17:40:26 公開日:2022-09-28 |
# 連続的強化学習における距離移動 Disentangling Transfer in Continual Reinforcement Learning ( http://arxiv.org/abs/2209.13900v1 ) ライセンス: Link先を確認 | Maciej Wo{\l}czyk, Micha{\l} Zaj\k{a}c, Razvan Pascanu, {\L}ukasz Kuci\'nski, Piotr Mi{\l}o\'s | (参考訳) 新たなタスクの性能を最大化するために,従来のタスクから知識を伝達する連続学習システムの能力は,現実的なシナリオへの連続学習ソリューションの適用性を制限している。
そこで本研究は,継続強化学習における移動力とその駆動力の理解を深めることを目的としている。
我々は、基礎となるRLアルゴリズムとしてSAC、継続的な制御タスクのスイートとしてContinual Worldを採用します。
我々は,SACの異なる要素(アクター,批評家,探索,データ)が伝達効率にどのように影響するかを体系的に研究し,様々なモデリングオプションについて推奨する。
ClonEx-SACと呼ばれる最良の選択セットは、最近のContinual Worldベンチマークで評価されている。
ClonEx-SACは、ベンチマークで最高のメソッドであるPackNetの80%と比較して87%の最終的な成功率を達成した。
さらに、この移動は連続世界が提供する計量に従って0.18から0.54へと増加する。 The ability of continual learning systems to transfer knowledge from previously seen tasks in order to maximize performance on new tasks is a significant challenge for the field, limiting the applicability of continual learning solutions to realistic scenarios. Consequently, this study aims to broaden our understanding of transfer and its driving forces in the specific case of continual reinforcement learning. We adopt SAC as the underlying RL algorithm and Continual World as a suite of continuous control tasks. We systematically study how different components of SAC (the actor and the critic, exploration, and data) affect transfer efficacy, and we provide recommendations regarding various modeling options. The best set of choices, dubbed ClonEx-SAC, is evaluated on the recent Continual World benchmark. ClonEx-SAC achieves 87% final success rate compared to 80% of PackNet, the best method in the benchmark. Moreover, the transfer grows from 0.18 to 0.54 according to the metric provided by Continual World. | 翻訳日:2022-09-29 17:40:11 公開日:2022-09-28 |
# 地下水位予測のための時系列予測手法の実験的検討 Experimental study of time series forecasting methods for groundwater level prediction ( http://arxiv.org/abs/2209.13927v1 ) ライセンス: Link先を確認 | Michael Franklin Mbouopda (LIMOS, UCA), Thomas Guyet, Nicolas Labroche (UT), Abel Henriot (BRGM) | (参考訳) 地下水位予測は、洪水や深刻な干ばつなどの自然災害を防ぐだけでなく、水管理を最適化するための重要な社会的影響を持つ時系列予測タスクである。
この課題を達成するための機械学習手法が文献で報告されているが、それらは単一の場所における地下水位予測のみに焦点を当てている。
グローバルな予測手法は, 広範囲の地点から地下水位時系列を利用して, 一つの地点や複数の地点で予測を行う。
近年の高名な競争におけるグローバルな予測手法の成功を考えると、地下水位予測に基づいて評価し、地域の手法と比較することが重要である。
本研究では,地下水位時系列1026のデータセットを作成した。
各時系列は、地下水位を毎日測定し、降雨と蒸発散の2つの外因性変数からなる。
このデータセットは、再現性とさらなる評価のためにコミュニティに提供される。
時系列の完全集合に対して地下水位を効果的に予測するための最適構成を特定するために,局所的およびグローバルな時系列予測手法を含む様々な予測器を比較した。
我々は外因性変数の影響を評価した。
その結果,過去の地下水位と降雨データに基づいてグローバル手法をトレーニングすることで,最良の予測が得られることがわかった。 Groundwater level prediction is an applied time series forecasting task with important social impacts to optimize water management as well as preventing some natural disasters: for instance, floods or severe droughts. Machine learning methods have been reported in the literature to achieve this task, but they are only focused on the forecast of the groundwater level at a single location. A global forecasting method aims at exploiting the groundwater level time series from a wide range of locations to produce predictions at a single place or at several places at a time. Given the recent success of global forecasting methods in prestigious competitions, it is meaningful to assess them on groundwater level prediction and see how they are compared to local methods. In this work, we created a dataset of 1026 groundwater level time series. Each time series is made of daily measurements of groundwater levels and two exogenous variables, rainfall and evapotranspiration. This dataset is made available to the communities for reproducibility and further evaluation. To identify the best configuration to effectively predict groundwater level for the complete set of time series, we compared different predictors including local and global time series forecasting methods. We assessed the impact of exogenous variables. Our result analysis shows that the best predictions are obtained by training a global method on past groundwater levels and rainfall data. | 翻訳日:2022-09-29 17:39:56 公開日:2022-09-28 |
# SoftTreeMax: ツリー検索によるポリシーのグラディエント SoftTreeMax: Policy Gradient with Tree Search ( http://arxiv.org/abs/2209.13966v1 ) ライセンス: Link先を確認 | Gal Dalal, Assaf Hallak, Shie Mannor, Gal Chechik | (参考訳) 政策段階の手法は、制御ポリシーの学習に広く用いられている。
それらは複数のワーカーに簡単に配布でき、多くのドメインで最先端の結果に到達できる。
残念なことに、それらは大きなばらつきを示し、その後、軌道全体にわたって勾配を集約するため、高いサンプル複雑さに苦しむ。
一方、ツリー検索のような計画手法は、将来の展望を考慮した単一ステップの遷移を使ってポリシーを最適化する。
これらのアプローチは、主に値ベースのアルゴリズムのために検討されている。
計画ベースのアルゴリズムはフォワードモデルを必要とし、各ステップで計算集約的だが、よりサンプル効率が高い。
本研究では、木探索をポリシー勾配に統合する最初のアプローチであるSoftTreeMaxを紹介する。
伝統的に、勾配は単一の状態-作用対に対して計算される。
代わりに、木に基づくポリシー構造は、各環境ステップの木の葉におけるすべての勾配を利用しています。
これにより、勾配のばらつきを3桁に減らし、標準の政策勾配と比較してサンプルの複雑さを改善することができる。
Atariでは、SoftTreeMaxが分散PPOと比較して、実行時のパフォーマンスを最大5倍向上させる。 Policy-gradient methods are widely used for learning control policies. They can be easily distributed to multiple workers and reach state-of-the-art results in many domains. Unfortunately, they exhibit large variance and subsequently suffer from high-sample complexity since they aggregate gradients over entire trajectories. At the other extreme, planning methods, like tree search, optimize the policy using single-step transitions that consider future lookahead. These approaches have been mainly considered for value-based algorithms. Planning-based algorithms require a forward model and are computationally intensive at each step, but are more sample efficient. In this work, we introduce SoftTreeMax, the first approach that integrates tree-search into policy gradient. Traditionally, gradients are computed for single state-action pairs. Instead, our tree-based policy structure leverages all gradients at the tree leaves in each environment step. This allows us to reduce the variance of gradients by three orders of magnitude and to benefit from better sample complexity compared with standard policy gradient. On Atari, SoftTreeMax demonstrates up to 5x better performance in faster run-time compared with distributed PPO. | 翻訳日:2022-09-29 17:39:36 公開日:2022-09-28 |
# データ中毒に対するアンサンブル型機械学習のロバスト性について On the Robustness of Ensemble-Based Machine Learning Against Data Poisoning ( http://arxiv.org/abs/2209.14013v1 ) ライセンス: Link先を確認 | Marco Anisetti, Claudio A. Ardagna, Alessandro Balestrucci, Nicola Bena, Ernesto Damiani, Chan Yeob Yeun | (参考訳) 機械学習はユビキタスになりつつある。
金融から医学まで、機械学習モデルは意思決定プロセスを強化し、いくつかのタスクで人間を上回っています。
このような予測品質の面での大きな進歩は、そのようなモデルのセキュリティとそれに対応する予測に匹敵するものは見つからず、トレーニングセット(解雇)の断片の摂動がモデルの精度を著しく損なう可能性がある。
毒殺攻撃や防御に関する研究は、ディープニューラルネットワークの導入よりも前から行われており、いくつかの有望な解決策を生み出している。
その中でも、トレーニングセットの一部で異なるモデルを訓練し、それらの予測を集約するアンサンブルベースの防御は、その相対的単純さと理論的、実用的保証によって、大きな注目を集めている。
本稿では,機械学習モデルを用いて,MLの堅牢性に対するハッシュベースのアンサンブルアプローチの設計と実装を行い,ランダムな森林への適用性と性能を評価する。
多様な攻撃に対する我々のアプローチの堅牢性を評価するために, 広範囲な実験的評価を行い, ランダム森林に基づく従来のモノリシックモデルと比較した。 Machine learning is becoming ubiquitous. From financial to medicine, machine learning models are boosting decision-making processes and even outperforming humans in some tasks. This huge progress in terms of prediction quality does not however find a counterpart in the security of such models and corresponding predictions, where perturbations of fractions of the training set (poisoning) can seriously undermine the model accuracy. Research on poisoning attacks and defenses even predates the introduction of deep neural networks, leading to several promising solutions. Among them, ensemble-based defenses, where different models are trained on portions of the training set and their predictions are then aggregated, are getting significant attention, due to their relative simplicity and theoretical and practical guarantees. The work in this paper designs and implements a hash-based ensemble approach for ML robustness and evaluates its applicability and performance on random forests, a machine learning model proved to be more resistant to poisoning attempts on tabular datasets. An extensive experimental evaluation is carried out to evaluate the robustness of our approach against a variety of attacks, and compare it with a traditional monolithic model based on random forests. | 翻訳日:2022-09-29 17:39:23 公開日:2022-09-28 |
# テンソルロバスト主成分分析のための大域的重み付きテンソル核ノルム Global Weighted Tensor Nuclear Norm for Tensor Robust Principal Component Analysis ( http://arxiv.org/abs/2209.14084v1 ) ライセンス: Link先を確認 | Libin Wang, Yulong Wang, Shiyuan Wang, Youheng Liu, Yutao Hu, Longlong Chen, Hong Chen | (参考訳) 疎ノイズによる低ランクテンソルの回復を目的としたtrpca(tensor robust principal component analysis)は多くの実アプリケーションで注目を集めている。
本稿では,Fourier領域における前頭間スライスと前頭間スライス特異値の重要性を同時に考慮した新しいGlobal Weighted TRPCA法(GWTRPCA)を提案する。
このグローバルな情報をエクスプロイトすることで、GWTRPCAはより大きな特異値のペナルティを減らし、より小さな重みを割り当てる。
したがって,本手法はより正確に低変数のコンポーネントを回収することができる。
また,GWTRPCAの成功において,重み設定が重要な役割を果たすため,修正コーシー推定器(MCE)による効果的な適応重み学習戦略を提案する。
GWTRPCA 法を実装するために,並列処理の代替方向法 (ADMM) を用いた最適化アルゴリズムを考案した。
実世界のデータセットに関する実験により,提案手法の有効性が検証された。 Tensor Robust Principal Component Analysis (TRPCA), which aims to recover a low-rank tensor corrupted by sparse noise, has attracted much attention in many real applications. This paper develops a new Global Weighted TRPCA method (GWTRPCA), which is the first approach simultaneously considers the significance of intra-frontal slice and inter-frontal slice singular values in the Fourier domain. Exploiting this global information, GWTRPCA penalizes the larger singular values less and assigns smaller weights to them. Hence, our method can recover the low-tubal-rank components more exactly. Moreover, we propose an effective adaptive weight learning strategy by a Modified Cauchy Estimator (MCE) since the weight setting plays a crucial role in the success of GWTRPCA. To implement the GWTRPCA method, we devise an optimization algorithm using an Alternating Direction Method of Multipliers (ADMM) method. Experiments on real-world datasets validate the effectiveness of our proposed method. | 翻訳日:2022-09-29 17:39:03 公開日:2022-09-28 |
# 局所的微分プライバシーを考慮した運動量勾配のフェデレート学習 Momentum Gradient Descent Federated Learning with Local Differential Privacy ( http://arxiv.org/abs/2209.14086v1 ) ライセンス: Link先を確認 | Mengde Han, Tianqing Zhu, Wanlei Zhou | (参考訳) 近年,情報技術の発展が急速に進んでいる。
ビッグデータ時代には、個人情報のプライバシーがより明確になっている。
最大の課題は、データが公開され分析される間、機密性の高い個人情報が開示されないことを保証する方法を見つけることである。
集中型差分プライバシーは、信頼できるサードパーティのデータキュレーターの仮定に基づいて確立される。
しかし、実際にはこの仮定は必ずしも真とは限らない。
新しいプライバシー保護モデルとして、ローカルの差分プライバシーは比較的強力なプライバシー保証を持っている。
連合学習は分散学習におけるプライバシ保護のアプローチとして比較的一般的だが,それでもさまざまなプライバシ上の懸念を提起している。
プライバシの脅威を回避し,通信コストを削減するため,本論文では,機械学習モデルの性能向上のために,フェデレーション学習と局所差分プライバシをモーメント勾配勾配下で統合することを提案する。 Nowadays, the development of information technology is growing rapidly. In the big data era, the privacy of personal information has been more pronounced. The major challenge is to find a way to guarantee that sensitive personal information is not disclosed while data is published and analyzed. Centralized differential privacy is established on the assumption of a trusted third-party data curator. However, this assumption is not always true in reality. As a new privacy preservation model, local differential privacy has relatively strong privacy guarantees. Although federated learning has relatively been a privacy-preserving approach for distributed learning, it still introduces various privacy concerns. To avoid privacy threats and reduce communication costs, in this article, we propose integrating federated learning and local differential privacy with momentum gradient descent to improve the performance of machine learning models. | 翻訳日:2022-09-29 17:38:45 公開日:2022-09-28 |
# 360FusionNeRF: 関節誘導型パノラマ神経放射場 360FusionNeRF: Panoramic Neural Radiance Fields with Joint Guidance ( http://arxiv.org/abs/2209.14265v1 ) ライセンス: Link先を確認 | Shreyas Kulkarni, Peng Yin, and Sebastian Scherer | (参考訳) ニューラルラジアンス場(NeRF)に基づくパノラマ画像1枚360^\circ$パノラマ画像から,新規なビューを合成する方法を提案する。
同様の環境での先行研究は、多層知覚の近傍補間能力から、閉塞によって引き起こされる欠落した領域の完全な補間能力に頼っている。
プログレッシブトレーニングプロセスを導くために,幾何学的監督と意味的一貫性を導入する半教師付き学習フレームワークである360fusionnerfを提案する。
まず、入力画像を360^\circ$イメージに再投影し、他のカメラ位置で補助深度マップを抽出する。
奥行き監視は、NeRFカラーガイダンスに加えて、合成されたビューの幾何学性を改善する。
さらに,新しいビューのリアルなレンダリングを促進するセマンティック一貫性損失を導入する。
自然言語によるwebから採取された何億枚もの多様な2d写真に基づいてトレーニングされた視覚トランスフォーマであるclipなどの事前学習されたビジュアルエンコーダを用いて,これらの意味的特徴を抽出する。
実験により,提案手法はシーンの特徴を保ちながら,未観測領域の可観測完了を生成できることが示唆された。
360FusionNeRFは、さまざまな場面でトレーニングされると、合成Structured3Dデータセット(PSNR~5%、SSIM~3%LPIPS~13%)、現実世界のMatterport3Dデータセット(PSNR~3%、SSIM~3%LPIPS~9%)、Replica360データセット(PSNR~8%、SSIM~2%LPIPS~18%)への転送時の最先端のパフォーマンスを一貫して達成します。 We present a method to synthesize novel views from a single $360^\circ$ panorama image based on the neural radiance field (NeRF). Prior studies in a similar setting rely on the neighborhood interpolation capability of multi-layer perceptions to complete missing regions caused by occlusion, which leads to artifacts in their predictions. We propose 360FusionNeRF, a semi-supervised learning framework where we introduce geometric supervision and semantic consistency to guide the progressive training process. Firstly, the input image is re-projected to $360^\circ$ images, and auxiliary depth maps are extracted at other camera positions. The depth supervision, in addition to the NeRF color guidance, improves the geometry of the synthesized views. Additionally, we introduce a semantic consistency loss that encourages realistic renderings of novel views. We extract these semantic features using a pre-trained visual encoder such as CLIP, a Vision Transformer trained on hundreds of millions of diverse 2D photographs mined from the web with natural language supervision. Experiments indicate that our proposed method can produce plausible completions of unobserved regions while preserving the features of the scene. When trained across various scenes, 360FusionNeRF consistently achieves the state-of-the-art performance when transferring to synthetic Structured3D dataset (PSNR~5%, SSIM~3% LPIPS~13%), real-world Matterport3D dataset (PSNR~3%, SSIM~3% LPIPS~9%) and Replica360 dataset (PSNR~8%, SSIM~2% LPIPS~18%). | 翻訳日:2022-09-29 17:33:07 公開日:2022-09-28 |
# dextransfer: 最小限の人間の実演による実世界多指デクスタース把持 DexTransfer: Real World Multi-fingered Dexterous Grasping with Minimal Human Demonstrations ( http://arxiv.org/abs/2209.14284v1 ) ライセンス: Link先を確認 | Zoey Qiuyu Chen, Karl Van Wyk, Yu-Wei Chao, Wei Yang, Arsalan Mousavian, Abhishek Gupta, Dieter Fox | (参考訳) 実世界の物体をつかむために多指のデキスタスロボットを教えることは、その高次元状態と行動空間のために難しい問題であった。
そこで本研究では,少数の人間の実演を受講し,目立たない物体のポーズを把握できるロボット学習システムを提案する。
本システムでは,小型モーションキャプチャデータセットを活用し,多指ロボットグリッパーのための多種多様な軌跡を持つ大規模データセットを生成する。
ドメインのランダム化を加えることで、我々のデータセットは、ポリシー学習者に転送できる堅牢な把握軌跡を提供することを示す。
我々は,物体の点群を入力として捉え,物体を異なる初期ロボット状態から把握するための連続的な動作を予測する,厳密な把握ポリシーを訓練する。
実世界における22-DoF浮動アレッグロハンドと23-DoFアレッグロロボットハンドKUKAアームを用いた実世界におけるシステムの有効性を評価した。
私たちのデータセットから学んだポリシーは、シミュレーションと現実世界の両方で見えないオブジェクトのポーズをうまく一般化することができる Teaching a multi-fingered dexterous robot to grasp objects in the real world has been a challenging problem due to its high dimensional state and action space. We propose a robot-learning system that can take a small number of human demonstrations and learn to grasp unseen object poses given partially occluded observations. Our system leverages a small motion capture dataset and generates a large dataset with diverse and successful trajectories for a multi-fingered robot gripper. By adding domain randomization, we show that our dataset provides robust grasping trajectories that can be transferred to a policy learner. We train a dexterous grasping policy that takes the point clouds of the object as input and predicts continuous actions to grasp objects from different initial robot states. We evaluate the effectiveness of our system on a 22-DoF floating Allegro Hand in simulation and a 23-DoF Allegro robot hand with a KUKA arm in real world. The policy learned from our dataset can generalize well on unseen object poses in both simulation and the real world | 翻訳日:2022-09-29 17:32:34 公開日:2022-09-28 |
# 垂直決定木状態による自律性の説明に向けて Towards Explaining Autonomy with Verbalised Decision Tree States ( http://arxiv.org/abs/2209.13985v1 ) ライセンス: Link先を確認 | Konstantinos Gavriilidis, Andrea Munafo, Helen Hastie, Conlan Cesar, Michael DeFilippo, Michael R. Benjamin | (参考訳) 新しいAUV技術の開発により、AUVが対応できるタスクの範囲と運用期間が増加した。
その結果、AUVは高度に複雑な操作を処理できる。
しかし、これらのミッションは、ミッション中に起こる可能性のあるすべてのことを事前に知ることができないため、事前計画された一連のウェイポイントとしてミッションを定義する従来の方法に簡単には適合しない。
これにより、オペレータの期待値と実際の運用パフォーマンスのギャップが生まれる。
これにより、オペレータとAUV間の信頼レベルが低下し、不要なミッション中断が発生する。
ミッション内ロボットの行動とオペレーターの期待とのギャップを埋めるため、本研究は、ミッション中に自律車両が行う決定や行動を説明する枠組みを、理解しやすい方法で提供することを目的としている。
さらに目的は、任意の自律性アーキテクチャの上に追加レイヤとして追加可能な、自律性非依存のシステムを作ることだ。
異なる自己項を持つ異なる自律システムに適用できるようにするため、本研究は、自律性の内部動作を意思決定点から分離し、その結果、知識蒸留を施す実行動作を分離する。
最後に、より自然な方法で操作者に説明を提示するために、蒸留決定木の出力は自然言語説明と組み合わせられ、操作者に文として報告される。
このため、説明パイプラインの最後にConcept2Text Generationと呼ばれる追加のステップが追加される。 The development of new AUV technology increased the range of tasks that AUVs can tackle and the length of their operations. As a result, AUVs are capable of handling highly complex operations. However, these missions do not fit easily into the traditional method of defining a mission as a series of pre-planned waypoints because it is not possible to know, in advance, everything that might occur during the mission. This results in a gap between the operator's expectations and actual operational performance. Consequently, this can create a diminished level of trust between the operators and AUVs, resulting in unnecessary mission interruptions. To bridge this gap between in-mission robotic behaviours and operators' expectations, this work aims to provide a framework to explain decisions and actions taken by an autonomous vehicle during the mission, in an easy-to-understand manner. Additionally, the objective is to have an autonomy-agnostic system that can be added as an additional layer on top of any autonomy architecture. To make the approach applicable across different autonomous systems equipped with different autonomies, this work decouples the inner workings of the autonomy from the decision points and the resulting executed actions applying Knowledge Distillation. Finally, to present the explanations to the operators in a more natural way, the output of the distilled decision tree is combined with natural language explanations and reported to the operators as sentences. For this reason, an additional step known as Concept2Text Generation is added at the end of the explanation pipeline. | 翻訳日:2022-09-29 17:31:52 公開日:2022-09-28 |
# FiD-Light: 効率的な検索用テキスト生成 FiD-Light: Efficient and Effective Retrieval-Augmented Text Generation ( http://arxiv.org/abs/2209.14290v1 ) ライセンス: Link先を確認 | Sebastian Hofst\"atter, Jiecao Chen, Karthik Raman, Hamed Zamani | (参考訳) 検索の強化された生成モデルは、スタンドアロンの言語モデルよりも多くの利点を提供する。
しかし、それらはより複雑なシステムであり、長い入力を扱う必要がある。
本研究では,同じ効果レベルを維持しつつ,最先端検索型fidモデルの効率を高めるため,fid-lightを導入する。
我々のFiD-Lightモデルは、エンコーダ(パスを別々にエンコードする)からデコーダ(連結エンコーダ表現を用いる)への情報フローを制限する。
さらに,テキスト・ソース・ポインタによるFiD-Lightの高階化を図り,最上位の精度を向上する。
多様な7つの知識集約タスク(KILT)に関する実験では、クエリ待ち時間と有効性の間のParetoフロンティアが一貫して改善されている。
ソースポインティング付きFiD-Lightは、6つのKILTタスクに対して、妥当な効率を維持しつつ、テキスト生成とプロビタンス評価を組み合わせて実現した。 Retrieval-augmented generation models offer many benefits over standalone language models: besides a textual answer to a given query they provide provenance items retrieved from an updateable knowledge base. However, they are also more complex systems and need to handle long inputs. In this work, we introduce FiD-Light to strongly increase the efficiency of the state-of-the-art retrieval-augmented FiD model, while maintaining the same level of effectiveness. Our FiD-Light model constrains the information flow from the encoder (which encodes passages separately) to the decoder (using concatenated encoded representations). Furthermore, we adapt FiD-Light with re-ranking capabilities through textual source pointers, to improve the top-ranked provenance precision. Our experiments on a diverse set of seven knowledge intensive tasks (KILT) show FiD-Light consistently improves the Pareto frontier between query latency and effectiveness. FiD-Light with source pointing sets substantial new state-of-the-art results on six KILT tasks for combined text generation and provenance retrieval evaluation, while maintaining reasonable efficiency. | 翻訳日:2022-09-29 17:31:30 公開日:2022-09-28 |
# TRBoost:信頼領域法に基づく汎用勾配昇降機 TRBoost: A Generic Gradient Boosting Machine based on Trust-region Method ( http://arxiv.org/abs/2209.13791v1 ) ライセンス: Link先を確認 | Jiaqi Luo, Zihao Wei, Junkai Man, Shixin Xu | (参考訳) トラスト領域ブースティング(TRBoost)と呼ばれる汎用的なグラディエントブースティングマシンは、教師付き機械学習タスクを実行するために提示される。
既存のグラディエントブースティングマシン(GBM)は多くの問題に対して最先端の結果を得た。
しかし、パフォーマンスと汎用性のバランスを維持することは困難である。
1次アルゴリズムは2次アルゴリズムよりも一般的な損失関数に適しているが、後者のアルゴリズムほど性能は良くないことが多い。
TRBoostはトラスト領域アルゴリズムに基づいてGBMを一般化し、任意の損失関数に適合し、2次アルゴリズムとしての性能を維持する。
いくつかの数値実験を行い、TRBoostがさらなる収束効果を提供しながら競争結果が得られることを確認した。 A generic Gradient Boosting Machine called Trust-region Boosting (TRBoost) is presented for performing supervised machine learning tasks. Existing Gradient Boosting Machines (GBMs) have achieved state-of-the-art results on many problems. However, there are some difficulties to maintain a balance between performance and generality. The first-order algorithms are appropriate for more general loss functions than the second-order algorithms; while the performance is often not as good as the latter one. TRBoost generalizes GBMs based on the Trust-region algorithm to suit arbitrary loss functions while keeping up the good performance as the second-order algorithms. Several numerical experiments are conducted to confirm that TRBoost can get competitive results while offering additional benefits in convergence. | 翻訳日:2022-09-29 17:30:46 公開日:2022-09-28 |
# FedVeca: 適応的双方向グローバルオブジェクトによる非IIDデータのフェデレーションベクトル平均化 FedVeca: Federated Vectorized Averaging on Non-IID Data with Adaptive Bi-directional Global Objective ( http://arxiv.org/abs/2209.13803v1 ) ライセンス: Link先を確認 | Ping Luo, Jieren Cheng, Zhenhao Liu, N.Xiong, Jie Wu | (参考訳) フェデレーション学習(federated learning, fl)は、データサイロを緩和する分散型機械学習フレームワークである。
しかし、クライアントの非独立分散(Non-IID)データは、トレーニングされたモデルに悪影響を及ぼし、ローカル更新数の異なるクライアントは、各通信ラウンドの局所的な勾配に大きなギャップを生じさせる可能性がある。
本稿では,非iidデータを用いたフェデレーションベクトル平均化法(federated vectorized averaging, fedveca)を提案する。
具体的には,局所勾配に関連するグローバルモデルに対して,新たな目標を設定した。
局所勾配は、ステップサイズと方向を持つ双方向ベクトルとして定義され、ステップサイズは局所的な更新回数であり、その方向は定義に従って正と負に分けられる。
FedVecaでは、方向はステップサイズの影響を受けており、異なるステップサイズの影響を低減するために、双方向ベクトルを平均化する。
そして,ステップサイズと大域的目標との関係を理論的に解析し,通信ラウンドあたりのステップサイズに関する上限を求める。
この上界に基づいて,目的を最適に近いものにするためのステップサイズを適応的に調整するアルゴリズムをサーバとクライアント向けに設計する。
最後に,プロトタイプシステムの構築による異なるデータセット,モデル,シナリオの実験を行い,FedVeca法の有効性と有効性を示す実験結果を得た。 Federated Learning (FL) is a distributed machine learning framework to alleviate the data silos, where decentralized clients collaboratively learn a global model without sharing their private data. However, the clients' Non-Independent and Identically Distributed (Non-IID) data negatively affect the trained model, and clients with different numbers of local updates may cause significant gaps to the local gradients in each communication round. In this paper, we propose a Federated Vectorized Averaging (FedVeca) method to address the above problem on Non-IID data. Specifically, we set a novel objective for the global model which is related to the local gradients. The local gradient is defined as a bi-directional vector with step size and direction, where the step size is the number of local updates and the direction is divided into positive and negative according to our definition. In FedVeca, the direction is influenced by the step size, thus we average the bi-directional vectors to reduce the effect of different step sizes. Then, we theoretically analyze the relationship between the step sizes and the global objective, and obtain upper bounds on the step sizes per communication round. Based on the upper bounds, we design an algorithm for the server and the client to adaptively adjusts the step sizes that make the objective close to the optimum. Finally, we conduct experiments on different datasets, models and scenarios by building a prototype system, and the experimental results demonstrate the effectiveness and efficiency of the FedVeca method. | 翻訳日:2022-09-29 17:30:34 公開日:2022-09-28 |
# 暗黙的分布表現によるラベル分布学習 Label Distribution Learning via Implicit Distribution Representation ( http://arxiv.org/abs/2209.13824v1 ) ライセンス: Link先を確認 | Zhuoran Zheng and Xiuyi Jia | (参考訳) マルチラベル学習とは対照的に、ラベル分布学習は、より豊かな意味を表現するためにラベル分布によって例のポリセミーを特徴付ける。
ラベル分布の学習過程において、トレーニングデータは、主に手動アノテーションまたはラベル拡張アルゴリズムによって収集され、ラベル分布を生成する。
残念ながら、手動アノテーションタスクの複雑さやラベル拡張アルゴリズムの不正確さは、ラベル配布トレーニングセットのノイズと不確実性をもたらします。
この問題を軽減するため,ラベル分布学習フレームワークにおいて,各ラベル値の不確かさを特徴付ける暗黙分布を導入する。
具体的には,各行成分が各ラベル値の分布推定値に対応し,この行成分が事前のガウス分布によって制約され,ラベル分布データセットのノイズや不確実性の干渉が緩和されるようなラベル分布行列を構築するために,深い暗黙的表現学習を用いる。
最後に、ラベル分布行列の各行成分を自己認識アルゴリズムを用いて標準ラベル分布形式に変換する。
また, モデルの性能向上のため, トレーニング段階において正規化特性を持ついくつかのアプローチを行う。 In contrast to multi-label learning, label distribution learning characterizes the polysemy of examples by a label distribution to represent richer semantics. In the learning process of label distribution, the training data is collected mainly by manual annotation or label enhancement algorithms to generate label distribution. Unfortunately, the complexity of the manual annotation task or the inaccuracy of the label enhancement algorithm leads to noise and uncertainty in the label distribution training set. To alleviate this problem, we introduce the implicit distribution in the label distribution learning framework to characterize the uncertainty of each label value. Specifically, we use deep implicit representation learning to construct a label distribution matrix with Gaussian prior constraints, where each row component corresponds to the distribution estimate of each label value, and this row component is constrained by a prior Gaussian distribution to moderate the noise and uncertainty interference of the label distribution dataset. Finally, each row component of the label distribution matrix is transformed into a standard label distribution form by using the self-attention algorithm. In addition, some approaches with regularization characteristics are conducted in the training phase to improve the performance of the model. | 翻訳日:2022-09-29 17:30:10 公開日:2022-09-28 |
# データ表現と分類のための教師付きクラスペアワイズNMF Supervised Class-pairwise NMF for Data Representation and Classification ( http://arxiv.org/abs/2209.13831v1 ) ライセンス: Link先を確認 | Rachid Hedjam, Abdelhamid Abdesselam, Seyed Mohammad Jafar Jalali, Imran Khan, Samir Brahim Belhaouari | (参考訳) 様々な非負行列分解法(NMF)に基づく手法は、コスト関数に新しい用語を加えて、クラスタリングのような特定のタスクにモデルを適応させたり、縮小された空間(例えば局所不変性)における構造的特性を保持する。
加算項は主に、最適化過程を目的に向かって導くために全体公式のバランスを制御するハイパーパラメータによって重み付けされる。
その結果,パラメータ化NMF法が得られた。
しかし、NMF法は分解行列を推定するために教師なしアプローチを採用する。
したがって、新たに得られた特徴を用いて予測(例えば分類)を行う能力は保証されない。
本研究の目的は、パラメータ化されたNMFのハイパーパラメータを学習し、分類問題により適した教師付き方法で分解行列を推定する進化的フレームワークを設計することである。
さらに,NMFに基づくアルゴリズムをデータセット全体に一度適用するのではなく,異なるクラスペアに別々に適用することで,行列分解プロセスの有効性が向上すると主張している。
これにより、パラメータ値の異なる複数のパラメータ化NMFアルゴリズムを訓練する。
クロスバリデーションの組み合わせ学習フレームワークを採用し、遺伝的アルゴリズムを用いてハイパーパラメータ値の最適セットを同定する。
実データと合成データの両方を用いて実験を行い,提案手法の有効性を実証した。 Various Non-negative Matrix factorization (NMF) based methods add new terms to the cost function to adapt the model to specific tasks, such as clustering, or to preserve some structural properties in the reduced space (e.g., local invariance). The added term is mainly weighted by a hyper-parameter to control the balance of the overall formula to guide the optimization process towards the objective. The result is a parameterized NMF method. However, NMF method adopts unsupervised approaches to estimate the factorizing matrices. Thus, the ability to perform prediction (e.g. classification) using the new obtained features is not guaranteed. The objective of this work is to design an evolutionary framework to learn the hyper-parameter of the parameterized NMF and estimate the factorizing matrices in a supervised way to be more suitable for classification problems. Moreover, we claim that applying NMF-based algorithms separately to different class-pairs instead of applying it once to the whole dataset improves the effectiveness of the matrix factorization process. This results in training multiple parameterized NMF algorithms with different balancing parameter values. A cross-validation combination learning framework is adopted and a Genetic Algorithm is used to identify the optimal set of hyper-parameter values. The experiments we conducted on both real and synthetic datasets demonstrated the effectiveness of the proposed approach. | 翻訳日:2022-09-29 17:29:52 公開日:2022-09-28 |
# Obj2Seq: ビジュアルタスクのためのクラスプロンプトでオブジェクトをシーケンスとしてフォーマットする Obj2Seq: Formatting Objects as Sequences with Class Prompt for Visual Tasks ( http://arxiv.org/abs/2209.13948v1 ) ライセンス: Link先を確認 | Zhiyang Chen, Yousong Zhu, Zhaowen Li, Fan Yang, Wei Li, Haixin Wang, Chaoyang Zhao, Liwei Wu, Rui Zhao, Jinqiao Wang, Ming Tang | (参考訳) 視覚的なタスクは出力形式や関連する内容によって大きく異なるため、同じ構造で処理することは困難である。
主な障害は、オブジェクトレベルの視覚タスクの高次元出力にある。
本稿では,オブジェクト中心のビジョンフレームワークobj2seqを提案する。
obj2seqはオブジェクトを基本単位とし、ほとんどのオブジェクトレベルのビジュアルタスクをオブジェクトのシーケンス生成問題と見なす。
したがって、これらのビジュアルタスクは2つのステップに分離できる。
まず、与えられたカテゴリのオブジェクトを認識し、それぞれのオブジェクトのシーケンスを生成する。
出力シーケンスの定義はタスクによって異なり、これらのシーケンスと接地対象とを一致させることでモデルが監督される。
Obj2Seqは、カスタマイズされた要求を満たすための入力カテゴリを柔軟に決定でき、異なる視覚タスクに容易に拡張できる。
ms cocoで実験すると、obj2seqは物体検出で45.7%、マルチラベル分類で89.0%、ポーズ推定で65.0%のapを達成している。
これらの結果は、様々な視覚的タスクに適用できる可能性を示している。
コードはhttps://github.com/CASIA-IVA-Lab/Obj2Seqで公開されている。 Visual tasks vary a lot in their output formats and concerned contents, therefore it is hard to process them with an identical structure. One main obstacle lies in the high-dimensional outputs in object-level visual tasks. In this paper, we propose an object-centric vision framework, Obj2Seq. Obj2Seq takes objects as basic units, and regards most object-level visual tasks as sequence generation problems of objects. Therefore, these visual tasks can be decoupled into two steps. First recognize objects of given categories, and then generate a sequence for each of these objects. The definition of the output sequences varies for different tasks, and the model is supervised by matching these sequences with ground-truth targets. Obj2Seq is able to flexibly determine input categories to satisfy customized requirements, and be easily extended to different visual tasks. When experimenting on MS COCO, Obj2Seq achieves 45.7% AP on object detection, 89.0% AP on multi-label classification and 65.0% AP on human pose estimation. These results demonstrate its potential to be generally applied to different visual tasks. Code has been made available at: https://github.com/CASIA-IVA-Lab/Obj2Seq. | 翻訳日:2022-09-29 17:24:26 公開日:2022-09-28 |
# 動的MDETR:ビジュアルグラウンド化のための動的マルチモーダルトランスフォーマーデコーダ Dynamic MDETR: A Dynamic Multimodal Transformer Decoder for Visual Grounding ( http://arxiv.org/abs/2209.13959v1 ) ライセンス: Link先を確認 | Fengyuan Shi, Ruopeng Gao, Weilin Huang, Limin Wang | (参考訳) マルチモーダルトランスは、視覚的な接地のために画像とテキストを整列させる高い能力と柔軟性を示す。
しかし、エンコーダのみの接地フレームワーク(例えばTransVG)は、2次時間複雑性を持つ自己アテンション演算のために重い計算に苦しむ。
この問題に対処するため,動的MDETRと呼ばれる新しいマルチモーダルトランスフォーマーアーキテクチャを提案する。
重要な観察は、画像に高い空間冗長性が存在することである。
そこで我々は,視覚的グラウンド処理の高速化に先立って,この空間を利用して動的マルチモーダルトランスフォーマーデコーダを考案した。
具体的には,動的デコーダは2次元適応サンプリングモジュールとテキスト誘導復号モジュールから構成される。
サンプリングモジュールは、基準点に関するオフセットを予測し、これらの情報パッチを選択することを目的としており、デコードモジュールは、画像特徴とテキスト特徴との交差注意を行うことで、接地対象情報を抽出する。
これら2つのモジュールは、徐々にモダリティギャップをブリッジし、接地対象の基準点を反復的に洗練するために積み重ねられ、最終的に視覚的接地という目的を実現する。
5つのベンチマークにおいて,提案した動的MDETRが計算と精度の競合的なトレードオフを達成できることを示す。
特に、デコーダの9%の機能点しか使用していないため、マルチモーダルトランスのGLOPを約44%削減できるが、エンコーダのみよりも高い精度が得られる。
さらに、その一般化能力を検証し、Dynamic MDETRをスケールアップするために、最初のワンステージのCLIP強化ビジュアルグラウンドフレームワークを構築し、これらのベンチマークで最先端のパフォーマンスを達成する。 Multimodal transformer exhibits high capacity and flexibility to align image and text for visual grounding. However, the encoder-only grounding framework (e.g., TransVG) suffers from heavy computation due to the self-attention operation with quadratic time complexity. To address this issue, we present a new multimodal transformer architecture, coined as Dynamic MDETR, by decoupling the whole grounding process into encoding and decoding phases. The key observation is that there exists high spatial redundancy in images. Thus, we devise a new dynamic multimodal transformer decoder by exploiting this sparsity prior to speed up the visual grounding process. Specifically, our dynamic decoder is composed of a 2D adaptive sampling module and a text-guided decoding module. The sampling module aims to select these informative patches by predicting the offsets with respect to a reference point, while the decoding module works for extracting the grounded object information by performing cross attention between image features and text features. These two modules are stacked alternatively to gradually bridge the modality gap and iteratively refine the reference point of grounded object, eventually realizing the objective of visual grounding. Extensive experiments on five benchmarks demonstrate that our proposed Dynamic MDETR achieves competitive trade-offs between computation and accuracy. Notably, using only 9% feature points in the decoder, we can reduce ~44% GLOPs of the multimodal transformer, but still get higher accuracy than the encoder-only counterpart. In addition, to verify its generalization ability and scale up our Dynamic MDETR, we build the first one-stage CLIP empowered visual grounding framework, and achieve the state-of-the-art performance on these benchmarks. | 翻訳日:2022-09-29 17:24:06 公開日:2022-09-28 |
# 無教師画像アニメーション用モーショントランスフォーマ Motion Transformer for Unsupervised Image Animation ( http://arxiv.org/abs/2209.14024v1 ) ライセンス: Link先を確認 | Jiale Tao, Biao Wang, Tiezheng Ge, Yuning Jiang, Wen Li, and Lixin Duan | (参考訳) 画像アニメーションは、駆動ビデオから学んだ動きを用いて、ソースイメージをアニメーションすることを目的としている。
現在の最先端の手法では、一般的に畳み込みニューラルネットワーク(CNN)を使用して、動きキーポイントや対応する局所変換などの動き情報を予測する。
しかし、これらのcnnベースの手法は、動き間の相互作用を明示的にモデル化していないため、重要な動き関係が無視される可能性があり、それによって生成されたアニメーションビデオで目に見えるアーティファクトが生成される可能性がある。
そこで本研究では,視覚変換器をベースとした動き推定器構築の試みである動き変換器を提案する。
具体的には,提案手法に2種類のトークンを導入する。
一 パッチの特徴及び対応する位置符号化から形成される画像トークン
二 動き情報をエンコードした動きトークン
どちらの種類のトークンも視覚変換器に送られ、マルチヘッドのセルフアテンションブロックを通じてそれらの相互作用を促進する。
このプロセスを採用することで、モデルの性能を高めるために、モーション情報をよりよく学習することができる。
最終的な埋め込みモーショントークンは、対応する動きキーポイントと局所変換を予測するために使用される。
ベンチマークデータセットの広範な実験により,提案手法が最先端のベースラインに有望な結果をもたらすことが示された。
ソースコードは公開される予定だ。 Image animation aims to animate a source image by using motion learned from a driving video. Current state-of-the-art methods typically use convolutional neural networks (CNNs) to predict motion information, such as motion keypoints and corresponding local transformations. However, these CNN based methods do not explicitly model the interactions between motions; as a result, the important underlying motion relationship may be neglected, which can potentially lead to noticeable artifacts being produced in the generated animation video. To this end, we propose a new method, the motion transformer, which is the first attempt to build a motion estimator based on a vision transformer. More specifically, we introduce two types of tokens in our proposed method: i) image tokens formed from patch features and corresponding position encoding; and ii) motion tokens encoded with motion information. Both types of tokens are sent into vision transformers to promote underlying interactions between them through multi-head self attention blocks. By adopting this process, the motion information can be better learned to boost the model performance. The final embedded motion tokens are then used to predict the corresponding motion keypoints and local transformations. Extensive experiments on benchmark datasets show that our proposed method achieves promising results to the state-of-the-art baselines. Our source code will be public available. | 翻訳日:2022-09-29 17:23:36 公開日:2022-09-28 |
# adma-gan: テキストから画像への生成のための属性駆動メモリ拡張gan Adma-GAN: Attribute-Driven Memory Augmented GANs for Text-to-Image Generation ( http://arxiv.org/abs/2209.14046v1 ) ライセンス: Link先を確認 | Xintian Wu, Hanbin Zhao, Liangli Zheng, Shouhong Ding, Xi Li | (参考訳) 課題として、テキストから画像への生成は、与えられたテキスト記述に従って、フォトリアリスティックでセマンティックに一貫性のある画像を生成することを目的としている。
既存の方法は、画像を表すために1つの文のみからテキスト情報を抽出し、テキスト表現は生成された画像の品質によく影響する。
しかし、1文で限られた情報を直接活用することは、画像を記述する上で重要な要素であるいくつかの重要な属性記述を見逃す。
そこで本稿では,属性情報の補完機能を備えた効果的なテキスト表現手法を提案する。
まず,文入力によるテキスト対画像生成を共同で制御する属性メモリを構築する。
次に,汎用属性メモリを動的に最適化するために,サンプルアウェア機構とサンプルジョイント機構の2つの更新機構を検討した。
さらに,複数表現間の特徴埋め込みを調整し,クロスモーダルネットワークトレーニングを促進する属性-sentence-joint条件生成学習スキームを設計する。
実験の結果,提案手法は,cub (14.81から8.57) とcoco (21.42から12.39) の両方で性能改善が得られた。 As a challenging task, text-to-image generation aims to generate photo-realistic and semantically consistent images according to the given text descriptions. Existing methods mainly extract the text information from only one sentence to represent an image and the text representation effects the quality of the generated image well. However, directly utilizing the limited information in one sentence misses some key attribute descriptions, which are the crucial factors to describe an image accurately. To alleviate the above problem, we propose an effective text representation method with the complements of attribute information. Firstly, we construct an attribute memory to jointly control the text-to-image generation with sentence input. Secondly, we explore two update mechanisms, sample-aware and sample-joint mechanisms, to dynamically optimize a generalized attribute memory. Furthermore, we design an attribute-sentence-joint conditional generator learning scheme to align the feature embeddings among multiple representations, which promotes the cross-modal network training. Experimental results illustrate that the proposed method obtains substantial performance improvements on both the CUB (FID from 14.81 to 8.57) and COCO (FID from 21.42 to 12.39) datasets. | 翻訳日:2022-09-29 17:23:16 公開日:2022-09-28 |
# 効率的な3次元物体検出のための空間分割スパース畳み込み Spatial Pruned Sparse Convolution for Efficient 3D Object Detection ( http://arxiv.org/abs/2209.14201v1 ) ライセンス: Link先を確認 | Jianhui Liu, Yukang Chen, Xiaoqing Ye, Zhuotao Tian, Xiao Tan, Xiaojuan Qi | (参考訳) 3Dシーンは多数のバックグラウンドポイントによって支配されており、主に前景オブジェクトにフォーカスする必要がある検出タスクには冗長である。
本稿では,既存のsparse 3d cnnの主要コンポーネントを分析し,データの冗長性を無視する3d cnnを,ダウンサンプリングプロセスでさらに増幅することで,膨大な余分で不要な計算オーバーヘッドをもたらすことを見出した。
そこで,本稿では,空間pruned submanifold sparse convolution (spss-conv) と空間pruned regular sparse convolution (sprs-conv) の2つの変種を含む空間pruned sparse convolution (sps-conv) という新しい畳み込み演算子を提案する。
学習に基づく手法の余分な計算をなくす重要な領域を決定する上で,マグニチュードが重要な手がかりとなることを検証した。
提案するモジュールは、アーキテクチャの変更を加えることなく、既存のスパース3D CNNに容易に組み込むことができる。
KITTI, Waymo, nuScenesデータセットの大規模な実験により, 本手法は性能を損なうことなく50%以上のGFLOPを削減できることが示された。 3D scenes are dominated by a large number of background points, which is redundant for the detection task that mainly needs to focus on foreground objects. In this paper, we analyze major components of existing sparse 3D CNNs and find that 3D CNNs ignore the redundancy of data and further amplify it in the down-sampling process, which brings a huge amount of extra and unnecessary computational overhead. Inspired by this, we propose a new convolution operator named spatial pruned sparse convolution (SPS-Conv), which includes two variants, spatial pruned submanifold sparse convolution (SPSS-Conv) and spatial pruned regular sparse convolution (SPRS-Conv), both of which are based on the idea of dynamically determining crucial areas for redundancy reduction. We validate that the magnitude can serve as important cues to determine crucial areas which get rid of the extra computations of learning-based methods. The proposed modules can easily be incorporated into existing sparse 3D CNNs without extra architectural modifications. Extensive experiments on the KITTI, Waymo and nuScenes datasets demonstrate that our method can achieve more than 50% reduction in GFLOPs without compromising the performance. | 翻訳日:2022-09-29 17:22:33 公開日:2022-09-28 |
# プロンプト駆動型効率的なオープンセット半教師付き学習 Prompt-driven efficient Open-set Semi-supervised Learning ( http://arxiv.org/abs/2209.14205v1 ) ライセンス: Link先を確認 | Haoran Li, Chun-Mei Feng, Tao Zhou, Yong Xu and Xiaojun Chang | (参考訳) open-set semi-supervised learning (ossl) が注目を集めており、アウトオブディストリビューション(ood)サンプルがラベルなしのデータにのみ含まれる、より実用的なシナリオを調査している。
OpenMatchのような既存のOSSLメソッドは、ラベル付きデータからラベルなしデータへのクラス情報を伝達するために、全てのパラメータ(フル微調整)を更新するOOD検出器を学習する。
現在、事前学習と微調整のギャップを埋めるために素早い学習が開発されており、下流タスクの計算効率が向上している。
本稿では,ラベル付きからラベル付きデータへのクラス情報を少数のトレーニング可能なパラメータで伝達する,OpenPromptと呼ばれる,プロンプト駆動の効率的なOSSLフレームワークを提案する。
我々は,未ラベルデータにおけるIDとOODサンプルの分布ギャップを最大化することにより,OODデータを検出するための,即時駆動型共同空間学習機構を提案する。
3つの公開データセットの実験結果は、OpenPromptがトレーニング可能なパラメータの1%未満で最先端のメソッドより優れていることを示している。
さらに重要なことに、openprompt は cifar10 の完全な教師付きモデルよりも auroc on outlier detection の点で 4% の改善を達成している。 Open-set semi-supervised learning (OSSL) has attracted growing interest, which investigates a more practical scenario where out-of-distribution (OOD) samples are only contained in unlabeled data. Existing OSSL methods like OpenMatch learn an OOD detector to identify outliers, which often update all modal parameters (i.e., full fine-tuning) to propagate class information from labeled data to unlabeled ones. Currently, prompt learning has been developed to bridge gaps between pre-training and fine-tuning, which shows higher computational efficiency in several downstream tasks. In this paper, we propose a prompt-driven efficient OSSL framework, called OpenPrompt, which can propagate class information from labeled to unlabeled data with only a small number of trainable parameters. We propose a prompt-driven joint space learning mechanism to detect OOD data by maximizing the distribution gap between ID and OOD samples in unlabeled data, thereby our method enables the outliers to be detected in a new way. The experimental results on three public datasets show that OpenPrompt outperforms state-of-the-art methods with less than 1% of trainable parameters. More importantly, OpenPrompt achieves a 4% improvement in terms of AUROC on outlier detection over a fully supervised model on CIFAR10. | 翻訳日:2022-09-29 17:22:08 公開日:2022-09-28 |
# 深層学習に基づく低線量腹部ctの経時的変動解析 Longitudinal Variability Analysis on Low-dose Abdominal CT with Deep Learning-based Segmentation ( http://arxiv.org/abs/2209.14217v1 ) ライセンス: Link先を確認 | Xin Yu, Yucheng Tang, Qi Yang, Ho Hin Lee, Riqiang Gao, Shunxing Bao, Ann Zenobia Moore, Luigi Ferrucci, Bennett A. Landman | (参考訳) メタボリックヘルスは、心臓病から神経学までの諸条件におけるリスクファクターとしてますます重要視され、身体組成の効率評価はこれらの関係を定量的に特徴づけるために重要である。
2次元低線量シングルスライスCT(CT)は高分解能で定量的な組織マップを提供するが、視野は限られている。
画像コンテキストの定量化には多くの潜在的分析法が提案されているが, 自動分割による低線量単線CTの経時変化に対する包括的研究は行われていない。
深層学習のセグメンテーションと教師なしクラスタリング法を用いて,ボルチモア経年的腹部データセット(BLSA)1469例の合計1816個のスライスについて検討した。
最初の2回のスキャンで2年間隔を持つ1469例中300例を抽出し, 組織サイズおよび平均強度の指標として, 組織内相関係数 (ICC) と変動係数 (CV) の測定を行った。
対象腹部組織13例に対して,Diceは0.821から0.962の範囲の縦断的設定で安定なセグメンテーション法が得られた。
平均icc<0.5, 筋, 腹壁, 脂肪, ボディーマスク面積で, 平均icc<0.8。
臓器の変動は2次元切片の断面位置と強く関連していることがわかった。
縦断解析における不確実性を低減するため,定量的探索と品質管理を図っている。 Metabolic health is increasingly implicated as a risk factor across conditions from cardiology to neurology, and efficiency assessment of body composition is critical to quantitatively characterizing these relationships. 2D low dose single slice computed tomography (CT) provides a high resolution, quantitative tissue map, albeit with a limited field of view. Although numerous potential analyses have been proposed in quantifying image context, there has been no comprehensive study for low-dose single slice CT longitudinal variability with automated segmentation. We studied a total of 1816 slices from 1469 subjects of Baltimore Longitudinal Study on Aging (BLSA) abdominal dataset using supervised deep learning-based segmentation and unsupervised clustering method. 300 out of 1469 subjects that have two year gap in their first two scans were pick out to evaluate longitudinal variability with measurements including intraclass correlation coefficient (ICC) and coefficient of variation (CV) in terms of tissues/organs size and mean intensity. We showed that our segmentation methods are stable in longitudinal settings with Dice ranged from 0.821 to 0.962 for thirteen target abdominal tissues structures. We observed high variability in most organ with ICC<0.5, low variability in the area of muscle, abdominal wall, fat and body mask with average ICC>0.8. We found that the variability in organ is highly related to the cross-sectional position of the 2D slice. Our efforts pave quantitative exploration and quality control to reduce uncertainties in longitudinal analysis. | 翻訳日:2022-09-29 17:21:44 公開日:2022-09-28 |
# 画像の深層学習を用いた道路ラッティング検出 Road Rutting Detection using Deep Learning on Images ( http://arxiv.org/abs/2209.14225v1 ) ライセンス: Link先を確認 | Poonam Kumari Saha (1), Deeksha Arya (1), Ashutosh Kumar (1), Hiroya Maeda (2), Yoshihide Sekimoto (1) ((1) The University of Tokyo, Japan, (2) Urban-X Technologies, Inc., Tokyo, Japan) | (参考訳) 道路ラッティングは、道路の早期かつコストのかかる保守コストの早期の故障を引き起こす深刻な道路難題である。
近年,画像処理技術と深層学習を用いた道路損傷検出の研究が盛んに行われている。
しかし、これらの研究は主に亀裂、穴、およびそれらの変種の検出に焦点を当てている。
道路ラッティングの検出に関する研究はほとんど行われていない。
本稿では,949画像からなる新しい道路ラッピングデータセットを提案し,オブジェクトレベルとピクセルレベルのアノテーションを提供する。
提案するデータセット上での道路ラッティングを検出するために,オブジェクト検出モデルと意味セグメンテーションモデルが配置され,モデル性能を評価するためにモデル予測の定量的・定性解析を行い,提案手法を用いた道路ラッティング検出に直面する課題を同定した。
オブジェクト検出モデルYOLOX-sはmAP@IoU=0.5の61.6%、セマンティックセグメンテーションモデルPSPNet(Resnet-50)は54.69のIoUと72.67の精度を達成した。
提案した道路ラッティングデータセットと本研究の結果は,深層学習を用いた道路ラッティング検出研究の加速に寄与する。 Road rutting is a severe road distress that can cause premature failure of road incurring early and costly maintenance costs. Research on road damage detection using image processing techniques and deep learning are being actively conducted in the past few years. However, these researches are mostly focused on detection of cracks, potholes, and their variants. Very few research has been done on the detection of road rutting. This paper proposes a novel road rutting dataset comprising of 949 images and provides both object level and pixel level annotations. Object detection models and semantic segmentation models were deployed to detect road rutting on the proposed dataset, and quantitative and qualitative analysis of model predictions were done to evaluate model performance and identify challenges faced in the detection of road rutting using the proposed method. Object detection model YOLOX-s achieves mAP@IoU=0.5 of 61.6% and semantic segmentation model PSPNet (Resnet-50) achieves IoU of 54.69 and accuracy of 72.67, thus providing a benchmark accuracy for similar work in future. The proposed road rutting dataset and the results of our research study will help accelerate the research on detection of road rutting using deep learning. | 翻訳日:2022-09-29 17:21:17 公開日:2022-09-28 |
# コンピュータビジョンにおける身体的敵攻撃に関する調査 A Survey on Physical Adversarial Attack in Computer Vision ( http://arxiv.org/abs/2209.14262v1 ) ライセンス: Link先を確認 | Donghua Wang, Wen Yao, Tingsong Jiang, Guijiang Tang, Xiaoqian Chen | (参考訳) 過去10年間で、ディープラーニングは、強力な特徴学習能力で従来の手工芸の特徴を劇的に変え、従来のタスクを大幅に改善した。
しかし、ディープニューラルネットワークは、近ごろ、悪意のある例に弱いことが示されています。これは、小さな精巧に設計されたノイズによって作られた、悪意のあるサンプルの一種です。
敵の例は、デジタル敵攻撃と物理的敵攻撃に分けられる。
デジタル敵攻撃は主に実験室環境で行われ、敵攻撃アルゴリズムの性能向上に重点を置いている。
対照的に、物理世界が展開するDNNシステムを攻撃する物理的敵攻撃は、複雑な物理的環境(明るさ、閉塞など)のためにより困難な課題である。
デジタル逆境と物理的な逆境の区別は小さいが、物理的な逆境の例は複雑な物理的環境の影響を克服する特別な設計を持っている。
本稿では、画像認識タスク、オブジェクト検出タスク、セマンティックセグメンテーションを含むDNNベースのコンピュータビジョンタスクにおける物理的敵攻撃の開発について概説する。
アルゴリズムの進化の完全性のために、我々は物理的な敵の攻撃を含まない作品を簡単に紹介する。
まず,現在の物理的攻撃をまとめた分類手法を提案する。
次に、既存の物理敵の攻撃の利点と欠点を議論し、物理環境に適用した場合の敵の維持に使用される技術に焦点をあてる。
最後に,現在の物理的敵攻撃の問題点を指摘し,今後の研究の方向性について述べる。 In the past decade, deep learning has dramatically changed the traditional hand-craft feature manner with strong feature learning capability, resulting in tremendous improvement of conventional tasks. However, deep neural networks have recently been demonstrated vulnerable to adversarial examples, a kind of malicious samples crafted by small elaborately designed noise, which mislead the DNNs to make the wrong decisions while remaining imperceptible to humans. Adversarial examples can be divided into digital adversarial attacks and physical adversarial attacks. The digital adversarial attack is mostly performed in lab environments, focusing on improving the performance of adversarial attack algorithms. In contrast, the physical adversarial attack focus on attacking the physical world deployed DNN systems, which is a more challenging task due to the complex physical environment (i.e., brightness, occlusion, and so on). Although the discrepancy between digital adversarial and physical adversarial examples is small, the physical adversarial examples have a specific design to overcome the effect of the complex physical environment. In this paper, we review the development of physical adversarial attacks in DNN-based computer vision tasks, including image recognition tasks, object detection tasks, and semantic segmentation. For the sake of completeness of the algorithm evolution, we will briefly introduce the works that do not involve the physical adversarial attack. We first present a categorization scheme to summarize the current physical adversarial attacks. Then discuss the advantages and disadvantages of the existing physical adversarial attacks and focus on the technique used to maintain the adversarial when applied into physical environment. Finally, we point out the issues of the current physical adversarial attacks to be solved and provide promising research directions. | 翻訳日:2022-09-29 17:20:54 公開日:2022-09-28 |
# SEMICON: 大規模きめ細かい画像検索のための学習とハッシュのソリューション SEMICON: A Learning-to-hash Solution for Large-scale Fine-grained Image Retrieval ( http://arxiv.org/abs/2209.13833v1 ) ライセンス: Link先を確認 | Yang Shen, Xuhao Sun, Xiu-Shen Wei, Qing-Yuan Jiang, Jian Yang | (参考訳) 本稿では,大規模な細粒度画像検索タスクを扱うためのバイナリハッシュコードを学習するために,semicon(spression-enhancing mask based attention and interactive channel transformation)を提案する。
セミコンでは,まず注意に基づく抑圧強調マスク(sem)を開発し,識別画像領域を動的にローカライズする。
さらに,既存の注意機構と異なり,従来の識別領域を簡易に消去し,ステージごとの活性化領域間の関係を考慮し,これらの領域を抑制し,他の補完領域を発見する。
それぞれの段階では、interactive channel transformation (icon)モジュールはその後、出席したアクティベーションテンソルのチャネル間の相関を利用するように設計されている。
チャネルは一般に細粒度オブジェクトの部分に対応できるため、その部分の相関もモデル化できるため、より精細度の精度が向上する。
さらに、計算経済として、ICONは効率的な2段階プロセスによって実現される。
最後に、SEMICONのハッシュ学習は、グローバルレベルとローカルレベルの両方のブランチで構成されており、細粒度オブジェクトをより良く表現し、複数のレベルに対応するバイナリハッシュコードを生成する。
5つのベンチマークのきめ細かいデータセットの実験は、競合する手法よりも優れていることを示している。 In this paper, we propose Suppression-Enhancing Mask based attention and Interactive Channel transformatiON (SEMICON) to learn binary hash codes for dealing with large-scale fine-grained image retrieval tasks. In SEMICON, we first develop a suppression-enhancing mask (SEM) based attention to dynamically localize discriminative image regions. More importantly, different from existing attention mechanism simply erasing previous discriminative regions, our SEM is developed to restrain such regions and then discover other complementary regions by considering the relation between activated regions in a stage-by-stage fashion. In each stage, the interactive channel transformation (ICON) module is afterwards designed to exploit correlations across channels of attended activation tensors. Since channels could generally correspond to the parts of fine-grained objects, the part correlation can be also modeled accordingly, which further improves fine-grained retrieval accuracy. Moreover, to be computational economy, ICON is realized by an efficient two-step process. Finally, the hash learning of our SEMICON consists of both global- and local-level branches for better representing fine-grained objects and then generating binary hash codes explicitly corresponding to multiple levels. Experiments on five benchmark fine-grained datasets show our superiority over competing methods. | 翻訳日:2022-09-29 17:15:42 公開日:2022-09-28 |
# ニューラル画像圧縮のためのマルチサンプルトレーニング Multi-Sample Training for Neural Image Compression ( http://arxiv.org/abs/2209.13834v1 ) ライセンス: Link先を確認 | Tongda Xu, Yan Wang, Dailan He, Chenjian Gao, Han Gao, Kunzan Liu, Hongwei Qin | (参考訳) 本稿では、損失のあるニューラルイメージ圧縮(NIC)の問題について考察する。
現在の最先端(ソータ)法では、一様後方から量子化ノイズを近似し、単一サンプルパスワイズ推定器を用いて証拠下界(ELBO)の勾配を近似する。
本稿では,多サンプル重み付きオートエンコーダ(IWAE)ターゲットを用いたNICのトレーニングを提案する。
まず、NICの均一な後部は特別な特性を有しており、IWAEターゲットのパスワイドおよびスコア関数推定器のばらつきとバイアスに影響を与える。
さらに、勾配分散の観点から、NICにおいて一般的に採用されているトリックについての洞察を提供する。
これらの分析に基づいて、NICの強化されたIWAEターゲットであるMulti-Sample NIC (MS-NIC)を提案する。
実験により,ソータNIC法の改善が示された。
我々のMS-NICはプラグアンドプレイであり、他のニューラル圧縮タスクに容易に拡張できる。 This paper considers the problem of lossy neural image compression (NIC). Current state-of-the-art (sota) methods adopt uniform posterior to approximate quantization noise, and single-sample pathwise estimator to approximate the gradient of evidence lower bound (ELBO). In this paper, we propose to train NIC with multiple-sample importance weighted autoencoder (IWAE) target, which is tighter than ELBO and converges to log likelihood as sample size increases. First, we identify that the uniform posterior of NIC has special properties, which affect the variance and bias of pathwise and score function estimators of the IWAE target. Moreover, we provide insights on a commonly adopted trick in NIC from gradient variance perspective. Based on those analysis, we further propose multiple-sample NIC (MS-NIC), an enhanced IWAE target for NIC. Experimental results demonstrate that it improves sota NIC methods. Our MS-NIC is plug-and-play, and can be easily extended to other neural compression tasks. | 翻訳日:2022-09-29 17:15:19 公開日:2022-09-28 |
# 深層選択的注意ネットワーク : 医用画像分類のためのラベル効率学習に向けて Deeply Supervised Layer Selective Attention Network: Towards Label-Efficient Learning for Medical Image Classification ( http://arxiv.org/abs/2209.13844v1 ) ライセンス: Link先を確認 | Peng Jiang, Juan Liu, Lang Wang, Zhihui Ynag, Hongyu Dong, Jing Feng | (参考訳) 医用画像のラベル付けは専門知識に依存するため,短時間で大量の注釈付医用画像の取得が困難になる。
したがって、小さなデータセットにラベル付きサンプルを適切に利用して高性能なモデルを構築することが、医用画像分類の鍵となる。
本稿では,特徴量および予測値の監視においてラベル情報を包括的に利用するlsanet(deep supervised layer selective attention network)を提案する。
機能レベルの監視のために、低レベルの機能と高レベルの機能をより融合させるために、新しい視覚的注意モジュール、Layer Selective Attention (LSA)を提案し、異なるレイヤの機能選択に焦点を当てる。
lsaは、トレーニングプロセス全体の各補助ブランチの重み付け係数を動的に調整し、深い教師付き学習をさらに強化し、一般化を確実にする重み付けスキームを導入する。
予測レベルの監視には,相互知識マッチングを通じてすべての監督部門間の階層的情報相互作用を促進するための知識シナジー戦略を採用する。
医療分野の多様な分野をカバーする生物医学的画像分類の大規模ベンチマークであるmedmnistを用いて,複数の主流cnnアーキテクチャと各種視覚注意モジュールのlsanetを評価する。
実験の結果, LSANetは, 医用画像分類の分野において, ラベル効率のよい学習方法として有望なソリューションを提供できることを示した。 Labeling medical images depends on professional knowledge, making it difficult to acquire large amount of annotated medical images with high quality in a short time. Thus, making good use of limited labeled samples in a small dataset to build a high-performance model is the key to medical image classification problem. In this paper, we propose a deeply supervised Layer Selective Attention Network (LSANet), which comprehensively uses label information in feature-level and prediction-level supervision. For feature-level supervision, in order to better fuse the low-level features and high-level features, we propose a novel visual attention module, Layer Selective Attention (LSA), to focus on the feature selection of different layers. LSA introduces a weight allocation scheme which can dynamically adjust the weighting factor of each auxiliary branch during the whole training process to further enhance deeply supervised learning and ensure its generalization. For prediction-level supervision, we adopt the knowledge synergy strategy to promote hierarchical information interactions among all supervision branches via pairwise knowledge matching. Using the public dataset, MedMNIST, which is a large-scale benchmark for biomedical image classification covering diverse medical specialties, we evaluate LSANet on multiple mainstream CNN architectures and various visual attention modules. The experimental results show the substantial improvements of our proposed method over its corresponding counterparts, demonstrating that LSANet can provide a promising solution for label-efficient learning in the field of medical image classification. | 翻訳日:2022-09-29 17:14:51 公開日:2022-09-28 |
# ビデオキャプションの幻覚を考える Thinking Hallucination for Video Captioning ( http://arxiv.org/abs/2209.13853v1 ) ライセンス: Link先を確認 | Nasib Ullah, Partha Pratim Mohanta | (参考訳) リッチな視覚的表現と事前学習された言語モデルの出現により、ビデオキャプションは時間とともに改善されている。
性能改善にもかかわらず、ビデオキャプションモデルは幻覚を起こしやすい。
幻覚とは、原資料から切り離された非常に病的な記述の生成を指す。
ビデオキャプションでは、オブジェクトとアクションの幻覚という2種類の幻覚がある。
本研究は,映像の表現をもっと良くするために努力する代わりに,幻覚問題の根源について検討する。
主な要因は3つあります
(i)事前学習したモデルから抽出した不適切な視覚特徴
(二)マルチモーダル核融合時のソースおよびターゲットコンテキストの不適切な影響、及び
(iii)トレーニング戦略における露出バイアス。
これらの問題を緩和するため、我々は2つの堅牢な解決策を提案する。
(a)抽出した視覚特徴の上に複数のラベル設定で訓練された補助ヘッドの導入と,
b) 融合中の特徴を動的に選択するコンテキストゲートの追加。
ビデオキャプションの標準評価基準は, 地上の真実キャプションと類似度を測定し, 対象と行動の関連性を適切に把握していない。
そこで本研究では,新たな尺度であるCOAHA(Caption Object and Action Hallucination Assessment)を提案し,幻覚の度合いを評価する。
MSR-Video to Text (MSR-VTT) と Microsoft Research Video Description Corpus (MSVD) のデータセット、特に CIDEr のスコアにおいて、最先端のパフォーマンスを実現する。 With the advent of rich visual representations and pre-trained language models, video captioning has seen continuous improvement over time. Despite the performance improvement, video captioning models are prone to hallucination. Hallucination refers to the generation of highly pathological descriptions that are detached from the source material. In video captioning, there are two kinds of hallucination: object and action hallucination. Instead of endeavoring to learn better representations of a video, in this work, we investigate the fundamental sources of the hallucination problem. We identify three main factors: (i) inadequate visual features extracted from pre-trained models, (ii) improper influences of source and target contexts during multi-modal fusion, and (iii) exposure bias in the training strategy. To alleviate these problems, we propose two robust solutions: (a) the introduction of auxiliary heads trained in multi-label settings on top of the extracted visual features and (b) the addition of context gates, which dynamically select the features during fusion. The standard evaluation metrics for video captioning measures similarity with ground truth captions and do not adequately capture object and action relevance. To this end, we propose a new metric, COAHA (caption object and action hallucination assessment), which assesses the degree of hallucination. Our method achieves state-of-the-art performance on the MSR-Video to Text (MSR-VTT) and the Microsoft Research Video Description Corpus (MSVD) datasets, especially by a massive margin in CIDEr score. | 翻訳日:2022-09-29 17:14:25 公開日:2022-09-28 |
# 深部実世界の画像劣化に対するBlur合成の再考 Rethinking Blur Synthesis for Deep Real-World Image Deblurring ( http://arxiv.org/abs/2209.13866v1 ) ライセンス: Link先を確認 | Hao Wei, Chenyang Ge, Xin Qiao, Pengchao Deng | (参考訳) 本稿では,実世界の画像デブラリングの問題点を考察し,深部画像デブラリングモデルの性能向上のための2つの重要な要因,すなわちトレーニングデータ合成とネットワークアーキテクチャ設計について考察する。
既存の合成データセットでトレーニングされたデブラリングモデルは、ドメインシフトによる実際のぼやけた画像ではパフォーマンスが悪い。
合成領域と実領域の間の領域ギャップを低減するため,カメラ撮像過程をシミュレートする新しいリアルなぼかし合成パイプラインを提案する。
提案手法により,既存のデブロワーリングモデルをより堅牢にすることで,現実世界のぼかしを扱うことができる。
さらに,機能領域における非局所的依存関係と局所的コンテキストを同時にキャプチャする効果的なデブロアリングモデルを開発する。
具体的には,マルチスケール機能学習のためのunetアーキテクチャにマルチパストランスフォーマーモジュールを導入する。
実世界の3つのデータセットに関する包括的実験により,提案手法は最先端手法よりも優れた性能を示す。 In this paper, we examine the problem of real-world image deblurring and take into account two key factors for improving the performance of the deep image deblurring model, namely, training data synthesis and network architecture design. Deblurring models trained on existing synthetic datasets perform poorly on real blurry images due to domain shift. To reduce the domain gap between synthetic and real domains, we propose a novel realistic blur synthesis pipeline to simulate the camera imaging process. As a result of our proposed synthesis method, existing deblurring models could be made more robust to handle real-world blur. Furthermore, we develop an effective deblurring model that captures non-local dependencies and local context in the feature domain simultaneously. Specifically, we introduce the multi-path transformer module to UNet architecture for enriched multi-scale features learning. A comprehensive experiment on three real-world datasets shows that the proposed deblurring model performs better than state-of-the-art methods. | 翻訳日:2022-09-29 17:14:03 公開日:2022-09-28 |
# MMSportsチャレンジのためのStrong Instance Segmentation Pipeline Strong Instance Segmentation Pipeline for MMSports Challenge ( http://arxiv.org/abs/2209.13899v1 ) ライセンス: Link先を確認 | Bo Yan, Fengliang Qi, Zhuang Li, Yadong Li, Hongbin Wang | (参考訳) ACM MMSports2022 DeepSportRadar Instance Segmentation Challengeの目標は、バスケットボールコートで選手、コーチ、審判を含む個々の人間のセグメンテーションに取り組むことである。
この課題の主な特徴は、プレイヤー間では高いレベルのオクルージョンがあり、データ量は非常に限られていることである。
これらの問題に対処するため、私たちは強力なインスタンスセグメンテーションパイプラインを設計しました。
まず,より広い分布でより多くの画像インスタンスを生成することができるフォトメトリック歪み変換とコピーペースト戦略を含む,この課題に適切なデータ拡張戦略を採用した。
次に,swainベースのcbnetv2バックボーンに基づく,強力なセグメンテーションモデルとハイブリッドタスクカスケードに基づく検出器を採用し,インスタンスセグメンテーションの性能を簡易かつ効果的に向上可能なmaschiouヘッドをhtcmaskheadに追加した。
最後に、SWAトレーニング戦略を適用し、パフォーマンスをさらに向上させた。
実験の結果、提案パイプラインはdeepsportradarチャレンジにおいて0.768ap@0.50:0.95の競合結果が得られることが示された。
ソースコードはhttps://github.com/YJingyu/Instanc_Segmentation_Proで入手できる。 The goal of ACM MMSports2022 DeepSportRadar Instance Segmentation Challenge is to tackle the segmentation of individual humans including players, coaches and referees on a basketball court. And the main characteristics of this challenge are there is a high level of occlusions between players and the amount of data is quite limited. In order to address these problems, we designed a strong instance segmentation pipeline. Firstly, we employed a proper data augmentation strategy for this task mainly including photometric distortion transform and copy-paste strategy, which can generate more image instances with a wider distribution. Secondly, we employed a strong segmentation model, Hybrid Task Cascade based detector on the Swin-Base based CBNetV2 backbone, and we add MaskIoU head to HTCMaskHead that can simply and effectively improve the performance of instance segmentation. Finally, the SWA training strategy was applied to improve the performance further. Experimental results demonstrate the proposed pipeline can achieve a competitive result on the DeepSportRadar challenge, with 0.768AP@0.50:0.95 on the challenge set. Source code is available at https://github.com/YJingyu/Instanc_Segmentation_Pro. | 翻訳日:2022-09-29 17:13:47 公開日:2022-09-28 |
# SmartMocap:RGBカメラを用いた人間とカメラの動きの同時推定 SmartMocap: Joint Estimation of Human and Camera Motion using Uncalibrated RGB Cameras ( http://arxiv.org/abs/2209.13906v1 ) ライセンス: Link先を確認 | Nitin Saini, Chun-hao P. Huang, Michael J. Black, Aamir Ahmad | (参考訳) 複数のrgbカメラからのマーカーレスモーションキャプチャ(mocap)は広く研究されている問題である。
既存の方法は、モキャップシステムの基準フレームとして機能するスタティックカメラに対して、キャリブレーションされたカメラやキャリブレーションを必要とする。
キャリブレーションステップは、面倒なプロセスであるキャプチャセッション毎にプリオリを行う必要があり、カメラが意図的にまたは誤って移動されたときに再校正が必要である。
本稿では,複数の静止・移動可能なRGBカメラを用いたモキャップ方式を提案する。
本手法の主な構成要素は以下の通りである。
まず、カメラと被写体は自由に動けるので、カメラ座標内の物体を表す既存の方法とは異なり、地上面を身体とカメラの動きの両方を表す共通参照として選択する。
次に、地上面に対して短い人間の動き列($1sec)の確率分布を学習し、それをカメラと人間の動きの曖昧さに活用する。
第3に、この分布を、新しい多段階最適化アプローチに先立って動きとして使用し、smpl人体モデルに適合させ、カメラが画像の人体キーポイントにポーズを取る。
最後に,提案手法が,航空カメラからスマートフォンまで,さまざまなデータセットで動作可能であることを示す。
また、静的カメラによる単眼型人間のモキャップのタスクの最先端技術と比較すると、より正確な結果が得られる。
私たちのコードは研究目的でhttps://github.com/robot-perception-group/smartmocapで利用できます。 Markerless human motion capture (mocap) from multiple RGB cameras is a widely studied problem. Existing methods either need calibrated cameras or calibrate them relative to a static camera, which acts as the reference frame for the mocap system. The calibration step has to be done a priori for every capture session, which is a tedious process, and re-calibration is required whenever cameras are intentionally or accidentally moved. In this paper, we propose a mocap method which uses multiple static and moving extrinsically uncalibrated RGB cameras. The key components of our method are as follows. First, since the cameras and the subject can move freely, we select the ground plane as a common reference to represent both the body and the camera motions unlike existing methods which represent bodies in the camera coordinate. Second, we learn a probability distribution of short human motion sequences ($\sim$1sec) relative to the ground plane and leverage it to disambiguate between the camera and human motion. Third, we use this distribution as a motion prior in a novel multi-stage optimization approach to fit the SMPL human body model and the camera poses to the human body keypoints on the images. Finally, we show that our method can work on a variety of datasets ranging from aerial cameras to smartphones. It also gives more accurate results compared to the state-of-the-art on the task of monocular human mocap with a static camera. Our code is available for research purposes on https://github.com/robot-perception-group/SmartMocap. | 翻訳日:2022-09-29 17:13:26 公開日:2022-09-28 |
# devit: ビデオインペインティングで変形した視覚トランスフォーマー DeViT: Deformed Vision Transformers in Video Inpainting ( http://arxiv.org/abs/2209.13925v1 ) ライセンス: Link先を確認 | Jiayin Cai, Changlin Li, Xin Tao, Chun Yuan and Yu-Wing Tai | (参考訳) 本稿では,新しいインペイント手法を提案する。
まず,前回のトランスフォーマーをパッチアライメントで拡張し,変形したパッチベースのホモグラフィ(deep)を導入することで,パッチレベルの機能アライメントを改善した。
第2に,Msk Pruning-based Patch Attention (MPPA)を導入し,より重要でない特徴を抽出し,サリエンシマップを用いることで,パッチワイドな特徴マッチングを改善する。
MPPAは歪んだトークンと無効なピクセルのマッチング精度を高める。
第3に,空間-時間重み付けアダプタ(sta)モジュールを導入し,深度から学習した変形係数の指導の下で空間-時間トークンに正確な注意を向ける。
実験により,本手法は最近の手法を質的,定量的に上回り,新しい最先端技術を実現することを示す。 This paper proposes a novel video inpainting method. We make three main contributions: First, we extended previous Transformers with patch alignment by introducing Deformed Patch-based Homography (DePtH), which improves patch-level feature alignments without additional supervision and benefits challenging scenes with various deformation. Second, we introduce Mask Pruning-based Patch Attention (MPPA) to improve patch-wised feature matching by pruning out less essential features and using saliency map. MPPA enhances matching accuracy between warped tokens with invalid pixels. Third, we introduce a Spatial-Temporal weighting Adaptor (STA) module to obtain accurate attention to spatial-temporal tokens under the guidance of the Deformation Factor learned from DePtH, especially for videos with agile motions. Experimental results demonstrate that our method outperforms recent methods qualitatively and quantitatively and achieves a new state-of-the-art. | 翻訳日:2022-09-29 17:13:01 公開日:2022-09-28 |
# 注意を喚起するニューラルネットワーク Attention Spiking Neural Networks ( http://arxiv.org/abs/2209.13929v1 ) ライセンス: Link先を確認 | Man Yao, Guangshe Zhao, Hengyu Zhang, Yifan Hu, Lei Deng, Yonghong Tian, Bo Xu, and Guoqi Li | (参考訳) 脳のイベント駆動的かつスパーススパイキング特性の恩恵を受け、スパイキングニューラルネットワーク(snn)は、ニューラルネットワーク(anns)のエネルギー効率のよい代替手段になりつつある。
しかしながら、SNNとANNのパフォーマンスギャップは、長い間、SNNをユビキタスにデプロイする上で大きな障害となっている。
本研究では,SNNにおける注意機構の効果について検討する。
まず,多次元注意 (MA) と呼ばれるプラグ・アンド・プレイキットで注意を喚起する。
そこで, 時間, チャネル, 空間次元に沿った注意重みを別々に, 同時に推定する「MA-SNN」と呼ばれる, エンドツーエンドトレーニングによる新しい注目SNNアーキテクチャを提案する。
既存の神経科学理論に基づいて、注意重みを利用して膜電位を最適化し、データ依存的にスパイク反応を調節する。
不可分な追加パラメータのコストで、maはバニラsnsを促進させ、スパーサースパイキング活性、性能向上、エネルギー効率を同時に達成する。
イベントベースDVS128ジェスチャー/歩行動作認識とImageNet-1k画像分類で実験を行った。
ジェスチャー/歩行ではスパイク数が84.9%/81.6%減少し、タスクの精度とエネルギー効率が5.9%/4.7%向上し、3.4$\times$/3.2$\times$となる。
ImageNet-1Kでは、SNNの最先端結果であるシングル/4ステップのRes-SNN-104において、トップ1の精度75.92%と77.08%を達成する。
私たちの知る限りでは、SNNコミュニティが大規模なデータセットでANNと同等あるいはそれ以上のパフォーマンスを達成したのは、これが初めてです。
当社の作業は、SNNのさまざまなアプリケーションをサポートするための一般的なバックボーンとして、効率と効率のバランスを保ちながら、SNNの可能性を浮き彫りにしています。 Benefiting from the event-driven and sparse spiking characteristics of the brain, spiking neural networks (SNNs) are becoming an energy-efficient alternative to artificial neural networks (ANNs). However, the performance gap between SNNs and ANNs has been a great hindrance to deploying SNNs ubiquitously for a long time. To leverage the full potential of SNNs, we study the effect of attention mechanisms in SNNs. We first present our idea of attention with a plug-and-play kit, termed the Multi-dimensional Attention (MA). Then, a new attention SNN architecture with end-to-end training called "MA-SNN" is proposed, which infers attention weights along the temporal, channel, as well as spatial dimensions separately or simultaneously. Based on the existing neuroscience theories, we exploit the attention weights to optimize membrane potentials, which in turn regulate the spiking response in a data-dependent way. At the cost of negligible additional parameters, MA facilitates vanilla SNNs to achieve sparser spiking activity, better performance, and energy efficiency concurrently. Experiments are conducted in event-based DVS128 Gesture/Gait action recognition and ImageNet-1k image classification. On Gesture/Gait, the spike counts are reduced by 84.9%/81.6%, and the task accuracy and energy efficiency are improved by 5.9%/4.7% and 3.4$\times$/3.2$\times$. On ImageNet-1K, we achieve top-1 accuracy of 75.92% and 77.08% on single/4-step Res-SNN-104, which are state-of-the-art results in SNNs. To our best knowledge, this is for the first time, that the SNN community achieves comparable or even better performance compared with its ANN counterpart in the large-scale dataset. Our work lights up SNN's potential as a general backbone to support various applications for SNNs, with a great balance between effectiveness and efficiency. | 翻訳日:2022-09-29 17:12:39 公開日:2022-09-28 |
# DPNet:軽量注意によるリアルタイム物体検出のためのデュアルパスネットワーク DPNet: Dual-Path Network for Real-time Object Detection with Lightweight Attention ( http://arxiv.org/abs/2209.13933v1 ) ライセンス: Link先を確認 | Quan Zhou, Huimin Shi, Weikang Xiang, Bin Kang, Xiaofu Wu and Longin Jan Latecki | (参考訳) 高精度畳み込みニューラルネットワーク(CNN)の最近の進歩は、リアルタイム物体検出において顕著な進歩をみせた。
検出速度を高速化するため、軽量検出器は常にシングルパスバックボーンを使用した畳み込み層がほとんどない。
しかし、シングルパスアーキテクチャは、連続的なプーリングとダウンサンプリング操作を伴い、常にオブジェクトを見つけるのに不利な粗末で不正確なフィーチャマップをもたらす。
一方、ネットワーク容量が限られているため、最近の軽量ネットワークは大規模な視覚データを表現できないことが多い。
これらの問題に対処するために,DPNetという2経路ネットワークを提案し,リアルタイム物体検出のための軽量なアテンション方式を提案する。
デュアルパスアーキテクチャにより、高レベルのセマンティック特徴と低レベルのオブジェクト詳細を並列に抽出できる。
DPNetはシングルパス検出器に対してほぼ重複した形状であるが、計算コストとモデルサイズは大幅に向上しない。
表現能力を高めるために、軽量自己相関モジュール(LSCM)は、計算オーバーヘッドやネットワークパラメータが少なく、グローバルな相互作用を捉えるように設計されている。
LSCMは軽量な相互相関モジュール(LCCM)に拡張され、近隣の大規模特徴間の相互依存を捉える。
我々はMS COCOとPascal VOC 2007データセットで徹底的な実験を行った。
実験の結果,DPNetは検出精度と実装効率のトレードオフを達成できることがわかった。
具体的には、DPNetはMS COCOテストデブで30.5%のAP、Pascal VOC 2007テストセットで81.5%のmAP、約2.5Mモデルサイズ、1.04 GFLOPs、164 FPSと196 FPSで2つのデータセットの320 x 320入力イメージを実現している。 The recent advances of compressing high-accuracy convolution neural networks (CNNs) have witnessed remarkable progress for real-time object detection. To accelerate detection speed, lightweight detectors always have few convolution layers using single-path backbone. Single-path architecture, however, involves continuous pooling and downsampling operations, always resulting in coarse and inaccurate feature maps that are disadvantageous to locate objects. On the other hand, due to limited network capacity, recent lightweight networks are often weak in representing large scale visual data. To address these problems, this paper presents a dual-path network, named DPNet, with a lightweight attention scheme for real-time object detection. The dual-path architecture enables us to parallelly extract high-level semantic features and low-level object details. Although DPNet has nearly duplicated shape with respect to single-path detectors, the computational costs and model size are not significantly increased. To enhance representation capability, a lightweight self-correlation module (LSCM) is designed to capture global interactions, with only few computational overheads and network parameters. In neck, LSCM is extended into a lightweight crosscorrelation module (LCCM), capturing mutual dependencies among neighboring scale features. We have conducted exhaustive experiments on MS COCO and Pascal VOC 2007 datasets. The experimental results demonstrate that DPNet achieves state-of the-art trade-off between detection accuracy and implementation efficiency. Specifically, DPNet achieves 30.5% AP on MS COCO test-dev and 81.5% mAP on Pascal VOC 2007 test set, together mwith nearly 2.5M model size, 1.04 GFLOPs, and 164 FPS and 196 FPS for 320 x 320 input images of two datasets. | 翻訳日:2022-09-29 17:12:03 公開日:2022-09-28 |
# 回折型ニューラルネットの物理対応微分可能離散符号 Physics-aware Differentiable Discrete Codesign for Diffractive Optical Neural Networks ( http://arxiv.org/abs/2209.14252v1 ) ライセンス: Link先を確認 | Yingjie Li, Ruiyang Chen, Weilu Gao, Cunxi Yu | (参考訳) DNN(Diffractive Optical Neural Network)は、デジタルプラットフォームに実装する際に本質的に制限される従来のディープニューラルネットワーク(DNN)と比較して、電力効率、並列性、計算速度の面で大きな利点をもたらすため、多くの注目を集めている。
しかし、アルゴリズムが学習した物理モデルパラメータを離散値を持つ実世界の光学デバイスに逆マッピングすることは非自明な作業であり、既存の光学デバイスは非統一的な離散レベルと非単調な特性を持っている。
本研究は、DONNを任意の実験的な光学デバイスで層をまたいだ物理認識訓練を可能にする、新しいデバイス間ハードウェア・ソフトウェア符号フレームワークを提案する。
具体的には、Gumbel-Softmaxを使用して、実世界のデバイスパラメータからDONNの前方関数への微分可能な離散マッピングを可能にし、そこでは、MLタスクの損失関数を最小化することで、DONNの物理パラメータをトレーニングすることができる。
その結果,提案手法は従来の量子化方式,特に低精度光デバイスに対して大きな利点があることがわかった。
最後に、提案アルゴリズムは、低精度設定の物理実験光学系で完全に検証される。 Diffractive optical neural networks (DONNs) have attracted lots of attention as they bring significant advantages in terms of power efficiency, parallelism, and computational speed compared with conventional deep neural networks (DNNs), which have intrinsic limitations when implemented on digital platforms. However, inversely mapping algorithm-trained physical model parameters onto real-world optical devices with discrete values is a non-trivial task as existing optical devices have non-unified discrete levels and non-monotonic properties. This work proposes a novel device-to-system hardware-software codesign framework, which enables efficient physics-aware training of DONNs w.r.t arbitrary experimental measured optical devices across layers. Specifically, Gumbel-Softmax is employed to enable differentiable discrete mapping from real-world device parameters into the forward function of DONNs, where the physical parameters in DONNs can be trained by simply minimizing the loss function of the ML task. The results have demonstrated that our proposed framework offers significant advantages over conventional quantization-based methods, especially with low-precision optical devices. Finally, the proposed algorithm is fully verified with physical experimental optical systems in low-precision settings. | 翻訳日:2022-09-29 17:06:28 公開日:2022-09-28 |
# MTU-Net:宇宙用赤外線Tiny船検出用マルチレベルトランスUNet MTU-Net: Multi-level TransUNet for Space-based Infrared Tiny Ship Detection ( http://arxiv.org/abs/2209.13756v1 ) ライセンス: Link先を確認 | Tianhao Wu, Boyang Li, Yihang Luo, Yingqian Wang, Chao Xiao, Ting Liu, Jungang Yang, Wei An, Yulan Guo | (参考訳) 地球を周回する衛星が捉えた画像から小さな船を分離することを目的としている。
非常に大きな画像カバレッジ領域(例えば数千平方キロメートル)のため、これらの画像の候補ターゲットは、空中および地上の撮像装置で観測されるターゲットよりもはるかに小さく、小さく、変更しやすい。
既存の近距離画像に基づく赤外線データとターゲット検出法は、空間ベースの監視タスクにうまく適用できない。
この問題に対処するため,我々は,48枚の宇宙ベース赤外線画像と17598ピクセルレベルの小型船舶アノテーションを備えた,宇宙ベースの赤外線小型船舶検出データセット(nudt-sirst-sea)を開発した。
各画像の面積は約10000平方キロメートルで、10000X10000ピクセルである。
そこで本稿では,これらの小型船舶の極端な特性(小型,薄型,変更可能な)を考慮し,マルチレベルトランスフォーント(mtu-net)を提案する。
具体的には,ビジョントランスフォーマー (ViT) と畳み込みニューラルネットワーク (CNN) のハイブリッドエンコーダを設計し,マルチレベルの特徴を抽出する。
ローカルな特徴マップは、まず複数の畳み込み層によって抽出され、その後、多レベル特徴抽出モジュール(MVTM)に入力され、長距離依存性をキャプチャする。
さらに, 目標と背景のサンプル不均衡の問題を効果的に解消するために, 学習段階を加速するためのコピー・ローテーション・リサイズ・ペースト(crrp)データ拡張手法を提案する。
さらに,FocalIoU損失を設計し,目標位置と形状記述の両方を実現する。
NUDT-SIRST-Seaデータセットによる実験結果から,MTU-Netは従来の深層学習に基づくSIRST法よりも検出率,誤警報率,結合上の交叉率の点で優れていた。 Space-based infrared tiny ship detection aims at separating tiny ships from the images captured by earth orbiting satellites. Due to the extremely large image coverage area (e.g., thousands square kilometers), candidate targets in these images are much smaller, dimer, more changeable than those targets observed by aerial-based and land-based imaging devices. Existing short imaging distance-based infrared datasets and target detection methods cannot be well adopted to the space-based surveillance task. To address these problems, we develop a space-based infrared tiny ship detection dataset (namely, NUDT-SIRST-Sea) with 48 space-based infrared images and 17598 pixel-level tiny ship annotations. Each image covers about 10000 square kilometers of area with 10000X10000 pixels. Considering the extreme characteristics (e.g., small, dim, changeable) of those tiny ships in such challenging scenes, we propose a multi-level TransUNet (MTU-Net) in this paper. Specifically, we design a Vision Transformer (ViT) Convolutional Neural Network (CNN) hybrid encoder to extract multi-level features. Local feature maps are first extracted by several convolution layers and then fed into the multi-level feature extraction module (MVTM) to capture long-distance dependency. We further propose a copy-rotate-resize-paste (CRRP) data augmentation approach to accelerate the training phase, which effectively alleviates the issue of sample imbalance between targets and background. Besides, we design a FocalIoU loss to achieve both target localization and shape description. Experimental results on the NUDT-SIRST-Sea dataset show that our MTU-Net outperforms traditional and existing deep learning based SIRST methods in terms of probability of detection, false alarm rate and intersection over union. | 翻訳日:2022-09-29 17:05:34 公開日:2022-09-28 |
# 赤外線小目標検出用コートネット CourtNet for Infrared Small-Target Detection ( http://arxiv.org/abs/2209.13780v1 ) ライセンス: Link先を確認 | Jingchao Peng, Haitao Zhao, Zhengwei Hu, Kaijie Zhao, Zhongze Wang | (参考訳) 赤外線小ターゲット検出(ISTD)は重要なコンピュータビジョンタスクである。
ISTDは、複雑なバックグラウンドクラッタから小さなターゲットを分離することを目的としている。
赤外線は遠距離で減衰し、ターゲットは非常に暗くなり、背景のクラッタと混同しやすいため、検出器は精度とリコール率のバランスをとるのが難しくなる。
この課題に対処するために,CourtNetと呼ばれるニューラルネットワークベースのISTD手法を提案する。3つのサブネットワーク – 訴追ネットワークはリコール率を改善するように設計され,被告ネットワークは精度向上に専心し,陪審ネットワークは結果の重み付けを行い,精度とリコール率を適応的にバランスさせる。
さらに、この訴追ネットワークは、ネットワーク前方伝播において小さな目標が消滅することを防止し、密結合されたトランス構造を用いる。
さらに、小さなターゲットを正確に特定するために、きめ細かい注意モジュールが採用されている。
実験の結果、CourtNetは2つのISTDデータセット MFIRST (0.62) と SIRST (0.73) で最高のF1スコアを達成した。 Infrared small-target detection (ISTD) is an important computer vision task. ISTD aims at separating small targets from complex background clutter. The infrared radiation decays over distances, making the targets highly dim and prone to confusion with the background clutter, which makes the detector challenging to balance the precision and recall rate. To deal with this difficulty, this paper proposes a neural-network-based ISTD method called CourtNet, which has three sub-networks: the prosecution network is designed for improving the recall rate; the defendant network is devoted to increasing the precision rate; the jury network weights their results to adaptively balance the precision and recall rate. Furthermore, the prosecution network utilizes a densely connected transformer structure, which can prevent small targets from disappearing in the network forward propagation. In addition, a fine-grained attention module is adopted to accurately locate the small targets. Experimental results show that CourtNet achieves the best F1-score on the two ISTD datasets, MFIRST (0.62) and SIRST (0.73). | 翻訳日:2022-09-29 17:05:04 公開日:2022-09-28 |
# ディープフェイク検出のための機械学習アプローチ A Machine Learning Approach for DeepFake Detection ( http://arxiv.org/abs/2209.13792v1 ) ライセンス: Link先を確認 | Gustavo Cunha Lacerda, Raimundo Claudio da Silva Vasconcelos | (参考訳) ディープフェイク技術の普及により、この技術は非常にアクセスしやすくなり、悪質な使用が懸念されるほどになった。
この問題に直面して、偽造された顔を検出することは、安全を確保し、世界規模と民間規模の両方で社会政治的問題を避けるために最も重要である。
本稿では,畳み込みニューラルネットワークを用いたディープフェイクの検出と,この目的のために開発されたデータセットを提案する。
その結果、これらの画像の分類において、95%の精度で、提案したモデルは、将来発生する操作技術において、より良い結果を得るために調整される可能性があり、その状態にあるものに近いことがわかった。 With the spread of DeepFake techniques, this technology has become quite accessible and good enough that there is concern about its malicious use. Faced with this problem, detecting forged faces is of utmost importance to ensure security and avoid socio-political problems, both on a global and private scale. This paper presents a solution for the detection of DeepFakes using convolution neural networks and a dataset developed for this purpose - Celeb-DF. The results show that, with an overall accuracy of 95% in the classification of these images, the proposed model is close to what exists in the state of the art with the possibility of adjustment for better results in the manipulation techniques that arise in the future. | 翻訳日:2022-09-29 17:04:43 公開日:2022-09-28 |
# PCB-RandNet:自律走行シーンにおけるLIDARセマンティックセグメンテーションのためのランダムサンプリングの再考 PCB-RandNet: Rethinking Random Sampling for LIDAR Semantic Segmentation in Autonomous Driving Scene ( http://arxiv.org/abs/2209.13797v1 ) ライセンス: Link先を確認 | Huixian Cheng, XianFeng Han, Hang Jiang, Dehong He, Guoqiang Xiao | (参考訳) 大規模lidarポイントクラウドの高速かつ効率的なセマンティクスセグメンテーションは、自動運転における根本的な問題である。
この目標を達成するために、既存のポイントベースのメソッドは主に大規模なポイントクラウドを処理するためにランダムサンプリング戦略を採用する。
しかし,我々の定量的・定性的な研究では,lidar点が空間全体にわたって不均一あるいは長尾の分布に従うため,ランダムサンプリングは自律運転のシナリオには適さない可能性があり,距離範囲の異なる点から十分な情報を取得できないため,モデルの学習能力が低下する。
この問題を軽減するために、よりバランスのとれた分布を維持し、異なる空間分布下でのセグメンテーション性能を向上させることができる新しい極柱平衡ランダムサンプリング法を提案する。
さらに,セグメント化性能を向上し,異なるサンプリング手法によるモデルの分散を低減するため,サンプリング一貫性損失が導入された。
実験の結果,SemanticKITTIとSemanticPOSSのベンチマークでは,それぞれ2.8%,4.0%の改善が得られた。 Fast and efficient semantic segmentation of large-scale LiDAR point clouds is a fundamental problem in autonomous driving. To achieve this goal, the existing point-based methods mainly choose to adopt Random Sampling strategy to process large-scale point clouds. However, our quantative and qualitative studies have found that Random Sampling may be less suitable for the autonomous driving scenario, since the LiDAR points follow an uneven or even long-tailed distribution across the space, which prevents the model from capturing sufficient information from points in different distance ranges and reduces the model's learning capability. To alleviate this problem, we propose a new Polar Cylinder Balanced Random Sampling method that enables the downsampled point clouds to maintain a more balanced distribution and improve the segmentation performance under different spatial distributions. In addition, a sampling consistency loss is introduced to further improve the segmentation performance and reduce the model's variance under different sampling methods. Extensive experiments confirm that our approach produces excellent performance on both SemanticKITTI and SemanticPOSS benchmarks, achieving a 2.8% and 4.0% improvement, respectively. | 翻訳日:2022-09-29 17:04:31 公開日:2022-09-28 |
# 翻訳, スケール, 回転: rgb-infrared vehicle detectionによるクロスモーダルアライメント Translation, Scale and Rotation: Cross-Modal Alignment Meets RGB-Infrared Vehicle Detection ( http://arxiv.org/abs/2209.13801v1 ) ライセンス: Link先を確認 | Maoxun Yuan, Yinyan Wang, Xingxing Wei | (参考訳) 近年,物体検出,特に可視・赤外線画像におけるマルチスペクトルデータの統合が注目されている。
可視(RGB)および赤外線(IR)画像は、光の変動を処理するための補完的な情報を提供することができるため、このペア画像は、多スペクトル歩行者検出、RGB-IR群衆カウント、RGB-IRサルエント物体検出など、多くの分野で使用される。
自然のRGB-IR画像と比較すると, 空中RGB-IR画像では, 物体の位置, 大きさ, 角度の偏差に現れる, 横方向の不一致問題に悩まされている。
本稿では,主に空中RGB-IR画像におけるクロスモーダルな微調整の課題に対処する。
具体的には、まず、弱い不一致の原因を説明し分析する。
次に,これら2つのモダリティから特徴写像を校正することにより,この問題に対処するためのtsraモジュールを提案する。
このモジュールはアライメントプロセスを通じて2つのモダリティオブジェクト間のずれを予測し、アライメント性能を向上させるためにモダリティ選択(MS)戦略を利用する。
最後に、TSRAモジュールに基づく2ストリーム特徴アライメント検出器(TSFADet)を構築し、空中画像におけるRGB-IR物体検出を行う。
一般のドローン車両データセットに関する包括的な実験により,提案手法がクロスモーダル不一致の影響を低減し,ロバストな検出結果が得られることを検証した。 Integrating multispectral data in object detection, especially visible and infrared images, has received great attention in recent years. Since visible (RGB) and infrared (IR) images can provide complementary information to handle light variations, the paired images are used in many fields, such as multispectral pedestrian detection, RGB-IR crowd counting and RGB-IR salient object detection. Compared with natural RGB-IR images, we find detection in aerial RGB-IR images suffers from cross-modal weakly misalignment problems, which are manifested in the position, size and angle deviations of the same object. In this paper, we mainly address the challenge of cross-modal weakly misalignment in aerial RGB-IR images. Specifically, we firstly explain and analyze the cause of the weakly misalignment problem. Then, we propose a Translation-Scale-Rotation Alignment (TSRA) module to address the problem by calibrating the feature maps from these two modalities. The module predicts the deviation between two modality objects through an alignment process and utilizes Modality-Selection (MS) strategy to improve the performance of alignment. Finally, a two-stream feature alignment detector (TSFADet) based on the TSRA module is constructed for RGB-IR object detection in aerial images. With comprehensive experiments on the public DroneVehicle datasets, we verify that our method reduces the effect of the cross-modal misalignment and achieve robust detection results. | 翻訳日:2022-09-29 17:04:09 公開日:2022-09-28 |
# adaptive sparse vit: セルフアテンションをフル活用した学習可能な適応トークンプルーニング Adaptive Sparse ViT: Towards Learnable Adaptive Token Pruning by Fully Exploiting Self-Attention ( http://arxiv.org/abs/2209.13802v1 ) ライセンス: Link先を確認 | Xiangcheng Liu, Tianyi Wu, Guodong Guo | (参考訳) ビジョントランスフォーマーはコンピュータビジョンの新しいパラダイムとして登場し、高価な計算コストを伴う優れた性能を示している。
画像トークンのプルーニングは、トークン数に対して複雑さが二次的であること、背景領域のみを含む多くのトークンが最終的な予測に真に寄与しないという事実から、ViT圧縮の主要なアプローチの1つである。
既存の作業は、個々のトークンの重要性を評価するために追加モジュールに依存するか、異なる入力インスタンスに対して固定比率プルーニング戦略を実装している。
本研究では,最小限のコストで適応的なスパーストークンプルーニングフレームワークを提案する。
提案手法は学習可能なしきい値に基づいており,マルチヘッド・セルフアタテンションを用いてトークン情報性を評価する。
具体的には,まず,安価な注意頭部重要度重み付けクラス注意得点機構を提案する。
そして、学習可能なパラメータをViTに挿入して、重要でないトークンと情報を区別する閾値とする。
トークンアテンションスコアとしきい値を比較することで、不要なトークンを階層的に破棄し、推論を加速することができる。
学習可能なしきい値は、精度と複雑さのバランスをとるために予算対応トレーニングに最適化され、異なる入力インスタンスに対して対応するプルーニング設定を実行する。
大規模な実験は我々のアプローチの有効性を実証する。
例えば、deit-sのスループットを50%向上させ、top-1精度の0.2%しか低下しないため、従来の方法よりも精度とレイテンシのトレードオフが良好である。 Vision transformer has emerged as a new paradigm in computer vision, showing excellent performance while accompanied by expensive computational cost. Image token pruning is one of the main approaches for ViT compression, due to the facts that the complexity is quadratic with respect to the token number, and many tokens containing only background regions do not truly contribute to the final prediction. Existing works either rely on additional modules to score the importance of individual tokens, or implement a fixed ratio pruning strategy for different input instances. In this work, we propose an adaptive sparse token pruning framework with a minimal cost. Our approach is based on learnable thresholds and leverages the Multi-Head Self-Attention to evaluate token informativeness with little additional operations. Specifically, we firstly propose an inexpensive attention head importance weighted class attention scoring mechanism. Then, learnable parameters are inserted in ViT as thresholds to distinguish informative tokens from unimportant ones. By comparing token attention scores and thresholds, we can discard useless tokens hierarchically and thus accelerate inference. The learnable thresholds are optimized in budget-aware training to balance accuracy and complexity, performing the corresponding pruning configurations for different input instances. Extensive experiments demonstrate the effectiveness of our approach. For example, our method improves the throughput of DeiT-S by 50% and brings only 0.2% drop in top-1 accuracy, which achieves a better trade-off between accuracy and latency than the previous methods. | 翻訳日:2022-09-29 17:03:43 公開日:2022-09-28 |
# ビデオの時間的アクションセグメンテーションをリアルタイムでストリーミングする Streaming Video Temporal Action Segmentation In Real Time ( http://arxiv.org/abs/2209.13808v1 ) ライセンス: Link先を確認 | Wujun Wen, Yunheng Li, Zhuben Dong, Lin Feng, Wanxiao Yang, Shenlan Liu | (参考訳) テンポラリアクションセグメンテーション(tas)は、長期的なビデオ理解への重要なステップである。
近年の研究は、生の映像情報の代わりに特徴に基づくモデルを構築するパターンに従っている。
しかし、これらのモデルは複雑に訓練され、アプリケーションのシナリオを制限していると主張する。
ビデオの全特徴が抽出された後に動作しなければならないため、ビデオの人間の動作をリアルタイムでセグメント化することは困難である。
リアルタイムアクションセグメンテーションタスクはtasタスクとは異なるので、ストリーミングビデオリアルタイムアクションセグメンテーション(svtas)タスクと定義する。
本稿では,SVTASタスクのためのリアルタイムエンドツーエンドマルチモーダリティモデルを提案する。
具体的には、将来的な情報が得られない状況下では、ビデオチャンクをリアルタイムにストリーミングする現在の人間の行動を分類する。
さらに,本モデルでは,言語モデルが抽出した最後の蒸散映像特徴と,画像モデルが抽出した現在の画像特徴とを組み合わせることにより,リアルタイムな時間的行動セグメンテーションの量を改善する。
我々の知る限りでは、これは初めてのマルチモーダルリアルタイム時空間行動分割モデルである。
フルビデオの時間的動作セグメンテーションと同じ評価基準の下では,最先端のモデル計算の40%未満でリアルタイムにヒューマンアクションをセグメンテーションし,全映像の90%の精度を達成する。 Temporal action segmentation (TAS) is a critical step toward long-term video understanding. Recent studies follow a pattern that builds models based on features instead of raw video picture information. However, we claim those models are trained complicatedly and limit application scenarios. It is hard for them to segment human actions of video in real time because they must work after the full video features are extracted. As the real-time action segmentation task is different from TAS task, we define it as streaming video real-time temporal action segmentation (SVTAS) task. In this paper, we propose a real-time end-to-end multi-modality model for SVTAS task. More specifically, under the circumstances that we cannot get any future information, we segment the current human action of streaming video chunk in real time. Furthermore, the model we propose combines the last steaming video chunk feature extracted by language model with the current image feature extracted by image model to improve the quantity of real-time temporal action segmentation. To the best of our knowledge, it is the first multi-modality real-time temporal action segmentation model. Under the same evaluation criteria as full video temporal action segmentation, our model segments human action in real time with less than 40% of state-of-the-art model computation and achieves 90% of the accuracy of the full video state-of-the-art model. | 翻訳日:2022-09-29 17:03:18 公開日:2022-09-28 |
# TokenFlow:視覚言語検索における細粒度クロスモーダルアライメントの再考 TokenFlow: Rethinking Fine-grained Cross-modal Alignment in Vision-Language Retrieval ( http://arxiv.org/abs/2209.13822v1 ) ライセンス: Link先を確認 | Xiaohan Zou, Changqiao Wu, Lele Cheng, Zhongyuan Wang | (参考訳) 視覚言語検索の既存のほとんどの方法は、十分な情報を見逃し、解釈性に欠けるグローバルな特徴ベクトルを比較したり、画像やビデオのオブジェクトを検出したり、複雑なモデル設計に依存する細かい特徴をテキストに整列させたり、視覚的およびテキスト的トークンに対する相互注意による微粒な相互作用をモデル化することで、2つのモダリティに適合する。
これらの制限に対処するため、最近のいくつかの研究は単にトークンの類似性を集約して細かなアライメントを達成しているが、直感的な説明は欠いている。
本研究では, 細粒度クロスモーダルアライメントを再考し, モデルに依存しない新しい定式化を考案する。
また、最近の人気作品もデミスティフィケーションし、私たちの計画にサブスクライブします。
さらに、最適輸送理論に触発されて、提案手法のインスタンス化である \emph{TokenFlow} を導入する。
類似度関数のみを変更することで,本手法の性能は主要ビデオテキスト検索ベンチマークにおける重モデル設計のsotaアルゴリズムに匹敵する。
可視化はまた、 \emph{TokenFlow} がきめ細かい情報をうまく活用し、より良い解釈性を実現することを示している。 Most existing methods in vision-language retrieval match two modalities by either comparing their global feature vectors which misses sufficient information and lacks interpretability, detecting objects in images or videos and aligning the text with fine-grained features which relies on complicated model designs, or modeling fine-grained interaction via cross-attention upon visual and textual tokens which suffers from inferior efficiency. To address these limitations, some recent works simply aggregate the token-wise similarities to achieve fine-grained alignment, but they lack intuitive explanations as well as neglect the relationships between token-level features and global representations with high-level semantics. In this work, we rethink fine-grained cross-modal alignment and devise a new model-agnostic formulation for it. We additionally demystify the recent popular works and subsume them into our scheme. Furthermore, inspired by optimal transport theory, we introduce \emph{TokenFlow}, an instantiation of the proposed scheme. By modifying only the similarity function, the performance of our method is comparable to the SoTA algorithms with heavy model designs on major video-text retrieval benchmarks. The visualization further indicates that \emph{TokenFlow} successfully leverages the fine-grained information and achieves better interpretability. | 翻訳日:2022-09-29 17:02:54 公開日:2022-09-28 |
# a~Text-to-Textトランスを用いた短文からのキーワード抽出 Keyword Extraction from Short Texts with~a~Text-To-Text Transfer Transformer ( http://arxiv.org/abs/2209.14008v1 ) ライセンス: Link先を確認 | Piotr P\k{e}zik, Agnieszka Miko{\l}ajczyk-Bare{\l}a, Adam Wawrzy\'nski, Bart{\l}omiej Nito\'n, Maciej Ogrodniczuk | (参考訳) 本稿では,ポーランド語(plT5)のテキスト・テキスト・トランスフォーマー言語モデル(T5)と,短文文節からの内在的・外在的キーワード抽出の課題との関連について検討する。
本研究は,ポーランドの新オープンサイエンスメタデータ・コーパス (posmac) を用いて,curlicatプロジェクトでコンパイルされた科学出版物の216,214の要約を収集した。
plT5kw, extremeText, TermoPL, KeyBERT という4つの異なる手法で得られた結果を比較し,plT5kw モデルが頻繁かつ疎表現のキーワードに対して特に有望な結果をもたらすと結論付けた。
さらに、POSMACでトレーニングされたplT5kwキーワード生成モデルも、クロスドメインテキストラベリングシナリオにおいて非常に有用な結果をもたらすようだ。
本稿では,学術論文のデータセットに内在するテキストジャンルや領域を表す,ニュース記事や電話によるダイアログの書き起こしにおけるモデルの性能について論じる。
最後に,本質的キーワード抽出と外来的キーワード抽出の両方において,テキスト対テキストモデルの評価の課題を特徴付けることを試みる。 The paper explores the relevance of the Text-To-Text Transfer Transformer language model (T5) for Polish (plT5) to the task of intrinsic and extrinsic keyword extraction from short text passages. The evaluation is carried out on the new Polish Open Science Metadata Corpus (POSMAC), which is released with this paper: a collection of 216,214 abstracts of scientific publications compiled in the CURLICAT project. We compare the results obtained by four different methods, i.e. plT5kw, extremeText, TermoPL, KeyBERT and conclude that the plT5kw model yields particularly promising results for both frequent and sparsely represented keywords. Furthermore, a plT5kw keyword generation model trained on the POSMAC also seems to produce highly useful results in cross-domain text labelling scenarios. We discuss the performance of the model on news stories and phone-based dialog transcripts which represent text genres and domains extrinsic to the dataset of scientific abstracts. Finally, we also attempt to characterize the challenges of evaluating a text-to-text model on both intrinsic and extrinsic keyword extraction. | 翻訳日:2022-09-29 16:56:49 公開日:2022-09-28 |
# バニラ変圧器による機械翻訳作業における有効汎用データ包摂 Effective General-Domain Data Inclusion for the Machine Translation Task by Vanilla Transformers ( http://arxiv.org/abs/2209.14073v1 ) ライセンス: Link先を確認 | Hassan Soliman | (参考訳) 機械翻訳の歴史における重要なブレークスルーの1つは、トランスフォーマーモデルの開発である。
様々な翻訳タスクに革命的なだけでなく、他のほとんどのnlpタスクにも革命的です。
本稿では,ドイツ語のソース文を英語のターゲット文に変換するトランスフォーマーに基づくシステムを提案する。
wmt'13データセットからドイツ語と英語の並列文をニュースコメントとして実験を行った。
さらに,IWSLT'16データセットから追加の一般領域データを含めることによるトランスフォーマーモデルの性能向上効果についても検討した。
トレーニング中の iwslt'16 データセットを含めると、wmt'13 データセットのテストセットで 2 bleu スコアポイントを獲得することができる。
一般領域データの利用が生成した翻訳文の品質向上にどのように役立つかを分析するために,定性分析を導入する。 One of the vital breakthroughs in the history of machine translation is the development of the Transformer model. Not only it is revolutionary for various translation tasks, but also for a majority of other NLP tasks. In this paper, we aim at a Transformer-based system that is able to translate a source sentence in German to its counterpart target sentence in English. We perform the experiments on the news commentary German-English parallel sentences from the WMT'13 dataset. In addition, we investigate the effect of the inclusion of additional general-domain data in training from the IWSLT'16 dataset to improve the Transformer model performance. We find that including the IWSLT'16 dataset in training helps achieve a gain of 2 BLEU score points on the test set of the WMT'13 dataset. Qualitative analysis is introduced to analyze how the usage of general-domain data helps improve the quality of the produced translation sentences. | 翻訳日:2022-09-29 16:56:28 公開日:2022-09-28 |
# ゼロから生産へ:バルト・ウクライナの機械翻訳システムから難民へ From Zero to Production: Baltic-Ukrainian Machine Translation Systems to Aid Refugees ( http://arxiv.org/abs/2209.14142v1 ) ライセンス: Link先を確認 | Toms Bergmanis and M\=arcis Pinnis | (参考訳) 本稿では,ウクライナ語とバルト諸国の公用語を翻訳する6つの低リソース機械翻訳システムの開発と利用について検討する。
我々は、ウクライナにおけるロシア軍の侵略によるウクライナ難民危機のエスカレートに反応して、難民や行政に役立てられるよう、これらのシステムを開発した。
MTシステムが公開されてから2ヶ月が経ち、それらの利用パターンと統計を分析した。
以上の結果から,ラトビア・ウクライナ系とリトアニア・ウクライナ系はバルト諸国の公共サービスに統合され,リトアニア・ウクライナ系の翻訳文は1億1700万件を超えることがわかった。
これらの知見に触発され、ウクライナの地名翻訳の改善によりMTシステムをさらに強化し、リトアニア・ウクライナシステムの改良版を公表した。 In this paper, we examine the development and usage of six low-resource machine translation systems translating between the Ukrainian language and each of the official languages of the Baltic states. We developed these systems in reaction to the escalating Ukrainian refugee crisis caused by the Russian military aggression in Ukraine in the hope that they might be helpful for refugees and public administrations. Now, two months after MT systems were made public, we analyze their usage patterns and statistics. Our findings show that the Latvian-Ukrainian and Lithuanian-Ukrainian systems are integrated into the public services of Baltic states, leading to more than 127 million translated sentences for the Lithuanian-Ukrainian system. Motivated by these findings, we further enhance our MT systems by better Ukrainian toponym translation and publish an improved version of the Lithuanian-Ukrainian system. | 翻訳日:2022-09-29 16:56:14 公開日:2022-09-28 |
# 教師付きコントラスト学習による大規模事前学習型言語モデルの多目的最適化 Supervised Contrastive Learning as Multi-Objective Optimization for Fine-Tuning Large Pre-trained Language Models ( http://arxiv.org/abs/2209.14161v1 ) ライセンス: Link先を確認 | Youness Moukafih, Mounir Ghogho, Kamel Smaili | (参考訳) 近年,多くの分類タスクにおいて,SCL(Supervised Contrastive Learning)が優れた性能を発揮することが示されている。
sclでは、ニューラルネットワークは、2つの目標を最適化するために訓練される: アンカーと正のサンプルを埋め込み空間でプルし、アンカーを負の値から離す。
しかし、これらの2つの異なる目的は相反する可能性がある。
本研究では,RoBERTa言語モデルの微調整フェーズにおける多目的最適化問題としてSCL問題を定式化する。
最適化問題を解くために2つの方法を用いる。
(i)一タスク当たりの損失の重み付き線形結合を最小化する線形スカラー化(ls)法。
(II) 与えられた選好ベクトルとのパレートフロントの交叉を求めるExact Pareto Optimal (EPO) 法。
我々は,データ拡張やメモリバンク,あるいは逆例を生成することなく,GLUEベンチマークタスクに対するアプローチを評価する。
実験結果から,提案した学習戦略は,競争力のあるコントラスト学習ベースラインを著しく上回ることが示された。 Recently, Supervised Contrastive Learning (SCL) has been shown to achieve excellent performance in most classification tasks. In SCL, a neural network is trained to optimize two objectives: pull an anchor and positive samples together in the embedding space, and push the anchor apart from the negatives. However, these two different objectives may conflict, requiring trade-offs between them during optimization. In this work, we formulate the SCL problem as a Multi-Objective Optimization problem for the fine-tuning phase of RoBERTa language model. Two methods are utilized to solve the optimization problem: (i) the linear scalarization (LS) method, which minimizes a weighted linear combination of pertask losses; and (ii) the Exact Pareto Optimal (EPO) method which finds the intersection of the Pareto front with a given preference vector. We evaluate our approach on several GLUE benchmark tasks, without using data augmentations, memory banks, or generating adversarial examples. The empirical results show that the proposed learning strategy significantly outperforms a strong competitive contrastive learning baseline | 翻訳日:2022-09-29 16:55:59 公開日:2022-09-28 |
# WMT22汎用機械翻訳タスクの自動評価 An Automatic Evaluation of the WMT22 General Machine Translation Task ( http://arxiv.org/abs/2209.14172v1 ) ライセンス: Link先を確認 | Benjamin Marie | (参考訳) 本報告では,第7回機械翻訳会議(WMT22)の一般機械翻訳タスクを自動評価する。
高いリソースから低リソースの言語ペアを含む21の翻訳方向と、遠方の言語と密接に関連した185のシステムを評価している。
この大規模な自動評価は、最先端機械翻訳システムの現在の限界を強調している。
また、chrf、bleu、cometといった自動メトリクスが、解釈可能性と正確性の観点から自身の限界を緩和するためにどのように補完できるかを示す。 This report presents an automatic evaluation of the general machine translation task of the Seventh Conference on Machine Translation (WMT22). It evaluates a total of 185 systems for 21 translation directions including high-resource to low-resource language pairs and from closely related to distant languages. This large-scale automatic evaluation highlights some of the current limits of state-of-the-art machine translation systems. It also shows how automatic metrics, namely chrF, BLEU, and COMET, can complement themselves to mitigate their own limits in terms of interpretability and accuracy. | 翻訳日:2022-09-29 16:55:44 公開日:2022-09-28 |
# 概念に基づくモデル説明のための因果代理モデル Causal Proxy Models for Concept-Based Model Explanations ( http://arxiv.org/abs/2209.14279v1 ) ライセンス: Link先を確認 | Zhengxuan Wu, Karel D'Oosterlinck, Atticus Geiger, Amir Zur, and Christopher Potts | (参考訳) nlpシステムの説明可能性法は因果推論の基本的な問題に遭遇する:与えられた接地入力テキストでは、出力に対するモデル表現の因果効果を分離するために必要な反事実テキストを真に観察することはない。
これに対し、多くの説明可能性法では、偽造テキストは利用できないと仮定して利用しない。
本稿では,人間が特定の反事実を近似したり,単にメタデータを導いたヒューリスティックスを用いてサンプル化する近似的反事実を用いて,ロバストな因果説明可能性法を作成できることを示す。
私たちの提案の中核はCausal Proxy Model(CPM)です。
CPMは、ブラックボックスモデル $\mathcal{N}$を、$\mathcal{N}$と同じ実際の入出力動作を持つように訓練され、$\mathcal{N}$の実際の入出力動作をシミュレートするために介在可能な神経表現を作成する。
さらに、$\mathcal{N}$の最良のCPMは、事実予測を行うときに$\mathcal{N}$と同等に動作し、CPMが$\mathcal{N}$を置き換えるだけで、より説明可能なデプロイモデルが得られることを示す。
私たちのコードはhttps://github.com/frankaging/Causal-Proxy-Modelで利用可能です。 Explainability methods for NLP systems encounter a version of the fundamental problem of causal inference: for a given ground-truth input text, we never truly observe the counterfactual texts necessary for isolating the causal effects of model representations on outputs. In response, many explainability methods make no use of counterfactual texts, assuming they will be unavailable. In this paper, we show that robust causal explainability methods can be created using approximate counterfactuals, which can be written by humans to approximate a specific counterfactual or simply sampled using metadata-guided heuristics. The core of our proposal is the Causal Proxy Model (CPM). A CPM explains a black-box model $\mathcal{N}$ because it is trained to have the same actual input/output behavior as $\mathcal{N}$ while creating neural representations that can be intervened upon to simulate the counterfactual input/output behavior of $\mathcal{N}$. Furthermore, we show that the best CPM for $\mathcal{N}$ performs comparably to $\mathcal{N}$ in making factual predictions, which means that the CPM can simply replace $\mathcal{N}$, leading to more explainable deployed models. Our code is available at https://github.com/frankaging/Causal-Proxy-Model. | 翻訳日:2022-09-29 16:55:34 公開日:2022-09-28 |
# クラスタリングによる生成不完全画像テキストクラスタリング(CIGIT-C) Clustering-Induced Generative Incomplete Image-Text Clustering (CIGIT-C) ( http://arxiv.org/abs/2209.13763v1 ) ライセンス: Link先を確認 | Dongjin Guo, Xiaoming Su, Jiatai Wang, Limin Liu, Zhiyong Pei, Zhiwei Xu | (参考訳) 画像テキストクラスタリング(ITC)の目的は、これらの異種サンプルに対して、相補的で一貫した情報を統合することで、正しいクラスタを見つけることである。
しかし、現在の研究の大部分は、あらゆるモダリティのサンプルが完成するという理想的な前提でITCを分析している。
しかし、この推定は現実の状況では必ずしも有効ではない。
不足しているデータ問題は、画像テキスト機能学習性能を低下させ、最終的にitcタスクの一般化能力に影響を与える。
この不完全な画像テキストクラスタリング問題(IITC)に対処する一連の手法が提案されているが、次のような問題が残っている。
1) 既存手法の多くは, 異種特徴領域間の差をほとんど考慮しない。
2) 不足データでは,既存の手法が生成する表現がクラスタリングタスクに適合することがほとんどない。
3) 既存手法では,インターモーダルとイントラモーダルの両方の潜在接続を利用できない。
本稿では,クラスタリングによる生成不完全画像テキストクラスタリング(CIGIT-C)ネットワークを提案する。
より具体的には、最初にモジュラリティ固有のエンコーダを使用して、元の特徴をより特異な部分空間にマッピングする。
逆生成ネットワークを用いて一方のモダリティ条件を他方のモダリティ上で生成することにより、内部モダリティと相互モダリティの間の潜在接続を徹底的に検討する。
最後に、2つのkl分岐損失を用いて対応するモダリティ固有エンコーダを更新する。
公開画像テキストデータセットを用いた実験の結果,提案手法はIITCジョブよりも優れ,有効であることがわかった。 The target of image-text clustering (ITC) is to find correct clusters by integrating complementary and consistent information of multi-modalities for these heterogeneous samples. However, the majority of current studies analyse ITC on the ideal premise that the samples in every modality are complete. This presumption, however, is not always valid in real-world situations. The missing data issue degenerates the image-text feature learning performance and will finally affect the generalization abilities in ITC tasks. Although a series of methods have been proposed to address this incomplete image text clustering issue (IITC), the following problems still exist: 1) most existing methods hardly consider the distinct gap between heterogeneous feature domains. 2) For missing data, the representations generated by existing methods are rarely guaranteed to suit clustering tasks. 3) Existing methods do not tap into the latent connections both inter and intra modalities. In this paper, we propose a Clustering-Induced Generative Incomplete Image-Text Clustering(CIGIT-C) network to address the challenges above. More specifically, we first use modality-specific encoders to map original features to more distinctive subspaces. The latent connections between intra and inter-modalities are thoroughly explored by using the adversarial generating network to produce one modality conditional on the other modality. Finally, we update the corresponding modalityspecific encoders using two KL divergence losses. Experiment results on public image-text datasets demonstrated that the suggested method outperforms and is more effective in the IITC job. | 翻訳日:2022-09-29 16:54:55 公開日:2022-09-28 |
# InFi: モバイル中心推論におけるリソース効率のための入力をフィルタするエンドツーエンド学習 InFi: End-to-End Learning to Filter Input for Resource-Efficiency in Mobile-Centric Inference ( http://arxiv.org/abs/2209.13873v1 ) ライセンス: Link先を確認 | Mu Yuan, Lan Zhang, Fengxiang He, Xueting Tong, Miao-Hui Song, Xiang-Yang Li | (参考訳) モバイル中心のAIアプリケーションは、モデル推論のリソース効率の要求が高い。
入力フィルタリングは冗長性を排除し、推論コストを削減するための有望なアプローチである。
従来,多くのアプリケーションに対して効果的な解法を調整してきたが,(1)入力フィルタリング技術の応用を導くための推論作業の理論的フィルタリング可能性,(2)入力フィルタリングが多様な推論タスクや入力コンテンツに広く有効であるように,機能埋め込みの堅牢な識別性,という2つの重要な疑問を残した。
そこで我々はまず,入力フィルタリング問題を定式化し,推論モデルと入力フィルタの仮説複雑性を理論的に比較し,最適化の可能性を理解する。
次に,最先端の手法をほとんどカバーし,堅牢な識別性を備えた特徴埋め込みでそれらを上回る,エンドツーエンドの学習可能な入力フィルタリングフレームワークを提案する。
6つの入力モダリティと複数のモバイル中心のデプロイメントをサポートするInFiの設計と実装を行う。
総合評価の結果から,InFiは適用性,精度,効率において高いベースラインを達成できた。
InFiは8.5倍のスループットを実現し、95%の帯域幅を節約し、90%以上の精度を維持している。 Mobile-centric AI applications have high requirements for resource-efficiency of model inference. Input filtering is a promising approach to eliminate the redundancy so as to reduce the cost of inference. Previous efforts have tailored effective solutions for many applications, but left two essential questions unanswered: (1) theoretical filterability of an inference workload to guide the application of input filtering techniques, thereby avoiding the trial-and-error cost for resource-constrained mobile applications; (2) robust discriminability of feature embedding to allow input filtering to be widely effective for diverse inference tasks and input content. To answer them, we first formalize the input filtering problem and theoretically compare the hypothesis complexity of inference models and input filters to understand the optimization potential. Then we propose the first end-to-end learnable input filtering framework that covers most state-of-the-art methods and surpasses them in feature embedding with robust discriminability. We design and implement InFi that supports six input modalities and multiple mobile-centric deployments. Comprehensive evaluations confirm our theoretical results and show that InFi outperforms strong baselines in applicability, accuracy, and efficiency. InFi achieve 8.5x throughput and save 95% bandwidth, while keeping over 90% accuracy, for a video analytics application on mobile platforms. | 翻訳日:2022-09-29 16:54:32 公開日:2022-09-28 |
# MLink: 協調推論のために複数のドメインからブラックボックスモデルをリンクする MLink: Linking Black-Box Models from Multiple Domains for Collaborative Inference ( http://arxiv.org/abs/2209.13883v1 ) ライセンス: Link先を確認 | Mu Yuan, Lan Zhang, Zimu Zheng, Yi-Nan Zhang, Xiang-Yang Li | (参考訳) モデル推論のコスト効率は、現実の機械学習(ML)アプリケーション、特に遅延に敏感なタスクやリソース制限されたデバイスに不可欠である。
典型的なジレンマは、複雑なインテリジェントなサービス(スマートシティなど)を提供するには、複数のMLモデルの推論結果が必要ですが、コスト予算(GPUメモリなど)はそれらすべてを実行するには不十分です。
本研究では,ブラックボックスmlモデル間の基礎的関係を調査し,その出力空間間のマッピング(ダビングモデルリンク)を学習することで,ブラックボックスモデルの知識を橋渡しすることを目的とした,新しい学習タスクであるモデルリンクを提案する。
異種ブラックボックスMLモデルのリンクを支援するモデルリンクの設計を提案する。
また,分布の不一致問題に対処するため,モデルリンクの適応と集約手法を提案する。
提案するモデルリンクに基づいて,MLinkというスケジューリングアルゴリズムを開発した。
モデルリンクによる協調的マルチモデル推論により,MLinkはコスト予算の下で得られた推論結果の精度を向上させることができる。
MLinkを7つの異なるMLモデルと2つの実世界のビデオ分析システムと6つのMLモデルと3,264時間のビデオを含むマルチモーダルデータセットで評価した。
実験の結果,提案するモデルリンクは,様々なブラックボックスモデル間で効果的に構築できることがわかった。
GPUメモリの予算の下では、MLinkは66.7%の推論計算を節約し、94%の推論精度を保ち、マルチタスク学習、ディープ強化学習ベースのスケジューラ、フレームフィルタリングベースラインを上回っている。 The cost efficiency of model inference is critical to real-world machine learning (ML) applications, especially for delay-sensitive tasks and resource-limited devices. A typical dilemma is: in order to provide complex intelligent services (e.g. smart city), we need inference results of multiple ML models, but the cost budget (e.g. GPU memory) is not enough to run all of them. In this work, we study underlying relationships among black-box ML models and propose a novel learning task: model linking, which aims to bridge the knowledge of different black-box models by learning mappings (dubbed model links) between their output spaces. We propose the design of model links which supports linking heterogeneous black-box ML models. Also, in order to address the distribution discrepancy challenge, we present adaptation and aggregation methods of model links. Based on our proposed model links, we developed a scheduling algorithm, named MLink. Through collaborative multi-model inference enabled by model links, MLink can improve the accuracy of obtained inference results under the cost budget. We evaluated MLink on a multi-modal dataset with seven different ML models and two real-world video analytics systems with six ML models and 3,264 hours of video. Experimental results show that our proposed model links can be effectively built among various black-box models. Under the budget of GPU memory, MLink can save 66.7% inference computations while preserving 94% inference accuracy, which outperforms multi-task learning, deep reinforcement learning-based scheduler and frame filtering baselines. | 翻訳日:2022-09-29 16:54:07 公開日:2022-09-28 |
# cssam: 溶接技術図面の応用とセグメント化のためのu-netネットワーク CSSAM: U-net Network for Application and Segmentation of Welding Engineering Drawings ( http://arxiv.org/abs/2209.14102v1 ) ライセンス: Link先を確認 | Zhiwei Song, Hui Yao, Dan Tian and GaoHui Zhan | (参考訳) 重機製造は、図面における特定の輪郭を分割し、溶接のためにスケールするために金属板を切断する。
現在,溶接地図輪郭の分割・抽出のほとんどは手作業で行われている。
効率は大幅に低下する。
そこで本研究では, 溶接工学図面のU-netを用いた輪郭分断抽出法を提案する。
エンジニアリング描画に必要な部品の輪郭を自動的に分割して空白し、製造効率を大幅に向上させることができる。
u-netにはエンコーダ-デコーダが含まれており、エンコーダとデコーダ間の意味的差異と空間的位置特徴情報を通じてエンドツーエンドマッピングを実装する。
u-netは医療画像のセグメンテーションに優れていますが、溶接構造図データセットに関する広範な実験では、従来のu-netアーキテクチャはセグメンテーション技術図では不足しています。
そこで我々は,新しいチャンネル空間シーケンスアテンションモジュール (CSSAM) を設計し,従来のU-netの改良を行った。
同時に,垂直最大プーリングと平均水平プーリングが提案されている。
プール操作を2つの等しい畳み込みを通じてCSSAMモジュールに渡す。
出力とプーリング前の機能は、従来のジャンプ構造を置き換える意味的クラスタリングによって融合され、エンコーダとデコーダ間の意味的ギャップを効果的に狭め、溶接工学図のセグメンテーション性能を向上させる。
バックボーンネットワークとしてvgg16を使用します。
従来のU-netと比較して、我々のネットワークはデータセットのセグメンテーションのエンジニアリング性能に優れています。 Heavy equipment manufacturing splits specific contours in drawings and cuts sheet metal to scale for welding. Currently, most of the segmentation and extraction of weld map contours is achieved manually. Its efficiency is greatly reduced. Therefore, we propose a U-net-based contour segmentation and extraction method for welding engineering drawings. The contours of the parts required for engineering drawings can be automatically divided and blanked, which significantly improves manufacturing efficiency. U-net includes an encoder-decoder, which implements end-to-end mapping through semantic differences and spatial location feature information between the encoder and decoder. While U-net excels at segmenting medical images, our extensive experiments on the Welding Structural Diagram dataset show that the classic U-Net architecture falls short in segmenting welding engineering drawings. Therefore, we design a novel Channel Spatial Sequence Attention Module (CSSAM) and improve on the classic U-net. At the same time, vertical max pooling and average horizontal pooling are proposed. Pass the pooling operation through two equal convolutions into the CSSAM module. The output and the features before pooling are fused by semantic clustering, which replaces the traditional jump structure and effectively narrows the semantic gap between the encoder and the decoder, thereby improving the segmentation performance of welding engineering drawings. We use vgg16 as the backbone network. Compared with the classic U-net, our network has good performance in engineering drawing dataset segmentation. | 翻訳日:2022-09-29 16:48:24 公開日:2022-09-28 |
# RuDSI:ロシア語用グラフベース単語知覚誘導データセット RuDSI: graph-based word sense induction dataset for Russian ( http://arxiv.org/abs/2209.13750v1 ) ライセンス: Link先を確認 | Anna Aksenova, Ekaterina Gavrishina, Elisey Rykov, Andrey Kutuzov | (参考訳) ロシア語で単語感覚誘導(WSI)のための新しいベンチマークであるRuDSIを提案する。
このデータセットは、Word Usage Graphs(WUG)のマニュアルアノテーションと半自動クラスタリングを使用して作成された。
以前のロシア語のwsiデータセットとは異なり、rudsiは完全にデータ駆動であり(ロシア国立コーパスのテキストに基づく)、外部の単語のセンスはアノテーションに課されていない。
グラフクラスタリングのパラメータによって、異なる派生データセットを生のアノテーションから生成することができる。
本稿では,いくつかのベースラインWSI手法がRuDSIで得られる性能について報告する。 We present RuDSI, a new benchmark for word sense induction (WSI) in Russian. The dataset was created using manual annotation and semi-automatic clustering of Word Usage Graphs (WUGs). Unlike prior WSI datasets for Russian, RuDSI is completely data-driven (based on texts from Russian National Corpus), with no external word senses imposed on annotators. Depending on the parameters of graph clustering, different derivative datasets can be produced from raw annotation. We report the performance that several baseline WSI methods obtain on RuDSI and discuss possibilities for improving these scores. | 翻訳日:2022-09-29 16:47:23 公開日:2022-09-28 |
# 構造化要約:生成タスクとしての統一テキストセグメンテーションとセグメントラベリング Structured Summarization: Unified Text Segmentation and Segment Labeling as a Generation Task ( http://arxiv.org/abs/2209.13759v1 ) ライセンス: Link先を確認 | Hakan Inan, Rashi Rungta, Yashar Mehdad | (参考訳) テキストセグメンテーションは、テキストを連続的に意味的に一貫性のあるセグメントに分割することを目的としている。
過去の研究は、文書や会話のセグメンテーションやラベル付けに成功している。
これはタスク固有のパイプライン、教師なしと教師なしの学習目標の組み合わせで可能になった。
本研究では,1つのエンコーダ・デコーダ・ニューラルネットワークを提案する。このニューラルネットワークは長い文書や会話を処理し,標準監督のみを用いてセグメント化とセグメントラベリングを同時に訓練する。
我々は、結合したタスクを純粋な生成タスクとして解く方法を示し、これを構造化要約と呼ぶ。
我々は、文書データと会話データの両方に同じ手法を適用し、ハイリソースとローリソースの両方の設定で、セグメンテーションとラベル付けのためのデータセット全体のアートパフォーマンスの状態を示す。
本研究は,テキストセグメンテーションとセグメントラベリング全体を考慮し,ドメインの専門知識やタスク固有のコンポーネントに依存しない汎用技術に移行するための強固なケースである。 Text segmentation aims to divide text into contiguous, semantically coherent segments, while segment labeling deals with producing labels for each segment. Past work has shown success in tackling segmentation and labeling for documents and conversations. This has been possible with a combination of task-specific pipelines, supervised and unsupervised learning objectives. In this work, we propose a single encoder-decoder neural network that can handle long documents and conversations, trained simultaneously for both segmentation and segment labeling using only standard supervision. We successfully show a way to solve the combined task as a pure generation task, which we refer to as structured summarization. We apply the same technique to both document and conversational data, and we show state of the art performance across datasets for both segmentation and labeling, under both high- and low-resource settings. Our results establish a strong case for considering text segmentation and segment labeling as a whole, and moving towards general-purpose techniques that don't depend on domain expertise or task-specific components. | 翻訳日:2022-09-29 16:47:12 公開日:2022-09-28 |
# mets-cov:covid-19関連ツイートに対する医療団体のデータセットとターゲット感情 METS-CoV: A Dataset of Medical Entity and Targeted Sentiment on COVID-19 Related Tweets ( http://arxiv.org/abs/2209.13773v1 ) ライセンス: Link先を確認 | Peilin Zhou, Zeqiang Wang, Dading Chong, Zhijiang Guo, Yining Hua, Zichang Su, Zhiyang Teng, Jiageng Wu, Jie Yang | (参考訳) 新型コロナウイルス(covid-19)のパンデミックは、ソーシャルメディア上で議論や議論が続いている。
パンデミックが人々の生活に与える影響を調べるためには、ソーシャルメディア上でのパンデミック関連団体(医薬品、ワクチンなど)に対する人々の関心や態度を理解することが不可欠である。
しかしながら、既存の名前付きエンティティ認識(NER)やターゲット感情分析(TSA)データセットに基づいてトレーニングされたモデルは、これらのデータセットが医療的な観点から設計または注釈付けされていないため、新型コロナウイルス関連のソーシャルメディアテキストを理解する能力に制限がある。
本稿では、医療機関と新型コロナウイルス関連ツイートのターゲット感情を含むデータセットMETS-CoVをリリースする。
METS-CoVには、Disease, Drug, Symptom, Vaccine)と3つの一般的なエンティティ(Person, Location, Organization)を含む7種類のエンティティを持つ1万のツイートが含まれている。
特定の実体に対するユーザーの態度をさらに調査するために、4種類の実体(人、組織、薬物、ワクチン)を選択・注釈付けし、9,101の実体(5,278ツイート)を対象とする感情データセットを作成する。
私たちの知る限りでは、METS-CoVは新型コロナウイルス関連ツイートの医療機関とそれに対応する感情を収集する最初のデータセットです。
我々は,nerタスクとtsaタスクにおける古典的機械学習モデルと最先端ディープラーニングモデルの性能を広範囲な実験でベンチマークする。
結果から,データセットには NER タスクと TSA タスクの両方の改善の余地があることが分かる。
METS-CoVは、医療用ソーシャルメディアツールを開発し、特に疫学において計算社会科学研究を促進するための重要な資源である。
我々のデータ、アノテーションガイドライン、ベンチマークモデル、およびソースコードは、再現性を確保するために公開されています(https://github.com/YLab-Open/METS-CoV)。 The COVID-19 pandemic continues to bring up various topics discussed or debated on social media. In order to explore the impact of pandemics on people's lives, it is crucial to understand the public's concerns and attitudes towards pandemic-related entities (e.g., drugs, vaccines) on social media. However, models trained on existing named entity recognition (NER) or targeted sentiment analysis (TSA) datasets have limited ability to understand COVID-19-related social media texts because these datasets are not designed or annotated from a medical perspective. This paper releases METS-CoV, a dataset containing medical entities and targeted sentiments from COVID-19-related tweets. METS-CoV contains 10,000 tweets with 7 types of entities, including 4 medical entity types (Disease, Drug, Symptom, and Vaccine) and 3 general entity types (Person, Location, and Organization). To further investigate tweet users' attitudes toward specific entities, 4 types of entities (Person, Organization, Drug, and Vaccine) are selected and annotated with user sentiments, resulting in a targeted sentiment dataset with 9,101 entities (in 5,278 tweets). To the best of our knowledge, METS-CoV is the first dataset to collect medical entities and corresponding sentiments of COVID-19-related tweets. We benchmark the performance of classical machine learning models and state-of-the-art deep learning models on NER and TSA tasks with extensive experiments. Results show that the dataset has vast room for improvement for both NER and TSA tasks. METS-CoV is an important resource for developing better medical social media tools and facilitating computational social science research, especially in epidemiology. Our data, annotation guidelines, benchmark models, and source code are publicly available (https://github.com/YLab-Open/METS-CoV) to ensure reproducibility. | 翻訳日:2022-09-29 16:46:51 公開日:2022-09-28 |
# データ駆動解析による親子間相互作用の評価 Data-driven Parsing Evaluation for Child-Parent Interactions ( http://arxiv.org/abs/2209.13778v1 ) ライセンス: Link先を確認 | Zoey Liu and Emily Prud'hommeaux | (参考訳) 自然主義的な子供と子供指向の英語(MacWhinney, 2000)のための構文依存ツリーバンクを提案する。
私たちのアノテーションは、(文章とは対照的に)会話音声特有の語彙/構文構造への詳細な拡張を含む、universal dependencies project(ud(zeman et al., 2022)のガイドラインに従っています。
既存のUDスタイルの音声木バンクや、特に親子間相互作用の依存性コーパスと比較して、我々のデータセットは(大きな)大きさ(発話のN = 44,744; 単語のN = 233, 907)であり、幅広い年齢層(18~66ヶ月)をカバーする10人の子供のスピーチを含んでいる。
1) 自発的な会話における異なる対話者の発話に対して、書込みドメイン用に調整された最先端の依存関係パーサは、どの程度うまく機能するのか?
2)子どもの発達段階とパーサー性能の関係について
これらの問題に対処するために,現在進行中の作業では,ハイパーパラメータ化の異なるグラフベースとトランジッションベースの2つのパーサを使用して,ニュース,つぶやき,学習者データという,ドメイン外の3種類のテキストからトレーニングを行っている。 We present a syntactic dependency treebank for naturalistic child and child-directed speech in English (MacWhinney, 2000). Our annotations largely followed the guidelines of the Universal Dependencies project (UD (Zeman et al., 2022)), with detailed extensions to lexical/syntactic structures unique to conversational speech (in opposition to written texts). Compared to existing UD-style spoken treebanks as well as other dependency corpora of child-parent interactions specifically, our dataset is of (much) larger size (N of utterances = 44,744; N of words = 233, 907) and contains speech from a total of 10 children covering a wide age range (18-66 months). With this dataset, we ask: (1) How well would state-of-the-art dependency parsers, tailored for the written domain, perform for speech of different interlocutors in spontaneous conversations? (2) What is the relationship between parser performance and the developmental stage of the child? To address these questions, in ongoing work, we are conducting thorough dependency parser evaluations using both graph-based and transition-based parsers with different hyperparameterization, trained from three different types of out-of-domain written texts: news, tweets, and learner data. | 翻訳日:2022-09-29 16:46:19 公開日:2022-09-28 |
# YATO: もう1つのディープラーニングベースのテキスト分析オープンツールキット YATO: Yet Another deep learning based Text analysis Open toolkit ( http://arxiv.org/abs/2209.13877v1 ) ライセンス: Link先を確認 | Zeqiang Wang, Yile Wang, Jiageng Wu, Zhiyang Teng, Jie Yang | (参考訳) ディープラーニングを用いたテキスト解析のためのオープンソースツールキットyatoを紹介する。
テキストの基本シーケンスラベリングとシーケンス分類タスクに焦点を当てている。
階層構造で設計されたYATOは、3種類の機能の組み合わせを無償でサポートする。
1) 従来のニューラルネットワーク(CNN,RNNなど)
2)事前訓練言語モデル(BERT、RoBERTa、ELECTRAなど)及び
3) シンプルな構成可能なファイルによる,ユーザがカスタマイズしたニューラル機能。
YATOは、柔軟性と使いやすさの利点から、最先端のNLPモデルの再現と改良を容易にし、NLP技術の学際的応用を促進することができる。
ソースコード、例、ドキュメントはhttps://github.com/jiesutd/YATO.comで公開されている。 We introduce YATO, an open-source toolkit for text analysis with deep learning. It focuses on fundamental sequence labeling and sequence classification tasks on text. Designed in a hierarchical structure, YATO supports free combinations of three types of features including 1) traditional neural networks (CNN, RNN, etc.); 2) pre-trained language models (BERT, RoBERTa, ELECTRA, etc.); and 3) user-customed neural features via a simple configurable file. Benefiting from the advantages of flexibility and ease of use, YATO can facilitate reproducing and refinement of state-of-the-art NLP models, and promote the cross-disciplinary applications of NLP techniques. Source code, examples, and documentation are publicly available at https://github.com/jiesutd/YATO. | 翻訳日:2022-09-29 16:45:54 公開日:2022-09-28 |
# 多言語文書レベル機械翻訳のための多言語移行性と双方向多言語合意に向けて Towards Multilingual Transitivity and Bidirectional Multilingual Agreement for Multilingual Document-level Machine Translation ( http://arxiv.org/abs/2209.13940v1 ) ライセンス: Link先を確認 | Hongyuan Lu, Haoyang Huang, Shuming Ma, Dongdong Zhang, Furu Wei, Wai Lam | (参考訳) 多言語機械翻訳は、1つのモデルで複数の言語間の翻訳をサポートする効果的な戦略であることが証明されている。
しかし、ほとんどの研究は、多言語間の長い文書の生成を考慮せずに多言語文の翻訳に重点を置いている。
本稿では, 補助的・補助的・補助的・補助的な多言語データを取り込むことで, 対象言語対が改善されないことを最初に見いだした。
この観察に動機づけられ,多言語移行(multilingual transitivity, mtrans)と呼ばれる新しい枠組みを提案し,多言語モデルにおいてソース・オーソリタリ・ターゲティング(source-auxiliary-target)による暗黙的最適経路を求める。
MTransを奨励するために,訓練に(ソース・オクシリアリー,補助ターゲット,ソース・ターゲット)を含む並列三重項を用いるTriplet Parallel Data (TPD) という新しい手法を提案する。
補助言語はピボットとして機能し、翻訳が容易な暗黙の情報遷移フローを自動的に促進する。
さらに,異なる言語間の双方向合意を促進する双方向多言語合意(Bi-MAgree)という新しい枠組みを提案する。
Bi-MAgreeを促進するために,MKL(Multilingual Kullback-Leibler Divergence)と呼ばれる新しい手法を提案する。
IWSLT2015 Zh-En, De-En, Vi-En という3つの文書翻訳タスクに対して,本手法が強いベースラインに対して一貫した改善をもたらすことを示す。
本分析は,MTransおよびBi-MAgreeの有用性と存在を検証し,本手法が合成補助データに有効であることを示す。 Multilingual machine translation has been proven an effective strategy to support translation between multiple languages with a single model. However, most studies focus on multilingual sentence translation without considering generating long documents across different languages, which requires an understanding of multilingual context dependency and is typically harder. In this paper, we first spot that naively incorporating auxiliary multilingual data either auxiliary-target or source-auxiliary brings no improvement to the source-target language pair in our interest. Motivated by this observation, we propose a novel framework called Multilingual Transitivity (MTrans) to find an implicit optimal route via source-auxiliary-target within the multilingual model. To encourage MTrans, we propose a novel method called Triplet Parallel Data (TPD), which uses parallel triplets that contain (source-auxiliary, auxiliary-target, and source-target) for training. The auxiliary language then serves as a pivot and automatically facilitates the implicit information transition flow which is easier to translate. We further propose a novel framework called Bidirectional Multilingual Agreement (Bi-MAgree) that encourages the bidirectional agreement between different languages. To encourage Bi-MAgree, we propose a novel method called Multilingual Kullback-Leibler Divergence (MKL) that forces the output distribution of the inputs with the same meaning but in different languages to be consistent with each other. The experimental results indicate that our methods bring consistent improvements over strong baselines on three document translation tasks: IWSLT2015 Zh-En, De-En, and Vi-En. Our analysis validates the usefulness and existence of MTrans and Bi-MAgree, and our frameworks and methods are effective on synthetic auxiliary data. | 翻訳日:2022-09-29 16:45:44 公開日:2022-09-28 |
# CEFER:インプシットと明示的感情認識のためのコンテキストと感情を組み込んだ4面フレームワーク CEFER: A Four Facets Framework based on Context and Emotion embedded features for Implicit and Explicit Emotion Recognition ( http://arxiv.org/abs/2209.13999v1 ) ライセンス: Link先を確認 | Fereshteh Khoshnam, Ahmad Baraani-Dastjerdi, M.J. Liaghatdar | (参考訳) 人々の行動と反応は感情によって引き起こされる。
オンラインソーシャルメディアは、感情を文字で表現するための優れた手段になりつつある。
文脈と文全体に注意を払うことは、テキストから感情を検出するのに役立つ。
しかし、この視点は、特に言葉が明示的ではなく暗黙的に感情を表現する場合、テキスト中の感情的な単語やフレーズに気づかないようにします。
一方,単語のみに着目し,文脈を無視した結果,文の意味や感覚の歪んだ理解が得られた。
本稿では,文レベルと単語レベルの両方でテキストを分析するフレームワークを提案する。
CEFER (Context and Emotion embedded Framework for Emotion Recognition) と呼ぶ。
我々の4つのアプローチは、文章全体と個々の単語を同時に考慮し、暗黙の感情と明示的な感情を抽出することである。
これらのデータから得られた知識は、以前のアプローチにおける欠陥の影響を緩和するだけでなく、特徴ベクトルも強化する。
BERTファミリを用いて複数の特徴空間を評価し,それらに基づいてCEFERを設計する。
CEFERは、暗黙の感情を含む各単語の感情ベクトルと、文脈に基づく各単語の特徴ベクトルを結合する。
CEFERはBERTファミリーよりもパフォーマンスがよい。
実験の結果,暗黙的な感情の同定は,明示的な感情の検出よりも難しいことがわかった。
CEFERは暗黙の感情認識の精度を向上させる。
結果によると、CEFERは明示的な感情認識においてBERTファミリーよりも5%、暗黙的に3%の成績を示した。 People's conduct and reactions are driven by their emotions. Online social media is becoming a great instrument for expressing emotions in written form. Paying attention to the context and the entire sentence help us to detect emotion from texts. However, this perspective inhibits us from noticing some emotional words or phrases in the text, particularly when the words express an emotion implicitly rather than explicitly. On the other hand, focusing only on the words and ignoring the context results in a distorted understanding of the sentence meaning and feeling. In this paper, we propose a framework that analyses text at both the sentence and word levels. We name it CEFER (Context and Emotion embedded Framework for Emotion Recognition). Our four approach facets are to extracting data by considering the entire sentence and each individual word simultaneously, as well as implicit and explicit emotions. The knowledge gained from these data not only mitigates the impact of flaws in the preceding approaches but also it strengthens the feature vector. We evaluate several feature spaces using BERT family and design the CEFER based on them. CEFER combines the emotional vector of each word, including explicit and implicit emotions, with the feature vector of each word based on context. CEFER performs better than the BERT family. The experimental results demonstrate that identifying implicit emotions are more challenging than detecting explicit emotions. CEFER, improves the accuracy of implicit emotion recognition. According to the results, CEFER perform 5% better than the BERT family in recognizing explicit emotions and 3% in implicit. | 翻訳日:2022-09-29 16:45:13 公開日:2022-09-28 |
# 次世代侵入検知システム最適化のためのビッグデータ解析と分散ディープラーニング Big data analysis and distributed deep learning for next-generation intrusion detection system optimization ( http://arxiv.org/abs/2209.13961v1 ) ライセンス: Link先を確認 | Khloud Al Jallad, Mohamad Aljnidi, Mohammad Said Desouki | (参考訳) あらゆるライフドメインにおける情報技術の利用の増加に伴い、ハッキングはこれまでにないほど効果的になっている。
また、開発技術によって、攻撃数は数ヶ月ごとに指数関数的に増加し、従来のIDSが非効率に検出できるように、より洗練されたものになっている。
本稿では,IDSよりも検出率が高く,偽陽性が低い新たな脅威を検出するだけでなく,集団的および文脈的セキュリティ攻撃を検出する方法を提案する。
我々は、深いリカレントニューラルネットワークであるNetworking Chatbotを用いて、これらの結果を達成する。 Apache Spark Frameworkの上に、フロートラフィックとトラフィック集約の入力を持ち、出力は正常または異常な2つの単語の言語である。
本稿では,言語処理,文脈分析,分散ディープラーニング,ビッグデータ,フロー解析の異常検出の概念を統合することを提案する。
ネットワークの抽象的正常挙動を,そのコンテキスト内の数百万のパケット列から記述し,それらをほぼリアルタイムで解析し,点,集合的,文脈的異常を検出するモデルを提案する。
実験はmawiデータセット上で行われ、シグネチャidだけでなく、従来の異常idよりも優れた検出率を示している。
この実験は、偽陽性、高い検出率、より良い点異常検出を示す。
文脈的および集団的異常検出の証明については、我々の主張と仮説の背後にある理由について論じる。
しかし、この実験はハードウェアの制限のためにデータセットのランダムな小さなサブセットで行われており、我々は実験と将来のビジョンを共有している。 With the growing use of information technology in all life domains, hacking has become more negatively effective than ever before. Also with developing technologies, attacks numbers are growing exponentially every few months and become more sophisticated so that traditional IDS becomes inefficient detecting them. This paper proposes a solution to detect not only new threats with higher detection rate and lower false positive than already used IDS, but also it could detect collective and contextual security attacks. We achieve those results by using Networking Chatbot, a deep recurrent neural network: Long Short Term Memory (LSTM) on top of Apache Spark Framework that has an input of flow traffic and traffic aggregation and the output is a language of two words, normal or abnormal. We propose merging the concepts of language processing, contextual analysis, distributed deep learning, big data, anomaly detection of flow analysis. We propose a model that describes the network abstract normal behavior from a sequence of millions of packets within their context and analyzes them in near real-time to detect point, collective and contextual anomalies. Experiments are done on MAWI dataset, and it shows better detection rate not only than signature IDS, but also better than traditional anomaly IDS. The experiment shows lower false positive, higher detection rate and better point anomalies detection. As for prove of contextual and collective anomalies detection, we discuss our claim and the reason behind our hypothesis. But the experiment is done on random small subsets of the dataset because of hardware limitations, so we share experiment and our future vision thoughts as we wish that full prove will be done in future by other interested researchers who have better hardware infrastructure than ours. | 翻訳日:2022-09-29 16:39:31 公開日:2022-09-28 |
# ビッグデータとディープラーニングを用いた異常検出最適化による偽陽性の低減 Anomaly detection optimization using big data and deep learning to reduce false-positive ( http://arxiv.org/abs/2209.13965v1 ) ライセンス: Link先を確認 | Khloud Al Jallad, Mohamad Aljnidi, Mohammad Said Desouki | (参考訳) 異常に基づく侵入検知システム(IDS)は、署名ベースのIDSの脅威を記憶するだけでなく、新たな脅威を検出する能力があるため、ホットな研究トピックとなっている。
特に、ハッキングツールの数を増やし、攻撃のリスク影響を高める高度な技術が利用可能になった後です。
異常に基づくモデルの問題は、その高い偽陽性率である。
偽陽性率が高いのは、異常IDSが一般的に適用されない理由である。
異常ベースモデルでは、見当たらないパターンを、正常ではあるがトレーニングデータセットには含まれない脅威として分類する。
このような問題は、モデルを一般化できないオーバーフィッティングと呼ばれる。
可能なすべての正常ケースを含む大きなトレーニングデータセットを持つことにより、異常ベースのモデルを最適化することは、最適ソリューションかもしれないが、実際には適用できない。
トレーニングサンプルの数を増やして、より正常なケースを含めることもできますが、それでもより一般化可能なモデルが必要です。
本稿では,従来のモデルではなく,より一般化可能なディープモデルを提案する。
したがって、ビッグデータと深層モデルを用いて、偽陽性の低減を図る。
誤り陽性率を下げることにより,異常型IDSの最適化における機械学習とディープラーニングのアルゴリズムの比較を行った。
我々はNSL-KDDベンチマークで実験を行い、その結果をIDS最適化における従来の学習において最もよく使われている分類器の1つと比較した。
この実験では、従来の学習よりも深層学習の方が10%低い偽陽性を示す。 Anomaly-based Intrusion Detection System (IDS) has been a hot research topic because of its ability to detect new threats rather than only memorized signatures threats of signature-based IDS. Especially after the availability of advanced technologies that increase the number of hacking tools and increase the risk impact of an attack. The problem of any anomaly-based model is its high false-positive rate. The high false-positive rate is the reason why anomaly IDS is not commonly applied in practice. Because anomaly-based models classify an unseen pattern as a threat where it may be normal but not included in the training dataset. This type of problem is called overfitting where the model is not able to generalize. Optimizing Anomaly-based models by having a big training dataset that includes all possible normal cases may be an optimal solution but could not be applied in practice. Although we can increase the number of training samples to include much more normal cases, still we need a model that has more ability to generalize. In this research paper, we propose applying deep model instead of traditional models because it has more ability to generalize. Thus, we will obtain less false-positive by using big data and deep model. We made a comparison between machine learning and deep learning algorithms in the optimization of anomaly-based IDS by decreasing the false-positive rate. We did an experiment on the NSL-KDD benchmark and compared our results with one of the best used classifiers in traditional learning in IDS optimization. The experiment shows 10% lower false-positive by using deep learning instead of traditional learning. | 翻訳日:2022-09-29 16:39:03 公開日:2022-09-28 |
# 議論的報酬学習:人間の選好に関する推論 Argumentative Reward Learning: Reasoning About Human Preferences ( http://arxiv.org/abs/2209.14010v1 ) ライセンス: Link先を確認 | Francis Rhys Ward, Francesco Belardinelli, Francesca Toni | (参考訳) 我々は,人間からのフィードバックから学習を強化するための既存のアプローチと選好に基づく議論を結合した,新しいニューロシンボリックフレームワークである議論的報酬学習を定義する。
本手法は,ユーザの好みを一般化し,ユーザの負担を軽減し,報酬モデルのロバスト性を高めることにより,先行作業を改善する。
私たちはこれをいくつかの実験で示します。 We define a novel neuro-symbolic framework, argumentative reward learning, which combines preference-based argumentation with existing approaches to reinforcement learning from human feedback. Our method improves prior work by generalising human preferences, reducing the burden on the user and increasing the robustness of the reward model. We demonstrate this with a number of experiments. | 翻訳日:2022-09-29 16:38:41 公開日:2022-09-28 |
# モバイルエッジコンピューティング,メタバース,6g無線通信,人工知能,ブロックチェーン:調査と収束 Mobile Edge Computing, Metaverse, 6G Wireless Communications, Artificial Intelligence, and Blockchain: Survey and Their Convergence ( http://arxiv.org/abs/2209.14147v1 ) ライセンス: Link先を確認 | Yitong Wang, Jun Zhao | (参考訳) IoT(Internet of Things)と5G/6G無線通信の進歩により、モバイルコンピューティングのパラダイムは、集中型モバイルクラウドコンピューティングから分散フォグコンピューティング、モバイルエッジコンピューティング(MEC)に至るまで、近年劇的に発展してきた。
MECは、計算集約的な割り当てをネットワークのエッジにプッシュし、エンドポイントに可能な限り近いリソースをもたらし、ストレージスペース、リソース最適化、計算性能、効率に関するモバイルデバイスの欠点に対処する。
クラウドコンピューティングと比較して、分散インフラストラクチャとより緊密なインフラストラクチャとして、metaverse、6g wireless communications、artificial intelligence(ai)、ブロックチェーンといった他の新興テクノロジとのmecの収束は、ネットワークリソースの割り当て、ネットワーク負荷の増加、レイテンシ要件といった問題を解決する。
そこで本稿では,近代的応用の厳密な要件を満たすための計算パラダイムについて検討する。
モバイル拡張現実(MAR)におけるMECの適用シナリオを提供する。
さらに、MECベースのMetaverseのモチベーションを示し、MetaverseへのMECの適用について紹介する。
上で述べた一連の技術的融合、例えば、mecパラダイムによる6g、ブロックチェーンによって強化されたmecなど、特に強調されている。 With the advances of the Internet of Things (IoT) and 5G/6G wireless communications, the paradigms of mobile computing have developed dramatically in recent years, from centralized mobile cloud computing to distributed fog computing and mobile edge computing (MEC). MEC pushes compute-intensive assignments to the edge of the network and brings resources as close to the endpoints as possible, addressing the shortcomings of mobile devices with regard to storage space, resource optimisation, computational performance and efficiency. Compared to cloud computing, as the distributed and closer infrastructure, the convergence of MEC with other emerging technologies, including the Metaverse, 6G wireless communications, artificial intelligence (AI), and blockchain, also solves the problems of network resource allocation, more network load as well as latency requirements. Accordingly, this paper investigates the computational paradigms used to meet the stringent requirements of modern applications. The application scenarios of MEC in mobile augmented reality (MAR) are provided. Furthermore, this survey presents the motivation of MEC-based Metaverse and introduces the applications of MEC to the Metaverse. Particular emphasis is given on a set of technical fusions mentioned above, e.g., 6G with MEC paradigm, MEC strengthened by blockchain, etc. | 翻訳日:2022-09-29 16:38:34 公開日:2022-09-28 |
# augmented Regretのない$\alpha$-Coreを用いたオンラインサブセット選択 Online Subset Selection using $\alpha$-Core with no Augmented Regret ( http://arxiv.org/abs/2209.14222v1 ) ライセンス: Link先を確認 | Sourav Sahoo, Samrat Mukhopadhyay and Abhishek Sinha | (参考訳) オンライン学習環境における逐次スパースサブセット選択の問題について考察する。
集合 $[n]$ が $n$ 個の要素からなると仮定する。
$t^{\text{th}}$ ラウンドでは、モノトン報酬関数 $f_t: 2^{[N]} \to \mathbb{R}_+,$ が、$[N]の各サブセットに非負の報酬を割り当てる。
学習者は、そのラウンドに対する報酬関数$f_t$が$(k \leq n)$となる前に、$s_t \subseteq [n]$ of $k$要素を選択する。
その選択の結果、学習者は$t^{\text{th}}$のラウンドで$f_t(S_t)$の報酬を受け取る。
学習者の目標は、所定の時間軸に蓄積された累積報酬を最大化するオンラインサブセット選択ポリシーを設計することである。
そこで本研究では,大規模報酬関数の課題を解決するために,スコア(コア付きサブセット選択)と呼ばれるオンライン学習方針を提案する。
提案されたSCoreポリシーは、協調ゲーム理論の文献からCoreの概念を一般化した$\alpha$-Coreという新しい概念に基づいている。
我々は、$\alpha$-augmented regretという新しいパフォーマンス指標の観点から、SCoreポリシーの学習保証を確立します。
この新しい測定基準では、オフラインベンチマークのパワーはオンラインポリシーと比較して適切に強化されている。
スコアポリシーを用いて,サブモジュラーを含む幅広い報酬関数を効率的に学習できることを示すために,いくつかの例を示す。
また、SCoreポリシを半帯域フィードバックモデルでどのように使用できるのかを概説し、いくつかのオープンな問題で論文をまとめる。 We consider the problem of sequential sparse subset selections in an online learning setup. Assume that the set $[N]$ consists of $N$ distinct elements. On the $t^{\text{th}}$ round, a monotone reward function $f_t: 2^{[N]} \to \mathbb{R}_+,$ which assigns a non-negative reward to each subset of $[N],$ is revealed to a learner. The learner selects (perhaps randomly) a subset $S_t \subseteq [N]$ of $k$ elements before the reward function $f_t$ for that round is revealed $(k \leq N)$. As a consequence of its choice, the learner receives a reward of $f_t(S_t)$ on the $t^{\text{th}}$ round. The learner's goal is to design an online subset selection policy to maximize its expected cumulative reward accrued over a given time horizon. In this connection, we propose an online learning policy called SCore (Subset Selection with Core) that solves the problem for a large class of reward functions. The proposed SCore policy is based on a new concept of $\alpha$-Core, which is a generalization of the notion of Core from the cooperative game theory literature. We establish a learning guarantee for the SCore policy in terms of a new performance metric called $\alpha$-augmented regret. In this new metric, the power of the offline benchmark is suitably augmented compared to the online policy. We give several illustrative examples to show that a broad class of reward functions, including submodular, can be efficiently learned using the SCore policy. We also outline how the SCore policy can be used under a semi-bandit feedback model and conclude the paper with a number of open problems. | 翻訳日:2022-09-29 16:38:13 公開日:2022-09-28 |
# ptsd in the wild: 無拘束環境における外傷後ストレス障害認識研究のためのビデオデータベース PTSD in the Wild: A Video Database for Studying Post-Traumatic Stress Disorder Recognition in Unconstrained Environments ( http://arxiv.org/abs/2209.14085v1 ) ライセンス: Link先を確認 | Moctar Abdoul Latif Sawadogo, Furkan Pala, Gurkirat Singh, Imen Selmi, Pauline Puteaux and Alice Othmani | (参考訳) POST-traumatic stress disorder (PTSD) は、戦闘、性的暴行、自然災害などの破滅的な生命現象に反応して発達する慢性的、不安定な精神状態である。
PTSDは、過去のトラウマ的出来事、侵入的思考、悪夢、過重力、睡眠障害のフラッシュバックが特徴であり、これらは全て人の生活に影響を与え、社会的、職業的、対人的機能不全を引き起こす。
PTSDの診断は、精神障害の診断・統計マニュアル(DSM)で定義されたPTSD症状の自己評価アンケートを用いて、医療従事者が行う。
本論文は,本論文において,PTSD自動診断のためのビデオデータベースを野生データセットに公開するために,初めて収集,注釈付け,準備を行ったものである。
このデータベースは、異なるポーズ、表情、照明、焦点、フォーカス、解像度、年齢、性別、人種、オクルージョン、背景を持つ獲得条件における「自然な」大きな変動を示す。
データセットコレクションの詳細を説明することに加えて、ワイルドデータセットにおけるptsdに基づくコンピュータビジョンと機械学習に基づくアプローチを評価するベンチマークを提供する。
さらに,ptsd検出のための深層学習に基づく手法を提案するとともに評価した。
提案手法は非常に有望な結果を示す。
興味のある研究者は、 http://www.lissi.fr/PTSD-Dataset/ POST-traumatic stress disorder (PTSD) is a chronic and debilitating mental condition that is developed in response to catastrophic life events, such as military combat, sexual assault, and natural disasters. PTSD is characterized by flashbacks of past traumatic events, intrusive thoughts, nightmares, hypervigilance, and sleep disturbance, all of which affect a person's life and lead to considerable social, occupational, and interpersonal dysfunction. The diagnosis of PTSD is done by medical professionals using self-assessment questionnaire of PTSD symptoms as defined in the Diagnostic and Statistical Manual of Mental Disorders (DSM). In this paper, and for the first time, we collected, annotated, and prepared for public distribution a new video database for automatic PTSD diagnosis, called PTSD in the wild dataset. The database exhibits "natural" and big variability in acquisition conditions with different pose, facial expression, lighting, focus, resolution, age, gender, race, occlusions and background. In addition to describing the details of the dataset collection, we provide a benchmark for evaluating computer vision and machine learning based approaches on PTSD in the wild dataset. In addition, we propose and we evaluate a deep learning based approach for PTSD detection in respect to the given benchmark. The proposed approach shows very promising results. Interested researcher can download a copy of PTSD-in-the wild dataset from: http://www.lissi.fr/PTSD-Dataset/ | 翻訳日:2022-09-29 16:36:41 公開日:2022-09-28 |
# ボリューム医用画像の特徴生成によるデータ拡張 Data Augmentation using Feature Generation for Volumetric Medical Images ( http://arxiv.org/abs/2209.14097v1 ) ライセンス: Link先を確認 | Khushboo Mehra, Hassan Soliman, Soumya Ranjan Sahoo | (参考訳) 医用画像分類は画像認識領域で最も重要な問題の一つである。
この分野で大きな課題の1つは、ラベル付きトレーニングデータの不足である。
さらに、データセットにはクラス不均衡がしばしばあり、場合によっては発生することは極めて稀である。
その結果、分類作業の精度は通常低い。
特にディープラーニングモデルは、画像セグメンテーションと分類問題に関する有望な結果を示すが、トレーニングには非常に大きなデータセットが必要である。
したがって、同じ分布からより多くの合成サンプルを生成する必要がある。
以前の研究では、特徴生成はより効率的で、対応する画像生成よりも優れたパフォーマンスをもたらすことが示されている。
この考え方を医療画像領域に適用する。
我々は、ゴールドスタンダードのクラスアノテーションが利用できる小さなデータセットのセグメンテーションモデルをトレーニングするために、転送学習を使用します。
学習した特徴を抽出し,Auxiliary Classifier GAN(ACGAN)を用いてクラスラベルに条件付き合成特徴を生成する。
我々は,脳腫瘍の下流分類タスクにおいて,その重症度に応じて生成した特徴の質をテストする。
実験の結果, 生成した特徴の妥当性, データのバランスと分類精度の向上に寄与する有望な結果が得られた。 Medical image classification is one of the most critical problems in the image recognition area. One of the major challenges in this field is the scarcity of labelled training data. Additionally, there is often class imbalance in datasets as some cases are very rare to happen. As a result, accuracy in classification task is normally low. Deep Learning models, in particular, show promising results on image segmentation and classification problems, but they require very large datasets for training. Therefore, there is a need to generate more of synthetic samples from the same distribution. Previous work has shown that feature generation is more efficient and leads to better performance than corresponding image generation. We apply this idea in the Medical Imaging domain. We use transfer learning to train a segmentation model for the small dataset for which gold-standard class annotations are available. We extracted the learnt features and use them to generate synthetic features conditioned on class labels, using Auxiliary Classifier GAN (ACGAN). We test the quality of the generated features in a downstream classification task for brain tumors according to their severity level. Experimental results show a promising result regarding the validity of these generated features and their overall contribution to balancing the data and improving the classification class-wise accuracy. | 翻訳日:2022-09-29 16:36:15 公開日:2022-09-28 |
# 板金溶接図面翻訳用サイクガンネットワーク Cyclegan Network for Sheet Metal Welding Drawing Translation ( http://arxiv.org/abs/2209.14106v1 ) ライセンス: Link先を確認 | Zhiwei Song, Hui Yao, Dan Tian, Gaohui Zhan | (参考訳) インテリジェントな製造では、機械翻訳工学図面の品質が製造精度に直接影響を与える。
現在、ほとんどの作業は手作業で翻訳されており、生産効率が大幅に低下している。
本稿では,循環生成型逆向ネットワーク(cyclegan)に基づく溶接構造図の自動翻訳手法を提案する。
非対流伝達学習のサイクガンネットワークモデルを用いて、実際の溶接工学図の特徴マッピングを学習し、工学図の自動翻訳を実現する。
U-NetとPatchGANは、それぞれジェネレータと識別器のメインネットワークである。
同一性マッピング関数の除去に基づく高次元スパースネットワークの提案により, サイクロン発生器の高密度ネットワークを置き換え, ノイズロバスト性を向上させる。
生成されたグラフの解像度を高めるために、残留ブロック隠蔽層を増やす。
改良および微調整されたネットワークモデルは実験的に検証され、実データと生成されたデータの間のギャップを計算する。
溶接技術精度基準を満たし、溶接製造工程における描画認識効率の低下の主な課題を解決する。
結果が示される。
我々のモデルでトレーニングした後、PSNR、SSIM、MSEは、それぞれ44.89%、99.58%、および2.11に達し、トレーニング速度と精度の両方において従来のネットワークよりも優れている。 In intelligent manufacturing, the quality of machine translation engineering drawings will directly affect its manufacturing accuracy. Currently, most of the work is manually translated, greatly reducing production efficiency. This paper proposes an automatic translation method for welded structural engineering drawings based on Cyclic Generative Adversarial Networks (CycleGAN). The CycleGAN network model of unpaired transfer learning is used to learn the feature mapping of real welding engineering drawings to realize automatic translation of engineering drawings. U-Net and PatchGAN are the main network for the generator and discriminator, respectively. Based on removing the identity mapping function, a high-dimensional sparse network is proposed to replace the traditional dense network for the Cyclegan generator to improve noise robustness. Increase the residual block hidden layer to increase the resolution of the generated graph. The improved and fine-tuned network models are experimentally validated, computing the gap between real and generated data. It meets the welding engineering precision standard and solves the main problem of low drawing recognition efficiency in the welding manufacturing process. The results show. After training with our model, the PSNR, SSIM and MSE of welding engineering drawings reach about 44.89%, 99.58% and 2.11, respectively, which are superior to traditional networks in both training speed and accuracy. | 翻訳日:2022-09-29 16:30:42 公開日:2022-09-28 |
# less is more: 最小限の学習とリカレントニューラルネットを再考する Less is More: Rethinking Few-Shot Learning and Recurrent Neural Nets ( http://arxiv.org/abs/2209.14267v1 ) ライセンス: Link先を確認 | Deborah Pereg, Martin Villiger, Brett Bouma, Polina Golland | (参考訳) 統計的教師付き学習フレームワークは、トレーニングデータセットで確実に表現される連立確率分布を持つ入力出力セットを仮定する。
学習者は、トレーニングデータセットの入出力ペアから学んだ予測ルールを出力する必要がある。
本研究は,機械学習の文脈における漸近的均質性 (AEP) \citep{Shannon:1948} に関する有意義な洞察を提供し,その潜在的影響を数発の学習に照らすものである。
本稿では,情報理論AEPに基づく信頼性学習の理論的保証と,サンプルサイズに関する一般化誤差について述べる。
次に,高効率なリカレントニューラルネット(rnn)フレームワークに着目し,少数ショット学習のための縮小エントロピーアルゴリズムを提案する。
また,スパース符号化解法の近似としてRNNの数学的直観を提案する。
提案手法の適用性,ロバスト性,計算効率を画像デブラリングおよび光コヒーレンストモグラフィ(oct)スペックル抑制法を用いて検証した。
実験の結果,学習モデルのサンプル効率,一般化,時間複雑性が向上し,現実的なリアルタイムアプリケーションに活用できる可能性が示唆された。 The statistical supervised learning framework assumes an input-output set with a joint probability distribution that is reliably represented by the training dataset. The learner is then required to output a prediction rule learned from the training dataset's input-output pairs. In this work, we provide meaningful insights into the asymptotic equipartition property (AEP) \citep{Shannon:1948} in the context of machine learning, and illuminate some of its potential ramifications for few-shot learning. We provide theoretical guarantees for reliable learning under the information-theoretic AEP, and for the generalization error with respect to the sample size. We then focus on a highly efficient recurrent neural net (RNN) framework and propose a reduced-entropy algorithm for few-shot learning. We also propose a mathematical intuition for the RNN as an approximation of a sparse coding solver. We verify the applicability, robustness, and computational efficiency of the proposed approach with image deblurring and optical coherence tomography (OCT) speckle suppression. Our experimental results demonstrate significant potential for improving learning models' sample efficiency, generalization, and time complexity, that can therefore be leveraged for practical real-time applications. | 翻訳日:2022-09-29 16:30:23 公開日:2022-09-28 |
# 美容詩における人種バイアス Racial Bias in the Beautyverse ( http://arxiv.org/abs/2209.13939v1 ) ライセンス: Link先を確認 | Piera Riccio and Nuria Oliver | (参考訳) 本稿では,現在ソーシャルメディアで使用されている美容フィルター技術における人種的偏見の予備的かつ考察的な研究を提案する。
このようなバイアスは、メタバースの中で複製され、誇張されるリスクがあり、その結果、コミュニティからもっと注意を払わなければならない。 This short paper proposes a preliminary and yet insightful investigation of racial biases in beauty filters techniques currently used on social media. The obtained results are a call to action for researchers in Computer Vision: such biases risk being replicated and exaggerated in the Metaverse and, as a consequence, they deserve more attention from the community. | 翻訳日:2022-09-29 16:29:49 公開日:2022-09-28 |
# CALIP:パラメータフリー注意によるCLIPのゼロショット向上 CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention ( http://arxiv.org/abs/2209.14169v1 ) ライセンス: Link先を確認 | Ziyu Guo, Renrui Zhang, Longtian Qiu, Xianzheng Ma, Xupeng Miao, Xuming He, Bin Cui | (参考訳) コントラスト言語-画像事前学習 (CLIP) は、ゼロショット分類において有望な精度を達成し、大きな伝達可能性を持つ視覚表現を学習することが示されている。
下流のパフォーマンスをさらに改善するため、既存の作業では、CLIP上で学習可能な追加モジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
しかし、結果として生じる追加のトレーニングコストとデータ要求は、モデルのデプロイと知識転送の効率を著しく阻害する。
本稿では,パラメータフリーアテンションモジュールを用いて,CLIPのゼロショット性能を向上させるフリーランチ拡張手法CALIPを提案する。
具体的には、視覚表現とテキスト表現を相互に相互作用させ、注意を通してクロスモーダルな情報的特徴を探索する。
事前学習は2つのモード間の埋め込み距離を大幅に削減したので、注意点における学習可能なパラメータをすべて排除し、マルチモーダル特徴を双方向に更新することで、プロセス全体をパラメータフリーかつトレーニングフリーにすることができる。
このように、画像はテキスト認識信号と混合され、テキスト表現はより適応的なゼロショットアライメントのために視覚誘導される。
CALIPを2Dイメージと3Dポイントクラウドの両方で14のデータセットのベンチマークで評価し,CLIPよりも一貫したゼロショット性能向上を示した。
そこで我々は,CALIPのアテンションモジュールに少数の線形層を挿入し,いくつかの設定でロバスト性を検証する。
これらの実験は,CLIPの効率向上に向けたアプローチの優位性を示すものである。 Contrastive Language-Image Pre-training (CLIP) has been shown to learn visual representations with great transferability, which achieves promising accuracy for zero-shot classification. To further improve its downstream performance, existing works propose additional learnable modules upon CLIP and fine-tune them by few-shot training sets. However, the resulting extra training cost and data requirement severely hinder the efficiency for model deployment and knowledge transfer. In this paper, we introduce a free-lunch enhancement method, CALIP, to boost CLIP's zero-shot performance via a parameter-free Attention module. Specifically, we guide visual and textual representations to interact with each other and explore cross-modal informative features via attention. As the pre-training has largely reduced the embedding distances between two modalities, we discard all learnable parameters in the attention and bidirectionally update the multi-modal features, enabling the whole process to be parameter-free and training-free. In this way, the images are blended with textual-aware signals and the text representations become visual-guided for better adaptive zero-shot alignment. We evaluate CALIP on various benchmarks of 14 datasets for both 2D image and 3D point cloud few-shot classification, showing consistent zero-shot performance improvement over CLIP. Based on that, we further insert a small number of linear layers in CALIP's attention module and verify our robustness under the few-shot settings, which also achieves leading performance compared to existing methods. Those extensive experiments demonstrate the superiority of our approach for efficient enhancement of CLIP. | 翻訳日:2022-09-29 16:29:44 公開日:2022-09-28 |
# NSGA-IIの個体群動態の理解から第1報下部境界まで From Understanding the Population Dynamics of the NSGA-II to the First Proven Lower Bounds ( http://arxiv.org/abs/2209.13974v1 ) ライセンス: Link先を確認 | Benjamin Doerr, Zhongdi Qu | (参考訳) NSGA-IIのより複雑な人口動態のため、このアルゴリズムの既存の実行時保証には非自明な下界が伴わない。
NSGA-IIの人口動態に関する最初の数学的理解として、ある目標値を持つ個体の期待数を推定することにより、適切な人口規模を持つNSGA-IIは、OneMinMax問題のパレートフロントを見つけるために$\Omega(Nn\log n)$関数評価と、ジャンプサイズが$kのOneJumpZeroJump問題に対する$\Omega(Nn^k)$関数評価が必要であることを証明した。
これらの境界は漸近的に厳密であり(つまり、前述した上限と一致する)、NSGA-IIは、より大きな人口規模から得られる平行実行時(反復数)の利益さえも示さない。
onejumpzerojump問題に対して、同じソートが2つの目的の群集距離寄与の計算に使用される場合、リード定数を含むタイトなランタイム推定を得ることもできる。 Due to the more complicated population dynamics of the NSGA-II, none of the existing runtime guarantees for this algorithm is accompanied by a non-trivial lower bound. Via a first mathematical understanding of the population dynamics of the NSGA-II, that is, by estimating the expected number of individuals having a certain objective value, we prove that the NSGA-II with suitable population size needs $\Omega(Nn\log n)$ function evaluations to find the Pareto front of the OneMinMax problem and $\Omega(Nn^k)$ evaluations on the OneJumpZeroJump problem with jump size $k$. These bounds are asymptotically tight (that is, they match previously shown upper bounds) and show that the NSGA-II here does not even in terms of the parallel runtime (number of iterations) profit from larger population sizes. For the OneJumpZeroJump problem and when the same sorting is used for the computation of the crowding distance contributions of the two objectives, we even obtain a runtime estimate that is tight including the leading constant. | 翻訳日:2022-09-29 16:29:17 公開日:2022-09-28 |
# ニューラルネットワークの視覚的解析知性について On the visual analytic intelligence of neural networks ( http://arxiv.org/abs/2209.14017v1 ) ライセンス: Link先を確認 | Stanis{\l}aw Wo\'zniak, Hlynur J\'onsson, Giovanni Cherubini, Angeliki Pantazi, Evangelos Eleftheriou | (参考訳) 視覚奇性課題は、ヒトの普遍的な民族非依存的分析知性テストとして考えられた。
人工知能の進歩は重要なブレークスルーをもたらしたが、そのような分析知能タスクで人間と競争することは依然として困難であり、典型的には生物学的に証明できないアーキテクチャに頼っている。
合成眼球運動(ササード)から入力を受け取り、新皮質ニューロンのダイナミクスを取り入れたニューロンで処理する生物学的現実的なシステムを提案する。
従来のリレーショナルネットワークと提案するシステムを拡張したアーキテクチャをトレーニングするために,手続き的に生成された視覚的奇性データセットを導入する。
どちらのアプローチも人間の精度を超えており、どちらも推論の基本的なメカニズムを共有していることがわかりました。
最後に、生物学的にインスパイアされたネットワークは、より優れた精度を実現し、より速く学習し、従来のネットワークよりも少ないパラメータを必要とすることを示す。 Visual oddity task was conceived as a universal ethnic-independent analytic intelligence test for humans. Advancements in artificial intelligence led to important breakthroughs, yet competing with humans on such analytic intelligence tasks remains challenging and typically resorts to non-biologically-plausible architectures. We present a biologically realistic system that receives inputs from synthetic eye movements - saccades, and processes them with neurons incorporating dynamics of neocortical neurons. We introduce a procedurally generated visual oddity dataset to train an architecture extending conventional relational networks and our proposed system. Both approaches surpass the human accuracy, and we uncover that both share the same essential underlying mechanism of reasoning. Finally, we show that the biologically inspired network achieves superior accuracy, learns faster and requires fewer parameters than the conventional network. | 翻訳日:2022-09-29 16:28:51 公開日:2022-09-28 |
# スペクトル拡散過程 Spectral Diffusion Processes ( http://arxiv.org/abs/2209.14125v1 ) ライセンス: Link先を確認 | Angus Phillips, Thomas Seror, Michael Hutchinson, Valentin De Bortoli, Arnaud Doucet, Emile Mathieu | (参考訳) スコアベース生成モデリング(SGM)は有限次元空間上の密度をモデル化するための非常に効果的な手法であることが証明されている。
本研究では,関数空間上で生成モデルを学ぶために,この手法を拡張することを提案する。
そのため、スペクトル空間における関数データを表現し、その過程の確率的部分を時空部分から分離する。
次元性低減技術を用いて,有限次元sgmを用いて確率成分をサンプリングする。
様々なマルチモーダルデータセットをモデル化するための手法の有効性を示す。 Score-based generative modelling (SGM) has proven to be a very effective method for modelling densities on finite-dimensional spaces. In this work we propose to extend this methodology to learn generative models over functional spaces. To do so, we represent functional data in spectral space to dissociate the stochastic part of the processes from their space-time part. Using dimensionality reduction techniques we then sample from their stochastic component using finite dimensional SGM. We demonstrate our method's effectiveness for modelling various multimodal datasets. | 翻訳日:2022-09-29 16:21:24 公開日:2022-09-28 |
# シミュレーションに基づく推論のためのスコアモデリング Score Modeling for Simulation-based Inference ( http://arxiv.org/abs/2209.14249v1 ) ライセンス: Link先を確認 | Tomas Geffner, George Papamakarios, Andriy Mnih | (参考訳) シミュレーションに基づく推論のためのニューラル後方推定法は、正確な近似を得るために多数のシミュレーターコールを必要とするため、複数の観測で条件付けした後続分布を扱うのに不適である。
ニューラルラバース推定法は、自然に複数の観測を処理できるが、その効率と性能に影響を及ぼす別の推論ステップを必要とする。
本稿では,両手法の利点を享受するシミュレーションベース推論手法を提案する。
本研究では,個々の観測結果から得られた後方分布のスコアをモデル化し,学習したスコアを目標からほぼサンプルに効率的に結合するサンプリングアルゴリズムを提案する。 Neural Posterior Estimation methods for simulation-based inference can be ill-suited for dealing with posterior distributions obtained by conditioning on multiple observations, as they may require a large number of simulator calls to yield accurate approximations. Neural Likelihood Estimation methods can naturally handle multiple observations, but require a separate inference step, which may affect their efficiency and performance. We introduce a new method for simulation-based inference that enjoys the benefits of both approaches. We propose to model the scores for the posterior distributions induced by individual observations, and introduce a sampling algorithm that combines the learned scores to approximately sample from the target efficiently. | 翻訳日:2022-09-29 16:21:16 公開日:2022-09-28 |
# 半教師付き少数ショット学習に対する恥ずかしいほどシンプルなアプローチ An Embarrassingly Simple Approach to Semi-Supervised Few-Shot Learning ( http://arxiv.org/abs/2209.13777v1 ) ライセンス: Link先を確認 | Xiu-Shen Wei and He-Yang Xu and Faen Zhang and Yuxin Peng and Wei Zhou | (参考訳) 半教師付き少ショット学習は、ラベル付きデータとラベルなしデータの固定量で新しいタスクに適応するように分類器を訓練する。
多くの高度な手法が開発され、この問題が抱える課題に対処している。
本稿では,間接学習の観点から,ラベルなしデータの正負の擬似ラベルを精度良く予測する手法を提案する。
当社のアプローチはオフザシェルフ操作のみを使用することで,わずか数行のコードで実装可能ですが,4つのベンチマークデータセットで最先端のメソッドを上回ります。 Semi-supervised few-shot learning consists in training a classifier to adapt to new tasks with limited labeled data and a fixed quantity of unlabeled data. Many sophisticated methods have been developed to address the challenges this problem comprises. In this paper, we propose a simple but quite effective approach to predict accurate negative pseudo-labels of unlabeled data from an indirect learning perspective, and then augment the extremely label-constrained support set in few-shot classification tasks. Our approach can be implemented in just few lines of code by only using off-the-shelf operations, yet it is able to outperform state-of-the-art methods on four benchmark datasets. | 翻訳日:2022-09-29 16:19:55 公開日:2022-09-28 |
# 圧縮視覚トランスフォーマーを攻撃 Attacking Compressed Vision Transformers ( http://arxiv.org/abs/2209.13785v1 ) ライセンス: Link先を確認 | Swapnil Parekh, Devansh Shah, Pratyush Shukla | (参考訳) 視覚トランスフォーマーは、その優れた性能のため、産業システムに組み込まれつつあるが、そのメモリと電力要件により、エッジデバイスへのデプロイは困難な作業となっている。
したがって、モデル圧縮技術は、リソース要件を減らし、モデル推論を非常に高速かつ効率的にするため、エッジデバイスにモデルをデプロイするために広く使われている。
しかし、セキュリティの観点からの信頼性と堅牢性は、セーフティクリティカルなアプリケーションにおけるもうひとつの大きな問題である。
敵攻撃はMLアルゴリズムの光学錯覚のようなもので、モデルの精度と信頼性に大きな影響を与える可能性がある。
本研究は,SOTAビジョントランスフォーマーモデルを用いた3種類のSOTA圧縮版間の逆解析を行い,異なる圧縮技術が敵攻撃に与える影響を推定するものである。 Vision Transformers are increasingly embedded in industrial systems due to their superior performance, but their memory and power requirements make deploying them to edge devices a challenging task. Hence, model compression techniques are now widely used to deploy models on edge devices as they decrease the resource requirements and make model inference very fast and efficient. But their reliability and robustness from a security perspective is another major issue in safety-critical applications. Adversarial attacks are like optical illusions for ML algorithms and they can severely impact the accuracy and reliability of models. In this work we investigate the transferability of adversarial samples across the SOTA Vision Transformer models across 3 SOTA compressed versions and infer the effects different compression techniques have on adversarial attacks. | 翻訳日:2022-09-29 16:19:42 公開日:2022-09-28 |
# LSTMディープラーニングを用いた血清クレアチニンおよび溶出分画からの心梗塞の解析と予測 Analysis and prediction of heart stroke from ejection fraction and serum creatinine using LSTM deep learning approach ( http://arxiv.org/abs/2209.13799v1 ) ライセンス: Link先を確認 | Md Ershadul Haque, Salah Uddin, Md Ariful Islam, Amira Khanom, Abdulla Suman, Manoranjan Paul | (参考訳) ビッグデータとディープラーニングの組み合わせは、適切に使用すれば、どんな目的にも大きく影響する、世界を変える技術だ。
大量の医療データセットが利用可能となり、ディープラーニング技術の進歩により、システムはあらゆる健康問題の将来の動向を予測するのに十分な能力を持っている。
文献調査の結果,SVMは客観的因子を関連づけることなく心不全率を予測するために用いられた。
電子健康記録(EHR)における重要な歴史的情報の強度を利用して、長期記憶(LSTM)を利用したスマートで予測的なモデルを構築し、その健康記録に基づいて心不全の今後の動向を予測する。
したがって、本研究の基本的なコミットメントは、患者の電子医学情報に基づいてLSTMを用いて心不全を予測することである。
我々はfaisalabad循環器研究所とfaisalabadの連合病院(パキスタン・プンジャブ)で収集された299人の心不全患者の医療記録を含むデータセットを分析した。
患者は女性105名,男性194名であり,年齢は40歳から95歳であった。
データセットには、心不全の原因となる臨床的、身体的、ライフスタイル情報を報告する13の機能が含まれている。
その結果,脳卒中予知の分野における知識の進歩に寄与する傾向がみられた。 The combination of big data and deep learning is a world-shattering technology that can greatly impact any objective if used properly. With the availability of a large volume of health care datasets and progressions in deep learning techniques, systems are now well equipped to predict the future trend of any health problems. From the literature survey, we found the SVM was used to predict the heart failure rate without relating objective factors. Utilizing the intensity of important historical information in electronic health records (EHR), we have built a smart and predictive model utilizing long short-term memory (LSTM) and predict the future trend of heart failure based on that health record. Hence the fundamental commitment of this work is to predict the failure of the heart using an LSTM based on the patient's electronic medicinal information. We have analyzed a dataset containing the medical records of 299 heart failure patients collected at the Faisalabad Institute of Cardiology and the Allied Hospital in Faisalabad (Punjab, Pakistan). The patients consisted of 105 women and 194 men and their ages ranged from 40 and 95 years old. The dataset contains 13 features, which report clinical, body, and lifestyle information responsible for heart failure. We have found an increasing trend in our analysis which will contribute to advancing the knowledge in the field of heart stroke prediction. | 翻訳日:2022-09-29 16:19:29 公開日:2022-09-28 |
# インスタンス検索のためのコントラスト学習による深層表現学習 Learning Deep Representations via Contrastive Learning for Instance Retrieval ( http://arxiv.org/abs/2209.13832v1 ) ライセンス: Link先を確認 | Tao Wu, Tie Luo, Donald Wunsch | (参考訳) インスタンスレベルのイメージ検索(iir)、あるいは単にインスタンス検索は、クエリインスタンス(例えばオブジェクト)を含むデータセット内のすべてのイメージを見つける問題に対処する。
本稿では,インスタンス識別に基づくコントラスト学習(cl)を用いて,この問題に取り組む最初の試みを行う。
CLは多くのコンピュータビジョンタスクで顕著な性能を示したが、IIRの分野でも同様の成功は見つからなかった。
本研究では,事前学習されたclモデルと微調整されたclモデルから識別表現を導出する能力を検討することにより,この問題にアプローチする。
まず,プレトレーニングディープニューラルネットワーク(DNN)分類器で学習したオフザシェルフ特徴とCLモデルで学習した特徴とを比較して,IIRにおける伝達学習の有効性を検討する。
この結果から,平均精度(AP)損失と,IIRに適合した対照的な特徴表現を学習するための微調整手法を用いて,CLをIIR指向の特徴学習に最適化する新たなトレーニング戦略を提案することができた。
我々の経験的評価は、オックスフォードとパリのデータセット上で訓練済みのDNN分類器から得られたオフ・ザ・シェルフ機能に対する顕著な性能向上を示す。 Instance-level Image Retrieval (IIR), or simply Instance Retrieval, deals with the problem of finding all the images within an dataset that contain a query instance (e.g. an object). This paper makes the first attempt that tackles this problem using instance-discrimination based contrastive learning (CL). While CL has shown impressive performance for many computer vision tasks, the similar success has never been found in the field of IIR. In this work, we approach this problem by exploring the capability of deriving discriminative representations from pre-trained and fine-tuned CL models. To begin with, we investigate the efficacy of transfer learning in IIR, by comparing off-the-shelf features learned by a pre-trained deep neural network (DNN) classifier with features learned by a CL model. The findings inspired us to propose a new training strategy that optimizes CL towards learning IIR-oriented features, by using an Average Precision (AP) loss together with a fine-tuning method to learn contrastive feature representations that are tailored to IIR. Our empirical evaluation demonstrates significant performance enhancement over the off-the-shelf features learned from a pre-trained DNN classifier on the challenging Oxford and Paris datasets. | 翻訳日:2022-09-29 16:19:07 公開日:2022-09-28 |
# recipro-cam:勾配なし逆クラス活性化マップ Recipro-CAM: Gradient-free reciprocal class activation map ( http://arxiv.org/abs/2209.14074v1 ) ライセンス: Link先を確認 | Seok-Yong Byun, Wonju Lee | (参考訳) 畳み込みニューラルネットワーク(CNN)は、コンピュータビジョンのための最も人気があり著名なディープラーニングアーキテクチャの1つだが、そのブラックボックス機能は内部予測プロセスを隠す。
そのため、AI実践者は、モデル行動の解釈可能性を提供するために、説明可能なAIに光を当てている。
特に、クラスアクティベーションマップ(CAM)とGrad-CAMベースの手法は、将来性を示すが、アーキテクチャ上の制限や勾配計算の負担がある。
これらの問題を解決するため、Score-CAMは勾配のない手法として提案されているが、CAMやGrad-CAMベースの方法に比べて実行時間が長い。
そこで我々は,抽出した特徴マップを空間的にマスキングして,アクティベーションマップとネットワーク出力の相関を利用した軽量アーキテクチャと勾配自由相互カム(recipro-cam)を提案する。
提案手法により, VGG-16 (1:39%) を除く平均ドロップ-コヒーレンス-複雑度 (ADCC) 測定値のスコア-CAMと比較して, ResNet ファミリーでは 1:78 - 3:72% の利得を得た。
さらに、Recipro-CAMはGrad-CAMと似たサリエンシマップ生成率を示し、Score-CAMの約148倍高速である。 Convolutional neural network (CNN) becomes one of the most popular and prominent deep learning architectures for computer vision, but its black box feature hides the internal prediction process. For this reason, AI practitioners have shed light on explainable AI to provide the interpretability of the model behavior. In particular, class activation map (CAM) and Grad-CAM based methods have shown promise results, but they have architectural limitation or gradient computing burden. To resolve these, Score-CAM has been suggested as a gradient-free method, however, it requires more execution time compared to CAM or Grad-CAM based methods. Therefore, we propose a lightweight architecture and gradient free Reciprocal CAM (Recipro-CAM) by spatially masking the extracted feature maps to exploit the correlation between activation maps and network outputs. With the proposed method, we achieved the gains of 1:78 - 3:72% in the ResNet family compared to Score-CAM in Average Drop- Coherence-Complexity (ADCC) metric, excluding the VGG-16 (1:39% drop). In addition, Recipro-CAM exhibits a saliency map generation rate similar to Grad-CAM and approximately 148 times faster than Score-CAM. | 翻訳日:2022-09-29 16:18:45 公開日:2022-09-28 |
# 廃棄物燃料プラントにおける予測センサ値:事例研究 Forecasting Sensor Values in Waste-To-Fuel Plants: a Case Study ( http://arxiv.org/abs/2209.13957v1 ) ライセンス: Link先を確認 | Bor Brecelj and Beno \v{S}ircelj and Jo\v{z}e M. Ro\v{z}anec and Bla\v{z} Fortuna and Dunja Mladeni\'c | (参考訳) 本研究では, 廃棄物燃料プラントの将来のセンサ読み取りを予測し, プラントの運転を積極的に制御できる機械学習モデルを開発した。
センサの読み出しを30分から60分予測するモデルを開発した。
モデルは過去のデータを使って訓練され、特定の時刻に行われたセンサーの読み取りに基づいて予測された。
3種類のモデルを比較します
(a)最後の予測値のみを考慮したn\"aive prediction
(b)過去のセンサデータに基づいて予測を行うニューラルネットワーク(予測を行うための時間窓サイズを異にする。)
(c)我々が開発した機能セットで作成された勾配強化木レグレッサ。
我々はカナダにある廃棄物燃料プラントで実世界のユースケースでモデルを開発しテストした。
私たちはそのアプローチを見つけた
(c) アプローチしながら最良の結果を提供する
b) 混合結果を提供し,n\"aive を一貫して上回る結果が得られなかった。 In this research, we develop machine learning models to predict future sensor readings of a waste-to-fuel plant, which would enable proactive control of the plant's operations. We developed models that predict sensor readings for 30 and 60 minutes into the future. The models were trained using historical data, and predictions were made based on sensor readings taken at a specific time. We compare three types of models: (a) a n\"aive prediction that considers only the last predicted value, (b) neural networks that make predictions based on past sensor data (we consider different time window sizes for making a prediction), and (c) a gradient boosted tree regressor created with a set of features that we developed. We developed and tested our models on a real-world use case at a waste-to-fuel plant in Canada. We found that approach (c) provided the best results, while approach (b) provided mixed results and was not able to outperform the n\"aive consistently. | 翻訳日:2022-09-29 16:12:20 公開日:2022-09-28 |
# machine beats machine: 敵の攻撃から守るための機械学習モデル Machine Beats Machine: Machine Learning Models to Defend Against Adversarial Attacks ( http://arxiv.org/abs/2209.13963v1 ) ライセンス: Link先を確認 | Jo\v{z}e M. Ro\v{z}anec and Dimitrios Papamartzivanos and Entso Veliou and Theodora Anastasiou and Jelle Keizer and Bla\v{z} Fortuna and Dunja Mladeni\'c | (参考訳) 敵攻撃を防止するために,機械学習モデルの2層展開を提案する。
第1のレイヤはデータが改ざんされたかどうかを判断し、第2のレイヤはドメイン固有の問題を解決する。
機械学習モデルをトレーニングするために、3つの機能セットと3つのデータセットのバリエーションを調べます。
その結果,クラスタリングアルゴリズムは有望な結果を得た。
特に,画像と白色参照画像の間で計算された構造的類似度指標にDBSCANアルゴリズムを適用することにより,最もよい結果を得たと考える。 We propose using a two-layered deployment of machine learning models to prevent adversarial attacks. The first layer determines whether the data was tampered, while the second layer solves a domain-specific problem. We explore three sets of features and three dataset variations to train machine learning models. Our results show clustering algorithms achieved promising results. In particular, we consider the best results were obtained by applying the DBSCAN algorithm to the structured structural similarity index measure computed between the images and a white reference image. | 翻訳日:2022-09-29 16:12:08 公開日:2022-09-28 |
# 周辺ランキングによるグラフソフトコントラスト学習 Graph Soft-Contrastive Learning via Neighborhood Ranking ( http://arxiv.org/abs/2209.13964v1 ) ライセンス: Link先を確認 | Zhiyuan Ning, Pengfei Wang, Pengyang Wang, Ziyue Qiao, Wei Fan, Denghui Zhang, Yi Du, Yuanchun Zhou | (参考訳) グラフコントラスト学習(GCL)は、グラフ自己教師型学習の新たなソリューションである。
GCLの中核となる原理は、正の視点ではサンプル間の距離を減少させるが、負の視点ではサンプル間の距離を増やすことである。
有望な性能を実現する一方で、現在のgcl法は、(1)拡張の制御不能な妥当性、(2)グラフデータのセマンティクスと特徴トポロジ対応に対する無効なビューを生み出す可能性がある、(2)非ユークリッドグラフデータに対して構築されたビューの肯定性と否定性を決定するのが困難である、という2つの制限をまだ抱えている。
上記の制限に対処するため,グラフソフトコントラスト学習(GSCL)という,グラフに対する新たなコントラスト学習パラダイムを提案する。
GSCLは、連結された隣人は遠距離ノードよりも近いというグラフ近接の基本的な仮定に基づいている。
具体的には、周辺地域の相対ランク関係を維持するために、ペアワイドおよびリストワイドのGated Ranking infoNCE Loss関数を開発する。
さらに,より多くのホップを考慮した地域規模が指数関数的に拡大するにつれて,学習効率向上のための地域サンプリング戦略を提案する。
大規模な実験結果から,提案したGSCLは,GCLに匹敵する実用的複雑性を持つ各種公開データセット上で,常に最先端のパフォーマンスを達成可能であることが示された。 Graph contrastive learning (GCL) has been an emerging solution for graph self-supervised learning. The core principle of GCL is to reduce the distance between samples in the positive view, but increase the distance between samples in the negative view. While achieving promising performances, current GCL methods still suffer from two limitations: (1) uncontrollable validity of augmentation, that graph perturbation may produce invalid views against semantics and feature-topology correspondence of graph data; and (2) unreliable binary contrastive justification, that the positiveness and negativeness of the constructed views are difficult to be determined for non-euclidean graph data. To tackle the above limitations, we propose a new contrastive learning paradigm for graphs, namely Graph Soft-Contrastive Learning (GSCL), that conducts contrastive learning in a finer-granularity via ranking neighborhoods without any augmentations and binary contrastive justification. GSCL is built upon the fundamental assumption of graph proximity that connected neighbors are more similar than far-distant nodes. Specifically, we develop pair-wise and list-wise Gated Ranking infoNCE Loss functions to preserve the relative ranking relationship in the neighborhood. Moreover, as the neighborhood size exponentially expands with more hops considered, we propose neighborhood sampling strategies to improve learning efficiency. The extensive experimental results show that our proposed GSCL can consistently achieve state-of-the-art performances on various public datasets with comparable practical complexity to GCL. | 翻訳日:2022-09-29 16:12:01 公開日:2022-09-28 |
# 低臨界航空機用機械学習システムの認定に向けて Toward Certification of Machine-Learning Systems for Low Criticality Airborne Applications ( http://arxiv.org/abs/2209.13975v1 ) ライセンス: Link先を確認 | K. Dmitriev, J. Schumann and F. Holzapfel | (参考訳) 近年の機械学習(ML)分野における例外的な進歩は、航空機でこの技術を使うことに大きな関心を集めている。
mlの航空用途には、航空業界の厳格な認証基準に従って開発されなければならない安全クリティカル機能が含まれる。
現在の航空産業の認定基準は、ML技術の詳細を考慮せずにMLルネッサンス以前に開発された。
従来の設計保証アプローチとMLベースのシステムの特定の側面の間には、いくつかの根本的な不整合がある。
本稿では,ML開発ワークフローに関する前提が適用されれば,この基準のすべての目的が低臨界MLベースシステムにおいて達成可能であることを示す。 The exceptional progress in the field of machine learning (ML) in recent years has attracted a lot of interest in using this technology in aviation. Possible airborne applications of ML include safety-critical functions, which must be developed in compliance with rigorous certification standards of the aviation industry. Current certification standards for the aviation industry were developed prior to the ML renaissance without taking specifics of ML technology into account. There are some fundamental incompatibilities between traditional design assurance approaches and certain aspects of ML-based systems. In this paper, we analyze the current airborne certification standards and show that all objectives of the standards can be achieved for a low-criticality ML-based system if certain assumptions about ML development workflow are applied. | 翻訳日:2022-09-29 16:11:33 公開日:2022-09-28 |
# 遠絡因果構造学習によるグラフニューラルネットワークの劣化 Debiasing Graph Neural Networks via Learning Disentangled Causal Substructure ( http://arxiv.org/abs/2209.14107v1 ) ライセンス: Link先を確認 | Shaohua Fan, Xiao Wang, Yanhu Mo, Chuan Shi, Jian Tang | (参考訳) ほとんどのグラフニューラルネットワーク(GNN)は、入力グラフとラベルの相関を学習することで、目に見えないグラフのラベルを予測する。
しかし,厳格なバイアスを伴うトレーニンググラフのグラフ分類調査を行った結果,gnnは因果相関が常に存在する場合でも,散発的な相関を常に探究する傾向がみられた。
これは、そのようなバイアス付きデータセットでトレーニングされた既存のGNNが、一般化能力の低下に悩まされることを意味する。
この問題を因果的視点で分析することで、偏りのあるグラフから因果変数とバイアス潜在変数の分離と分離が両方ともデバイアスに不可欠であることが分かる。
そこで本研究では, 因果部分構造とバイアス部分構造をそれぞれ学習するためのgnnフレームワークを提案する。
特に、入力グラフを因果グラフとバイアスグラフに明示的に分割するパラメータ化エッジマスク生成器を設計する。
次に2つのGNNモジュールをそれぞれ因果的/偏見的損失関数で教師し、因果的および偏見的部分グラフを対応する表現に符号化する。
異種表現を用いて,反事実的非バイアストレーニングサンプルを合成し,因果変数とバイアス変数をさらに分離する。
さらに, 厳密なバイアス問題を改善するために, 制御可能なバイアス度を有し, 可視化や説明が容易な3つのグラフデータセットを構築した。
実験の結果,既存のベースラインよりも優れた一般化性能が得られた。
さらに,学習したエッジマスクにより,提案手法は解釈性と伝達性に訴える。
コードとデータは、https://github.com/googlebaba/DisC.comで入手できる。 Most Graph Neural Networks (GNNs) predict the labels of unseen graphs by learning the correlation between the input graphs and labels. However, by presenting a graph classification investigation on the training graphs with severe bias, surprisingly, we discover that GNNs always tend to explore the spurious correlations to make decision, even if the causal correlation always exists. This implies that existing GNNs trained on such biased datasets will suffer from poor generalization capability. By analyzing this problem in a causal view, we find that disentangling and decorrelating the causal and bias latent variables from the biased graphs are both crucial for debiasing. Inspiring by this, we propose a general disentangled GNN framework to learn the causal substructure and bias substructure, respectively. Particularly, we design a parameterized edge mask generator to explicitly split the input graph into causal and bias subgraphs. Then two GNN modules supervised by causal/bias-aware loss functions respectively are trained to encode causal and bias subgraphs into their corresponding representations. With the disentangled representations, we synthesize the counterfactual unbiased training samples to further decorrelate causal and bias variables. Moreover, to better benchmark the severe bias problem, we construct three new graph datasets, which have controllable bias degrees and are easier to visualize and explain. Experimental results well demonstrate that our approach achieves superior generalization performance over existing baselines. Furthermore, owing to the learned edge mask, the proposed model has appealing interpretability and transferability. Code and data are available at: https://github.com/googlebaba/DisC. | 翻訳日:2022-09-29 16:11:23 公開日:2022-09-28 |
# ハンガリーにおけるチキンポックス症例推定のための時系列予測モデルの評価 Evaluation of Time-Series Forecasting Models for Chickenpox Cases Estimation in Hungary ( http://arxiv.org/abs/2209.14129v1 ) ライセンス: Link先を確認 | Wadie Skaf, Arzu Tosayeva, D\'aniel V\'arkonyi | (参考訳) 時系列予測は、時系列の将来の値を予測するために歴史的観測を分析する強力なデータモデリングの分野である。
これは、経済学、気象学、健康に限らず、多くの応用で利用されている。
本稿では,チキンポックスの発生をモデル化し,予測するために時系列予測技術を用いる。
これを実現するために、ハンガリーの収集データセット上で複数のモデルとデータ前処理技術を実装し、シミュレーションする。
lstmモデルが郡レベルの予測でほとんどの実験で他の全てのモデルを上回ることを実証し、サリマックスモデルが全国レベルで最高の性能を示すことを示した。
また,提案したデータ前処理手法よりも従来のデータ前処理方式の性能が劣っていることを示す。 Time-Series Forecasting is a powerful data modeling discipline that analyzes historical observations to predict future values of a time-series. It has been utilized in numerous applications, including but not limited to economics, meteorology, and health. In this paper, we use time-series forecasting techniques to model and predict the future incidence of chickenpox. To achieve this, we implement and simulate multiple models and data preprocessing techniques on a Hungary-collected dataset. We demonstrate that the LSTM model outperforms all other models in the vast majority of the experiments in terms of county-level forecasting, whereas the SARIMAX model performs best at the national level. We also demonstrate that the performance of the traditional data preprocessing method is inferior to that of the data preprocessing method that we have proposed. | 翻訳日:2022-09-29 16:10:53 公開日:2022-09-28 |
# 多視点スパース低ランクブロックモデルによるコンセンサス知識グラフ学習 Consensus Knowledge Graph Learning via Multi-view Sparse Low Rank Block Model ( http://arxiv.org/abs/2209.13762v1 ) ライセンス: Link先を確認 | Tianxi Cai, Dong Xia, Luwan Zhang and Doudou Zhou | (参考訳) ネットワーク分析は、多数のオブジェクト間の関係や相互作用を明らかにする強力なツールである。
しかし、重要なノードとノードの相互作用を正確に識別する効果は、急速に成長するネットワークサイズによって挑戦され、データが前例のない粒度とスケールで収集される。
このような高次元性を克服する共通の知恵は、ノードを小さなグループに分解し、グループレベルで接続解析を実行することである。
努力を2つのフェーズに分割することで、必然的に一貫性のギャップが開き、効率が低下する。
コンセンサス学習は、複数のデータソースが利用可能な共通知識発見の新しい標準として現れる。
この目的のために,複数のデータソースを組み合わせることで,同時グループ化と接続解析の統一的なフレームワークを開発する。
このアルゴリズムは統計的に最適な推定器も保証する。 Network analysis has been a powerful tool to unveil relationships and interactions among a large number of objects. Yet its effectiveness in accurately identifying important node-node interactions is challenged by the rapidly growing network size, with data being collected at an unprecedented granularity and scale. Common wisdom to overcome such high dimensionality is collapsing nodes into smaller groups and conducting connectivity analysis on the group level. Dividing efforts into two phases inevitably opens a gap in consistency and drives down efficiency. Consensus learning emerges as a new normal for common knowledge discovery with multiple data sources available. To this end, this paper features developing a unified framework of simultaneous grouping and connectivity analysis by combining multiple data sources. The algorithm also guarantees a statistically optimal estimator. | 翻訳日:2022-09-29 16:09:59 公開日:2022-09-28 |
# ロバストMDPのオンライン政策最適化 Online Policy Optimization for Robust MDP ( http://arxiv.org/abs/2209.13841v1 ) ライセンス: Link先を確認 | Jing Dong, Jingwei Li, Baoxiang Wang, Jingzhao Zhang | (参考訳) 強化学習(rl)は、ビデオゲームやgoなど多くの合成環境で人間のパフォーマンスを上回っている。
しかし、エンド・ツー・エンドのRLモデルの実際の展開は一般的ではなく、RLモデルは環境のわずかな摂動に非常に敏感である。
頑健なマルコフ決定プロセス(MDP)フレームワーク – 名目モデルを中心とした不確実性セットに属する移行確率 – は、堅牢なモデルを開発する一つの方法を提供する。
以前の分析では、RLアルゴリズムは生成モデルへのアクセスを効果的に仮定しているが、RLがより現実的なオンライン環境で有効であるかどうかは不明である。
本研究では,未知の名義システムと対話することで,オンラインのロバストなMDPを考える。
提案手法は,確率的に効率的であるロバストなポリシー最適化アルゴリズムを提案する。
逆環境によるさらなる不確実性に対処するため,Fenchel共役を用いた新しい楽観的な更新規則を特徴とする。
私たちの分析は、オンラインロバストなmdpに対する最初の後悔を確立します。 Reinforcement learning (RL) has exceeded human performance in many synthetic settings such as video games and Go. However, real-world deployment of end-to-end RL models is less common, as RL models can be very sensitive to slight perturbation of the environment. The robust Markov decision process (MDP) framework -- in which the transition probabilities belong to an uncertainty set around a nominal model -- provides one way to develop robust models. While previous analysis shows RL algorithms are effective assuming access to a generative model, it remains unclear whether RL can be efficient under a more realistic online setting, which requires a careful balance between exploration and exploitation. In this work, we consider online robust MDP by interacting with an unknown nominal system. We propose a robust optimistic policy optimization algorithm that is provably efficient. To address the additional uncertainty caused by an adversarial environment, our model features a new optimistic update rule derived via Fenchel conjugates. Our analysis establishes the first regret bound for online robust MDPs. | 翻訳日:2022-09-29 16:09:45 公開日:2022-09-28 |
# UCEpic:説明可能な勧告のためのアスペクト計画と語彙制約の統合 UCEpic: Unifying Aspect Planning and Lexical Constraints for Explainable Recommendation ( http://arxiv.org/abs/2209.13885v1 ) ライセンス: Link先を確認 | Jiacheng Li, Zhankui He, Jingbo Shang, Julian McAuley | (参考訳) 説明可能なレコメンデーションのためのパーソナライズされた自然言語生成は、レコメンデーションがユーザーの興味にマッチする理由を正当化する上で重要な役割を果たす。
既存のモデルは通常、ソフト制約(例えば、アスペクト計画)によって生成プロセスを制御する。
有望な一方で、これらの手法は特定の情報を正しく生成するのに苦労し、生成した説明が情報的かつ多様であることを防ぐ。
本稿では,制御可能なパーソナライズ生成のためのアスペクト計画と語彙制約を統一した説明生成モデルであるUCEpicを提案する。
具体的には,提案する頑健な挿入処理により,まず非個人化テキスト生成器を事前学習し,語彙制約を含む文を生成できるようにする。
次に、アスペクト計画とパーソナライズされた参照を挿入プロセスに組み込んでパーソナライズされた説明を得る方法を示す。
ソフト制約によって制御された以前の研究と比較して、UCEpicはキーフレーズからの特定の情報を取り入れ、生成した説明の多様性と情報性を大幅に改善する。
RateBeerとYelpの大規模な実験によると、UCEpicは高品質で多様な説明をレコメンデーションのために生成できる。 Personalized natural language generation for explainable recommendations plays a key role in justifying why a recommendation might match a user's interests. Existing models usually control the generation process by soft constraints (e.g.,~aspect planning). While promising, these methods struggle to generate specific information correctly, which prevents generated explanations from being informative and diverse. In this paper, we propose UCEpic, an explanation generation model that unifies aspect planning and lexical constraints for controllable personalized generation. Specifically, we first pre-train a non-personalized text generator by our proposed robust insertion process so that the model is able to generate sentences containing lexical constraints. Then, we demonstrate the method of incorporating aspect planning and personalized references into the insertion process to obtain personalized explanations. Compared to previous work controlled by soft constraints, UCEpic incorporates specific information from keyphrases and then largely improves the diversity and informativeness of generated explanations. Extensive experiments on RateBeer and Yelp show that UCEpic can generate high-quality and diverse explanations for recommendations. | 翻訳日:2022-09-29 16:04:19 公開日:2022-09-28 |
# 不均衡な学際的研究提案による階層的ミックスアップマルチラベル分類 Hierarchical MixUp Multi-label Classification with Imbalanced Interdisciplinary Research Proposals ( http://arxiv.org/abs/2209.13912v1 ) ライセンス: Link先を確認 | Meng Xiao, Min Wu, Ziyue Qiao, Zhiyuan Ning, Yi Du, Yanjie Fu, Yuanchun Zhou | (参考訳) 資金提供機関は、主にドメインエキスパートと研究提案のトピックマッチングに依存しており、提案レビューアを割り当てている。
提案が学際的になるにつれて、提案の学際的性質をプロファイルし、その後、適切な専門知識を持つ専門家を見つけることが困難になる。
この問題を解決するための重要なステップは、提案の学際ラベルを正確にモデル化し分類することである。
テキスト分類や提案分類といった既存の方法論・応用関連文献は、学際的提案データによる3つの重要な課題を共同で解決するには不十分である。
1)情報科学からAI,AIの基本に至るまで,粗粒から細粒までの提案の規律ラベルの階層構造。
2 提案において、異なる役割を担っている各種主文部の異種意味論
3)非学際研究と学際研究の間には,提案の数は不均衡である。
提案の学際的性質を理解する上で,同時に3つの課題に対処できるだろうか?
そこで本研究では,H-MixUpと呼ぶ階層型混成多重ラベル分類フレームワークを提案する。
H-MixUpはトランスフォーマーベースの意味情報抽出器とGCNベースの学際知識抽出器を第1号と第2号に活用する。
H-MixUpは、Wold-level MixUp、Word-level CutMix、Manifold MixUp、Document-level MixUpの融合トレーニング方法を開発した。 Funding agencies are largely relied on a topic matching between domain experts and research proposals to assign proposal reviewers. As proposals are increasingly interdisciplinary, it is challenging to profile the interdisciplinary nature of a proposal, and, thereafter, find expert reviewers with an appropriate set of expertise. An essential step in solving this challenge is to accurately model and classify the interdisciplinary labels of a proposal. Existing methodological and application-related literature, such as textual classification and proposal classification, are insufficient in jointly addressing the three key unique issues introduced by interdisciplinary proposal data: 1) the hierarchical structure of discipline labels of a proposal from coarse-grain to fine-grain, e.g., from information science to AI to fundamentals of AI. 2) the heterogeneous semantics of various main textual parts that play different roles in a proposal; 3) the number of proposals is imbalanced between non-interdisciplinary and interdisciplinary research. Can we simultaneously address the three issues in understanding the proposal's interdisciplinary nature? In response to this question, we propose a hierarchical mixup multiple-label classification framework, which we called H-MixUp. H-MixUp leverages a transformer-based semantic information extractor and a GCN-based interdisciplinary knowledge extractor for the first and second issues. H-MixUp develops a fused training method of Wold-level MixUp, Word-level CutMix, Manifold MixUp, and Document-level MixUp to address the third issue. | 翻訳日:2022-09-29 16:03:48 公開日:2022-09-28 |
# 急性期治療のリスクが高い腫瘍学患者を臨床ノートで識別するための自然言語処理法 Natural Language Processing Methods to Identify Oncology Patients at High Risk for Acute Care with Clinical Notes ( http://arxiv.org/abs/2209.13860v1 ) ライセンス: Link先を確認 | Claudio Fanconi, Marieke van Buchem, Tina Hernandez-Boussard | (参考訳) 臨床ノートは健康記録の重要な構成要素である。
本稿では, 化学療法開始後に急性期医療(acu)のリスクを特定するために, 自然言語処理(nlp)がどのように用いられるかを評価する。
構造化健康データ(SHD)を用いたリスク予測は標準となっているが、自由テキスト形式を用いた予測は複雑である。
本稿では,SHDではなくACUの予測にフリーテキストを用いた手法を提案する。
ディープラーニングモデルは手作業による言語機能と比較された。
結果、SHDモデルでは、SHDを用いたl1-penalized logistic regressionが0.748(95%-CI: 0.735, 0.762)、言語特徴を持つモデルでは0.730(95%-CI: 0.717, 0.745)、トランスフォーマーベースモデルでは0.702(95%-CI: 0.688, 0.717)のC統計結果を得た。
本稿では, 言語モデルが臨床応用にどのように用いられるかを示し, フリーテキストデータのみを用いても, 多様な患者群でリスクバイアスがどう異なるかを明らかにした。 Clinical notes are an essential component of a health record. This paper evaluates how natural language processing (NLP) can be used to identify the risk of acute care use (ACU) in oncology patients, once chemotherapy starts. Risk prediction using structured health data (SHD) is now standard, but predictions using free-text formats are complex. This paper explores the use of free-text notes for the prediction of ACU instead of SHD. Deep Learning models were compared to manually engineered language features. Results show that SHD models minimally outperform NLP models; an l1-penalised logistic regression with SHD achieved a C-statistic of 0.748 (95%-CI: 0.735, 0.762), while the same model with language features achieved 0.730 (95%-CI: 0.717, 0.745) and a transformer-based model achieved 0.702 (95%-CI: 0.688, 0.717). This paper shows how language models can be used in clinical applications and underlines how risk bias is different for diverse patient groups, even using only free-text data. | 翻訳日:2022-09-29 16:03:24 公開日:2022-09-28 |
# Twitterにおける攻撃的言語検出 Offensive Language Detection on Twitter ( http://arxiv.org/abs/2209.14091v1 ) ライセンス: Link先を確認 | Nikhil Chilwant, Syed Taqi Abbas Rizvi, Hassan Soliman | (参考訳) ソーシャルメディアにおける攻撃的言語の検出は,ソーシャルメディアの重要な課題のひとつだ。
研究者はこの課題を達成するための多くの先進的な方法を提案した。
本報告では,彼らのアプローチから学んだことを活用し,アイデアを取り入れて改善する。
攻撃的ツイートの分類には74%の精度で成功しました。
ソーシャルメディアの世界における乱用コンテンツ検出における今後の課題もリストアップする。 Detection of offensive language in social media is one of the key challenges for social media. Researchers have proposed many advanced methods to accomplish this task. In this report, we try to use the learnings from their approach and incorporate our ideas to improve upon them. We have successfully achieved an accuracy of 74% in classifying offensive tweets. We also list upcoming challenges in the abusive content detection in the social media world. | 翻訳日:2022-09-29 16:02:59 公開日:2022-09-28 |
# プレート客観的スコアリングツール(post)を用いた深層学習による尿道プレート品質の自動定量化 Deep Learning based Automatic Quantification of Urethral Plate Quality using the Plate Objective Scoring Tool (POST) ( http://arxiv.org/abs/2209.13848v1 ) ライセンス: Link先を確認 | Tariq O. Abbas, Mohamed AbdelMoniem, Ibrahim Khalil, Md Sakib Abrar Hossain, Muhammad E. H. Chowdhury | (参考訳) 目的: 皿客観評価ツール(POST)を用いて, 2次元画像上での尿道プレート(UP)品質評価をさらに合理化し, 最適化する深層学習アルゴリズムの能力を探究し, 視床下部修復におけるUP評価の客観性と再現性を高めることを目的とした。
方法: 5つの主要なPOSTのランドマークは、691年の未熟児の一次下垂体修復中のデータセットのスペシャリストによってマークされた。
このデータセットは、深層学習に基づくランドマーク検出モデルの開発と検証に使用される。
提案手法はglansのローカライゼーションと検出から始まり,予測された境界ボックスを用いて入力画像をトリミングする。
次に、深い畳み込みニューラルネットワーク(CNN)アーキテクチャを使用して、5つのPOSTランドマークの座標を予測する。
これらの予測されたランドマークは、遠位下腹部のUP品質を評価するために使用される。
結果: 提案モデルは, 平均精度99.5%, 総合感度99.1%のglans領域を高精度に局所化した。
0.07152の正規化平均誤差(NME)は、平均2乗誤差(MSE)が0.001、故障率が20.2%で0.1NMEであるランドマークの座標を予測するために達成された。
結論: このディープラーニングアプリケーションは、POSTを使用してUP品質を評価する際に、堅牢性と高い精度を示す。
国際マルチ中心画像データベースによるさらなる評価が進行中である。
外部検証はディープラーニングアルゴリズムに効果があり、手術の結果に対する評価、意思決定、予測が向上する可能性がある。 Objectives: To explore the capacity of deep learning algorithm to further streamline and optimize urethral plate (UP) quality appraisal on 2D images using the plate objective scoring tool (POST), aiming to increase the objectivity and reproducibility of UP appraisal in hypospadias repair. Methods: The five key POST landmarks were marked by specialists in a 691-image dataset of prepubertal boys undergoing primary hypospadias repair. This dataset was then used to develop and validate a deep learning-based landmark detection model. The proposed framework begins with glans localization and detection, where the input image is cropped using the predicted bounding box. Next, a deep convolutional neural network (CNN) architecture is used to predict the coordinates of the five POST landmarks. These predicted landmarks are then used to assess UP quality in distal hypospadias. Results: The proposed model accurately localized the glans area, with a mean average precision (mAP) of 99.5% and an overall sensitivity of 99.1%. A normalized mean error (NME) of 0.07152 was achieved in predicting the coordinates of the landmarks, with a mean squared error (MSE) of 0.001 and a 20.2% failure rate at a threshold of 0.1 NME. Conclusions: This deep learning application shows robustness and high precision in using POST to appraise UP quality. Further assessment using international multi-centre image-based databases is ongoing. External validation could benefit deep learning algorithms and lead to better assessments, decision-making and predictions for surgical outcomes. | 翻訳日:2022-09-29 16:02:54 公開日:2022-09-28 |
# 生成プリトレーニングトランスを用いた医用画像キャプション Medical Image Captioning via Generative Pretrained Transformers ( http://arxiv.org/abs/2209.13983v1 ) ライセンス: Link先を確認 | Alexander Selivanov, Oleg Y. Rogov, Daniil Chesakov, Artem Shelmanov, Irina Fedulova and Dmitry V. Dylov | (参考訳) 自動クリニカルキャプション生成問題は,前頭胸部X線スキャンとX線撮影記録からの構造化患者情報を組み合わせたモデルとして提案されている。
我々は、Show-Attend-Tell と GPT-3 という2つの言語モデルを組み合わせて、包括的で記述的な放射線学記録を生成する。
提案したモデルの組み合わせは、発見された病理、その位置、および元のX線スキャンで各病理を局在させる2Dヒートマップに関する重要な情報とテキスト要約を生成する。
提案モデルは、Open-I、MIMIC-CXR、MS-COCOの2つの医療データセットで検証される。
自然言語評価指標を用いて測定した結果,胸部x線キャプションの有用性が示された。 The automatic clinical caption generation problem is referred to as proposed model combining the analysis of frontal chest X-Ray scans with structured patient information from the radiology records. We combine two language models, the Show-Attend-Tell and the GPT-3, to generate comprehensive and descriptive radiology records. The proposed combination of these models generates a textual summary with the essential information about pathologies found, their location, and the 2D heatmaps localizing each pathology on the original X-Ray scans. The proposed model is tested on two medical datasets, the Open-I, MIMIC-CXR, and the general-purpose MS-COCO. The results measured with the natural language assessment metrics prove their efficient applicability to the chest X-Ray image captioning. | 翻訳日:2022-09-29 16:02:26 公開日:2022-09-28 |
# 因果的観点からの少数学習の再検討 Revisiting Few-Shot Learning from a Causal Perspective ( http://arxiv.org/abs/2209.13816v1 ) ライセンス: Link先を確認 | Guoliang Lin, Hanjiang Lai | (参考訳) NウェイKショットスキームによるショット学習は、機械学習におけるオープンな課題である。
この問題に対処するためには、Matching NetworksやCLIP-Adapterなど、多くのアプローチが提案されている。
これらのアプローチが著しく進歩しているにもかかわらず、これらの方法が成功した理由のメカニズムは十分に検討されていない。
本稿では,これらの小ショット学習手法を因果メカニズムを用いて解釈する。
既存のアプローチは、共同設立者の影響を取り除くための、特定の形態のドア調整として見ることができることを示す。
そこで本研究では,実例間の関係だけでなく,表現の多様性も考慮し,単発学習のための汎用因果法を提案する。
評価実験により,提案手法が,ベンチマークデータセット上でのマイトショット分類において優れていることを示した。
コードは補足資料で入手できる。 Few-shot learning with N-way K-shot scheme is an open challenge in machine learning. Many approaches have been proposed to tackle this problem, e.g., the Matching Networks and CLIP-Adapter. Despite that these approaches have shown significant progress, the mechanism of why these methods succeed has not been well explored. In this paper, we interpret these few-shot learning methods via causal mechanism. We show that the existing approaches can be viewed as specific forms of front-door adjustment, which is to remove the effects of confounders. Based on this, we introduce a general causal method for few-shot learning, which considers not only the relationship between examples but also the diversity of representations. Experimental results demonstrate the superiority of our proposed method in few-shot classification on various benchmark datasets. Code is available in the supplementary material. | 翻訳日:2022-09-29 16:01:16 公開日:2022-09-28 |
# オンライン連続学習のための単純だが強固なベースライン: 繰り返し強化リハーサル A simple but strong baseline for online continual learning: Repeated Augmented Rehearsal ( http://arxiv.org/abs/2209.13917v1 ) ライセンス: Link先を確認 | Yaqian Zhang, Bernhard Pfahringer, Eibe Frank, Albert Bifet, Nick Jin Sean Lim, Yunzhe Jia | (参考訳) オンライン連続学習(OCL)は、単一のデータパスで、非定常データストリームからニューラルネットワークを漸進的にトレーニングすることを目的としている。
リハーサルベースの手法は、観測された入力分布を小さなメモリで時間とともに近似し、後にそれを再検討して、忘れることを避ける。
強い経験的性能にもかかわらず、リハーサル法は記憶サンプルによる過去のデータの損失状況の近似が不十分である。
本稿では,オンライン設定におけるリハーサルダイナミクスを再考する。
本稿では, バイアスや動的経験的リスク最小化の観点から, メモリ過適合リスクに関する理論的考察を行い, 繰り返しリハーサルのメリットと限界について検討する。
オンラインリハーサルの過度な過度なジレンマに対処するために,単純で直感的なベースラインであるreplicated augmented rehearsal(rar)を考案した。
驚くべきことに、4つのかなり異なるOCLベンチマークにおいて、この単純なベースラインはバニラリハーサルを9%-17%上回り、また最先端のリハーサルベースのメソッドであるMIR、ASER、SCRを大幅に改善している。
また,RARは過去のデータにおける損失景観の正確な近似と,学習軌道における高損失隆起の回避を実現していることを示す。
繰り返しリハーサルと強化学習(RL)の相互作用を解析し、RARのハイパーパラメータを動的に調整し、オンラインでの安定性と塑性のトレードオフをバランスさせる。 Online continual learning (OCL) aims to train neural networks incrementally from a non-stationary data stream with a single pass through data. Rehearsal-based methods attempt to approximate the observed input distributions over time with a small memory and revisit them later to avoid forgetting. Despite its strong empirical performance, rehearsal methods still suffer from a poor approximation of the loss landscape of past data with memory samples. This paper revisits the rehearsal dynamics in online settings. We provide theoretical insights on the inherent memory overfitting risk from the viewpoint of biased and dynamic empirical risk minimization, and examine the merits and limits of repeated rehearsal. Inspired by our analysis, a simple and intuitive baseline, Repeated Augmented Rehearsal (RAR), is designed to address the underfitting-overfitting dilemma of online rehearsal. Surprisingly, across four rather different OCL benchmarks, this simple baseline outperforms vanilla rehearsal by 9%-17% and also significantly improves state-of-the-art rehearsal-based methods MIR, ASER, and SCR. We also demonstrate that RAR successfully achieves an accurate approximation of the loss landscape of past data and high-loss ridge aversion in its learning trajectory. Extensive ablation studies are conducted to study the interplay between repeated and augmented rehearsal and reinforcement learning (RL) is applied to dynamically adjust the hyperparameters of RAR to balance the stability-plasticity trade-off online. | 翻訳日:2022-09-29 16:01:05 公開日:2022-09-28 |
# TVLT: テキストレスビジョンランゲージ変換器 TVLT: Textless Vision-Language Transformer ( http://arxiv.org/abs/2209.14156v1 ) ライセンス: Link先を確認 | Zineng Tang, Jaemin Cho, Yixin Nie, Mohit Bansal | (参考訳) 本稿では,不均質なトランスフォーマティブブロックが視覚・言語表現学習のための生の視覚・音声入力を最小のモダリティ設計で受け取り,トークン化や自動音声認識(asr)といったテキスト固有のモジュールを使用しないテキストレスビジョン言語トランスフォーマ(tvlt)を提案する。
TVLTは、連続したビデオフレームとオーディオスペクトログラム(マスク付きオートエンコーディング)のマスクパッチを再構築し、ビデオとオーディオを整列させるコントラストモデリングによって訓練される。
TVLTは、視覚的質問応答、画像検索、ビデオ検索、マルチモーダル感情分析などの様々なマルチモーダルタスクにおいて、テキストベースのものと同等のパフォーマンスを達成しており、推論速度は28倍速く、パラメータの1/3に過ぎない。
本研究は,テキストの存在を前提とせずに,低レベルの視覚・音声信号から,コンパクトかつ効率的な視覚言語表現を学習できることを示唆する。
私たちのコードとチェックポイントは以下の通りです。 In this work, we present the Textless Vision-Language Transformer (TVLT), where homogeneous transformer blocks take raw visual and audio inputs for vision-and-language representation learning with minimal modality-specific design, and do not use text-specific modules such as tokenization or automatic speech recognition (ASR). TVLT is trained by reconstructing masked patches of continuous video frames and audio spectrograms (masked autoencoding) and contrastive modeling to align video and audio. TVLT attains performance comparable to its text-based counterpart, on various multimodal tasks, such as visual question answering, image retrieval, video retrieval, and multimodal sentiment analysis, with 28x faster inference speed and only 1/3 of the parameters. Our findings suggest the possibility of learning compact and efficient visual-linguistic representations from low-level visual and audio signals without assuming the prior existence of text. Our code and checkpoints are available at: https://github.com/zinengtang/TVLT | 翻訳日:2022-09-29 15:54:39 公開日:2022-09-28 |
# arnli: 帰結と矛盾検出のためのアラビア語自然言語推論 ArNLI: Arabic Natural Language Inference for Entailment and Contradiction Detection ( http://arxiv.org/abs/2209.13953v1 ) ライセンス: Link先を確認 | Khloud Al Jallad, Nada Ghneim | (参考訳) 自然言語推論(NLI)は自然言語処理におけるホットトピック研究であり、文間の矛盾検出はNLIの特別な場合である。
これは、質問応答システム、テキスト要約など、多くのNLPアプリケーションでコンポーネントとして追加されたときに大きな影響を与える難しいNLPタスクであると考えられている。
アラビア語は、語彙の豊富な意味論的曖昧さから矛盾を検出する上で、最も難しい低資源言語の一つである。
われわれは12k以上の文からなるデータセットを作成し、ArNLIと命名した。
さらに, スタンフォード矛盾検出に触発された新しいモデルを適用し, 提案手法を英語に適用した。
本研究では,言語モデルベクトルと組み合わされた矛盾ベクトルを機械学習モデルへの入力として用いて,アラビア語の文対の矛盾を検出する手法を提案する。
我々は、従来の機械学習分類器の結果を分析し、作成したデータセット(ArNLI)とPHEMEとSICKの英語データセットの自動翻訳結果を比較した。
その結果, PHEME, SICK, ArNLIの精度は99%, 60%, 75%であった。 Natural Language Inference (NLI) is a hot topic research in natural language processing, contradiction detection between sentences is a special case of NLI. This is considered a difficult NLP task which has a big influence when added as a component in many NLP applications, such as Question Answering Systems, text Summarization. Arabic Language is one of the most challenging low-resources languages in detecting contradictions due to its rich lexical, semantics ambiguity. We have created a data set of more than 12k sentences and named ArNLI, that will be publicly available. Moreover, we have applied a new model inspired by Stanford contradiction detection proposed solutions on English language. We proposed an approach to detect contradictions between pairs of sentences in Arabic language using contradiction vector combined with language model vector as an input to machine learning model. We analyzed results of different traditional machine learning classifiers and compared their results on our created data set (ArNLI) and on an automatic translation of both PHEME, SICK English data sets. Best results achieved using Random Forest classifier with an accuracy of 99%, 60%, 75% on PHEME, SICK and ArNLI respectively. | 翻訳日:2022-09-29 15:54:20 公開日:2022-09-28 |
# サブワードtf-idfを用いた多言語探索 Multilingual Search with Subword TF-IDF ( http://arxiv.org/abs/2209.14281v1 ) ライセンス: Link先を確認 | Artit Wangperawong | (参考訳) 多言語検索はサブワードトークン化によって実現できる。
従来のTF-IDFアプローチの精度は、手作業によるトークン化や停止語、スリーミングルールに依存するが、サブワードTF-IDF(STF-IDF)はそのようなヒューリスティックを伴わずに高い精度を提供することができる。
さらに、サブワードトークン化モデルのトレーニングの一部として、本質的に多言語サポートを組み込むこともできる。
XQuAD評価は、STF-IDFの利点を証明している: 優れた情報検索精度は英語で85.4%、他の10言語で80%以上である。
これらの結果を再現するソフトウェアはText2Textの一部としてオープンソース化されている。 Multilingual search can be achieved with subword tokenization. The accuracy of traditional TF-IDF approaches depend on manually curated tokenization, stop words and stemming rules, whereas subword TF-IDF (STF-IDF) can offer higher accuracy without such heuristics. Moreover, multilingual support can be incorporated inherently as part of the subword tokenization model training. XQuAD evaluation demonstrates the advantages of STF-IDF: superior information retrieval accuracy of 85.4% for English and over 80% for 10 other languages without any heuristics-based preprocessing. The software to reproduce these results are open-sourced as a part of Text2Text: https://github.com/artitw/text2text | 翻訳日:2022-09-29 15:54:02 公開日:2022-09-28 |
# ButterflyFlow: バタフライマトリクスで非可逆層を構築する ButterflyFlow: Building Invertible Layers with Butterfly Matrices ( http://arxiv.org/abs/2209.13774v1 ) ライセンス: Link先を確認 | Chenlin Meng, Linqi Zhou, Kristy Choi, Tri Dao, and Stefano Ermon | (参考訳) 可逆層を合成した写像を用いた流れモデル複素確率分布の正規化
マスクや1x1畳み込みのような特別な線形層は、ヤコビアンや逆数を持ちながら表現力を高めるため、既存のアーキテクチャにおいて重要な役割を果たす。
本研究では, 摂動や周期性などの複雑な線形構造を理論的に捉えることで知られているバタフライ層に基づく新しい可逆的線形層群を提案する。
この表現力は、多くの実世界のデータセットに共通する構造であるため、我々のアプローチの重要な利点である。
可逆なバタフライ層に基づいて,バタフライフローと呼ばれる新しい正規化フローモデルを構築した。
実験により,ButterflyFlowsはMNIST,CIFAR-10,ImageNet 32x32などの自然画像に対して強い密度推定結果を得るだけでなく,銀河画像やMIMIC-III患者コホートなどの構造化データセット上でのログ類似度も有意に向上し,メモリや計算の面では関連するベースラインよりも優れていた。 Normalizing flows model complex probability distributions using maps obtained by composing invertible layers. Special linear layers such as masked and 1x1 convolutions play a key role in existing architectures because they increase expressive power while having tractable Jacobians and inverses. We propose a new family of invertible linear layers based on butterfly layers, which are known to theoretically capture complex linear structures including permutations and periodicity, yet can be inverted efficiently. This representational power is a key advantage of our approach, as such structures are common in many real-world datasets. Based on our invertible butterfly layers, we construct a new class of normalizing flow models called ButterflyFlow. Empirically, we demonstrate that ButterflyFlows not only achieve strong density estimation results on natural images such as MNIST, CIFAR-10, and ImageNet 32x32, but also obtain significantly better log-likelihoods on structured datasets such as galaxy images and MIMIC-III patient cohorts -- all while being more efficient in terms of memory and computation than relevant baselines. | 翻訳日:2022-09-29 15:53:49 公開日:2022-09-28 |
# 少ない言語のための機械学習の活用:Urduテキスト検出の進歩 Leveraging machine learning for less developed languages: Progress on Urdu text detection ( http://arxiv.org/abs/2209.14022v1 ) ライセンス: Link先を確認 | Hazrat Ali | (参考訳) 自然風景画像におけるテキスト検出は、自律運転や高齢者や盲目の人のナビゲーション支援に応用できる。
しかし、Urduテキスト検出の研究は通常、データリソースの不足によって妨げられている。
ウルドゥテキストを用いたシーン画像のデータセットを開発した。
本稿では,シーン画像からウルドゥーテキストを検出するための機械学習手法を提案する。
我々は,最大安定極域 (MSER) 法を用いてテキスト領域を抽出する。
まず,テキストと雑音を幾何学的性質に基づいて分類する。
次に,サポートベクトルマシンを用いて非テキスト領域の早期破棄を行う。
非テキスト領域をさらに除去するために、得られた指向性勾配(HoG)特徴のヒストグラムを使用し、第2のSVM分類器を訓練する。
これにより、シーン画像内のテキスト領域検出の全体的なパフォーマンスが向上する。
Urduテキストの研究を支援するため、研究用にデータを自由に利用することを目指している。
また,Urduテキスト検出の課題と研究ギャップについても強調する。 Text detection in natural scene images has applications for autonomous driving, navigation help for elderly and blind people. However, the research on Urdu text detection is usually hindered by lack of data resources. We have developed a dataset of scene images with Urdu text. We present the use of machine learning methods to perform detection of Urdu text from the scene images. We extract text regions using channel enhanced Maximally Stable Extremal Region (MSER) method. First, we classify text and noise based on their geometric properties. Next, we use a support vector machine for early discarding of non-text regions. To further remove the non-text regions, we use histogram of oriented gradients (HoG) features obtained and train a second SVM classifier. This improves the overall performance on text region detection within the scene images. To support research on Urdu text, We aim to make the data freely available for research use. We also aim to highlight the challenges and the research gap for Urdu text detection. | 翻訳日:2022-09-29 15:52:54 公開日:2022-09-28 |
# トップ人工知能会議論文のソースコードの自動解析 Automatic Analysis of Available Source Code of Top Artificial Intelligence Conference Papers ( http://arxiv.org/abs/2209.14155v1 ) ライセンス: Link先を確認 | Jialiang Lin, Yingmin Wang, Yao Yu, Yu Zhou, Yidong Chen, Xiaodong Shi | (参考訳) ソースコードは、研究者が手法を再現し、人工知能(AI)論文の結果を複製するために不可欠である。
一部の組織や研究者は、AIコミュニティに貢献するために、利用可能なソースコードを持つAI論文を手作業で収集する。
しかし、手動収集は労働集約的で時間のかかる作業である。
この問題に対処するために,利用可能なソースコードで文書を自動的に識別し,ソースコードリポジトリurlを抽出する手法を提案する。
この方法では、2010年から2019年にかけて発行されたトップ10のAIカンファレンスのレギュラーペーパーの20.5%が利用可能なソースコードを持つ論文として特定されており、これらのソースコードリポジトリの8.1%はもはやアクセスできない。
また、ソースコード文書研究のためのラベル付きREADMEファイルの最大のデータセットであるXMU NLP Lab READMEデータセットを作成する。
このデータセットを通じて、READMEファイルにインストール手順や利用手順が提供されていないことが分かりました。
さらに、AI会議論文のソースコードの一般画像に対して、大規模な包括的統計分析を行う。
提案されたソリューションは、AIカンファレンスの論文を超えて、ジャーナルやカンファレンスの科学論文を分析して、より多くのドメインに光を当てることもできる。 Source code is essential for researchers to reproduce the methods and replicate the results of artificial intelligence (AI) papers. Some organizations and researchers manually collect AI papers with available source code to contribute to the AI community. However, manual collection is a labor-intensive and time-consuming task. To address this issue, we propose a method to automatically identify papers with available source code and extract their source code repository URLs. With this method, we find that 20.5% of regular papers of 10 top AI conferences published from 2010 to 2019 are identified as papers with available source code and that 8.1% of these source code repositories are no longer accessible. We also create the XMU NLP Lab README Dataset, the largest dataset of labeled README files for source code document research. Through this dataset, we have discovered that quite a few README files have no installation instructions or usage tutorials provided. Further, a large-scale comprehensive statistical analysis is made for a general picture of the source code of AI conference papers. The proposed solution can also go beyond AI conference papers to analyze other scientific papers from both journals and conferences to shed light on more domains. | 翻訳日:2022-09-29 15:52:40 公開日:2022-09-28 |
# ラベルノイズに対するコンフォーマル予測のロバスト性 Conformal Prediction is Robust to Label Noise ( http://arxiv.org/abs/2209.14295v1 ) ライセンス: Link先を確認 | Bat-Sheva Einbinder, Stephen Bates, Anastasios N. Angelopoulos, Asaf Gendler, Yaniv Romano | (参考訳) 不確実性定量化のための強力なツールである共形予測のロバスト性について検討した。
我々の分析は回帰問題と分類問題の両方に取り組み、観測されないノイズのない基底真理ラベルを正しくカバーする不確実性集合をいつ、どのように構築できるかを特徴付ける。
定型化された理論的実例と実用実験を通じて、雑音分布が逆設計でない限り、雑音のない地中真理ラベルをカバーすることを議論する。
これにより,病的データ分布やノイズ源以外のラベルノイズの補正は不要であると考えることができる。
このような場合、スコアやデータの規則性なしに、基底真理ラベルの正しいカバレッジを確保するために、共形予測アルゴリズムにおける有界サイズノイズを補正することもできる。 We study the robustness of conformal prediction, a powerful tool for uncertainty quantification, to label noise. Our analysis tackles both regression and classification problems, characterizing when and how it is possible to construct uncertainty sets that correctly cover the unobserved noiseless ground truth labels. Through stylized theoretical examples and practical experiments, we argue that naive conformal prediction covers the noiseless ground truth label unless the noise distribution is adversarially designed. This leads us to believe that correcting for label noise is unnecessary except for pathological data distributions or noise sources. In such cases, we can also correct for noise of bounded size in the conformal prediction algorithm in order to ensure correct coverage of the ground truth labels without score or data regularity. | 翻訳日:2022-09-29 15:52:21 公開日:2022-09-28 |
# 自発的ユーモアのマルチモーダル予測:新しいデータセットと第1報 Multimodal Prediction of Spontaneous Humour: A Novel Dataset and First Results ( http://arxiv.org/abs/2209.14272v1 ) ライセンス: Link先を確認 | Lukas Christ, Shahin Amiriparian, Alexander Kathan, Niklas M\"uller, Andreas K\"onig, Bj\"orn W. Schuller | (参考訳) ヒューモアは人間の感情と認知の重要な要素である。
その自動理解は、より自然なヒューマンデバイスインタラクションと人工知能の人間化を促進する。
ユーモア検出の現在の方法は、単にステージ化されたデータに基づいており、実際のアプリケーションでは不十分である。
本稿では,パスタウ・スポンタンス・フットボール・コーチ・ヒューマー (Passau-SFCH) のデータセットを導入し,約11時間にわたる記録を行った。
Passau-SFCHデータセットは、マーティンのHummor Style Questionnaireで提案されているように、ユーモアの存在とその次元(知覚と方向)について注釈付けされている。
我々は,事前学習されたトランスフォーマー,畳み込みニューラルネットワーク,エキスパートが設計した機能を用いて,一連の実験を行う。
自発的ユーモア認識のための各モード(テキスト,音声,ビデオ)の性能を分析し,その相補性を検討した。
以上の結果から,ユーモアと感情の自動分析では表情が最も有望であり,ユーモアの方向性はテキストベースの機能でモデル化できることが示唆された。
その結果,ユーモアの用法とスタイルの個性に顕著な違いが認められた。
さらに,決定レベルの融合が最良の認識結果をもたらすことを観察する。
最後に、コードはhttps://www.github.com/eihw/passau-sfchで公開しています。
Passau-SFCHデータセットは、要求に応じて利用できる。 Humour is a substantial element of human affect and cognition. Its automatic understanding can facilitate a more naturalistic human-device interaction and the humanisation of artificial intelligence. Current methods of humour detection are solely based on staged data making them inadequate for 'real-world' applications. We address this deficiency by introducing the novel Passau-Spontaneous Football Coach Humour (Passau-SFCH) dataset, comprising of about 11 hours of recordings. The Passau-SFCH dataset is annotated for the presence of humour and its dimensions (sentiment and direction) as proposed in Martin's Humor Style Questionnaire. We conduct a series of experiments, employing pretrained Transformers, convolutional neural networks, and expert-designed features. The performance of each modality (text, audio, video) for spontaneous humour recognition is analysed and their complementarity is investigated. Our findings suggest that for the automatic analysis of humour and its sentiment, facial expressions are most promising, while humour direction can be best modelled via text-based features. The results reveal considerable differences among various subjects, highlighting the individuality of humour usage and style. Further, we observe that a decision-level fusion yields the best recognition result. Finally, we make our code publicly available at https://www.github.com/EIHW/passau-sfch. The Passau-SFCH dataset is available upon request. | 翻訳日:2022-09-29 15:52:07 公開日:2022-09-28 |
# 音声表現のための自己教師あり音声モデルの能力 The Ability of Self-Supervised Speech Models for Audio Representations ( http://arxiv.org/abs/2209.12900v2 ) ライセンス: Link先を確認 | Tung-Yu Wu, Chen-An Li, Tzu-Han Lin, Tsu-Yuan Hsu, Hung-Yi Lee | (参考訳) 自己教師付き学習(SSL)音声モデルは、音声表現学習において前例のない成功を収めている。
1)ssl音声モデルは非音声を扱うことができるか?
異なるssl音声モデルは、オーディオ機能の様々な側面についての洞察を持つだろうか?
本稿では,現在最先端のSSL音声モデルであるwav2vec 2.0とHuBERTの表現能力を評価するために,豊富な音声および非音声音声データセットに関する広範な実験を行った。
これらの実験は、競争役が提供した標準的な評価パイプラインとして、NeurIPS 2021 HEAR Challengeで実施されている。
以上の結果から,(1) SSL音声モデルは,特定の種類のデータセットでフェールする一方で,幅広い非音声音声の特徴を抽出することができること,(2) 異なるSSL音声モデルが音声特徴の異なる側面についての洞察を得られること,などが示唆された。
2つの結論は、表現モデルのアンサンブルの基礎を提供する。
さらに,音声表現モデルの埋め込みを融合するアンサンブルフレームワークを提案する。
我々のフレームワークは最先端のSSL音声/オーディオモデルより優れており、HEAR Challengeの他のチームと比較すると、豊富なデータセットで一般的に優れている。
私たちのコードはhttps://github.com/tony10101105/HEAR-2021-NeurIPS-Challenge -- NTU-GURAで公開されています。 Self-supervised learning (SSL) speech models have achieved unprecedented success in speech representation learning, but some questions regarding their representation ability remain unanswered. This paper addresses two of them: (1) Can SSL speech models deal with non-speech audio?; (2) Would different SSL speech models have insights into diverse aspects of audio features? To answer the two questions, we conduct extensive experiments on abundant speech and non-speech audio datasets to evaluate the representation ability of currently state-of-the-art SSL speech models, which are wav2vec 2.0 and HuBERT in this paper. These experiments are carried out during NeurIPS 2021 HEAR Challenge as a standard evaluation pipeline provided by competition officials. Results show that (1) SSL speech models could extract meaningful features of a wide range of non-speech audio, while they may also fail on certain types of datasets; (2) different SSL speech models have insights into different aspects of audio features. The two conclusions provide a foundation for the ensemble of representation models. We further propose an ensemble framework to fuse speech representation models' embeddings. Our framework outperforms state-of-the-art SSL speech/audio models and has generally superior performance on abundant datasets compared with other teams in HEAR Challenge. Our code is available at https://github.com/tony10101105/HEAR-2021-NeurIPS-Challenge -- NTU-GURA. | 翻訳日:2022-09-29 13:09:45 公開日:2022-09-28 |
# 階層スライスワッサースタイン距離 Hierarchical Sliced Wasserstein Distance ( http://arxiv.org/abs/2209.13570v2 ) ライセンス: Link先を確認 | Khai Nguyen and Tongzheng Ren and Huy Nguyen and Litu Rout and Tan Nguyen and Nhat Ho | (参考訳) Sliced Wasserstein (SW) 距離は、次元の呪いに悩まされることなく、多数のサポートにスケールできるため、さまざまなアプリケーションシナリオで広く使用されている。
スライスされたワッサーシュタイン距離の値は、ラドン変換(RT)によって得られる原測度の1次元表現(投影)の間の輸送コストの平均である。
サポートの数で効率が良いにもかかわらず、スライスされたwasersteinの推定には、高次元の設定で比較的多くの投影が必要となる。
したがって、ミニバッチアプローチを利用するいくつかのディープラーニングアプリケーションのような次元と比較してサポート数が比較的小さいアプリケーションでは、Randon Transformの行列乗算による複雑さが主な計算ボトルネックとなる。
この問題に対処するために、ボトルネック投影と呼ばれる少数の投影を線形かつランダムに組み合わせることで、投影を導出することを提案する。
本稿では, 階層型ラドン変換 (HRT) を導入し, 再帰的にラドン変換の変種を適用した。
次にこのアプローチを,階層的スライスドワッサースタイン距離(hsw)と呼ばれる測度間の新しい計量に定式化する。
HRTのインジェクティビティを証明することにより、HSWの計量性を導出する。
さらに, HSW の SW 変種への接続や, 計算およびサンプルの複雑度などの理論的性質について検討する。
最後に,cifar10,celeba,tiny imagenetなどのベンチマークデータセットを用いた深部生成モデリングのタスクにおいて,hswの計算コストと生成品質を比較した。 Sliced Wasserstein (SW) distance has been widely used in different application scenarios since it can be scaled to a large number of supports without suffering from the curse of dimensionality. The value of sliced Wasserstein distance is the average of transportation cost between one-dimensional representations (projections) of original measures that are obtained by Radon Transform (RT). Despite its efficiency in the number of supports, estimating the sliced Wasserstein requires a relatively large number of projections in high-dimensional settings. Therefore, for applications where the number of supports is relatively small compared with the dimension, e.g., several deep learning applications where the mini-batch approaches are utilized, the complexities from matrix multiplication of Radon Transform become the main computational bottleneck. To address this issue, we propose to derive projections by linearly and randomly combining a smaller number of projections which are named bottleneck projections. We explain the usage of these projections by introducing Hierarchical Radon Transform (HRT) which is constructed by applying Radon Transform variants recursively. We then formulate the approach into a new metric between measures, named Hierarchical Sliced Wasserstein (HSW) distance. By proving the injectivity of HRT, we derive the metricity of HSW. Moreover, we investigate the theoretical properties of HSW including its connection to SW variants and its computational and sample complexities. Finally, we compare the computational cost and generative quality of HSW with the conventional SW on the task of deep generative modeling using various benchmark datasets including CIFAR10, CelebA, and Tiny ImageNet. | 翻訳日:2022-09-29 13:09:23 公開日:2022-09-28 |
# アート・ドリームを描く:多モード誘導拡散による異種デジタル・アート・シンセサイザー Draw Your Art Dream: Diverse Digital Art Synthesis with Multimodal Guided Diffusion ( http://arxiv.org/abs/2209.13360v2 ) ライセンス: Link先を確認 | Nisha Huang, Fan Tang, Weiming Dong and Changsheng Xu | (参考訳) デジタルアート・シンセサイザーは、アートを効果的に活用するため、マルチメディアコミュニティで注目を集めている。
現在のデジタルアート合成法は、通常、単一のモダリティ入力をガイダンスとして使用するため、モデルの表現性や生成結果の多様性が制限される。
この問題を解決するために,マルチモーダルプロンプトを用いた拡散型デジタルアートワーク生成手法であるMGADモデルを提案する。
さらに、テキストと画像のモダリティを統一するために、対照的な言語画像事前学習(CLIP)モデルが使用される。
生成したデジタルアート絵画の品質と量に関する広範な実験結果から,拡散モデルとマルチモーダル指導の組み合わせの有効性を確認した。
コードはhttps://github.com/haha-lisa/mgad-multimodal-guided-artwork-diffusionで入手できる。 Digital art synthesis is receiving increasing attention in the multimedia community because of engaging the public with art effectively. Current digital art synthesis methods usually use single-modality inputs as guidance, thereby limiting the expressiveness of the model and the diversity of generated results. To solve this problem, we propose the multimodal guided artwork diffusion (MGAD) model, which is a diffusion-based digital artwork generation approach that utilizes multimodal prompts as guidance to control the classifier-free diffusion model. Additionally, the contrastive language-image pretraining (CLIP) model is used to unify text and image modalities. Extensive experimental results on the quality and quantity of the generated digital art paintings confirm the effectiveness of the combination of the diffusion model and multimodal guidance. Code is available at https://github.com/haha-lisa/MGAD-multimodal-guided-artwork-diffusion. | 翻訳日:2022-09-29 13:08:59 公開日:2022-09-28 |
# NLPにおけるフェアネスの再コンテキスト化--インドを事例として Re-contextualizing Fairness in NLP: The Case of India ( http://arxiv.org/abs/2209.12226v2 ) ライセンス: Link先を確認 | Shaily Bhatt, Sunipa Dev, Partha Talukdar, Shachi Dave, Vinodkumar Prabhakaran | (参考訳) 最近の研究では、NLPデータとモデルに望ましくないバイアスが明らかになった。
しかし、これらの取り組みは西洋の社会格差に焦点をあてており、他の地域文化の文脈に直接当てはまるものではない。
本稿では,インドの文脈におけるNLP公正性に着目した。
まず、インドにおける社会的格差の顕著な軸の簡単な説明から始める。
インドの文脈で公平性評価のためのリソースを構築し、それらを使っていくつかの軸に沿って予測バイアスを示す。
次に、地域と宗教の社会的ステレオタイプをより深く掘り下げ、コーポラとモデルでその流行を示す。
最後に,インド社会の文脈を考慮したNLPフェアネス研究の再コンテキスト化,能力,資源,インド文化の価値観への適応といった技術的ギャップを埋める,総合的な研究課題について概説する。
ここで「インド」に焦点を当てるが、この枠組みは他の地文化的文脈における再コンテキスト化のために一般化することができる。 Recent research has revealed undesirable biases in NLP data & models. However, these efforts focus of social disparities in West, and are not directly portable to other geo-cultural contexts. In this paper, we focus on NLP fairness in the context of India. We start with a brief account of prominent axes of social disparities in India. We build resources for fairness evaluation in the Indian context and use them to demonstrate prediction biases along some of the axes. We then delve deeper into social stereotypes for Region & Religion, demonstrating its prevalence in corpora & models. Finally, we outline a holistic research agenda to re-contextualize NLP fairness research for the Indian context, accounting for Indian societal context, bridging technological gaps in capability, resources, and adapting to Indian cultural values. While we focus on 'India' here, this framework can be generalized for recontextualization in other geo-cultural contexts. | 翻訳日:2022-09-29 13:08:46 公開日:2022-09-28 |
# 対話システムにおける対話性 Interactivism in Spoken Dialogue Systems ( http://arxiv.org/abs/2209.13547v2 ) ライセンス: Link先を確認 | T. Rodr\'iguez Mu\~noz, E. Ip, G. Huang and R. K. Moore | (参考訳) 対話性モデルは言語、コミュニケーション、認知に対する動的なアプローチを導入する。
本研究では,音声対話システム(sds)における対話モデリングの文脈において,この基本理論を考察する。
このような理論的枠組みを拡張するために,我々はsdsにおける対話性を実現するために,中央精神言語学とコミュニケーション理論に従う一連の設計原則を提案する。
これらのことから,提案した設計原則の基礎となる重要なアイデアがリンクされている。 The interactivism model introduces a dynamic approach to language, communication and cognition. In this work, we explore this fundamental theory in the context of dialogue modelling for spoken dialogue systems (SDS). To extend such a theoretical framework, we present a set of design principles which adhere to central psycholinguistic and communication theories to achieve interactivism in SDS. From these, key ideas are linked to constitute the basis of our proposed design principles. | 翻訳日:2022-09-29 13:08:31 公開日:2022-09-28 |
# 創造的AIの環境と社会的持続性 Environmental and Social Sustainability of Creative-Ai ( http://arxiv.org/abs/2209.12879v2 ) ライセンス: Link先を確認 | Andr\'e Holzapfel, Petra J\"a\"askel\"ainen, Anna-Kaisa Kaila | (参考訳) 人工知能の最近の発展は、主に自律的および協調的な文脈における芸術の創造能力を高める。
どちらの文脈でも、aiは既存の芸術スタイルを模倣し、結合し、拡張し、創造的な実践を変革することを目指している。
本研究は,持続可能性と倫理的観点から創造的AIを考察する。
2つの主な焦点は、創造的aiを含む芸術的過程の文脈における環境持続可能性の側面(材料、実践)の理解と、誰が創造プロセス(権力、権威、所有権)に関与するかに関する倫理的問題である。
本稿では,この2つの研究動向について概説する。
我々は、インタビュー、ワークショップ、オンラインエスノグラフィー、エネルギー測定を組み合わせた学際的アプローチを提示し、我々の研究課題に対処する。Creative-Aiは現在、アーティストコミュニティでどのように使われているか、アーティストが想像する将来の応用は何か?
aiがアートの創造に応用されると、経済や環境にどのように影響するか?
そして、これらの質問に対する答えは、creative-aiのための知的財産制度の要件をどのように導くか? The recent developments of artificial intelligence increase its capability for the creation of arts in both largely autonomous and collaborative contexts. In both contexts, Ai aims to imitate, combine, and extend existing artistic styles, and can transform creative practices. In our ongoing research, we investigate such Creative-Ai from sustainability and ethical perspectives. The two main focus areas are understanding the environmental sustainability aspects (material, practices) in the context of artistic processes that involve Creative-Ai, and ethical issues related to who gets to be involved in the creation process (power, authorship, ownership). This paper provides an outline of our ongoing research in these two directions. We will present our interdisciplinary approach, which combines interviews, workshops, online ethnography, and energy measurements, to address our research questions: How is Creative-Ai currently used by artist communities, and which future applications do artists imagine? When Ai is applied to creating art, how might it impact the economy and environment? And, how can answers to these questions guide requirements for intellectual property regimes for Creative-Ai? | 翻訳日:2022-09-29 13:08:24 公開日:2022-09-28 |
# 反復点レベル歪みによる高結合LiDAR-IMUオドメトリー A Tightly Coupled LiDAR-IMU Odometry through Iterated Point-Level Undistortion ( http://arxiv.org/abs/2209.12249v2 ) ライセンス: Link先を確認 | Keke Liu, Hao Ma, Zemin Wang | (参考訳) Scan Undistortionは、高い回転と翻訳速度を持つ高ダイナミック環境におけるLiDARオドメトリーのキーモジュールである。
既存の研究の行は、主に1つのパスの歪みに焦点を当てており、つまり各ポイントの歪みは、LiDAR-IMUオドメトリーパイプライン全体で1回だけ実行されることを意味する。
本稿では,繰り返し点レベルの歪みに対処するLiDAR-IMUオドメトリーの最適化を提案する。
LiDAR と IMU 測定から得られるコストを最小化することにより,LiDAR-IMU のオドメトリー法は高ダイナミック環境下でより正確で堅牢な処理を行うことができる。
さらに、パラメータの量を制限することにより、計算効率が向上する。 Scan undistortion is a key module for LiDAR odometry in high dynamic environment with high rotation and translation speed. The existing line of studies mostly focuses on one pass undistortion, which means undistortion for each point is conducted only once in the whole LiDAR-IMU odometry pipeline. In this paper, we propose an optimization based tightly coupled LiDAR-IMU odometry addressing iterated point-level undistortion. By jointly minimizing the cost derived from LiDAR and IMU measurements, our LiDAR-IMU odometry method performs more accurate and robust in high dynamic environment. Besides, the method characters good computation efficiency by limiting the quantity of parameters. | 翻訳日:2022-09-29 13:08:08 公開日:2022-09-28 |
# smartfps: ニューラルネットワークを用いた無線慣性融合測位システム SmartFPS: Neural Network based Wireless-inertial fusion positioning system ( http://arxiv.org/abs/2209.13261v2 ) ライセンス: Link先を確認 | Luchi Hua, Jun Yang | (参考訳) 現在の融合位置決めシステムは、主にカルマンフィルタリングや粒子フィルタリングといったフィルタリングアルゴリズムに基づいている。
しかし,歩行者慣性ナビゲーションシステムにおけるノイズモデリングや,指紋マッチングや局所化アルゴリズムにおける環境ノイズモデリングなど,実用シナリオのシステム複雑性は非常に高い場合が多い。
そこで本研究では,深層学習に基づく融合位置決めシステムを提案し,異なる分布を持つサンプルに対するニューラルネットワークモデルの性能向上のための伝達学習戦略を提案する。
その結果,全フロアシナリオにおいて,核融合ネットワークの平均測位精度は0.506mであった。
トランスファー・ラーニング実験の結果、歩行者の慣性航法位置決めステップサイズと回転角の推定精度を平均53.3%向上させ、異なる機器のbluetooth測位精度を33.4%向上させ、融合率を31.6%向上させることができた。 The current fusion positioning systems are mainly based on filtering algorithms, such as Kalman filtering or particle filtering. However, the system complexity of practical application scenarios is often very high, such as noise modeling in pedestrian inertial navigation systems, or environmental noise modeling in fingerprint matching and localization algorithms. To solve this problem, this paper proposes a fusion positioning system based on deep learning and proposes a transfer learning strategy for improving the performance of neural network models for samples with different distributions. The results show that in the whole floor scenario, the average positioning accuracy of the fusion network is 0.506m. The experiment results of transfer learning show that the estimation accuracy of the inertial navigation positioning step size and rotation angle of different pedestrians can be improved by 53.3% on average, the Bluetooth positioning accuracy of different devices can be improved by 33.4%, and the fusion can be improved by 31.6%. | 翻訳日:2022-09-29 13:07:53 公開日:2022-09-28 |