このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。
公開日が20220917となっている論文です。
Title | Authors | Abstract | 論文公表日・翻訳日 |
---|---|---|---|
# 量子アクチベーター・インヒビター系のチューリング不安定性 Turing instability in quantum activator-inhibitor systems ( http://arxiv.org/abs/2109.01589v2 ) ライセンス: Link先を確認 | Yuzuru Kato, Hiroya Nakao | (参考訳) チューリング不安定性は非平衡自己組織化の基本的なメカニズムである。
しかし、本質的な機構の普遍性にもかかわらず、チューリング不安定性は古典的システムで研究されてきた。
本研究では,量子散逸系においてチューリング不安定性が生じ,その量子的特徴である絡み合いや測定の影響を解析できることを示す。
量子光学において非線形減衰を伴う縮退パラメトリック発振器を量子アクチベーター・インヒビターユニットとして提案し、2つのアクチベーター・インヒビターユニットの系が互いに拡散結合した場合にチューリング不安定を生じることを示す。
チューリング不安定性は2つの単位間の不均一性と絡み合いを誘導し、量子ノイズによって混合される一対の不均一状態を引き起こす。
さらに,結合系の連続測定を行い,チューリング不安定性に起因する不均一性を明らかにする。
この結果はチューリング機構の普遍性を量子領域に拡張し、量子非平衡自己組織化の可能性とその量子技術への応用に関する新しい視点を提供する。 Turing instability is a fundamental mechanism of nonequilibrium self-organization. However, despite the universality of its essential mechanism, Turing instability has thus far been investigated mostly in classical systems. In this study, we show that Turing instability can occur in a quantum dissipative system and analyze its quantum features such as entanglement and the effect of measurement. We propose a degenerate parametric oscillator with nonlinear damping in quantum optics as a quantum activator-inhibitor unit and demonstrate that a system of two activator-inhibitor units can undergo Turing instability when diffusively coupled with each other. The Turing instability induces nonuniformity and entanglement between the two units and gives rise to a pair of nonuniform states that are mixed due to quantum noise. Further performing continuous measurement on the coupled system reveals the nonuniformity caused by the Turing instability. Our results extend the universality of the Turing mechanism to the quantum realm and may provide a novel perspective on the possibility of quantum nonequilibrium self-organization and its application in quantum technologies. | 翻訳日:2023-03-16 06:18:06 公開日:2022-09-17 |
# トラップイオン光時計における質量欠陥と時間拡張のAb initio量子論 Ab initio quantum theory of mass defect and time dilation in trapped-ion optical clocks ( http://arxiv.org/abs/2202.10854v2 ) ライセンス: Link先を確認 | V. J. Mart\'inez-Lahuerta, S. Eilers, T. E. Mehlst\"aubler, P. O. Schmidt and K. Hammerer | (参考訳) 我々は、電磁結合された荷電二粒子系の外部電磁場および重力場における外部及び内部ダイナミクスに対するハミルトニアンを導出し、先行相対論的補正を含む。
このハミルトニアンを用いて、ポールトラップにおける冷イオンの外部及び内部ダイナミクスの相対論的カップリングを記述し、マイクロモーション、過大なマイクロモーション、トラップ不完全性の影響について述べる。
これにより、単一捕捉イオンに基づく原子時計における相対論的周波数シフトの体系的かつ完全な量子力学的処理が可能になる。
本手法は,従来半古典的議論に基づいて導出されていた熱状態の2次ドップラーシフトのためのよく知られた公式を再現する。
イオン時計における時間拡張と質量欠陥の役割に関する文献の最近の議論を補足して明らかにする。 We derive a Hamiltonian for the external and internal dynamics of an electromagnetically bound, charged two-particle system in external electromagnetic and gravitational fields, including leading-order relativistic corrections. We apply this Hamiltonian to describe the relativistic coupling of the external and internal dynamics of cold ions in Paul traps, including the effects of micromotion, excess micromotion, and trap imperfections. This provides a systematic and fully quantum-mechanical treatment of relativistic frequency shifts in atomic clocks based on single trapped ions. Our approach reproduces well-known formulas for the second-order Doppler shift for thermal states, which were previously derived on the basis of semiclassical arguments. We complement and clarify recent discussions in the literature on the role of time dilation and mass defect in ion clocks. | 翻訳日:2023-02-24 06:10:58 公開日:2022-09-17 |
# ジャストインタイムコンパイルによる量子シミュレーション Quantum simulation with just-in-time compilation ( http://arxiv.org/abs/2203.08826v2 ) ライセンス: Link先を確認 | Stavros Efthymiou, Marco Lazzarin, Andrea Pasquale, Stefano Carrazza | (参考訳) 量子技術は量子ビット(量子ビット)に基づく新しいハードウェアデバイスの開発に向かっている。
量子デバイスの開発と並行して、量子ハードウェアにデプロイする前に量子アルゴリズムとアプリケーションを設計およびベンチマークするために、効率的なシミュレーションツールが必要である。
そこで本研究では,単一ノード中央処理ユニット(CPU)とグラフィックス処理ユニット(GPU)をベースとした,複数のハードウェアアーキテクチャと構成に関するジャストインタイム(JIT)コンパイル技術を用いて,回路ベースの量子シミュレーションを行う。
科学的コード開発における大きな課題の1つは、アルゴリズムとプログラミング技術の間の複雑さのレベルを、パフォーマンスやコードの可読性を低下させることなくバランスさせることである。
この文脈で、我々は、pythonによるジャストインタイムコンパイルアプローチを使用するqibo量子コンピューティングフレームワーク用の新しいモジュールであるqibojitを開発した。
我々は、JITアプローチと関連する量子コンピューティング用の公開ライブラリのサブセットとの間に、系統的なパフォーマンスベンチマークを実行する。
提案手法は性能を損なうことなく実装の複雑な側面を単純化する。 Quantum technologies are moving towards the development of novel hardware devices based on quantum bits (qubits). In parallel to the development of quantum devices, efficient simulation tools are needed in order to design and benchmark quantum algorithms and applications before deployment on quantum hardware. In this context, we present a first attempt to perform circuit-based quantum simulation using the just-in-time (JIT) compilation technique on multiple hardware architectures and configurations based on single-node central processing units (CPUs) and graphics processing units (GPUs). One of the major challenges in scientific code development is to balance the level of complexity between algorithms and programming techniques without losing performance or degrading code readability. In this context, we have developed qibojit: a new module for the Qibo quantum computing framework, which uses a just-in-time compilation approach through Python. We perform systematic performance benchmarks between our JIT approach and a subset of relevant publicly available libraries for quantum computing. We show that our novel approach simplifies the complex aspects of the implementation without deteriorating performance. | 翻訳日:2023-02-21 23:00:47 公開日:2022-09-17 |
# 連続量子誤差補正のための計測に基づく推定法 Measurement based estimator scheme for continuous quantum error correction ( http://arxiv.org/abs/2203.13519v2 ) ライセンス: Link先を確認 | Sangkha Borah, Bijita Sarma, Michael Kewming, Fernando Quijandria, Gerard J. Milburn and Jason Twamley | (参考訳) 正準離散量子誤差補正 (canonical discrete quantum error correction, dqec) スキームは、安定器上の射影的フォン・ノイマン測定を用いてエラー症候群を有限集合に識別し、高速なユニタリゲートを適用して破損した情報を復元する。
連続的量子誤差補正(CQEC)と呼ばれる連続的な測定に基づく量子エラー補正(QEC)は、原則としてDQECよりも高速に実行でき、資源効率も向上できる。
しかし、cqecは、どのエラーが検出可能かに基づいて確実にエラーシンドロームを抽出するために、ノイズ連続測定データの細心の注意を要する。
本稿では、安定器のノイズの多い連続的な測定電流によって駆動される論理量子ビットの測定に基づく推定器(MBE)を構築することにより、物理量子ビットに発生する誤差をリアルタイムで正確に追跡できることを示す。
我々は、このMBEを用いて、論理量子ビットを高いレベルまで保護し、DQECの性能を超える連続量子誤り訂正(MBE-CQEC)手法を開発し、また、QECを瞬時にまたは遅延時に行うことを可能にする。 Canonical discrete quantum error correction (DQEC) schemes use projective von Neumann measurements on stabilizers to discretize the error syndromes into a finite set, and fast unitary gates are applied to recover the corrupted information. Quantum error correction (QEC) based on continuous measurement, known as continuous quantum error correction (CQEC), in principle, can be executed faster than DQEC and can also be resource efficient. However, CQEC requires meticulous filtering of noisy continuous measurement data to reliably extract error syndromes on the basis of which errors could be detected. In this paper, we show that by constructing a measurement-based estimator (MBE) of the logical qubit to be protected, which is driven by the noisy continuous measurement currents of the stabilizers, it is possible to accurately track the errors occurring on the physical qubits in real time. We use this MBE to develop a continuous quantum error correction (MBE-CQEC) scheme that can protect the logical qubit to a high degree, surpassing the performance of DQEC, and also allows QEC to be conducted either immediately or in delayed time with instantaneous feedbacks. | 翻訳日:2023-02-20 21:04:00 公開日:2022-09-17 |
# デーティフィケーション時代のデータとアルゴリズムを植民地化するフェミニストの反乱を呼びかける Calling for a feminist revolt to decolonise data and algorithms in the age of Datification ( http://arxiv.org/abs/2210.08965v1 ) ライセンス: Link先を確認 | Genoveva Vargas-Solar | (参考訳) フェミニストや女性グループ、南・北世界の先住民コミュニティや学者は、ヘゲモニックな教養プログラムに固執することを拒み、内部から組織し、戦い始めた。
最初の重要なステップは、この「進歩」によって推進される貧困、暴力、排除、文化的消去を示す技術進歩を示し、問題化することである。
第2のステップは、技術、アルゴリズム、および人工リテラシーを促進することだ。
教育は、既に全地球社会を静かに無罪に植民地化しているデジタル双生児の復活と取り消しの方法を学ぶために重要である。
ボディー・テリトリーの植民地化ではなく、人間の心の本質、すなわち想像と想像を超越し、占有している。
想像上の植民地化に対して、軍事集団は代替アルゴリズム、データセットの収集戦略、分配法を想像し設計している。
論文は彼らの行動と代替思考について論じている。 Feminist and women groups, indigenous communities and scholars in the global south/north refusing to adhere to hegemonic datafication programs have started to organise and fight back from the inside. The first essential step is to show and problematise technological progress exhibiting the poverty, violence, exclusion, and cultural erase promoted by this "progress". The second step is to promote technology, algorithmic and artificial literacy. Education is critical to learn how to revert and revoke the datified digital twin already colonising all Earth's societies silently and with impunity. It is not the colonisation of body-territories; it goes beyond and occupies humanity's mind's essence, i.e., imagination and imaginary. Against the colonisation of the imaginary, militant groups are imagining and designing alternative algorithms, datasets collection strategies and appropriation methods. The paper discusses their actions and alternative thinking. | 翻訳日:2023-02-19 11:45:34 公開日:2022-09-17 |
# 多次元経済複雑性 : 貿易・技術・研究の地理学と包括的グリーン成長 Multidimensional Economic Complexity: How the Geography of Trade, Technology, and Research Explain Inclusive Green Growth ( http://arxiv.org/abs/2209.08382v1 ) ライセンス: Link先を確認 | Viktor Stojkoski, Philipp Koch, C\'esar A. Hidalgo | (参考訳) 包括的グリーン成長を達成するためには、経済、社会、環境要因の多様さを考慮する必要がある。
これらはしばしば貿易の地理に由来する経済的複雑さの指標によって捉えられ、革新的な活動に関する重要な情報が欠落している。
このギャップを埋めるために、貿易データと特許出願や研究出版物のデータを組み合わせたモデルを構築し、包括的グリーン成長における国際的な変化を説明するために、経済複雑性指標の能力を大幅にかつ堅牢に改善する。
貿易と特許データに基づく複雑さの尺度は、将来の経済成長と所得不平等を説明するために組み合わせられ、三つの指標で高いスコアを得た国は、排出強度が低い傾向にあることを示す。
これらの知見は、貿易、技術、研究の地理学が組み合わさって、包括的グリーン成長を説明する方法を示している。 To achieve inclusive green growth, countries need to consider a multiplicity of economic, social, and environmental factors. These are often captured by metrics of economic complexity derived from the geography of trade, thus missing key information on innovative activities. To bridge this gap, we combine trade data with data on patent applications and research publications to build models that significantly and robustly improve the ability of economic complexity metrics to explain international variations in inclusive green growth. We show that measures of complexity built on trade and patent data combine to explain future economic growth and income inequality and that countries that score high in all three metrics tend to exhibit lower emission intensities. These findings illustrate how the geography of trade, technology, and research combine to explain inclusive green growth. | 翻訳日:2023-02-19 11:15:23 公開日:2022-09-17 |
# コンピュータサイエンス研究者の長期指導 Long-Term Mentoring for Computer Science Researchers ( http://arxiv.org/abs/2208.04738v2 ) ライセンス: Link先を確認 | Emily Ruppel, Sihang Liu, Elba Garza, Sukyoung Ryu, Alexandra Silva, Talia Ringer | (参考訳) パンデミックの初期に、プログラミング言語(PL)とコンピュータアーキテクチャ(CA)の研究分野のリーダーたちは、私たちが問題を抱えていることに気付いた。
どちらの学術コミュニティもこの問題に対処するための短期指導プログラムは素晴らしいものでしたが、長期的な指導プログラムが必要であることは明らかでした。
CAの私たちもこれを科学的にアプローチし、コミュニティ全体の長期的なメンタリングにエビデンスに支えられたケースを作りました。
その間、PLの私たちの一人は、カオスとスプレッドシートに基づいた非公式な長期指導プログラムを強制的に立ち上げました。
2021年1月、後者はSIGPLAN-Mと呼ばれる公式な機関間の長期指導プログラムに成長し、2022年1月にはコンピュータアーキテクチャの長期指導(CALM)へと成長した。
SIGPLAN-Mは41カ国で328人のメンテと234人のメンテに到達し、メンテは「人生の変化」と「キャリアセーバー」と表現している。
CALMはパイロット段階にあり、7カ国に13人のメンターと21人のメンテがおり、非常に肯定的なフィードバックを受けている。
SIGPLAN-MとCALMのリーダーたちは、その過程でのデザイン、影響、課題を共有しました。
では、それを皆さんと共有したい。
これがコンピュータサイエンス全体にわたる長期的なメンタリング活動の開始を期待しています。 Early in the pandemic, we -- leaders in the research areas of programming languages (PL) and computer architecture (CA) -- realized that we had a problem: the only way to form new lasting connections in the community was to already have lasting connections in the community. Both of our academic communities had wonderful short-term mentoring programs to address this problem, but it was clear that we needed long-term mentoring programs. Those of us in CA approached this scientifically, making an evidence-backed case for community-wide long-term mentoring. In the meantime, one of us in PL had impulsively launched an unofficial long-term mentoring program, founded on chaos and spreadsheets. In January 2021, the latter grew to an official cross-institutional long-term mentoring program called SIGPLAN-M; in January 2022, the former grew to Computer Architecture Long-term Mentoring (CALM). The impacts have been strong: SIGPLAN-M reaches 328 mentees and 234 mentors across 41 countries, and mentees have described it as "life changing" and "a career saver." And while CALM is in its pilot phase -- with 13 mentors and 21 mentees across 7 countries -- it has received very positive feedback. The leaders of SIGPLAN-M and CALM shared our designs, impacts, and challenges along the way. Now, we wish to share those with you. We hope this will kick-start a larger long-term mentoring effort across all of computer science. | 翻訳日:2023-02-19 10:28:44 公開日:2022-09-17 |
# 一様1次元量子振動子のスペクトルゼータ関数の厳密和則の再検討 Exact sum rules for spectral zeta functions of homogeneous 1D quantum oscillators, revisited ( http://arxiv.org/abs/2206.14482v3 ) ライセンス: Link先を確認 | Andr\'e Voros | (参考訳) 本稿では,一様 1d schr\"odinger 作用素のスペクトルゼータ関数の和則について検討する。 We survey sum rules for spectral zeta functions of homogeneous 1D Schr\"odinger operators, that mainly result from the exact WKB method. | 翻訳日:2023-02-07 07:37:42 公開日:2022-09-17 |
# 量子ジュータをほぼ最適にテストし学習する Testing and Learning Quantum Juntas Nearly Optimally ( http://arxiv.org/abs/2207.05898v2 ) ライセンス: Link先を確認 | Thomas Chen, Shivam Nadimpalli, Henry Yuen | (参考訳) 量子$k$-juntas:$n$-qubitユニタリ行列は、$n$ qubitsのわずか$k$で非自明に作用し、残りはアイデンティティとして機能する。
アルゴリズムの主な結果として、私たちは
a)$\widetilde{O}(\sqrt{k})$-query量子アルゴリズムで、量子$k$-juntasと量子$k$-juntaの「遠い」ユニタリ行列を区別することができる。
(b)量子$k$-juntasを学ぶための$O(4^k)$-queryアルゴリズム。
我々は、量子$k$-juntasのテストと量子$k$-juntasを、それぞれ$\Omega(\sqrt{k})$と$\Omega(\frac{4^k}{k})$のほぼ一致する下界で学習するための上限を補完する。
我々の手法はフーリエ解析であり、ユニタリに対するキュービットの影響の概念を利用する。 We consider the problem of testing and learning quantum $k$-juntas: $n$-qubit unitary matrices which act non-trivially on just $k$ of the $n$ qubits and as the identity on the rest. As our main algorithmic results, we give (a) a $\widetilde{O}(\sqrt{k})$-query quantum algorithm that can distinguish quantum $k$-juntas from unitary matrices that are "far" from every quantum $k$-junta; and (b) a $O(4^k)$-query algorithm to learn quantum $k$-juntas. We complement our upper bounds for testing quantum $k$-juntas and learning quantum $k$-juntas with near-matching lower bounds of $\Omega(\sqrt{k})$ and $\Omega(\frac{4^k}{k})$, respectively. Our techniques are Fourier-analytic and make use of a notion of influence of qubits on unitaries. | 翻訳日:2023-02-05 07:05:04 公開日:2022-09-17 |
# 古典的秘密のための量子共有の高度共有 Advance sharing of quantum shares for classical secrets ( http://arxiv.org/abs/2208.01847v2 ) ライセンス: Link先を確認 | Rina Miyajima, Ryutaroh Matsumoto | (参考訳) 古典的秘密のための秘密共有スキームは、古典的秘密共有スキームと量子秘密共有スキームに分類される。
古典的な秘密共有は、ある秘密の前にいくつかの株式を分配できることが知られている。
一方、量子力学は古典的秘密共有の能力を超えて秘密共有の能力を拡張している。
そこで我々は,より柔軟にアクセス構造を設計できる量子シークレット共有手法を提案し,従来のシークレット共有よりも高い効率を実現する。 Secret sharing schemes for classical secrets can be classified into classical secret sharing schemes and quantum secret sharing schemes. Classical secret sharing has been known to be able to distribute some shares before a given secret. On the other hand, quantum mechanics extends the capabilities of secret sharing beyond those of classical secret sharing. We propose quantum secret sharing with the capabilities in designing of access structures more flexibly and realizing higher efficiency beyond those of classical secret sharing, that can distribute some shares before a given secret. | 翻訳日:2023-02-02 14:11:02 公開日:2022-09-17 |
# ニューラルネットワーク最適化問題に対する量子アニーリング-テンソルネットワークシミュレーションによる新しいアプローチ Quantum Annealing for Neural Network optimization problems: a new approach via Tensor Network simulations ( http://arxiv.org/abs/2208.14468v2 ) ライセンス: Link先を確認 | Guglielmo Lami, Pietro Torta, Giuseppe E. Santoro, Mario Collura | (参考訳) 量子アニーリング(QA)は、量子最適化の最も有望なフレームワークの1つである。
本稿では、原型離散ニューラルネットワーク、特にパラダイム的ホップフィールドモデルとバイナリパーセプトロンに関連する複雑な古典的コスト関数の最小化に焦点をあてる。
本稿では,QAの断熱時間進化を適切なテンソルネットワークとして効率的に表現できることを示す。
この表現は、単純な古典的なシミュレーションを可能にし、正確な対角化技術に十分対応できる小さなサイズである。
行列積状態 (mps) として表される最適化された状態は, 深さが系サイズにのみ線形にスケールし, mps結合次元に2次的にスケールする量子回路に再キャストできることを示した。
これは、短期量子デバイス上でのさらなる回路最適化を可能にする貴重な出発点となるかもしれない。 Quantum Annealing (QA) is one of the most promising frameworks for quantum optimization. Here, we focus on the problem of minimizing complex classical cost functions associated with prototypical discrete neural networks, specifically the paradigmatic Hopfield model and binary perceptron. We show that the adiabatic time evolution of QA can be efficiently represented as a suitable Tensor Network. This representation allows for simple classical simulations, well-beyond small sizes amenable to exact diagonalization techniques. We show that the optimized state, expressed as a Matrix Product State (MPS), can be recast into a Quantum Circuit, whose depth scales only linearly with the system size and quadratically with the MPS bond dimension. This may represent a valuable starting point allowing for further circuit optimization on near-term quantum devices. | 翻訳日:2023-01-28 11:32:39 公開日:2022-09-17 |
# 多自由度における絡み合い浄化の変分量子回路学習 Variational quantum circuit learning of entanglement purification in multi-degree-of-freedom ( http://arxiv.org/abs/2209.08306v1 ) ライセンス: Link先を確認 | Hao Zhang, Xusheng Xu, Chen Zhang, Man-Hong Yung, Tao Huang, and Yunjie Liu | (参考訳) 量子エンタングルメント浄化(ep)は、ノイズの多い大規模量子ネットワークにおけるエンタングルメントチャネルの有効機能を保証するための重要な技術である。
以前のepプロトコルは一般的な回路フレームワークがなく、高次元の場合の設計が複雑になる。
本稿では、変動量子回路の枠組みを提案し、多自由度(DoF)におけるEPの最適プロトコル学習の実現可能性を示す。
余分なdof、例えば空間と時間を表す追加の回路ラインを革新的に導入することにより、パラメータ化された量子回路はスケーラブルなepプロセスを効果的にシミュレートすることができる。
例えば、PSBZ、HHSZ+などの線形光学系におけるよく知られたプロトコルは、高忠実度でうまく学習され、代替の等価演算は低深さ量子回路で発見される。
我々の研究は、量子機械学習によるマルチDoFによるEPプロトコルの探索に役立っている。 Quantum entanglement purification (EP) is a crucial technique for promising the effective function of entanglement channel in noisy large-scale quantum network. The previous EP protocols lack of a general circuit framework and become complicated to design in high-dimensional cases. In this paper, we propose a variational quantum circuit framework and demonstrate its feasibility of learning optimal protocols of EP in multi-degree-of-freedom (DoF). By innovatively introducing the additional circuit lines for representing the ancillary DoFs, e.g. space and time, the parameterized quantum circuit can effectively simulate the scalable EP process. As examples, well-known protocols in linear optics including PSBZ, HHSZ+ and etc., are learnt successfully with high fidelities and the alternative equivalent operations are discovered in low-depth quantum circuit. Our work pays the way for exploring the EP protocols with multi-DoF by quantum machine learning. | 翻訳日:2023-01-26 07:03:36 公開日:2022-09-17 |
# ビームスプリッタアレイにおける量子ゼノ効果の限界 --モンテカルロ波動関数解析- Limitations to Realize Quantum Zeno Effect in Beam Splitter Array -- a Monte Carlo Wavefunction Analysis ( http://arxiv.org/abs/2209.08303v1 ) ライセンス: Link先を確認 | Nilakantha Meher, Akhil Raman and S. Sivakumar | (参考訳) 全光学装置における量子ゼノ効果の実現における非理想光学成分の影響を解析した。
ビームスプリッタはこの実験構成において重要なコンポーネントである。
非均一伝送係数,光子吸収および熱雑音を考慮した。
モンテカルロ波動関数法による実験の数値シミュレーションを行った。
実験で期待される出力を最大化するために使用するビームスプリッターの最適数が存在すると論じられている。 Effects of non-ideal optical components in realizing quantum Zeno effect in an all-optical setup are analyzed. Beam splitters are the important components in this experimental configuration. Nonuniform transmission coefficient, photon absorption and thermal noise are considered. Numerical simulation of the experiment is performed using the Monte Carlo wavefunction method. It is argued that there is an optimal number of beam splitters to be used for maximizing the expected output in the experiment. | 翻訳日:2023-01-26 07:03:15 公開日:2022-09-17 |
# 正規積形式のガウス力学方程式 Gaussian dynamics equation in normal product form ( http://arxiv.org/abs/2209.08250v1 ) ライセンス: Link先を確認 | Rui He | (参考訳) 本稿では,多モードガウス状態の密度作用素の正規積形式について議論し,正規積形式におけるガウス密度作用素の核行列Rと標準二次形式における核行列Gとの相関式を求める。
さらに、R の時間発展機構を探求し、正規積 R=i(RJH-HJR) の下でガウス力学式を得る。
我々の研究はガウス力学の別のメカニズムを探すことに集中している。
コヒーレントな状態表現の下での正規順序密度行列の記述を探索することにより、我々の機構は実現可能で操作が容易であることが分かる。 In this paper, we discuss the normal product form of the density operator of multimode Gaussian states, and obtain the correlation equation between the kernel matrix R of the Gaussian density operator in the normal product form and its kernel matrix G in the standard quadratic form. Further, we explore the time evolution mechanism of R and obtain the Gaussian dynamical equation under the normal product R=i(RJH-HJR). Our work is devoted to searching for another mechanism for Gaussian dynamics. By exploring the description of the normal ordered density matrix under the coherent state representation, we find that our mechanism is feasible and easy to operate. | 翻訳日:2023-01-26 07:03:07 公開日:2022-09-17 |
# レーザー処理した$^{171}$Yb原子のスピン沈降の量子非破壊測定 Quantum Non-Demolition Measurement on the Spin Precession of Laser-Trapped $^{171}$Yb Atoms ( http://arxiv.org/abs/2209.08218v1 ) ライセンス: Link先を確認 | Y. A. Yang, T. A. Zheng, S.-Z. Wang, W.-K. Hu, Chang-Ling Zou, T. Xia, and Z.-T. Lu | (参考訳) 量子非破壊測定(QND)は、検出効率と測定忠実度を高め、精度測定や量子情報処理におけるその応用に強く望まれる。
本稿では,レーザートラップ原子のスピン状態に対するQND測定手法を提案する。
光双極子トラップに保持されている$^{171}$ybの原子では、回転状態、スピン状態選択、スピン状態保存を同時に行う遷移が、スピン状態を励起レベルに光学的に配置するために制御レーザの円偏光ビームを導入することによって作成され、スピン状態は地層に不安定となる。
我々は、20mGのバイアス磁場における5-times10^{4}$原子のスピン沈降の位相を測定する。
このqndアプローチにより、光吸収検出ノイズを$\sim$19db削減し、原子量子投影ノイズ以下の2.3dbに低減する。
効率的なスピン状態読み取りのための一般的なアプローチを提供するのに加えて、この全光学技術は量子センシングと量子情報処理のための高速なスイッチングとリアルタイムプログラミングを可能にする。 Quantum non-demolition (QND) measurement enhances the detection efficiency and measurement fidelity, and is highly desired for its applications in precision measurements and quantum information processing. We propose and demonstrate a QND measurement scheme for the spin states of laser-trapped atoms. On $^{171}$Yb atoms held in an optical dipole trap, a transition that is simultaneously cycling, spin-state selective, and spin-state preserving is created by introducing a circularly polarized beam of control laser to optically dress the spin states in the excited level, while leaving the spin states in the ground level unperturbed. We measure the phase of spin precession of $5\times10^{4}$ atoms in a bias magnetic field of 20 mG. This QND approach reduces the optical absorption detection noise by $\sim$19 dB, to a level of 2.3 dB below the atomic quantum projection noise. In addition to providing a general approach for efficient spin-state readout, this all-optical technique allows quick switching and real-time programming for quantum sensing and quantum information processing. | 翻訳日:2023-01-26 07:02:57 公開日:2022-09-17 |
# 皮肉検出のためのニュース見出しデータセット News Headlines Dataset For Sarcasm Detection ( http://arxiv.org/abs/2212.06035v1 ) ライセンス: Link先を確認 | Rishabh Misra | (参考訳) Sarcasm Detectionにおける過去の研究は、主にハッシュタグベースの監視を使用して収集されたTwitterデータセットを使用しているが、ラベルや言語の観点からはノイズが多い。
さらに、多くのツイートは、他のつぶやきに対する返信であり、これら中の皮肉を検出するには、文脈的ツイートの可用性が必要である。
Twitterデータセットのノイズに関する制限を克服するため、News Headlines Datasetを2つのニュースウェブサイトからキュレートしました。
データセットには約28Kの見出しが含まれている。
より便利にするために、必要に応じてより多くのデータを抽出できるように、ニュース記事のソースリンクを含めました。
本稿では,sarcasm検出を別にして,データセットと潜在的なユースケースについて詳細に述べる。 Past studies in Sarcasm Detection mostly make use of Twitter datasets collected using hashtag-based supervision but such datasets are noisy in terms of labels and language. Furthermore, many tweets are replies to other tweets, and detecting sarcasm in these requires the availability of contextual tweets. To overcome the limitations related to noise in Twitter datasets, we curate News Headlines Dataset from two news websites: TheOnion aims at producing sarcastic versions of current events, whereas HuffPost publishes real news. The dataset contains about 28K headlines out of which 13K are sarcastic. To make it more useful, we have included the source links of the news articles so that more data can be extracted as needed. In this paper, we describe various details about the dataset and potential use cases apart from Sarcasm Detection. | 翻訳日:2023-01-26 06:59:39 公開日:2022-09-17 |
# IMDB スポイラーデータセット IMDB Spoiler Dataset ( http://arxiv.org/abs/2212.06034v1 ) ライセンス: Link先を確認 | Rishabh Misra | (参考訳) ユーザー生成レビューは、映画やテレビ番組を見ることを考えるとき、最初の接触点となることが多い。
しかし、我々が消費したいメディアの質的な側面を語らずに、映画におけるキャラクターの驚くべき運命や犯罪を犯す映画における殺人者の身元など、必然的に望ましくない回想的な情報(つまり「スプレイラー」)を含むことができる。
本稿では,スポイラー検出の問題に取り組むために,高品質な映画レビュー型スポイラーデータセットを提案する。 User-generated reviews are often our first point of contact when we consider watching a movie or a TV show. However, beyond telling us the qualitative aspects of the media we want to consume, reviews may inevitably contain undesired revelatory information (i.e. 'spoilers') such as the surprising fate of a character in a movie, or the identity of a murderer in a crime-suspense movie, etc. In this paper, we present a high-quality movie-review based spoiler dataset to tackle the problem of spoiler detection and describe various research questions it can answer. | 翻訳日:2023-01-26 06:59:27 公開日:2022-09-17 |
# 問合せに基づくテキスト要約に関する調査 Survey of Query-based Text Summarization ( http://arxiv.org/abs/2211.11548v1 ) ライセンス: Link先を確認 | Hang Yu | (参考訳) クエリベースのテキスト要約は、ユーザが提供するクエリ情報のガイダンスの下で、プロキシテキストデータを要約に凝縮する必要がある重要な現実世界問題である。
このトピックは長い間研究されており、クエリベースのテキスト要約に関する興味深い研究が数多く存在する。
しかし、多くの研究は体系的に調査されていない。
本調査は,クエリベーステキスト要約法および関連する汎用テキスト要約法における興味深い作業を要約することを目的としている。
本論文のすべての分類学は、我々の知識の最良の部分に関連する研究であり、いくつかの分析結果が提示される。 Query-based text summarization is an important real world problem that requires to condense the prolix text data into a summary under the guidance of the query information provided by users. The topic has been studied for a long time and there are many existing interesting research related to query-based text summarization. Yet much of the work is not systematically surveyed. This survey aims at summarizing some interesting work in query-based text summarization methods as well as related generic text summarization methods. Not all taxonomies in this paper exist the related work to the best of our knowledge and some analysis will be presented. | 翻訳日:2023-01-26 06:59:15 公開日:2022-09-17 |
# NISQアルゴリズムはいつから個別製造で価値を生み出すのか? When could NISQ algorithms start to create value in discrete manufacturing ? ( http://arxiv.org/abs/2209.09650v1 ) ライセンス: Link先を確認 | Oxana Shaya | (参考訳) 離散的製造における量子的優位性は、近い将来達成可能か?
製造関連NISQアルゴリズムとして、組合せ最適化のための量子アニーリング(QA)と量子近似最適化(QAOA)、非線形PDEを解決するための微分量子回路(DQC)を同定した。
QAOAの異常を示す証拠はあるが、これはNISQ後の回路深度を必要とする。
QAの場合、現在、古典的な計算に比べて有利な証拠は存在しない。
しかし、異なるプロトコルがそのようなインスタンスを見つけることに繋がる可能性がある。
DQCは、よく知られた量子特徴写像とともに、有望な概念である。
より高い次元の問題や訓練の改善に関するさらなる調査が進められた。 Are quantum advantages in discrete manufacturing achievable in the near term? As manufacturing-relevant NISQ algorithms, we identified Quantum Annealing (QA) and the Quantum Approximate Optimization Algorithm (QAOA) for combinatorial optimization as well as Derivative Quantum Circuits (DQC) for solving non-linear PDEs. While there is evidence for QAOA's outperformance, this requires post-NISQ circuit depths. In the case of QA, there is up to now no unquestionable evidence for advantage compared to classical computation. Yet different protocols could lead to finding such instances. Together with a well-chosen quantum feature map, DQC are a promising concept. Further investigations for higher dimensional problems and improvements in training could follow. | 翻訳日:2023-01-26 06:58:46 公開日:2022-09-17 |
# 量子ホール効果の境界条件 Boundary conditions for the quantum Hall effect ( http://arxiv.org/abs/2209.09629v1 ) ライセンス: Link先を確認 | Giuliano Angelone, Manuel Asorey, Paolo Facchi, Davide Lonigro, Yisely Martinez | (参考訳) 無限ストリップ上の整数量子ホール効果の自己整合モデルを境界条件を用いて定式化し、ホール導電率に対する有限サイズ効果の影響を調べる。
ストリップに沿った翻訳対称性を利用することで、そのような対称性を尊重する大きな境界条件に対する系の一般的なスペクトル特性と(ファイバー)ロビン境界条件に対する完全なスペクトルの両方を決定する。
特に、後者は古典的な類似点を持たない新しい種類の状態を導入し、ホール導電率の量子化パターンにより微細な構造を加える。
さらに, 本モデルは, 印加電界の高値における量子ホール効果の崩壊を予測できる。 We formulate a self-consistent model of the integer quantum Hall effect on an infinite strip, using boundary conditions to investigate the influence of finite-size effects on the Hall conductivity. By exploiting the translation symmetry along the strip, we determine both the general spectral properties of the system for a large class of boundary conditions respecting such symmetry, and the full spectrum for (fibered) Robin boundary conditions. In particular, we find that the latter introduce a new kind of states with no classical analogues, and add a finer structure to the quantization pattern of the Hall conductivity. Moreover, our model also predicts the breakdown of the quantum Hall effect at high values of the applied electric field. | 翻訳日:2023-01-26 06:58:35 公開日:2022-09-17 |
# 連続可変量子スイッチ A Continuous Variable Quantum Switch ( http://arxiv.org/abs/2209.08350v1 ) ライセンス: Link先を確認 | Ian Tillman, Thirupathaiah Vasantam, Kaushik P. Seshadreesan | (参考訳) 光場の1つのモードの連続した二次性は、量子情報をエンコードするための有望な道を示す。
ヒルベルト空間の無限次元性により、これらの連続変数(CV)の量子状態は単一の光子ベースの量子ビット符号化よりも高い通信速度を実現することができる。
直接伝送よりも高いレートで量子通信範囲を拡張するのに不可欠な量子リピータプロトコルも最近CV量子符号化のために提案されている。
本稿では,複数の通信フローに対応するCV量子符号化のための量子繰り返しスイッチを提案する。
スイッチのアーキテクチャは量子光源、検出器、メモリ、スイッチングファブリックに基づいており、ルーティングプロトコルはスループットの最適である最大重み付けのスケジューリングポリシーに基づいている。
スイッチを介して安定に支持できる複数のCVエンタングルメント流に対する達成可能な両部絡み合い要求領域に関する数値的な結果を示す。
実例3フローネットワークの助けを借りて結果を解明する。 The continuous quadratures of a single mode of the light field present a promising avenue to encode quantum information. By virtue of the infinite dimensionality of the associated Hilbert space, quantum states of these continuous variables (CV) can enable higher communication rates compared to single photon-based qubit encodings. Quantum repeater protocols that are essential to extend the range of quantum communications at enhanced rates over direct transmission have also been recently proposed for CV quantum encodings. Here we present a quantum repeating switch for CV quantum encodings that caters to multiple communication flows. The architecture of the switch is based on quantum light sources, detectors, memories, and switching fabric, and the routing protocol is based on a Max-Weight scheduling policy that is throughput optimal. We present numerical results on an achievable bipartite entanglement request rate region for multiple CV entanglement flows that can be stably supported through the switch. We elucidate our results with the help of exemplary 3-flow networks. | 翻訳日:2023-01-26 06:58:01 公開日:2022-09-17 |
# TED-Kにおけるトポロジカル量子プログラミング Topological Quantum Programming in TED-K ( http://arxiv.org/abs/2209.08331v1 ) ライセンス: Link先を確認 | Hisham Sati and Urs Schreiber | (参考訳) スケーラブルな量子計算の実現にはトポロジカル安定化が必要であり、トポロジカル・ハードウェア・アウェア・量子プログラミングとトポロジカル・量子回路検証が必要であるが、これらの戦略と専用のトポロジカル量子プログラミング言語への適切な組み合わせはまだ注目されていない。
ここでは、トポロジカル・ハードウェアを意識した型付き関数型(従って検証可能な)トポロジカル量子計画(英語版)について、トポロジカルな q-ビットの普遍的な技術的詳細、すなわち、量子材料のトポロジカル相における対称性に保護された(あるいは強化された)トポロジカルな順序のラウリン型基底状態(英語版)をネイティブに反映する基本的かつ自然なスキームについて述べる。
What makes this work is: (1) our recent result that wavefunctions of realistic and technologically viable anyon species -- namely of su(2)-anyons such as the popular Majorana/Ising anyons but also of computationally universal Fibonacci anyons -- are reflected in the twisted equivariant differential (TED) K-cohomology of configuration spaces of codimension=2 nodal defects in the host material's crystallographic orbifold; (2) combined with our earlier observation that such TED generalized cohomology theories on orbifolds interpret intuitionistically-dependent linear data types in cohesive homotopy type theory (HoTT), supporting a powerful modern form of modal quantum logic.
本稿では,基本概念の解説,基礎となる結果の速やかなレビュー,TED-K経由の結束HoTTにおける基本言語構成の簡潔な表示について述べる。
この言語システムは、ニューヨーク大学アブダビ研究所の"Center for Quantum and Topological Systems"で開発中である。 While the realization of scalable quantum computation will arguably require topological stabilization and, with it, topological-hardware-aware quantum programming and topological-quantum circuit verification, the proper combination of these strategies into dedicated topological quantum programming languages has not yet received attention. Here we describe a fundamental and natural scheme that we are developing, for typed functional (hence verifiable) topological quantum programming which is topological-hardware aware -- in that it natively reflects the universal fine technical detail of topological q-bits, namely of symmetry-protected (or enhanced) topologically ordered Laughlin-type anyon ground states in topological phases of quantum materials. What makes this work is: (1) our recent result that wavefunctions of realistic and technologically viable anyon species -- namely of su(2)-anyons such as the popular Majorana/Ising anyons but also of computationally universal Fibonacci anyons -- are reflected in the twisted equivariant differential (TED) K-cohomology of configuration spaces of codimension=2 nodal defects in the host material's crystallographic orbifold; (2) combined with our earlier observation that such TED generalized cohomology theories on orbifolds interpret intuitionistically-dependent linear data types in cohesive homotopy type theory (HoTT), supporting a powerful modern form of modal quantum logic. In this short note we give an exposition of the basic ideas, a quick review of the underlying results and a brief indication of the basic language constructs for anyon braiding via TED-K in cohesive HoTT. The language system is under development at the "Center for Quantum and Topological Systems" at the Research Institute of NYU, Abu Dhabi. | 翻訳日:2023-01-26 06:57:47 公開日:2022-09-17 |
# 量子ドット光を用いた周波数領域における実験的多状態量子識別 Experimental Multi-state Quantum Discrimination in the Frequency Domain with Quantum Dot Light ( http://arxiv.org/abs/2209.08324v1 ) ライセンス: Link先を確認 | Alessandro Laneve, Michele B. Rota, Francesco Basso Basset, Nicola P. Fiorente, Tobias M. Krieger, Saimon F. Covre da Silva, Quirin Buchinger, Sandra Stroj, Sven Hoefling, Tobias Huber-Loyola, Armando Rastelli, Rinaldo Trotta, and Paolo Mataloni | (参考訳) 効果的な量子状態判別戦略の実現への探求は、量子情報技術だけでなく、基礎研究にも大きな関心を寄せている。
したがって、量子状態の識別プロトコルを実装する新しい、より効率的な方法を開発することが重要である。
中でも単一光子の実装は、量子通信のシナリオにおいて固有のセキュリティ上の利点があるため、より望ましい。
本研究では,自由度と光子エネルギーの両極性にまたがる4次元ヒルベルト空間で符号化される8つの非直交状態の最適判別のための時間多重化戦略を用いたプロトコルを実験的に実現する。
この実験は、カスタム設計のバルク光学分析装置と、ほぼ決定論的ソリッドステートソースによって生成された単一光子に基づいて構築され、線形光学と2つの光検出器しか実現できない実際の量子状態との最小誤差判定のベンチマーク例を示している。
我々の研究は、より複雑な応用の道を切り開いて、高次元量子符号化および復号化操作への新しいアプローチを提供する。 The quest for the realization of effective quantum state discrimination strategies is of great interest for quantum information technology, as well as for fundamental studies. Therefore, it is crucial to develop new and more efficient methods to implement discrimination protocols for quantum states. Among the others, single photon implementations are more advisable, because of their inherent security advantage in quantum communication scenarios. In this work, we present the experimental realization of a protocol employing a time-multiplexing strategy to optimally discriminate among eight non-orthogonal states, encoded in the four-dimensional Hilbert space spanning both the polarization degree of freedom and photon energy. The experiment, built on a custom-designed bulk optics analyser setup and single photons generated by a nearly deterministic solid-state source, represents a benchmarking example of minimum error discrimination with actual quantum states, requiring only linear optics and two photodetectors to be realized. Our work paves the way for more complex applications and delivers a novel approach towards high-dimensional quantum encoding and decoding operations. | 翻訳日:2023-01-26 06:57:07 公開日:2022-09-17 |
# 直交探索による因果特徴選択 Causal Feature Selection via Orthogonal Search ( http://arxiv.org/abs/2007.02938v3 ) ライセンス: Link先を確認 | Ashkan Soleymani, Anant Raj, Stefan Bauer, Bernhard Sch\"olkopf and Michel Besserve | (参考訳) 多数の説明変数の中で応答変数の直接因果親を推測する問題は、多くの分野において実践的に重要である。
しかし、確立されたアプローチは、説明変数の数で少なくとも指数関数的にスケールし、非線形関係への拡張が困難であり、循環データへの拡張が困難である。
機械学習手法に触発されて、我々は1-vsの研究を行う。
-応答の直接因果親を見つけるためのrest機能選択アプローチ。
本稿では,周期の存在下での非線形関係を含む理論的な保証も提供しながら,純粋に観測データを扱うアルゴリズムを提案する。
各変数に対して1つの推定しか必要としないため、我々のアプローチは大きなグラフにも適用できる。
確立されたアプローチと比較して,大幅な改善が示された。 The problem of inferring the direct causal parents of a response variable among a large set of explanatory variables is of high practical importance in many disciplines. However, established approaches often scale at least exponentially with the number of explanatory variables, are difficult to extend to nonlinear relationships, and are difficult to extend to cyclic data. Inspired by {\em Debiased} machine learning methods, we study a one-vs.-the-rest feature selection approach to discover the direct causal parent of the response. We propose an algorithm that works for purely observational data while also offering theoretical guarantees, including the case of partially nonlinear relationships possibly under the presence of cycles. As it requires only one estimation for each variable, our approach is applicable even to large graphs. We demonstrate significant improvements compared to established approaches. | 翻訳日:2022-11-13 02:19:54 公開日:2022-09-17 |
# 平均報酬マルコフ決定過程におけるバッチ政策学習 Batch Policy Learning in Average Reward Markov Decision Processes ( http://arxiv.org/abs/2007.11771v3 ) ライセンス: Link先を確認 | Peng Liao, Zhengling Qi, Runzhe Wan, Predrag Klasnja, Susan Murphy | (参考訳) 無限水平マルコフ決定過程における政策学習のバッチ(オフライン)問題を考察する。
モバイル健康アプリケーションに動機づけられた我々は、長期的な平均報酬を最大化する政策を学ぶことに集中する。
平均報酬に対する2倍ロバストな推定器を提案し,半パラメトリックな効率性を示す。
さらに,パラメータ化された確率的ポリシークラスで最適ポリシーを計算する最適化アルゴリズムを開発した。
評価された政策のパフォーマンスは、政策クラスにおける最適平均報酬と推定された政策の平均報酬の差によって測定され、有限サンプルの後悔保証を確立する。
本手法の性能は,身体活動を促進する移動型健康研究のシミュレーション研究と分析によって示される。 We consider the batch (off-line) policy learning problem in the infinite horizon Markov Decision Process. Motivated by mobile health applications, we focus on learning a policy that maximizes the long-term average reward. We propose a doubly robust estimator for the average reward and show that it achieves semiparametric efficiency. Further we develop an optimization algorithm to compute the optimal policy in a parameterized stochastic policy class. The performance of the estimated policy is measured by the difference between the optimal average reward in the policy class and the average reward of the estimated policy and we establish a finite-sample regret guarantee. The performance of the method is illustrated by simulation studies and an analysis of a mobile health study promoting physical activity. | 翻訳日:2022-11-07 13:15:06 公開日:2022-09-17 |
# Apache HadoopとApache Sparkによるクエリプラン勧告のパフォーマンス評価 Performance Evaluation of Query Plan Recommendation with Apache Hadoop and Apache Spark ( http://arxiv.org/abs/2210.07143v1 ) ライセンス: Link先を確認 | Elham Azhir, Mehdi Hosseinzadeh, Faheem Khan and Amir Mosavi | (参考訳) アクセス計画レコメンデーションは、以前作成されたクエリ実行計画(QEP)を使用して新しいクエリを実行するクエリ最適化アプローチである。
クエリオプティマイザは、クエリ空間を前述の方法でクラスタに分割する。
しかし、従来のクラスタリングアルゴリズムは、そのような大規模なデータセットをクラスタリングするのにかなりの時間を要する。
MapReduce分散コンピューティングモデルは、大量のデータを保存および処理するための効率的なソリューションを提供する。
Apache SparkとApache Hadoopフレームワークは、MapReduceベースのアクセス計画レコメンデーションメソッドでクエリデータセットのさまざまなサイズをクラスタリングするために、今回の調査で使用されている。
実行時間に基づいて性能評価を行う。
実験の結果,並列クエリクラスタリングの有効性を実証し,高いスケーラビリティを実現した。
さらに、Apache SparkはApache Hadoopよりもパフォーマンスが良く、平均2倍のスピードアップを達成した。 Access plan recommendation is a query optimization approach that executes new queries using prior created query execution plans (QEPs). The query optimizer divides the query space into clusters in the mentioned method. However, traditional clustering algorithms take a significant amount of execution time for clustering such large datasets. The MapReduce distributed computing model provides efficient solutions for storing and processing vast quantities of data. Apache Spark and Apache Hadoop frameworks are used in the present investigation to cluster different sizes of query datasets in the MapReduce-based access plan recommendation method. The performance evaluation is performed based on execution time. The results of the experiments demonstrated the effectiveness of parallel query clustering in achieving high scalability. Furthermore, Apache Spark achieved better performance than Apache Hadoop, reaching an average speedup of 2x. | 翻訳日:2022-10-16 16:25:46 公開日:2022-09-17 |
# VDDB:抗ウイルス薬発見のための総合的なリソースと機械学習プラットフォーム VDDB: a comprehensive resource and machine learning platform for antiviral drug discovery ( http://arxiv.org/abs/2209.13521v1 ) ライセンス: Link先を確認 | Shunming Tao, Yihao Chen, Jingxing Wu, Duancheng Zhao, Hanxuan Cai, Ling Wang | (参考訳) ウイルス感染は人間の健康を脅かす主要な病気の1つである。
抗ウイルス薬に関するデータ資源のマイニング・共有の需要が高まり,新たな抗ウイルス薬の設計と発見を加速するために,我々は,オープンアクセス型抗ウイルス薬資源と機械学習プラットフォーム(VDDB)を紹介した。
現在、VDDBは848の臨床ワクチン、199の臨床抗体、SARS-CoV-2を含む39の医療上重要なウイルスを標的とする710,000以上の小さな分子を誇示している。
さらに、VDDBは314の細胞感染に基づく表現型と234の標的に基づく遺伝子型アッセイを含む、これらの収集された抗ウイルス薬/分子の薬理学的データの約300万のデータを保存している。
これらの注釈付き薬理学データに基づいて、VDDBはユーザーが興味のある様々なウイルスのためにこれらの収集に関する情報を閲覧、検索、ダウンロードすることができる。
特に、VDDBは57の細胞感染と117のターゲットベース関連機械学習モデルを統合し、複合活動予測、仮想スクリーニング、薬物再配置、標的漁など、様々なアンチウイルス識別関連タスクをサポートする。
VDDBはhttp://vddb.idruglab.cnで自由にアクセスできる。 Virus infection is one of the major diseases that seriously threaten human health. To meet the growing demand for mining and sharing data resources related to antiviral drugs and to accelerate the design and discovery of new antiviral drugs, we presented an open-access antiviral drug resource and machine learning platform (VDDB), which, to the best of our knowledge, is the first comprehensive dedicated resource for experimentally verified potential drugs/molecules based on manually curated data. Currently, VDDB highlights 848 clinical vaccines, 199 clinical antibodies, as well as over 710,000 small molecules targeting 39 medically important viruses including SARS-CoV-2. Furthermore, VDDB stores approximately 3 million records of pharmacological data for these collected potential antiviral drugs/molecules, involving 314 cell infection-based phenotypic and 234 target-based genotypic assays. Based on these annotated pharmacological data, VDDB allows users to browse, search and download reliable information about these collects for various viruses of interest. In particular, VDDB also integrates 57 cell infection- and 117 target-based associated high-accuracy machine learning models to support various antivirals identification-related tasks, such as compound activity prediction, virtual screening, drug repositioning and target fishing. VDDB is freely accessible at http://vddb.idruglab.cn. | 翻訳日:2022-10-02 23:31:31 公開日:2022-09-17 |
# ニュースレコメンデーションにおける規範的多様性を計測するためのラジオ -- ランクアウェア・ダイバージェンス指標 RADio -- Rank-Aware Divergence Metrics to Measure Normative Diversity in News Recommendations ( http://arxiv.org/abs/2209.13520v1 ) ライセンス: Link先を確認 | Sanne Vrijenhoek, Gabriel B\'en\'edict, Mateo Gutierrez Granada, Daan Odijk, Maarten de Rijke | (参考訳) 伝統的なレコメンデーション・システム文学では、多様性はしばしば類似性の反対と見なされ、通常、特定されたトピック、カテゴリ、単語モデル間の距離として定義される。
しかし、これは社会科学における多様性の解釈の表現ではなく、これはニュース組織の規範と価値観を考慮し、ここでは規範的多様性と呼ぶものである。
これらの規範的目標に応じてレコメンデーションを評価するための多目的メトリクスフレームワークRADioを紹介する。
RADioはランクを意識したJensen Shannon(JS)の発散を導入した。
この組み合わせは
(i)リストのさらに下の項目を観察するためのユーザの傾向の低下
(ii) 点推定とは対照的に、全分布シフト。
我々は、メタデータ強化パイプラインの助けを借りて、Microsoft News Datasetと6つの(神経)レコメンデーションアルゴリズムで、ニュースレコメンデーションにおいて5つの規範的概念を反映するRADioの能力を評価した。
RADioは、ニュースレコメンデーションシステムの設計を知らせることのできる、洞察に富んだ見積もりを提供する。 In traditional recommender system literature, diversity is often seen as the opposite of similarity, and typically defined as the distance between identified topics, categories or word models. However, this is not expressive of the social science's interpretation of diversity, which accounts for a news organization's norms and values and which we here refer to as normative diversity. We introduce RADio, a versatile metrics framework to evaluate recommendations according to these normative goals. RADio introduces a rank-aware Jensen Shannon (JS) divergence. This combination accounts for (i) a user's decreasing propensity to observe items further down a list and (ii) full distributional shifts as opposed to point estimates. We evaluate RADio's ability to reflect five normative concepts in news recommendations on the Microsoft News Dataset and six (neural) recommendation algorithms, with the help of our metadata enrichment pipeline. We find that RADio provides insightful estimates that can potentially be used to inform news recommender system design. | 翻訳日:2022-10-02 23:30:17 公開日:2022-09-17 |
# ベイズの特徴の重要度(bif) Bayesian Importance of Features (BIF) ( http://arxiv.org/abs/2010.13872v2 ) ライセンス: Link先を確認 | Kamil Adamczewski, Frederik Harder, Mijung Park | (参考訳) 本稿では,入力特徴量の確率的評価を通じて統計モデルの定量的な説明を提供する,単純で直感的な枠組みを提案する。
中心となる考え方はディリクレ分布を利用して入力特徴の重要性を定義し、ベイズ近似による学習である。
学習の重要性は確率論的解釈を持ち、モデルの出力に対する各入力特徴の相対的重要性を提供し、その重要性の定量化に対する信頼性を評価する。
説明にディリクレ分布を用いることにより、異なるモデルの下で学習された重要度の間の類似性を測定するための閉形式の発散を定義することができる。
この分岐を利用して、プライバシーや公平性といった現代の機械学習において不可欠な概念と、特徴の重要性の説明可能性のトレードオフを研究する。
さらにbifは、グローバル説明(すべてのデータインスタンスにおける機能重要度)とローカル説明(各データインスタンスにおける個々の機能重要度)の2つのレベルに取り組むことができる。
本手法は,表と画像の両方のデータセットを考慮し,様々な合成および実データに対する有効性を示す。
コードはhttps://github.com/kamadforge/featimp_dpで入手できる。 We introduce a simple and intuitive framework that provides quantitative explanations of statistical models through the probabilistic assessment of input feature importance. The core idea comes from utilizing the Dirichlet distribution to define the importance of input features and learning it via approximate Bayesian inference. The learned importance has probabilistic interpretation and provides the relative significance of each input feature to a model's output, additionally assessing confidence about its importance quantification. As a consequence of using the Dirichlet distribution over the explanations, we can define a closed-form divergence to gauge the similarity between learned importance under different models. We use this divergence to study the feature importance explainability tradeoffs with essential notions in modern machine learning, such as privacy and fairness. Furthermore, BIF can work on two levels: global explanation (feature importance across all data instances) and local explanation (individual feature importance for each data instance). We show the effectiveness of our method on a variety of synthetic and real datasets, taking into account both tabular and image datasets. The code is available at https://github.com/kamadforge/featimp_dp. | 翻訳日:2022-10-02 18:11:24 公開日:2022-09-17 |
# 事前学習によるサルポックスウイルスの検出 Monkeypox virus detection using pre-trained deep learning-based approaches ( http://arxiv.org/abs/2209.04444v2 ) ライセンス: Link先を確認 | Chiranjibi Sitaula, Tej Bahadur Shahi | (参考訳) 世界中の新型コロナウイルス感染症の減少に伴い、サルポックスウイルスは徐々に出現している。
新型コロナウイルス(COVID-19)のようなパンデミックのように見えると、人々は恐れています。
そのため,広く普及する前に早期に検出することが重要である。
AIに基づく検出は、早期にそれらを特定するのに役立つかもしれない。
本稿では,サルポックスウイルス検出のための13種類の学習済み深層学習モデルを比較することを目的とした。
そのため、最初はこれらすべてにユニバーサルなカスタムレイヤを追加して微調整を行い、精度、リコール、F1スコア、正確さの4つの確立した尺度を用いて結果を分析します。
最良性能のDLモデルを特定した後、確率的出力に対する過半数投票を用いて、それらをアンサンブルして全体の性能を改善する。
提案したアンサンブルアプローチの助けを借りて,公開データセット上で実験を行い,平均精度85.44\%,85.47\%,85.40\%,87.13\%の精度を実現した。
これらの奨励的な結果は最先端の手法よりも優れており、提案手法はマススクリーニングの医療従事者に適用できることが示唆された。 Monkeypox virus is emerging slowly with the decline of COVID-19 virus infections around the world. People are afraid of it, thinking that it would appear as a pandemic like COVID-19. As such, it is crucial to detect them earlier before widespread community transmission. AI-based detection could help identify them at the early stage. In this paper, we aim to compare 13 different pre-trained deep learning (DL) models for the Monkeypox virus detection. For this, we initially fine-tune them with the addition of universal custom layers for all of them and analyse the results using four well-established measures: Precision, Recall, F1-score, and Accuracy. After the identification of the best-performing DL models, we ensemble them to improve the overall performance using a majority voting over the probabilistic outputs obtained from them. We perform our experiments on a publicly available dataset, which results in average Precision, Recall, F1-score, and Accuracy of 85.44\%, 85.47\%, 85.40\%, and 87.13\%, respectively with the help of our proposed ensemble approach. These encouraging results, which outperform the state-of-the-art methods, suggest that the proposed approach is applicable to health practitioners for mass screening. | 翻訳日:2022-09-25 17:39:13 公開日:2022-09-17 |
# flashlight: 効率的なデコーダによるスケーラブルなリンク予測 Flashlight: Scalable Link Prediction with Effective Decoders ( http://arxiv.org/abs/2209.10100v1 ) ライセンス: Link先を確認 | Yiwei Wang, Bryan Hooi, Yozen Liu, Tong Zhao, Zhichun Guo, Neil Shah | (参考訳) リンク予測(LP)は,グラフ学習における重要な課題として認識されており,その実践的応用も行われている。
LPの典型的な応用は、友人の推薦など、あるソースノードのトップスコアリング隣人を取得することである。
これらのサービスは、低レイテンシで多くの候補ノードから上位のスコアリング隣人を見つけるために、高い推論スケーラビリティを望んでいる。
最近のlpモデルはノード埋め込みからエッジスコアを計算するために主に使われている2つの一般的なデコーダがある: \textbf{hadamardmlp} と \textbf{dot product} デコーダである。
理論的および経験的分析の結果,アダマールMLPデコーダは一般的にLPに対して有効であることが判明した。
しかし、HadamardMLPは、大きなグラフ上で上位のスコアリング隣人を検索するスケーラビリティに欠けており、私たちの知る限り、下位の複雑さで上位のスコアリング隣人を検索するアルゴリズムは存在しない。
HadamardMLPをスケーラブルにするために、HadamardMLPの上位評価近傍検索を高速化する \textit{Flashlight} アルゴリズムを提案する。
実験結果から, Flashlight は大きな OGBL-CITATION2 データセットにおいて,有効性を犠牲にすることなく,LP の推論速度を 100 倍以上改善することが示された。
提案手法は,AdamardMLPデコーダを用いた大規模LPアプリケーションを実現するための手法である。 Link prediction (LP) has been recognized as an important task in graph learning with its board practical applications. A typical application of LP is to retrieve the top scoring neighbors for a given source node, such as the friend recommendation. These services desire the high inference scalability to find the top scoring neighbors from many candidate nodes at low latencies. There are two popular decoders that the recent LP models mainly use to compute the edge scores from node embeddings: the \textbf{HadamardMLP} and \textbf{Dot Product} decoders. After theoretical and empirical analysis, we find that the HadamardMLP decoders are generally more effective for LP. However, HadamardMLP lacks the scalability for retrieving top scoring neighbors on large graphs, since to the best of our knowledge, there does not exist an algorithm to retrieve the top scoring neighbors for HadamardMLP decoders in sublinear complexity. To make HadamardMLP scalable, we propose the \textit{Flashlight} algorithm to accelerate the top scoring neighbor retrievals for HadamardMLP: a sublinear algorithm that progressively applies approximate maximum inner product search (MIPS) techniques with adaptively adjusted query embeddings. Empirical results show that Flashlight improves the inference speed of LP by more than 100 times on the large OGBL-CITATION2 dataset without sacrificing effectiveness. Our work paves the way for large-scale LP applications with the effective HadamardMLP decoders by greatly accelerating their inference. | 翻訳日:2022-09-22 15:52:58 公開日:2022-09-17 |
# 逆データ崩壊時のロバストオンラインおよび分散平均推定 Robust Online and Distributed Mean Estimation Under Adversarial Data Corruption ( http://arxiv.org/abs/2209.09624v1 ) ライセンス: Link先を確認 | Tong Yao and Shreyas Sundaram | (参考訳) 我々は,敵対的データアタックの存在下でのオンラインおよび分散シナリオにおけるロバスト平均推定について検討した。
それぞれの時間ステップで、ネットワーク内の各エージェントは潜在的に破損したデータポイントを受け取り、データポイントはもともと独立であり、ランダム変数の同じ分散サンプルである。
我々は,平均を漸近的に推定するオンラインおよび分散アルゴリズムを提案する。
我々は,誤差バウンドと推定値の収束特性をアルゴリズムの真平均に与える。
ネットワークトポロジーに基づいて,各エージェントのコンバージェンス率のトレードオフを,近隣からのデータを取り込むことと,局所的な観察だけで学習することとでさらに評価する。 We study robust mean estimation in an online and distributed scenario in the presence of adversarial data attacks. At each time step, each agent in a network receives a potentially corrupted data point, where the data points were originally independent and identically distributed samples of a random variable. We propose online and distributed algorithms for all agents to asymptotically estimate the mean. We provide the error-bound and the convergence properties of the estimates to the true mean under our algorithms. Based on the network topology, we further evaluate each agent's trade-off in convergence rate between incorporating data from neighbors and learning with only local observations. | 翻訳日:2022-09-21 19:50:52 公開日:2022-09-17 |
# コンクリート材料における人工知能 : 科学的な視点 Artificial Intelligence in Concrete Materials: A Scientometric View ( http://arxiv.org/abs/2209.09636v1 ) ライセンス: Link先を確認 | Zhanzhao Li, Aleksandra Radli\'nska | (参考訳) 人工知能(AI)は、科学領域にまたがる新たなフロンティアを壊し、変革的で汎用的なツールとして登場した。
その最も有望な応用の中で、AI研究はコンクリート科学と工学において花を咲かせており、セメント系の設計最適化とサービス寿命予測への新たな洞察を提供している。
本章は, コンクリート材料用AI研究の主目的と知識構造を明らかにすることを目的としている。
まず、1990年から2020年にかけて発行された389の論文がWeb of Scienceから検索された。
キーワード共起分析やドキュメント共起分析などのサイエントメトリックツールを用いて,研究分野の特徴と特徴を定量化した。
この発見は、データ駆動型コンクリート研究における軽い疑問をもたらし、具体的なコミュニティがAI技術の能力を完全に活用する将来の機会を提案する。 Artificial intelligence (AI) has emerged as a transformative and versatile tool, breaking new frontiers across scientific domains. Among its most promising applications, AI research is blossoming in concrete science and engineering, where it has offered new insights towards mixture design optimization and service life prediction of cementitious systems. This chapter aims to uncover the main research interests and knowledge structure of the existing literature on AI for concrete materials. To begin with, a total of 389 journal articles published from 1990 to 2020 were retrieved from the Web of Science. Scientometric tools such as keyword co-occurrence analysis and documentation co-citation analysis were adopted to quantify features and characteristics of the research field. The findings bring to light pressing questions in data-driven concrete research and suggest future opportunities for the concrete community to fully utilize the capabilities of AI techniques. | 翻訳日:2022-09-21 19:02:45 公開日:2022-09-17 |
# 信頼できるAIのための非イメージング医療データ合成:包括的調査 Non-Imaging Medical Data Synthesis for Trustworthy AI: A Comprehensive Survey ( http://arxiv.org/abs/2209.09239v1 ) ライセンス: Link先を確認 | Xiaodan Xing, Huanjun Wu, Lichao Wang, Iain Stenson, May Yong, Javier Del Ser, Simon Walsh, Guang Yang | (参考訳) データ品質は、医療において信頼できるAIを開発する上で重要な要素である。
制御されたコンバウンディングファクタを持つ大量のキュレートデータセットは、下流AIアルゴリズムの正確性、堅牢性、プライバシの向上に役立つ。
しかし、データ取得の技術的困難により高品質なデータセットへのアクセスが制限され、医療データの大規模共有は厳格な倫理的制約によって妨げられる。
実際の臨床データと同様の分布を持つデータを生成するデータ合成アルゴリズムは、信頼できるaiの開発中に良質なデータの不足に対処する潜在的な解決策となり得る。
しかし、最先端のデータ合成アルゴリズム、特にディープラーニングアルゴリズムは、臨床計測、医療信号と波形、電子医療記録(EHRs)を含む非イメージング医療データの合成を無視しながら、画像データに焦点を当てている。
そこで本稿では,この領域における信頼性の高いaiの提供を目的とした合成アルゴリズム,特に非イメージング医療データについて検討する。
本論文は, アルゴリズム, 評価, 限界, 今後の研究方向などについて, 非画像医用データ合成の包括的記述を提供する。 Data quality is the key factor for the development of trustworthy AI in healthcare. A large volume of curated datasets with controlled confounding factors can help improve the accuracy, robustness and privacy of downstream AI algorithms. However, access to good quality datasets is limited by the technical difficulty of data acquisition and large-scale sharing of healthcare data is hindered by strict ethical restrictions. Data synthesis algorithms, which generate data with a similar distribution as real clinical data, can serve as a potential solution to address the scarcity of good quality data during the development of trustworthy AI. However, state-of-the-art data synthesis algorithms, especially deep learning algorithms, focus more on imaging data while neglecting the synthesis of non-imaging healthcare data, including clinical measurements, medical signals and waveforms, and electronic healthcare records (EHRs). Thus, in this paper, we will review the synthesis algorithms, particularly for non-imaging medical data, with the aim of providing trustworthy AI in this domain. This tutorial-styled review paper will provide comprehensive descriptions of non-imaging medical data synthesis on aspects including algorithms, evaluations, limitations and future research directions. | 翻訳日:2022-09-21 17:25:23 公開日:2022-09-17 |
# 電気自動車AMoDシステムのためのロバスト・制約付きマルチエージェント強化学習フレームワーク A Robust and Constrained Multi-Agent Reinforcement Learning Framework for Electric Vehicle AMoD Systems ( http://arxiv.org/abs/2209.08230v1 ) ライセンス: Link先を確認 | Sihong He, Yue Wang, Shuo Han, Shaofeng Zou, Fei Miao | (参考訳) 電気自動車(EV)は自律移動オンデマンド(AMoD)システムにおいて重要な役割を果たすが、そのユニークな充電パターンはAMoDシステムにおけるモデルの不確実性(状態遷移確率など)を増加させる。
通常、トレーニングとテスト(真の)環境の間にはミスマッチがあるため、システム設計にモデルの不確実性を取り込むことは、現実世界のアプリケーションにおいて非常に重要である。
しかしながら、EV AMoDシステムにおけるモデル不確実性は、既存の文献によって明確に考慮されておらず、緊急かつ困難な課題である。
本研究では,EV再バランスおよび充電問題に対する遷移カーネルの不確実性を考慮した,堅牢かつ制約付きマルチエージェント強化学習(MARL)フレームワークを設計する。
そこで我々は,都市全体の需給率と充電利用率のバランスをとるために,ロバストなEV再バランス政策を訓練する堅牢で制約のあるMARLアルゴリズム(ROCOMA)を提案する。
実験により、rocomaは効果的でロバストなリバランスポリシーを学習できることが示されている。
モデル不確実性がある場合、非ロバスト marl メソッドよりも優れる。
システムフェアネスを19.6%向上させ、再バランスコストを75.8%削減する。 Electric vehicles (EVs) play critical roles in autonomous mobility-on-demand (AMoD) systems, but their unique charging patterns increase the model uncertainties in AMoD systems (e.g. state transition probability). Since there usually exists a mismatch between the training and test (true) environments, incorporating model uncertainty into system design is of critical importance in real-world applications. However, model uncertainties have not been considered explicitly in EV AMoD system rebalancing by existing literature yet and remain an urgent and challenging task. In this work, we design a robust and constrained multi-agent reinforcement learning (MARL) framework with transition kernel uncertainty for the EV rebalancing and charging problem. We then propose a robust and constrained MARL algorithm (ROCOMA) that trains a robust EV rebalancing policy to balance the supply-demand ratio and the charging utilization rate across the whole city under state transition uncertainty. Experiments show that the ROCOMA can learn an effective and robust rebalancing policy. It outperforms non-robust MARL methods when there are model uncertainties. It increases the system fairness by 19.6% and decreases the rebalancing costs by 75.8%. | 翻訳日:2022-09-20 20:22:48 公開日:2022-09-17 |
# DiPietro-Hazari Kappa: アノテーションによるラベル付け品質の評価方法 DiPietro-Hazari Kappa: A Novel Metric for Assessing Labeling Quality via Annotation ( http://arxiv.org/abs/2209.08243v1 ) ライセンス: Link先を確認 | Daniel M. DiPietro and Vivek Hazari | (参考訳) データは現代の機械学習の重要な要素であるが、データラベルの品質を評価する統計は文献に乏しいままである。
本稿では,人間のアノテーションの文脈で提案されたデータセットラベルの品質を評価するための新しい統計指標であるDiPietro-Hazari Kappaを紹介する。
古典的なフライスのカッパ測度(英語版)において、ディピエトロ・ハザーリカッパ(英語版)はランダムな確率で達成された経験的アノテータ合意の差を定量化する。
我々は、Fleiss's Kappaを徹底的に理論的に検証し、DiPietro-Hazari Kappaを導出する。
最後に,行列の定式化と簡単な計算実装のための手続き命令のセットで結論付ける。 Data is a key component of modern machine learning, but statistics for assessing data label quality remain sparse in literature. Here, we introduce DiPietro-Hazari Kappa, a novel statistical metric for assessing the quality of suggested dataset labels in the context of human annotation. Rooted in the classical Fleiss's Kappa measure of inter-annotator agreement, the DiPietro-Hazari Kappa quantifies the the empirical annotator agreement differential that was attained above random chance. We offer a thorough theoretical examination of Fleiss's Kappa before turning to our derivation of DiPietro-Hazari Kappa. Finally, we conclude with a matrix formulation and set of procedural instructions for easy computational implementation. | 翻訳日:2022-09-20 20:14:41 公開日:2022-09-17 |
# 効果的な個人識別インスタンスの生成による公平性テストの強化 Enhanced Fairness Testing via Generating Effective Initial Individual Discriminatory Instances ( http://arxiv.org/abs/2209.08321v1 ) ライセンス: Link先を確認 | Minghua Ma, Zhao Tian, Max Hort, Federica Sarro, Hongyu Zhang, Qingwei Lin, Dongmei Zhang | (参考訳) 公正テストは、データ駆動型AIシステムの意思決定プロセスにおける意図しない差別を軽減することを目的としている。
個人差別は、AIモデルが年齢や人種などの保護された属性にのみ依存する2つの異なる個人に対して異なる決定を行うときに起こりうる。
このようなインスタンスは偏りのあるAIの振る舞いを明らかにし、個人識別インスタンス(IDI)と呼ばれる。
本稿では,初期種子の選択による公平度評価のためのIDI生成手法を提案する。
これまでの研究は主にランダムな初期種子を用いていた。
しかし、これらの種子は後続のIDI生成の基礎となるため、この相は重要である。
提案するシード選択アプローチをi&dと呼びました。
フェアネステストの全体的なパフォーマンス向上を目的とした、非常に多様性のある初期IDIを多数生成する。
我々の実証研究は、I&Dが4つの最先端のシード生成アプローチに対してより多くのIDIを生成でき、平均して1.68倍のIDIを生成できることを示した。
さらに、機械学習モデルのトレーニングにI&Dを使うことを比較し、I&Dを使用することで、最先端技術と比較して残りのIDIの数を29%削減できることから、I&Dがモデル公正性向上に有効であることを示す。 Fairness testing aims at mitigating unintended discrimination in the decision-making process of data-driven AI systems. Individual discrimination may occur when an AI model makes different decisions for two distinct individuals who are distinguishable solely according to protected attributes, such as age and race. Such instances reveal biased AI behaviour, and are called Individual Discriminatory Instances (IDIs). In this paper, we propose an approach for the selection of the initial seeds to generate IDIs for fairness testing. Previous studies mainly used random initial seeds to this end. However this phase is crucial, as these seeds are the basis of the follow-up IDIs generation. We dubbed our proposed seed selection approach I&D. It generates a large number of initial IDIs exhibiting a great diversity, aiming at improving the overall performance of fairness testing. Our empirical study reveal that I&D is able to produce a larger number of IDIs with respect to four state-of-the-art seed generation approaches, generating 1.68X more IDIs on average. Moreover, we compare the use of I&D to train machine learning models and find that using I&D reduces the number of remaining IDIs by 29% when compared to the state-of-the-art, thus indicating that I&D is effective for improving model fairness | 翻訳日:2022-09-20 20:14:25 公開日:2022-09-17 |
# 未確認情報:音に隠れた爆発情報 Unveil the unseen: Exploit information hidden in noise ( http://arxiv.org/abs/2209.08376v1 ) ライセンス: Link先を確認 | Bahdan Zviazhynski, Gareth Conduit | (参考訳) ノイズと不確実性は通常機械学習の敵であり、トレーニングデータのノイズは予測の不確実性と不正確性をもたらす。
しかし,予測を改善するため,ノイズ自体から重要な情報を抽出する機械学習アーキテクチャを開発した。
現象学は、1つのターゲット変数の不確実性を計算し、2番目のターゲット変数を予測する。
この定式化をPbZr$_{0.7}$Sn$_{0.3}$O$_{3}$クリスタルに適用し、誘電率の不確かさを利用して熱容量を外挿し、そうでなければ外挿できない相転移を正確に予測する。
第2の例 -- 液滴の単粒子回折 -- では、粒子数と不確実性を利用して基底真理回折振幅を外挿し、粒子数のみを利用する場合よりもより良い予測を行う。
我々の一般的なフォーマリズムは、物理科学など幅広い応用がある機械学習における不確実性の利用を可能にする。 Noise and uncertainty are usually the enemy of machine learning, noise in training data leads to uncertainty and inaccuracy in the predictions. However, we develop a machine learning architecture that extracts crucial information out of the noise itself to improve the predictions. The phenomenology computes and then utilizes uncertainty in one target variable to predict a second target variable. We apply this formalism to PbZr$_{0.7}$Sn$_{0.3}$O$_{3}$ crystal, using the uncertainty in dielectric constant to extrapolate heat capacity, correctly predicting a phase transition that otherwise cannot be extrapolated. For the second example -- single-particle diffraction of droplets -- we utilize the particle count together with its uncertainty to extrapolate the ground truth diffraction amplitude, delivering better predictions than when we utilize only the particle count. Our generic formalism enables the exploitation of uncertainty in machine learning, which has a broad range of applications in the physical sciences and beyond. | 翻訳日:2022-09-20 20:14:05 公開日:2022-09-17 |
# 高次元バンディットによる広告メディアとターゲットオーディエンス最適化 Advertising Media and Target Audience Optimization via High-dimensional Bandits ( http://arxiv.org/abs/2209.08403v1 ) ライセンス: Link先を確認 | Wenjia Ba, J. Michael Harrison, Harikesh S. Nair | (参考訳) 我々は、広告主がオンラインパブリッシャーのデジタル広告管理を自動化するために利用できるデータ駆動アルゴリズムを提案する。
このアルゴリズムは、広告主が利用可能なターゲットオーディエンスと広告メディアを検索して、オンライン実験を通じてキャンペーンの最良の組み合わせを見つけることができる。
最高のオーディエンスとadの組み合わせを見つけるという問題は、いくつかの異なる課題によって複雑である。
(a)事前の不確実性を解消し、利益のある組み合わせの探索を早めるための積極的な探索の必要性。
(b)選択すべき組み合わせが多数あり、高次元探索定式化がもたらされ、
(c) 成功確率が非常に低く、通常は1%に過ぎません。
我々のアルゴリズム(LRDL、Debiased Lassoによるロジスティック回帰の頭字語)は、アクティブな探索のためのマルチアームバンディットフレームワーク、高次元の処理を行うLassoペナルティ関数、Lassoによって誘導される正規化バイアスを処理する組み込みのデバイアスカーネル、腕間のクロスラーニングを促進する結果のためのセミパラメトリック回帰モデル、の4つの要素を組み合わせることで、これらの課題に対処する。
このアルゴリズムはトンプソン・サンプラーとして実装されており、私たちの知る限りでは、上記のすべての課題を実際に解決できるのはこれが初めてです。
実データおよび合成データを用いたシミュレーションは,本手法が有効であることを示し,最近の高次元バンディット文献のいくつかのベンチマークに対して優れた性能を示す。 We present a data-driven algorithm that advertisers can use to automate their digital ad-campaigns at online publishers. The algorithm enables the advertiser to search across available target audiences and ad-media to find the best possible combination for its campaign via online experimentation. The problem of finding the best audience-ad combination is complicated by a number of distinctive challenges, including (a) a need for active exploration to resolve prior uncertainty and to speed the search for profitable combinations, (b) many combinations to choose from, giving rise to high-dimensional search formulations, and (c) very low success probabilities, typically just a fraction of one percent. Our algorithm (designated LRDL, an acronym for Logistic Regression with Debiased Lasso) addresses these challenges by combining four elements: a multiarmed bandit framework for active exploration; a Lasso penalty function to handle high dimensionality; an inbuilt debiasing kernel that handles the regularization bias induced by the Lasso; and a semi-parametric regression model for outcomes that promotes cross-learning across arms. The algorithm is implemented as a Thompson Sampler, and to the best of our knowledge, it is the first that can practically address all of the challenges above. Simulations with real and synthetic data show the method is effective and document its superior performance against several benchmarks from the recent high-dimensional bandit literature. | 翻訳日:2022-09-20 20:08:07 公開日:2022-09-17 |
# pFedDef: 個人化フェデレーション学習のためのGrey-Box攻撃の回避 pFedDef: Defending Grey-Box Attacks for Personalized Federated Learning ( http://arxiv.org/abs/2209.08412v1 ) ライセンス: Link先を確認 | Taejin Kim, Shubhranshu Singh, Nikhil Madaan and Carlee Joe-Wong | (参考訳) パーソナライズされた連合学習は、分散システムのクライアントが独自のローカルデータに合わせてニューラルネットワークをトレーニングし、他のクライアントの情報を活用することを可能にする。
しかし、クライアントのモデルは、トレーニングフェーズとテストフェーズの両方で攻撃に弱い。
本稿では,他のクライアントを欺くために,テスト時に回避攻撃を仕掛ける敵クライアントの問題に対処する。
例えば、対戦相手はスパムフィルタや、個人化されたフェデレーション学習で訓練されたレコメンデーションシステムを騙して金銭的利益を得る。
対立するクライアントは、分散学習法に基づいて、パーソナライゼーションの度合いが異なるため、"グレーボックス"の状況につながる。
我々は,このような内部回避攻撃の伝達性を,異なる学習法で特徴付け,個人化の程度やクライアントデータの類似度に応じてモデル精度と頑健性のトレードオフを解析した。
我々は,対人訓練を抑制するクライアントのリソース制限を尊重しながら,個人化された対人訓練を行う防衛機構,pFedDefを導入する。
全体として、pFedDefは、連合型対人訓練と比較して、相対的なグレイボックス対人ロバストネスを62%増加させ、限られたシステムリソースの下でも良好に機能する。 Personalized federated learning allows for clients in a distributed system to train a neural network tailored to their unique local data while leveraging information at other clients. However, clients' models are vulnerable to attacks during both the training and testing phases. In this paper we address the issue of adversarial clients crafting evasion attacks at test time to deceive other clients. For example, adversaries may aim to deceive spam filters and recommendation systems trained with personalized federated learning for monetary gain. The adversarial clients have varying degrees of personalization based on the method of distributed learning, leading to a "grey-box" situation. We are the first to characterize the transferability of such internal evasion attacks for different learning methods and analyze the trade-off between model accuracy and robustness depending on the degree of personalization and similarities in client data. We introduce a defense mechanism, pFedDef, that performs personalized federated adversarial training while respecting resource limitations at clients that inhibit adversarial training. Overall, pFedDef increases relative grey-box adversarial robustness by 62% compared to federated adversarial training and performs well even under limited system resources. | 翻訳日:2022-09-20 20:07:40 公開日:2022-09-17 |
# ma2ql:完全分散マルチエージェント強化学習への最小主義的アプローチ MA2QL: A Minimalist Approach to Fully Decentralized Multi-Agent Reinforcement Learning ( http://arxiv.org/abs/2209.08244v1 ) ライセンス: Link先を確認 | Kefan Su, Siyuan Zhou, Chuang Gan, Xiangjun Wang, Zongqing Lu | (参考訳) 分散学習は協調型マルチエージェント強化学習 (MARL) に大きく貢献している。
しかし、非定常性は分散学習において重要な課題である。
本稿では,非定常性問題を最も単純かつ基本的な方法で解決し,エージェントが交互にQ関数を更新する「textit{multi-agent alternate Q-learning} (MA2QL)」を提案する。
ma2qlは完全な分散協調marlに対する \textit{minimalist}アプローチだが、理論的には根拠がある。
各エージェントが各ターンで$\varepsilon$-convergenceを保証した場合、それらの合同ポリシーはナッシュ均衡に収束する。
実際には、MA2QLは独立したQラーニング(IQL)への最小限の変更しか必要としない。
我々は様々な協調型マルチエージェントタスクでMA2QLを経験的に評価する。
結果は、MA2QLが最小限の変更にもかかわらず、MA2QLの有効性を検証するIQLを一貫して上回っていることを示している。 Decentralized learning has shown great promise for cooperative multi-agent reinforcement learning (MARL). However, non-stationarity remains a significant challenge in decentralized learning. In the paper, we tackle the non-stationarity problem in the simplest and fundamental way and propose \textit{multi-agent alternate Q-learning} (MA2QL), where agents take turns to update their Q-functions by Q-learning. MA2QL is a \textit{minimalist} approach to fully decentralized cooperative MARL but is theoretically grounded. We prove that when each agent guarantees a $\varepsilon$-convergence at each turn, their joint policy converges to a Nash equilibrium. In practice, MA2QL only requires minimal changes to independent Q-learning (IQL). We empirically evaluate MA2QL on a variety of cooperative multi-agent tasks. Results show MA2QL consistently outperforms IQL, which verifies the effectiveness of MA2QL, despite such minimal changes. | 翻訳日:2022-09-20 19:56:29 公開日:2022-09-17 |
# データ駆動低ランク近似のための一般化境界の改善とスパーシティパターンの学習 Improved Generalization Bound and Learning of Sparsity Patterns for Data-Driven Low-Rank Approximation ( http://arxiv.org/abs/2209.08281v1 ) ライセンス: Link先を確認 | Shinsaku Sakaue, Taihei Oki | (参考訳) 高速かつ高精度な低ランク近似(LRA)のためのスケッチ行列の学習が注目されている。
最近、Bartlett、Indyk、Wagner (COLT 2022) は学習ベースLRAの一般化を発表した。
具体的には、$m \times n$ の学習されたスケッチ行列を用いてランク-$k$ 近似を行い、各列に $s$ の非零点を持つ、$\tilde{\mathrm{o}}(nsm)$ が \emph{fat shattering dimension} (\tilde{\mathrm{o}}$ hides logarithmic factors) に縛られることを証明した。
私たちは彼らの仕事を構築し、2つの貢献をします。
1. より優れた $\tilde{\mathrm{O}}(nsk)$ bound$k \le m$ を提示します。
境界を得るために、擬逆行列を計算するための低複素性 \emph{Goldberg--Jerrum algorithm} を与える。
2. スケッチ行列のスパーシティパターンが固定されているという従来の研究の仮定を緩和する。
非ゼロの学習位置が脂肪破砕次元を${\mathrm{O}}(ns\log n)$でしか増加しないことを示す。
また,実験により,スパーシティパターンの学習の実際的メリットが確認できた。 Learning sketching matrices for fast and accurate low-rank approximation (LRA) has gained increasing attention. Recently, Bartlett, Indyk, and Wagner (COLT 2022) presented a generalization bound for the learning-based LRA. Specifically, for rank-$k$ approximation using an $m \times n$ learned sketching matrix with $s$ non-zeros in each column, they proved an $\tilde{\mathrm{O}}(nsm)$ bound on the \emph{fat shattering dimension} ($\tilde{\mathrm{O}}$ hides logarithmic factors). We build on their work and make two contributions. 1. We present a better $\tilde{\mathrm{O}}(nsk)$ bound ($k \le m$). En route to obtaining the bound, we give a low-complexity \emph{Goldberg--Jerrum algorithm} for computing pseudo-inverse matrices, which would be of independent interest. 2. We alleviate an assumption of the previous study that the sparsity pattern of sketching matrices is fixed. We prove that learning positions of non-zeros increases the fat shattering dimension only by ${\mathrm{O}}(ns\log n)$. Also, experiments confirm the practical benefit of learning sparsity patterns. | 翻訳日:2022-09-20 19:56:16 公開日:2022-09-17 |
# compose & embellish: 2段階アプローチによるピアノ演奏の構造化 Compose & Embellish: Well-Structured Piano Performance Generation via A Two-Stage Approach ( http://arxiv.org/abs/2209.08212v1 ) ライセンス: Link先を確認 | Shih-Lun Wu, Yi-Hsuan Yang | (参考訳) Transformersのような強力なシーケンスモデルでも、長距離の音楽構造を持つ表現豊かなピアノ演奏を生成することは難しい。
一方、構造が整ったメロディーやリードシート(メロディ+コード)、すなわちより単純な音楽形式を作曲する手法は、より成功を収めた。
そこで我々は,まずリードシートを構成する2段階のTransformerベースのフレームワークを考案し,それを伴奏と表現的タッチで実装する。
このような因子化は、非ピアノデータに対する事前トレーニングを可能にする。
目的および主観的な実験により,コンポジション・アンド・エンベリッシュは芸術の現在の状態と実演の間の構造的ギャップを半減させ,豊かさやコヒーレンスといった他の音楽的側面も改善することを示した。 Even with strong sequence models like Transformers, generating expressive piano performances with long-range musical structures remains challenging. Meanwhile, methods to compose well-structured melodies or lead sheets (melody + chords), i.e., simpler forms of music, gained more success. Observing the above, we devise a two-stage Transformer-based framework that Composes a lead sheet first, and then Embellishes it with accompaniment and expressive touches. Such a factorization also enables pretraining on non-piano data. Our objective and subjective experiments show that Compose & Embellish shrinks the gap in structureness between a current state of the art and real performances by half, and improves other musical aspects such as richness and coherence as well. | 翻訳日:2022-09-20 19:49:11 公開日:2022-09-17 |
# 自律走行における移動物体検出のためのRGBイベント融合 RGB-Event Fusion for Moving Object Detection in Autonomous Driving ( http://arxiv.org/abs/2209.08323v1 ) ライセンス: Link先を確認 | Zhuyun Zhou, Zongwei Wu, R\'emi Boutteau, Fan Yang, C\'edric Demonceaux, Dominique Ginhac | (参考訳) 移動物体検出(MOD)は安全な自動運転を実現するための重要な視覚課題である。
ディープラーニング手法の有効な結果にもかかわらず、既存のアプローチのほとんどはフレームベースでしかなく、ダイナミックなトラフィック参加者を扱う際に適切なパフォーマンスに到達できない可能性がある。
センサ技術の最近の進歩、特にイベントカメラは、移動物体をより良くモデル化するための従来のカメラアプローチを自然に補完することができる。
しかし、イベントベースの作業は、しばしばイベント表現のために事前に定義された時間ウィンドウを採用し、単にイベントから画像強度を推定するために統合し、利用可能な非同期イベントからの豊富な時間情報を無視する。
そこで,新しい視点からRGB-Event融合ネットワークRENetを提案する。このネットワークは2つの相補的モダリティを共同で活用し,自律運転の挑戦シナリオ下でより堅牢なMODを実現する。
具体的には、まず、RGB露光時間とより大きな間隔の両方からイベントフレームをフル活用する、時間的マルチスケールアグリゲーションモジュールを設計する。
次に,両方向融合モジュールを導入し,マルチモーダル特徴のキャリブレーションとヒューズを行う。
ネットワークの性能を評価するために、よく使われるDSECデータセットから、サブMODデータセットを慎重に選択し、注釈付けする。
広範な実験により,提案手法は最先端のrgb-event fusionよりも優れた性能を示した。 Moving Object Detection (MOD) is a critical vision task for successfully achieving safe autonomous driving. Despite plausible results of deep learning methods, most existing approaches are only frame-based and may fail to reach reasonable performance when dealing with dynamic traffic participants. Recent advances in sensor technologies, especially the Event camera, can naturally complement the conventional camera approach to better model moving objects. However, event-based works often adopt a pre-defined time window for event representation, and simply integrate it to estimate image intensities from events, neglecting much of the rich temporal information from the available asynchronous events. Therefore, from a new perspective, we propose RENet, a novel RGB-Event fusion Network, that jointly exploits the two complementary modalities to achieve more robust MOD under challenging scenarios for autonomous driving. Specifically, we first design a temporal multi-scale aggregation module to fully leverage event frames from both the RGB exposure time and larger intervals. Then we introduce a bi-directional fusion module to attentively calibrate and fuse multi-modal features. To evaluate the performance of our network, we carefully select and annotate a sub-MOD dataset from the commonly used DSEC dataset. Extensive experiments demonstrate that our proposed method performs significantly better than the state-of-the-art RGB-Event fusion alternatives. | 翻訳日:2022-09-20 19:33:02 公開日:2022-09-17 |
# 画像再構成のための多レベル改良強化ネットワークの軽量空間チャネル適応協調 Lightweight Spatial-Channel Adaptive Coordination of Multilevel Refinement Enhancement Network for Image Reconstruction ( http://arxiv.org/abs/2209.08337v1 ) ライセンス: Link先を確認 | Yuxi Cai, Huicheng Lai, Zhenghong Jia | (参考訳) ディープラーニングの活発な開発により、多くのcnnベースの画像超解像手法が出現し、従来のアルゴリズムよりも優れた結果を得た。
しかし,ほとんどのアルゴリズムでは,情報交換だけでなく,空間領域とチャネルの特徴を同時に適応的に調整することは困難である。
さらに、注意モジュール間の情報交換は研究者にとってさらに目立たない。
これらの問題を解決するために,マルチレベル改良ネットワーク(MREN)の軽量な空間チャネル適応調整を行った。
具体的には,異なる受容場下でネットワークが興味のある空間領域とチャネル特徴情報を学習できる空間チャネル適応協調ブロックを構築する。
また、空間部とチャネル部との間の対応する特徴処理レベルの情報をジャンプ接続の助けを借りて交換し、両者の調整を実現する。
注意モジュール間の通信ブリッジを単純な線形結合操作で構築し、より正確に連続的にネットワークを誘導し、関心のある情報に注意を向ける。
いくつかの標準テストセットに対する大規模な実験により、MRENは、非常に少数のパラメータと非常に少ない計算複雑性を持つ他の高度なアルゴリズムよりも優れた性能を達成できることが示された。 Benefiting from the vigorous development of deep learning, many CNN-based image super-resolution methods have emerged and achieved better results than traditional algorithms. However, it is difficult for most algorithms to adaptively adjust the spatial region and channel features at the same time, let alone the information exchange between them. In addition, the exchange of information between attention modules is even less visible to researchers. To solve these problems, we put forward a lightweight spatial-channel adaptive coordination of multilevel refinement enhancement networks(MREN). Specifically, we construct a space-channel adaptive coordination block, which enables the network to learn the spatial region and channel feature information of interest under different receptive fields. In addition, the information of the corresponding feature processing level between the spatial part and the channel part is exchanged with the help of jump connection to achieve the coordination between the two. We establish a communication bridge between attention modules through a simple linear combination operation, so as to more accurately and continuously guide the network to pay attention to the information of interest. Extensive experiments on several standard test sets have shown that our MREN achieves superior performance over other advanced algorithms with a very small number of parameters and very low computational complexity. | 翻訳日:2022-09-20 19:32:43 公開日:2022-09-17 |
# ニューラルネットワークを用いた能動ロボット3次元再構成のための不確実性誘導ポリシー Uncertainty Guided Policy for Active Robotic 3D Reconstruction using Neural Radiance Fields ( http://arxiv.org/abs/2209.08409v1 ) ライセンス: Link先を確認 | Soomin Lee, Le Chen, Jiahao Wang, Alexander Liniger, Suryansh Kumar, Fisher Yu | (参考訳) 本稿では,ロボットによる物体の3次元再構築の課題について述べる。
特に,腕付きカメラを有する移動ロボットは,物体の3d形状を効率的に復元するために好適な数のビューを選択することができる。
この問題に対する既存の解決策とは対照的に、我々は、最近様々なコンピュータビジョンタスクで印象的な結果を示した人気のあるニューラルラミアンスフィールドベースのオブジェクト表現を利用する。
しかし、そのような表現を用いて、オブジェクトの明示的な3次元幾何学的詳細を直接推論することは容易ではなく、密集した3次元再構成における次のビュー選択問題を困難にしている。
本稿では,物体の暗黙的神経表現の各光線に沿った色サンプルの重み分布のエントロピーを計算するレイベース体積不確実性推定器を提案する。
提案した推定器を用いた新しい視点から, 基礎となる3次元形状の不確かさを推測できることを示す。
次に,ニューラル・ラミアンス・フィールドに基づく表現における光量的不確かさに導かれる次回のベスト・ビュー選択方針を示す。
本論文は,ロボットビジョンの次世代問題に対する暗黙の3次元オブジェクト表現を,明示的な3次元幾何モデリングに頼っている既存のアプローチと区別し,新たな研究の方向性を示すものであることを示唆する。 In this paper, we tackle the problem of active robotic 3D reconstruction of an object. In particular, we study how a mobile robot with an arm-held camera can select a favorable number of views to recover an object's 3D shape efficiently. Contrary to the existing solution to this problem, we leverage the popular neural radiance fields-based object representation, which has recently shown impressive results for various computer vision tasks. However, it is not straightforward to directly reason about an object's explicit 3D geometric details using such a representation, making the next-best-view selection problem for dense 3D reconstruction challenging. This paper introduces a ray-based volumetric uncertainty estimator, which computes the entropy of the weight distribution of the color samples along each ray of the object's implicit neural representation. We show that it is possible to infer the uncertainty of the underlying 3D geometry given a novel view with the proposed estimator. We then present a next-best-view selection policy guided by the ray-based volumetric uncertainty in neural radiance fields-based representations. Encouraging experimental results on synthetic and real-world data suggest that the approach presented in this paper can enable a new research direction of using an implicit 3D object representation for the next-best-view problem in robot vision applications, distinguishing our approach from the existing approaches that rely on explicit 3D geometric modeling. | 翻訳日:2022-09-20 19:32:22 公開日:2022-09-17 |
# dytanvo: 動的環境における視覚オドメトリと運動セグメンテーションの合同改良 DytanVO: Joint Refinement of Visual Odometry and Motion Segmentation in Dynamic Environments ( http://arxiv.org/abs/2209.08430v1 ) ライセンス: Link先を確認 | Shihao Shen and Yilin Cai and Wenshan Wang and Sebastian Scherer | (参考訳) 学習ベースビジュアル・オドメトリー(VO)アルゴリズムは、高容量モデルと大量の注釈付きデータの恩恵を受けながら、動的で人口密度の高い環境では失敗する傾向がある。
セマンティクスセグメンテーションは、カメラの動きを推定する前にダイナミックな関連を破棄するために主に使用されるが、静的な特徴を破棄するコストがかかるため、未認識のカテゴリにスケールアップするのは難しい。
本稿では,カメラエゴモーションとモーションセグメンテーションの相互依存性を活用し,単一学習ベースで協調的に両者を洗練できることを示す。
特に,動的環境を扱う最初の教師付き学習ベースVO法であるDytanVOを提案する。
2つの連続した単眼フレームをリアルタイムで取得し、反復的にカメラのエゴモーションを予測する。
本手法は,現実の動的環境における最先端VOソリューションよりも平均27.7%向上し,バックエンド上での軌跡を最適化する動的視覚SLAMシステムと競合する性能を実現している。
また,本手法の一般化可能性を示す実験も行った。 Learning-based visual odometry (VO) algorithms achieve remarkable performance on common static scenes, benefiting from high-capacity models and massive annotated data, but tend to fail in dynamic, populated environments. Semantic segmentation is largely used to discard dynamic associations before estimating camera motions but at the cost of discarding static features and is hard to scale up to unseen categories. In this paper, we leverage the mutual dependence between camera ego-motion and motion segmentation and show that both can be jointly refined in a single learning-based framework. In particular, we present DytanVO, the first supervised learning-based VO method that deals with dynamic environments. It takes two consecutive monocular frames in real-time and predicts camera ego-motion in an iterative fashion. Our method achieves an average improvement of 27.7% in ATE over state-of-the-art VO solutions in real-world dynamic environments, and even performs competitively among dynamic visual SLAM systems which optimize the trajectory on the backend. Experiments on plentiful unseen environments also demonstrate our method's generalizability. | 翻訳日:2022-09-20 19:31:59 公開日:2022-09-17 |
# グラフクィルティングのための低ランク共分散補完と機能接続性への応用 Low-Rank Covariance Completion for Graph Quilting with Applications to Functional Connectivity ( http://arxiv.org/abs/2209.08273v1 ) ライセンス: Link先を確認 | Andersen Chang and Lili Zheng and Genevera I. Allen | (参考訳) 高次元のネットワークを推定するためのツールとして、グラフィカルモデルがカルシウムイメージングデータに適用され、機能的ニューロン接続、すなわちニューロンの活動間の関係を推定する。
しかし、多くのカルシウムイメージングデータセットでは、ニューロンの全集団が同時に記録されるのではなく、部分的に重複するブロックで記録される。
Vinci et.al. 2019) で最初に紹介されたグラフキルティング問題は、特徴のサブセットのみを共同で観察する場合に、完全なグラフの構造を推測することを目的としている。
本稿では,グラフ構造を推定する前に,まず,低ランクな共分散補完手法を用いて完全共分散行列を暗示するグラフ量子化手法を提案する。
この問題を解決するために,ブロック特異値分解,核ノルムペナライゼーション,非凸低ランク分解という3つの手法を導入する。
先行研究は低ランク行列の完全性を研究してきたが、ブロック的な欠如によって引き起こされる課題に対処し、グラフ学習の文脈でこの問題を最初に調査した。
ブロック欠落を伴う行列補完のための新しいL無限ノルム誤差境界を証明し, 提案手法のグラフ選択整合性を示す2段階法の理論的性質について論じる。
そこで本研究では,提案手法のシミュレーションと実世界データを用いて実験を行い,カルシウムイメージングデータから機能的結合度を推定する手法の有効性について検討した。 As a tool for estimating networks in high dimensions, graphical models are commonly applied to calcium imaging data to estimate functional neuronal connectivity, i.e. relationships between the activities of neurons. However, in many calcium imaging data sets, the full population of neurons is not recorded simultaneously, but instead in partially overlapping blocks. This leads to the Graph Quilting problem, as first introduced by (Vinci et.al. 2019), in which the goal is to infer the structure of the full graph when only subsets of features are jointly observed. In this paper, we study a novel two-step approach to Graph Quilting, which first imputes the complete covariance matrix using low-rank covariance completion techniques before estimating the graph structure. We introduce three approaches to solve this problem: block singular value decomposition, nuclear norm penalization, and non-convex low-rank factorization. While prior works have studied low-rank matrix completion, we address the challenges brought by the block-wise missingness and are the first to investigate the problem in the context of graph learning. We discuss theoretical properties of the two-step procedure, showing graph selection consistency of one proposed approach by proving novel L infinity-norm error bounds for matrix completion with block-missingness. We then investigate the empirical performance of the proposed methods on simulations and on real-world data examples, through which we show the efficacy of these methods for estimating functional connectivity from calcium imaging data. | 翻訳日:2022-09-20 19:22:59 公開日:2022-09-17 |
# 画像ソナーを用いたニューラルインシシデント表面の再構成 Neural Implicit Surface Reconstruction using Imaging Sonar ( http://arxiv.org/abs/2209.08221v1 ) ライセンス: Link先を確認 | Mohamad Qadri, Michael Kaess, Ioannis Gkioulekas | (参考訳) 本稿では,前向きソナー(FLS)と呼ばれる画像ソナーを用いて,物体の高密度3次元再構成を行う手法を提案する。
シーン幾何学を点雲や体積格子としてモデル化する従来の手法と比較して、この幾何学をニューラル暗黙関数として表現する。
さらに,このような表現を仮定して,音波伝搬をモデル化して撮像ソナー計測を合成する微分可能なボリュームリフレクタを用いる。
我々は,実データと合成データを用いて実験を行い,本アルゴリズムは,従来よりも高精細なFLS画像から高精細な表面形状を再構成し,それに伴うメモリオーバーヘッドに悩まされることを実証した。 We present a technique for dense 3D reconstruction of objects using an imaging sonar, also known as forward-looking sonar (FLS). Compared to previous methods that model the scene geometry as point clouds or volumetric grids, we represent the geometry as a neural implicit function. Additionally, given such a representation, we use a differentiable volumetric renderer that models the propagation of acoustic waves to synthesize imaging sonar measurements. We perform experiments on real and synthetic datasets and show that our algorithm reconstructs high-fidelity surface geometry from multi-view FLS images at much higher quality than was possible with previous techniques and without suffering from their associated memory overhead. | 翻訳日:2022-09-20 19:21:09 公開日:2022-09-17 |
# CARNet:ポイントクラウド属性の圧縮アーチファクト削減 CARNet:Compression Artifact Reduction for Point Cloud Attribute ( http://arxiv.org/abs/2209.08276v1 ) ライセンス: Link先を確認 | Dandan Ding, Junzhe Zhang, Jianqiang Wang, Zhan Ma | (参考訳) Geometry-based Point Cloud Compression (G-PCC) 標準の学習型適応ループフィルタを開発した。
提案手法は, 圧縮歪近似としてmpsos (most-probable sample offsets) を複数生成し, 人工物除去のために線形重み付けを行う。
そのため, フィルタされた再構成は, 可能な限り非圧縮PCAに近いように運転する。
この目的のために,MPSOとMPSOの組み合わせの2つの連続処理フェーズからなる圧縮アーチファクト削減ネットワーク(CARNet)を考案した。
MPSOの導出は、2ストリームネットワークを用いて直接空間埋め込みと周波数依存埋め込みから局所近傍の変動をモデル化し、スパース畳み込みを利用してスパースおよび不規則に分散した点からの情報を最適に集約する。
MPSOの組み合わせは最小二乗誤差で導かれ、ハエの重み付け係数を導出し、入力PCAのコンテンツダイナミクスをさらに捉える。
CARNetはGPCCのループ内フィルタリングツールとして実装されており、これらの線形重み付け係数は無視できるビットレートオーバーヘッドでビットストリームにカプセル化される。
実験の結果,最新のgpccと比較して主観的および客観的に有意な改善が認められた。 A learning-based adaptive loop filter is developed for the Geometry-based Point Cloud Compression (G-PCC) standard to reduce attribute compression artifacts. The proposed method first generates multiple Most-Probable Sample Offsets (MPSOs) as potential compression distortion approximations, and then linearly weights them for artifact mitigation. As such, we drive the filtered reconstruction as close to the uncompressed PCA as possible. To this end, we devise a Compression Artifact Reduction Network (CARNet) which consists of two consecutive processing phases: MPSOs derivation and MPSOs combination. The MPSOs derivation uses a two-stream network to model local neighborhood variations from direct spatial embedding and frequency-dependent embedding, where sparse convolutions are utilized to best aggregate information from sparsely and irregularly distributed points. The MPSOs combination is guided by the least square error metric to derive weighting coefficients on the fly to further capture content dynamics of input PCAs. The CARNet is implemented as an in-loop filtering tool of the GPCC, where those linear weighting coefficients are encapsulated into the bitstream with negligible bit rate overhead. Experimental results demonstrate significant improvement over the latest GPCC both subjectively and objectively. | 翻訳日:2022-09-20 19:20:54 公開日:2022-09-17 |
# 対話型顔ビデオにおける表情編集の連続制御 Continuously Controllable Facial Expression Editing in Talking Face Videos ( http://arxiv.org/abs/2209.08289v1 ) ライセンス: Link先を確認 | Zhiyao Sun, Yu-Hui Wen, Tian Lv, Yanan Sun, Ziyang Zhang, Yaoyuan Wang, Yong-Jin Liu | (参考訳) 近年,音声による対面映像生成が注目されている。
しかし、これらの会話ビデオの感情的な編集を連続的に制御可能な表現で行うという問題に対処する研究はほとんどなく、この業界では強い需要がある。
課題は、言語関連表現と感情関連表現が高結合であることである。
一方、従来の画像から画像への変換手法では、ポーズなどの他の属性と表現の結合、すなわち各フレームにおける文字表現の翻訳は、トレーニングデータ分布のバイアスにより、頭の位置が同時に変化する可能性があるため、アプリケーションではうまく機能しない。
そこで本稿では,会話ビデオの高品質な表情編集手法を提案し,ユーザが編集ビデオのターゲット感情を連続的に制御できるようにする。
本研究では,3dmmを用いて顔の動きをキャプチャし,スタイルガンによってモデル化されたテクスチャマップを用いて外観の詳細をキャプチャする,モーション情報編集の特別なケースとして,この課題の新しい視点を提案する。
両方の表現(3dmmとテクスチャマップ)には感情情報が含まれており、ニューラルネットワークによって連続的に修正され、係数/相対空間の平均化によって容易に平滑化することができる。
また,唇の同期と編集表現の誇張の程度とのトレードオフを制御するために,口形状保存損失を導入する。
広範な実験とユーザスタディにより,様々な評価基準において最先端の性能が得られた。 Recently audio-driven talking face video generation has attracted considerable attention. However, very few researches address the issue of emotional editing of these talking face videos with continuously controllable expressions, which is a strong demand in the industry. The challenge is that speech-related expressions and emotion-related expressions are often highly coupled. Meanwhile, traditional image-to-image translation methods cannot work well in our application due to the coupling of expressions with other attributes such as poses, i.e., translating the expression of the character in each frame may simultaneously change the head pose due to the bias of the training data distribution. In this paper, we propose a high-quality facial expression editing method for talking face videos, allowing the user to control the target emotion in the edited video continuously. We present a new perspective for this task as a special case of motion information editing, where we use a 3DMM to capture major facial movements and an associated texture map modeled by a StyleGAN to capture appearance details. Both representations (3DMM and texture map) contain emotional information and can be continuously modified by neural networks and easily smoothed by averaging in coefficient/latent spaces, making our method simple yet effective. We also introduce a mouth shape preservation loss to control the trade-off between lip synchronization and the degree of exaggeration of the edited expression. Extensive experiments and a user study show that our method achieves state-of-the-art performance across various evaluation criteria. | 翻訳日:2022-09-20 19:20:30 公開日:2022-09-17 |
# RGB-DカメラによるUAVナビゲーションと衝突回避のためのリアルタイム動的障害物追跡・マッピングシステム A real-time dynamic obstacle tracking and mapping system for UAV navigation and collision avoidance with an RGB-D camera ( http://arxiv.org/abs/2209.08258v1 ) ライセンス: Link先を確認 | Zhefan Xu, Xiaoyang Zhan, Baihan Chen, Yumeng Xiu, Chenhao Yang, and Kenji Shimada | (参考訳) 混雑した空間における自律ロボットにとって、リアルタイムな動的環境認識は不可欠である。
一般的なボクセルマッピング法は, 任意に複雑な形状の3次元障害物を効率的に表現できるが, 静的障害物と動的障害物の区別は困難であり, 障害物回避性能が制限される。
自動運転には、高度な学習に基づく動的障害物検出アルゴリズムが数多く存在するが、クワッドコプターの限られた計算リソースでは、これらのアプローチでリアルタイムのパフォーマンスを達成できない。
そこで本研究では,rgb-dカメラを用いたクワッドコプター障害物回避のためのリアルタイム動的障害物追跡マッピングシステムを提案する。
提案システムではまず, 占有ボクセルマップを用いた深度画像を用いて動的障害物領域を生成する。
障害物領域の提案では, カルマンフィルタと連続フィルタを用いて動的障害物の追跡を行う。
最後に、追跡された動的障害物の状態を用いたマルコフ連鎖に基づく環境対応軌道予測手法を提案する。
我々は独自のクワッドコプターとナビゲーションプランナーを用いて提案システムを実装した。
シミュレーションおよび物理実験により,本手法は動的環境における障害物をリアルタイムに追跡・表現し,障害物を安全に回避できることを示した。 The real-time dynamic environment perception has become vital for autonomous robots in crowded spaces. Although the popular voxel-based mapping methods can efficiently represent 3D obstacles with arbitrarily complex shapes, they can hardly distinguish between static and dynamic obstacles, leading to the limited performance of obstacle avoidance. While plenty of sophisticated learning-based dynamic obstacle detection algorithms exist in autonomous driving, the quadcopter's limited computation resources cannot achieve real-time performance using those approaches. To address these issues, we propose a real-time dynamic obstacle tracking and mapping system for quadcopter obstacle avoidance using an RGB-D camera. The proposed system first utilizes a depth image with an occupancy voxel map to generate potential dynamic obstacle regions as proposals. With the obstacle region proposals, the Kalman filter and our continuity filter are applied to track each dynamic obstacle. Finally, the environment-aware trajectory prediction method is proposed based on the Markov chain using the states of tracked dynamic obstacles. We implemented the proposed system with our custom quadcopter and navigation planner. The simulation and physical experiments show that our methods can successfully track and represent obstacles in dynamic environments in real-time and safely avoid obstacles. | 翻訳日:2022-09-20 19:13:44 公開日:2022-09-17 |
# ディープラーニングを用いた再構成可能なインテリジェント表面支援変調分類 Reconfigurable Intelligent Surface-assisted Classification of Modulations using Deep Learning ( http://arxiv.org/abs/2209.08388v1 ) ライセンス: Link先を確認 | Mir Lodro, Hamidreza Taghvaee, Jean Baptiste Gros, Steve Greedy, Geofrroy Lerosey, and Gabriele Gradoni | (参考訳) 無線ネットワークの第5世代(5G)は、より適応的で不均一である。
再構成可能なインテリジェントな表面技術により、5gはマルチストランド波形を処理できる。
しかし、そのような動的ネットワークでは、特定の変調型を特定することが重要となる。
本稿では,人工知能に基づくris支援ディジタル分類手法を提案する。
デジタル変調を分類するために畳み込みニューラルネットワークを訓練する。
提案手法は,特徴抽出なしで受信した信号に直接特徴を操作・学習する。
畳み込みニューラルネットワークによって学習された特徴を提示し分析する。
さらに,特定のSNR領域における受信信号のロバスト特性について検討した。
提案手法の精度は特に低レベルのSNRにおいて顕著である。 The fifth generating (5G) of wireless networks will be more adaptive and heterogeneous. Reconfigurable intelligent surface technology enables the 5G to work on multistrand waveforms. However, in such a dynamic network, the identification of specific modulation types is of paramount importance. We present a RIS-assisted digital classification method based on artificial intelligence. We train a convolutional neural network to classify digital modulations. The proposed method operates and learns features directly on the received signal without feature extraction. The features learned by the convolutional neural network are presented and analyzed. Furthermore, the robust features of the received signals at a specific SNR range are studied. The accuracy of the proposed classification method is found to be remarkable, particularly for low levels of SNR. | 翻訳日:2022-09-20 19:13:23 公開日:2022-09-17 |
# 公開ラベルデータを用いた非対話型ローカルプライバシーモデルにおけるpac学習半空間について On PAC Learning Halfspaces in Non-interactive Local Privacy Model with Public Unlabeled Data ( http://arxiv.org/abs/2209.08319v1 ) ライセンス: Link先を確認 | Jinyan Su and Jinhui Xu and Di Wang | (参考訳) 本稿では,非対話型局所微分プライバシーモデル(NLDP)におけるPAC学習ハーフスペースの問題について検討する。
指数的なサンプルの複雑さの障壁を突破するため、以前の結果は、サーバが追加の公開データやラベルなしデータにアクセス可能な緩和された設定を調査した。
私たちはこの方向に進みます。
具体的には,以前検討した大きなマージン設定ではなく,標準設定下での問題を考える。
基礎となるデータ分布について,マッサートノイズモデルと自己教師付き学習に基づく2つのアプローチを提案するとともに,非公開データと公開データの両方において,次元と多項式にのみ線形なサンプル複素性を実現することが可能であり,これまでの結果を大幅に改善できることを示す。
我々の手法は、他のプライベートPAC学習問題にも利用できる。 In this paper, we study the problem of PAC learning halfspaces in the non-interactive local differential privacy model (NLDP). To breach the barrier of exponential sample complexity, previous results studied a relaxed setting where the server has access to some additional public but unlabeled data. We continue in this direction. Specifically, we consider the problem under the standard setting instead of the large margin setting studied before. Under different mild assumptions on the underlying data distribution, we propose two approaches that are based on the Massart noise model and self-supervised learning and show that it is possible to achieve sample complexities that are only linear in the dimension and polynomial in other terms for both private and public data, which significantly improve the previous results. Our methods could also be used for other private PAC learning problems. | 翻訳日:2022-09-20 18:55:57 公開日:2022-09-17 |
# 人的活動の効率的な深層クラスタリングと評価の改善方法 Efficient Deep Clustering of Human Activities and How to Improve Evaluation ( http://arxiv.org/abs/2209.08335v1 ) ライセンス: Link先を確認 | Louis Mahon and Thomas Lukasiewicz | (参考訳) 近年、時計や携帯電話におけるウェアラブルセンサーの普及や、生のセンサー信号から手動で特徴を抽出する必要がない深層学習手法の進歩により、人的活動re-cog\-ni-tion (HAR) に関する研究が盛んに行われている。
HARに適用されるディープラーニングの大きな欠点は、手動でラベル付けされたトレーニングデータが必要であることだ。
教師なしの設定では、トレーニングするラベルを与えられることなく、データにラベルを割り当てることができるdeep harクラスタリングモデルという形で進歩が始まっているが、deep harクラスタリングモデルの評価には問題があるため、フィールドの評価と新しいメソッドの考案が難しい。
本稿では,HARクラスタリングモデルがどのように評価されるかという問題と,これらの問題を詳細に記述し,それらが結果に与える影響を明らかにするための注意深い実験を行う。
次に,これらの問題の解法を議論し,将来の深層クラスタリングモデルの標準評価設定を提案する。
さらに,HARのための新しい深層クラスタリングモデルを提案する。
提案する設定でテストした場合、私たちのモデルは既存のモデルよりもパフォーマンスが良く(あるいは同等)、さらにオートエンコーダの必要性を回避して、より複雑なデータセットにスケールできるのです。 There has been much recent research on human activity re\-cog\-ni\-tion (HAR), due to the proliferation of wearable sensors in watches and phones, and the advances of deep learning methods, which avoid the need to manually extract features from raw sensor signals. A significant disadvantage of deep learning applied to HAR is the need for manually labelled training data, which is especially difficult to obtain for HAR datasets. Progress is starting to be made in the unsupervised setting, in the form of deep HAR clustering models, which can assign labels to data without having been given any labels to train on, but there are problems with evaluating deep HAR clustering models, which makes assessing the field and devising new methods difficult. In this paper, we highlight several distinct problems with how deep HAR clustering models are evaluated, describing these problems in detail and conducting careful experiments to explicate the effect that they can have on results. We then discuss solutions to these problems, and suggest standard evaluation settings for future deep HAR clustering models. Additionally, we present a new deep clustering model for HAR. When tested under our proposed settings, our model performs better than (or on par with) existing models, while also being more efficient and better able to scale to more complex datasets by avoiding the need for an autoencoder. | 翻訳日:2022-09-20 18:55:44 公開日:2022-09-17 |
# 深部ニューラルネットワークにおける早期神経崩壊の誘発による分布外検出の改善 Inducing Early Neural Collapse in Deep Neural Networks for Improved Out-of-Distribution Detection ( http://arxiv.org/abs/2209.08378v1 ) ライセンス: Link先を確認 | Jarrod Haas, William Yolland, Bernhard Rabus | (参考訳) 本稿では,従来提案していたddu(deep deterministic uncertainty)ベンチマークのout-of-distribution(ood)性能を大幅に向上させる,標準resnetアーキテクチャの簡単な修正を提案する。
この変化は早期神経崩壊(英語版)(nc)も引き起こし、より優れたood性能が期待できる効果を示す。
提案手法は,ベンチマークのトレーニング時間のごく一部において,OoD検出スコアと分類精度を比較または比較する。
さらに、複数のランダム初期化モデルに対して最悪のOoD性能を大幅に改善する。
深層ニューラルネットワーク(DNN)におけるOoD動作のメカニズムや包括的説明はNCのみであるとは示唆していないが、NCの単純な数学的および幾何学的構造は、この複雑な現象を将来の研究で分析するための枠組みを提供することができると信じている。 We propose a simple modification to standard ResNet architectures--L2 regularization over feature space--that substantially improves out-of-distribution (OoD) performance on the previously proposed Deep Deterministic Uncertainty (DDU) benchmark. This change also induces early Neural Collapse (NC), which we show is an effect under which better OoD performance is more probable. Our method achieves comparable or superior OoD detection scores and classification accuracy in a small fraction of the training time of the benchmark. Additionally, it substantially improves worst case OoD performance over multiple, randomly initialized models. Though we do not suggest that NC is the sole mechanism or comprehensive explanation for OoD behaviour in deep neural networks (DNN), we believe NC's simple mathematical and geometric structure can provide an framework for analysis of this complex phenomenon in future work. | 翻訳日:2022-09-20 18:55:21 公開日:2022-09-17 |
# 単一決定論的ニューラルネットワークを用いたサンプルベース不確かさ定量化 Sample-based Uncertainty Quantification with a Single Deterministic Neural Network ( http://arxiv.org/abs/2209.08418v1 ) ライセンス: Link先を確認 | Takuya Kanazawa and Chetan Gupta | (参考訳) 正確で柔軟で数値的に効率的な不確実性定量化(uq)法の開発は、機械学習における基本的な課題の1つである。
従来は、トレーニングデータにおけるいわゆるエネルギースコアを最小化してニューラルネットワークをトレーニングするdisCO Nets(Bouchacourt et al., 2016)と呼ばれるUQ手法が提案されていた。
本手法はコンピュータビジョンにおける手振り推定タスクにおいて優れた性能を示してきたが,この手法が表計算データの回帰に適しているかどうか,またNGBoostのような最近の先進的UQ手法とどのように競合するかは定かではない。
本稿では,より安定かつスムーズなトレーニングを実現するために,disCOネットのニューラルネットワークアーキテクチャの改良を提案する。
このアプローチを実世界の雑多な表形式のデータセットにベンチマークし、標準的なUQベースラインと競合するか、さらに優れているかを確認する。
また,予測分布の学習にエネルギースコアを用いることの有効性を示す基礎的証明も提供する。
さらに,ディスコネットの原形は認識的不確実性を無視し,アレエータ的不確実性のみを捉えていることを指摘する。
この問題に対する簡単な修正を提案する。 Development of an accurate, flexible, and numerically efficient uncertainty quantification (UQ) method is one of fundamental challenges in machine learning. Previously, a UQ method called DISCO Nets has been proposed (Bouchacourt et al., 2016) that trains a neural network by minimizing the so-called energy score on training data. This method has shown superior performance on a hand pose estimation task in computer vision, but it remained unclear whether this method works as nicely for regression on tabular data, and how it competes with more recent advanced UQ methods such as NGBoost. In this paper, we propose an improved neural architecture of DISCO Nets that admits a more stable and smooth training. We benchmark this approach on miscellaneous real-world tabular datasets and confirm that it is competitive with or even superior to standard UQ baselines. We also provide a new elementary proof for the validity of using the energy score to learn predictive distributions. Further, we point out that DISCO Nets in its original form ignore epistemic uncertainty and only capture aleatoric uncertainty. We propose a simple fix to this problem. | 翻訳日:2022-09-20 18:55:05 公開日:2022-09-17 |
# 計算決定重みとニューラル分類器の新しい学習アルゴリズム Computed Decision Weights and a New Learning Algorithm for Neural Classifiers ( http://arxiv.org/abs/2209.08422v1 ) ライセンス: Link先を確認 | Eugene Wong | (参考訳) 本稿では,ニューラル分類器の決定層重みをトレーニングするよりも,計算の可能性を検討する。
そのような可能性は、損失関数を適切に選択することと、制約付き最適化の問題を解くことによって生じる。
後者の定式化は、単純さと有効性の両方を備えた事前決定重み付けのための有望な新しい学習プロセスをもたらす。 In this paper we consider the possibility of computing rather than training the decision layer weights of a neural classifier. Such a possibility arises in two way, from making an appropriate choice of loss function and by solving a problem of constrained optimization. The latter formulation leads to a promising new learning process for pre-decision weights with both simplicity and efficacy. | 翻訳日:2022-09-20 18:54:46 公開日:2022-09-17 |
# エンド・ツー・エンド音声認識のための疎結合エキスパートの共有によるパラメーター効率のコンフォーメータ Parameter-Efficient Conformers via Sharing Sparsely-Gated Experts for End-to-End Speech Recognition ( http://arxiv.org/abs/2209.08326v1 ) ライセンス: Link先を確認 | Ye Bai, Jie Li, Wenjing Han, Hao Ni, Kaituo Xu, Zhuo Zhang, Cheng Yi, Xiaorui Wang | (参考訳) 変換器とその変種コンバータは音声認識において有望な性能を示すが、パラメータ化特性はトレーニングや推論において多くのメモリコストをもたらす。
モデルのパラメータを減らすために、層間重量共有を使用する研究もある。
しかし、キャパシティの必然的な損失はモデル性能に悪影響を及ぼす。
この問題に対処するため,本稿では,分散した専門家の共有によるパラメータ効率のよいコンフォーメータを提案する。
具体的には,計算量の増加を伴わずにコンフォーメータブロックの容量を拡張するために,sparsely-gated mixture-of-experts (moe) を用いる。
次に、グループ化されたコンフォメータブロックのパラメータを、パラメータの数を減らすように共有する。
次に、共有ブロックに異なるレベルの表現を適用する柔軟性を確保するため、moeルータと正規化を個別に設計します。
さらに, 知識蒸留を用いて, 性能をさらに向上する。
実験結果から,提案モデルは全パラメータモデルと比較して,エンコーダのパラメータの1/3と競合する性能を示した。 While transformers and their variant conformers show promising performance in speech recognition, the parameterized property leads to much memory cost during training and inference. Some works use cross-layer weight-sharing to reduce the parameters of the model. However, the inevitable loss of capacity harms the model performance. To address this issue, this paper proposes a parameter-efficient conformer via sharing sparsely-gated experts. Specifically, we use sparsely-gated mixture-of-experts (MoE) to extend the capacity of a conformer block without increasing computation. Then, the parameters of the grouped conformer blocks are shared so that the number of parameters is reduced. Next, to ensure the shared blocks with the flexibility of adapting representations at different levels, we design the MoE routers and normalization individually. Moreover, we use knowledge distillation to further improve the performance. Experimental results show that the proposed model achieves competitive performance with 1/3 of the parameters of the encoder, compared with the full-parameter model. | 翻訳日:2022-09-20 18:46:55 公開日:2022-09-17 |
# コード上で意味的クエリに答える学習 Learning to Answer Semantic Queries over Code ( http://arxiv.org/abs/2209.08372v1 ) ライセンス: Link先を確認 | Surya Prakash Sahu, Madhurima Mandal, Shikhar Bharadwaj, Aditya Kanade, Petros Maniatis, Shirish Shevade | (参考訳) ソフトウェア開発では、開発者はコードのセマンティックな側面に関する質問に対する回答が必要である。
ニューラルネットワークを用いた抽出的問合せは自然言語で広く研究されているが、ニューラルネットワークを用いたコードによるセマンティッククエリーの解答の問題はまだ検討されていない。
これは主に、複雑な概念と長い推論の連鎖を含むコードに対して、抽出された質問と回答のペアを持つ既存のデータセットがないためである。
このギャップを埋めるために、CodeQueriesと呼ばれる新しいキュレートされたデータセットを構築し、コードにニューラルな質問回答手法を提案する。
最先端の事前学習されたコードモデルに基づいて、回答とサポート対象のスパンを予測する。
クエリとコードが与えられた場合、クエリに応答するのはコードの一部だけである。
まず、適切なコードのみをモデルに与えて、モデルがうまく機能することを示す理想的な設定の下で実験します。
次に,(1)大規模コードへのスケーリング,(2)限られたサンプルから学ぶこと,(3)コードの小さな構文エラーに対する堅牢性,の3つの実用的考察の下で実験を行った。
その結果、ニューラルネットワークはコード内のマイナーな構文エラーに耐性がある一方で、コードサイズの増加、クエリに関連のないコードの存在、トレーニング例の削減によってモデルのパフォーマンスが制限されることが判明した。
コード上でセマンティッククエリに応答する提案された問題に対する今後の作業を容易にするために、データとモデルをリリースしています。 During software development, developers need answers to queries about semantic aspects of code. Even though extractive question-answering using neural approaches has been studied widely in natural languages, the problem of answering semantic queries over code using neural networks has not yet been explored. This is mainly because there is no existing dataset with extractive question and answer pairs over code involving complex concepts and long chains of reasoning. We bridge this gap by building a new, curated dataset called CodeQueries, and proposing a neural question-answering methodology over code. We build upon state-of-the-art pre-trained models of code to predict answer and supporting-fact spans. Given a query and code, only some of the code may be relevant to answer the query. We first experiment under an ideal setting where only the relevant code is given to the model and show that our models do well. We then experiment under three pragmatic considerations: (1) scaling to large-size code, (2) learning from a limited number of examples and (3) robustness to minor syntax errors in code. Our results show that while a neural model can be resilient to minor syntax errors in code, increasing size of code, presence of code that is not relevant to the query, and reduced number of training examples limit the model performance. We are releasing our data and models to facilitate future work on the proposed problem of answering semantic queries over code. | 翻訳日:2022-09-20 18:46:39 公開日:2022-09-17 |
# 肺気道セグメンテーションのための微分可能位相保存距離変換 Differentiable Topology-Preserved Distance Transform for Pulmonary Airway Segmentation ( http://arxiv.org/abs/2209.08355v1 ) ライセンス: Link先を確認 | Minghui Zhang, Guang-Zhong Yang, Yun Gu | (参考訳) 肺気道の詳細な分割は気管支内治療および末梢肺癌病変の治療において臨床的に重要な課題である。
畳み込みニューラルネットワーク (CNN) は医用画像解析のための有望なツールであるが, 気道データや主気管支がボクセルの大半を占めるのに対して, 気道データには不均衡な特徴分布が存在する場合, ローバーブロンチと遠位分節気管支はわずかに占める。
本稿では,気道セグメンテーションの性能向上を目的とした,微分位相保存距離変換(DTPDT)フレームワークを提案する。
クラス内分布のトレーニング進捗を等しくするために,まず,トポロジー保存サーロゲート(tps)学習戦略を提案する。
さらに, 畳み込み距離変換 (CDT) は, 感度の向上による破断現象の同定を図り, 予測と接地構造との距離マップのばらつきを最小化する。
提案手法は,公開参照気道セグメンテーションデータセットを用いて検証する。 Detailed pulmonary airway segmentation is a clinically important task for endobronchial intervention and treatment of peripheral lung cancer lesions. Convolutional Neural Networks (CNNs) are promising tools for medical image analysis but have been performing poorly for cases when there is a significantly imbalanced feature distribution, which is true for the airway data as the trachea and principal bronchi dominate most of the voxels whereas the lobar bronchi and distal segmental bronchi occupy only a small proportion. In this paper, we propose a Differentiable Topology-Preserved Distance Transform (DTPDT) framework to improve the performance of airway segmentation. A Topology-Preserved Surrogate (TPS) learning strategy is first proposed to equalize the training progress within-class distribution. Furthermore, a Convolutional Distance Transform (CDT) is designed to identify the breakage phenomenon with improved sensitivity, minimizing the variation of the distance map between the prediction and ground-truth. The proposed method is validated with the publicly available reference airway segmentation datasets. | 翻訳日:2022-09-20 18:12:13 公開日:2022-09-17 |
# セグメンテーションモデルは、完全に合成されたデータで訓練できるのか? Can segmentation models be trained with fully synthetically generated data? ( http://arxiv.org/abs/2209.08256v1 ) ライセンス: Link先を確認 | Virginia Fernandez (1), Walter Hugo Lopez Pinaya (1), Pedro Borges (1), Petru-Daniel Tudosiu (1), Mark S Graham (1), Tom Vercauteren (1), M Jorge Cardoso ((1) King's College London) | (参考訳) 優れた性能と汎用性を達成するために,医療画像分割モデルは,十分な可変性を持つサイズ可能なデータセットで訓練する必要がある。
倫理やガバナンスの制限、データラベル付けに伴うコストなどにより、科学的な開発は抑制され、限られたデータでトレーニングやテストが行われる。
データ拡張は、データ分布の変動を人工的に増加させ、モデルの一般化性を改善するためにしばしば用いられる。
最近の研究は、画像合成のための深い生成モデルを模索しており、そのようなアプローチは、汎用性とデータアクセスの問題に対処するために、効果的に無限量の可変データを生成することができる。
しかし、多くの提案されたソリューションは、生成されるものに対するユーザの制御を制限する。
本研究では,合成拡散型ラベル生成器と意味画像生成器を組み合わせたモデルであるbrainspadeを提案する。
本モデルでは, 興味の病理の有無に関わらず, オンデマンドで完全合成脳ラベルを作成し, 任意のガイド型MRI画像を生成する。
BrainSPADE合成データは、実際のデータでトレーニングされたモデルに匹敵するパフォーマンスでセグメンテーションモデルをトレーニングするために使用できる。 In order to achieve good performance and generalisability, medical image segmentation models should be trained on sizeable datasets with sufficient variability. Due to ethics and governance restrictions, and the costs associated with labelling data, scientific development is often stifled, with models trained and tested on limited data. Data augmentation is often used to artificially increase the variability in the data distribution and improve model generalisability. Recent works have explored deep generative models for image synthesis, as such an approach would enable the generation of an effectively infinite amount of varied data, addressing the generalisability and data access problems. However, many proposed solutions limit the user's control over what is generated. In this work, we propose brainSPADE, a model which combines a synthetic diffusion-based label generator with a semantic image generator. Our model can produce fully synthetic brain labels on-demand, with or without pathology of interest, and then generate a corresponding MRI image of an arbitrary guided style. Experiments show that brainSPADE synthetic data can be used to train segmentation models with performance comparable to that of models trained on real data. | 翻訳日:2022-09-20 18:03:33 公開日:2022-09-17 |
# SoftGroup++:Octree Pyramid Groupingによるスケーラブルな3Dインスタンスセグメンテーション SoftGroup++: Scalable 3D Instance Segmentation with Octree Pyramid Grouping ( http://arxiv.org/abs/2209.08263v1 ) ライセンス: Link先を確認 | Thang Vu, Kookhoi Kim, Tung M. Luu, Thanh Nguyen, Junyeong Kim, Chang D. Yoo | (参考訳) 既存の最先端の3Dポイントクラウドインスタンスセグメンテーションメソッドは、グループがオブジェクトインスタンスを取得するために指しているグループベースのアプローチに依存している。
正確なセグメンテーション結果の生成の改善にもかかわらず、これらの手法はスケーラビリティに欠け、通常、大きな入力を複数の部分に分割する必要がある。
数百万のポイントでシーンを処理するために、既存の最速のメソッドであるSoftGroup \cite{vu2022softgroup}は、満足のいく数秒を必要とする。
我々の発見は、グループ化の前提条件である$k$-Nearest Neighbor(k$-NN)が計算ボトルネックであることである。
このボトルネックは、多数のポイントを持つシーンの推論時間を著しく悪化させる。
本稿では,この計算ボトルネックに対処するためにsoftgroup++を提案し,ネットワーク全体の推論速度をさらに最適化する。
SoftGroup++ is built upon SoftGroup, which differs in three important aspects: (1) performs octree $k$-NN instead of vanilla $k$-NN to reduce time complexity from $\mathcal{O}(n^2)$ to $\mathcal{O}(n \log n)$, (2) performs pyramid scaling that adaptively downsamples backbone outputs to reduce search space for $k$-NN and grouping, and (3) performs late devoxelization that delays the conversion from voxels to points towards the end of the model such that intermediate components operate at a low computational cost.
様々な屋内および屋外データセットに対する大規模な実験は、提案したSoftGroup++の有効性を示す。
特にsoftgroup++は、入力を複数の部分に分割することなく、何百万ものポイントの大きなシーンを1回ずつ処理し、コンテキスト情報を豊かにする。
特にsoftgroup++ は 2.4 ポイント ap$_{50}$ 改善を達成し、s3dis データセットの既存の最速メソッドよりも 6\times$ に近い。
コードとトレーニングされたモデルは公開されます。 Existing state-of-the-art 3D point cloud instance segmentation methods rely on a grouping-based approach that groups points to obtain object instances. Despite improvement in producing accurate segmentation results, these methods lack scalability and commonly require dividing large input into multiple parts. To process a scene with millions of points, the existing fastest method SoftGroup \cite{vu2022softgroup} requires tens of seconds, which is under satisfaction. Our finding is that $k$-Nearest Neighbor ($k$-NN), which serves as the prerequisite of grouping, is a computational bottleneck. This bottleneck severely worsens the inference time in the scene with a large number of points. This paper proposes SoftGroup++ to address this computational bottleneck and further optimize the inference speed of the whole network. SoftGroup++ is built upon SoftGroup, which differs in three important aspects: (1) performs octree $k$-NN instead of vanilla $k$-NN to reduce time complexity from $\mathcal{O}(n^2)$ to $\mathcal{O}(n \log n)$, (2) performs pyramid scaling that adaptively downsamples backbone outputs to reduce search space for $k$-NN and grouping, and (3) performs late devoxelization that delays the conversion from voxels to points towards the end of the model such that intermediate components operate at a low computational cost. Extensive experiments on various indoor and outdoor datasets demonstrate the efficacy of the proposed SoftGroup++. Notably, SoftGroup++ processes large scenes of millions of points by a single forward without dividing the input into multiple parts, thus enriching contextual information. Especially, SoftGroup++ achieves 2.4 points AP$_{50}$ improvement while nearly $6\times$ faster than the existing fastest method on S3DIS dataset. The code and trained models will be made publicly available. | 翻訳日:2022-09-20 18:03:14 公開日:2022-09-17 |
# 6DOF エッジ付点ペア特徴量に基づく3次元剛体物体の姿勢推定 6DOF Pose Estimation of a 3D Rigid Object based on Edge-enhanced Point Pair Features ( http://arxiv.org/abs/2209.08266v1 ) ライセンス: Link先を確認 | Chenyi Liu, Fei Chen, Lu Deng, Renjiao Yi, Lintao Zheng, Chenyang Zhu, Jia Wang, Kai Xu | (参考訳) 点対特徴(PPF)は6次元ポーズ推定に広く用いられている。
本稿では,PPFフレームワークに基づく効率的な6次元ポーズ推定手法を提案する。
我々は,複雑な幾何学の効率的な特徴抽出のために,エッジ領域に焦点をあてた,十分に目標を絞ったダウンサンプリング戦略を提案する。
エッジマッチング度を計算し,対称なあいまいさを解消するために,ポーズ仮説検証手法を提案する。
2つの挑戦的データセットと1つの実世界収集データセットの評価を行い、幾何学的に複雑で隠蔽された対称なオブジェクトのポーズ推定における手法の優位性を実証した。
さらに,本手法を模擬穿刺に応用して検証する。 The point pair feature (PPF) is widely used for 6D pose estimation. In this paper, we propose an efficient 6D pose estimation method based on the PPF framework. We introduce a well-targeted down-sampling strategy that focuses more on edge area for efficient feature extraction of complex geometry. A pose hypothesis validation approach is proposed to resolve the symmetric ambiguity by calculating edge matching degree. We perform evaluations on two challenging datasets and one real-world collected dataset, demonstrating the superiority of our method on pose estimation of geometrically complex, occluded, symmetrical objects. We further validate our method by applying it to simulated punctures. | 翻訳日:2022-09-20 18:02:48 公開日:2022-09-17 |
# MiNL:光場のためのマイクロイメージに基づくニューラル表現 MiNL: Micro-images based Neural Representation for Light Fields ( http://arxiv.org/abs/2209.08277v1 ) ライセンス: Link先を確認 | Hanxin Zhu, Henan Wang and Zhibo Chen | (参考訳) ライトフィールドの伝統的な表現は、明示表現と暗黙表現の2つのタイプに分けられる。
サブアパーチャ画像(SAI)ベースの配列やマイクロイメージ(MI)ベースのレンズレット画像として光場を表現する明示的表現とは異なり、暗黙的表現は光場を神経ネットワークとして扱う。
しかし、現在、光場に対する暗黙の表現は、SAIを用いて4次元空間角座標からピクセル色へのピクセルワイズマッピングを学習し、これはコンパクトでも複雑さの低いものでもない。
そこで本論文では,MLP + CNN を訓練し,2次元 MI 座標から MI 色へのマッピングを学習する光場のための新しい MI-wise implicit neural representation である MiNL を提案する。
マイクロイメージの座標から、MiNLは対応するマイクロイメージのRGB値を出力する。
MiNLの光フィールド符号化は、単にニューラルネットワークをトレーニングしてマイクロイメージを回帰させ、復号処理は単純なフィードフォワード操作である。
一般的なピクセル単位の暗示表現と比較すると、MiNLはよりコンパクトで効率的であり、より高速な復号速度(\textbf{$\times$80$\sim$180} スピードアップ)と視覚的品質(平均では\textbf{1$\sim$4dB} PSNRの改善)を持つ。 Traditional representations for light fields can be separated into two types: explicit representation and implicit representation. Unlike explicit representation that represents light fields as Sub-Aperture Images (SAIs) based arrays or Micro-Images (MIs) based lenslet images, implicit representation treats light fields as neural networks, which is inherently a continuous representation in contrast to discrete explicit representation. However, at present almost all the implicit representations for light fields utilize SAIs to train an MLP to learn a pixel-wise mapping from 4D spatial-angular coordinate to pixel colors, which is neither compact nor of low complexity. Instead, in this paper we propose MiNL, a novel MI-wise implicit neural representation for light fields that train an MLP + CNN to learn a mapping from 2D MI coordinates to MI colors. Given the micro-image's coordinate, MiNL outputs the corresponding micro-image's RGB values. Light field encoding in MiNL is just training a neural network to regress the micro-images and the decoding process is a simple feedforward operation. Compared with common pixel-wise implicit representation, MiNL is more compact and efficient that has faster decoding speed (\textbf{$\times$80$\sim$180} speed-up) as well as better visual quality (\textbf{1$\sim$4dB} PSNR improvement on average). | 翻訳日:2022-09-20 18:02:36 公開日:2022-09-17 |
# changer: 機能インタラクションは、変更検出に必要なものです。 Changer: Feature Interaction is What You Need for Change Detection ( http://arxiv.org/abs/2209.08290v1 ) ライセンス: Link先を確認 | Sheng Fang, Kaiyu Li, Zhe Li | (参考訳) 変化検出は、長期地球観測ミッションにとって重要なツールである。
バイタイムイメージを入力として取り、変化が起きた"場所"を予測する。
他の密集した予測タスクとは異なり、変更検出に意味のある考慮は、両時間的特徴間の相互作用である。
このモチベーションにより、本論文では、特徴抽出器に一連の代替的な相互作用層を含む、新しい汎用的な変更検出アーキテクチャであるmetachangerを提案する。
そこで我々は,MetaChangerの有効性を検証するために,単純なインタラクション戦略であるAggregation-Distribution(AD)と"Exchange"の2つの派生モデルであるChangerADとChangerExを提案する。
ad はいくつかの複雑な相互作用法から抽象化され、"exchange" は完全にパラメータ\&computation-free 操作である。
さらに、両時間的特徴のアライメントを改善するために、インタラクティブなアライメントと特徴融合を可能にするフローデュアルアライメント融合(FDAF)モジュールを提案する。
重要な点として、異なるスケール変化検出データセットにおいて、Changerシリーズモデルが競合性能を達成するのを観察する。
さらに、提案するchangeradおよびchangerexは、将来のmetachanger設計の出発となるベースラインとなり得る。 Change detection is an important tool for long-term earth observation missions. It takes bi-temporal images as input and predicts "where" the change has occurred. Different from other dense prediction tasks, a meaningful consideration for change detection is the interaction between bi-temporal features. With this motivation, in this paper we propose a novel general change detection architecture, MetaChanger, which includes a series of alternative interaction layers in the feature extractor. To verify the effectiveness of MetaChanger, we propose two derived models, ChangerAD and ChangerEx with simple interaction strategies: Aggregation-Distribution (AD) and "exchange". AD is abstracted from some complex interaction methods, and "exchange" is a completely parameter\&computation-free operation by exchanging bi-temporal features. In addition, for better alignment of bi-temporal features, we propose a flow dual-alignment fusion (FDAF) module which allows interactive alignment and feature fusion. Crucially, we observe Changer series models achieve competitive performance on different scale change detection datasets. Further, our proposed ChangerAD and ChangerEx could serve as a starting baseline for future MetaChanger design. | 翻訳日:2022-09-20 18:02:10 公開日:2022-09-17 |
# Active-Passive SimStereo --Deep Learning-based Stereo Methodのクロスジェネリゼーション能力のベンチマーク Active-Passive SimStereo -- Benchmarking the Cross-Generalization Capabilities of Deep Learning-based Stereo Methods ( http://arxiv.org/abs/2209.08305v1 ) ライセンス: Link先を確認 | Laurent Jospin and Allen Antony and Lian Xu and Hamid Laga and Farid Boussaid and Mohammed Bennamoun | (参考訳) ステレオビジョンでは、自己相似領域またはbland領域は、2つの画像間のパッチのマッチングが困難になる。
アクティブステレオベースの手法では、シーンに擬似ランダムパターンを投影することにより、画像ペアの各パッチを曖昧さなく識別できる。
しかし、投影されたパターンは画像の外観を著しく変化させる。
もしこのパターンが敵対的なノイズの一形態として振る舞うなら、深層学習に基づく手法の性能に悪影響を及ぼす可能性がある。
本稿では,ステレオマッチングアルゴリズムにおける受動ステレオ画像とアクティブステレオ画像のパフォーマンスギャップを評価するために,Active-Passive SimStereoデータセットとそれに対応するベンチマークを提案する。
提案するベンチマークと追加のアブレーション研究を用いて,選択した20種類のディープラーニングに基づくステレオマッチング手法の特徴抽出とマッチングモジュールを問題なくアクティブステレオに一般化することを示した。
しかし,3つのアーキテクチャ(acvnet,cascadestereo,ステレオネット)の異なる細分化モジュールは,入力画像の出現に依存するため,アクティブステレオパターンに負の影響を受けている。 In stereo vision, self-similar or bland regions can make it difficult to match patches between two images. Active stereo-based methods mitigate this problem by projecting a pseudo-random pattern on the scene so that each patch of an image pair can be identified without ambiguity. However, the projected pattern significantly alters the appearance of the image. If this pattern acts as a form of adversarial noise, it could negatively impact the performance of deep learning-based methods, which are now the de-facto standard for dense stereo vision. In this paper, we propose the Active-Passive SimStereo dataset and a corresponding benchmark to evaluate the performance gap between passive and active stereo images for stereo matching algorithms. Using the proposed benchmark and an additional ablation study, we show that the feature extraction and matching modules of a selection of twenty selected deep learning-based stereo matching methods generalize to active stereo without a problem. However, the disparity refinement modules of three of the twenty architectures (ACVNet, CascadeStereo, and StereoNet) are negatively affected by the active stereo patterns due to their reliance on the appearance of the input images. | 翻訳日:2022-09-20 18:01:50 公開日:2022-09-17 |
# 動的アーリーエグジットネットワークのための重み付け学習 Learning to Weight Samples for Dynamic Early-exiting Networks ( http://arxiv.org/abs/2209.08310v1 ) ライセンス: Link先を確認 | Yizeng Han, Yifan Pu, Zihang Lai, Chaofei Wang, Shiji Song, Junfen Cao, Wenhui Huang, Chao Deng, Gao Huang | (参考訳) 早期終了は、ディープネットワークの推論効率を改善する効果的なパラダイムである。
リソース要求の異なる分類器(出口)を構築することで、そのようなネットワークは早期出口で容易にサンプルを出力でき、より深い層を実行する必要がなくなる。
既存の研究は主にマルチエグジットネットワークのアーキテクチャ設計に焦点を当てているが、そのようなモデルのトレーニング戦略は明らかにされていない。
現在の最先端モデルは、トレーニング中にすべてのサンプルを扱います。
しかし、テストの初期段階の振る舞いは無視され、トレーニングとテストの間にギャップが生じた。
本稿では,サンプル重み付けによりこのギャップを埋めることを提案する。
直感的には、推論中に一般的にネットワークの早期から出る簡単なサンプルは、早期分類器の訓練にもっと貢献するだろう。
しかし、ハードサンプルのトレーニング(主に深い層から出る)は、後期分類器によって強調されるべきである。
本研究は,各出口における異なるトレーニングサンプルの損失を重み付けする重み予測ネットワークの採用を提案する。
この重み予測ネットワークとバックボーンモデルは、新しい最適化目標を持つメタラーニングフレームワークの下で共同最適化される。
提案する重み付け機構は,推論中の適応動作をトレーニングフェーズに持ち込むことにより,分類精度と推論効率のトレードオフを一貫して改善することを示す。
コードはhttps://github.com/LeapLabTHU/L2W-DENで入手できる。 Early exiting is an effective paradigm for improving the inference efficiency of deep networks. By constructing classifiers with varying resource demands (the exits), such networks allow easy samples to be output at early exits, removing the need for executing deeper layers. While existing works mainly focus on the architectural design of multi-exit networks, the training strategies for such models are largely left unexplored. The current state-of-the-art models treat all samples the same during training. However, the early-exiting behavior during testing has been ignored, leading to a gap between training and testing. In this paper, we propose to bridge this gap by sample weighting. Intuitively, easy samples, which generally exit early in the network during inference, should contribute more to training early classifiers. The training of hard samples (mostly exit from deeper layers), however, should be emphasized by the late classifiers. Our work proposes to adopt a weight prediction network to weight the loss of different training samples at each exit. This weight prediction network and the backbone model are jointly optimized under a meta-learning framework with a novel optimization objective. By bringing the adaptive behavior during inference into the training phase, we show that the proposed weighting mechanism consistently improves the trade-off between classification accuracy and inference efficiency. Code is available at https://github.com/LeapLabTHU/L2W-DEN. | 翻訳日:2022-09-20 18:01:30 公開日:2022-09-17 |
# oa-slam: visual slamのカメラ再ローカライズにオブジェクトを活用する OA-SLAM: Leveraging Objects for Camera Relocalization in Visual SLAM ( http://arxiv.org/abs/2209.08338v1 ) ライセンス: Link先を確認 | Matthieu Zins, Gilles Simon, Marie-Odile Berger | (参考訳) そこで本研究では,未確認世界の同時局所化とマッピングにおけるオブジェクトの利用について検討し,オブジェクト支援システム(OA-SLAM)を提案する。
より正確には、低レベルな点と比較して、オブジェクトの主な利点は、その高レベルな意味と識別力にあることを示します。
一方、点は対象(立方体または楕円体)を表すために使われる一般的な粗いモデルよりも空間的局所化精度が高い。
カメラポーズ回復の問題に対処するためには,ポイントとオブジェクトを組み合わせることが大きな関心事であることを示す。
主な貢献は,(1)高レベルなオブジェクトランドマークを用いたSLAMシステムの再ローカライズ能力の向上,(2)3次元楕円体を用いたオブジェクトの識別・追跡・再構成が可能な自動システムの構築,(3)カメラ追跡の開始・再開にオブジェクトベースのローカライズを使用できることを示すことである。
私たちの完全に自動化されたシステムは、オンザフライのオブジェクトマッピングとポーズトラッキングのリカバリを可能にします。
実験では,古典的手法が失敗する視点からカメラを再局在化できることを示した。
このローカライズによって、slamシステムがトラッキング損失を被っても動作し続けることが可能となり、非開始ユーザでも頻繁に発生することを実証する。
コードとテストデータはgitlab.inria.fr/tangram/oa-slamでリリースしています。 In this work, we explore the use of objects in Simultaneous Localization and Mapping in unseen worlds and propose an object-aided system (OA-SLAM). More precisely, we show that, compared to low-level points, the major benefit of objects lies in their higher-level semantic and discriminating power. Points, on the contrary, have a better spatial localization accuracy than the generic coarse models used to represent objects (cuboid or ellipsoid). We show that combining points and objects is of great interest to address the problem of camera pose recovery. Our main contributions are: (1) we improve the relocalization ability of a SLAM system using high-level object landmarks; (2) we build an automatic system, capable of identifying, tracking and reconstructing objects with 3D ellipsoids; (3) we show that object-based localization can be used to reinitialize or resume camera tracking. Our fully automatic system allows on-the-fly object mapping and enhanced pose tracking recovery, which we think, can significantly benefit to the AR community. Our experiments show that the camera can be relocalized from viewpoints where classical methods fail. We demonstrate that this localization allows a SLAM system to continue working despite a tracking loss, which can happen frequently with an uninitiated user. Our code and test data are released at gitlab.inria.fr/tangram/oa-slam. | 翻訳日:2022-09-20 18:01:10 公開日:2022-09-17 |
# JPEG圧縮画像を用いた効率的な画像位置認識 Data Efficient Visual Place Recognition Using Extremely JPEG-Compressed Images ( http://arxiv.org/abs/2209.08343v1 ) ライセンス: Link先を確認 | Mihnea-Alexandru Tomita, Bruno Ferrarini, Michael Milford, Klaus McDonald-Maier, Shoaib Ehsan | (参考訳) 視覚位置認識(英: visual place recognition、vpr)とは、視覚刺激を内蔵カメラから正しく解釈し、視点、照明、外観の異なる場所に現在位置しているかどうかを判断するロボットプラットフォームの機能である。
JPEGは広く使われている画像圧縮標準であり、画像の明快さを犠牲にして画像のサイズを大幅に削減することができる。
複数のロボットプラットフォームを同時にデプロイするアプリケーションでは、収集したビジュアルデータを各ロボット間でリモート送信する必要がある。
したがって、JPEG圧縮を用いることで、VPRの帯域幅が限られているため、通信チャネルを介して送信されるデータ量を劇的に削減することができる。
しかし、JPEG圧縮が現在のVPR技術の性能に与える影響は、これまで研究されていない。
そこで本研究では,vpr関連シナリオにおけるjpeg圧縮の詳細な研究を行う。
各種圧縮を施した8つのデータセットに対して,確立されたVPR手法を選択する。
圧縮を導入することにより、特に高い圧縮スペクトルにおいて、VPR性能が大幅に低下することを示す。
JPEG圧縮がVPR性能に与える影響を克服するために,JPEG圧縮データに最適化された微調整CNNを提案する。 Visual Place Recognition (VPR) is the ability of a robotic platform to correctly interpret visual stimuli from its on-board cameras in order to determine whether it is currently located in a previously visited place, despite different viewpoint, illumination and appearance changes. JPEG is a widely used image compression standard that is capable of significantly reducing the size of an image at the cost of image clarity. For applications where several robotic platforms are simultaneously deployed, the visual data gathered must be transmitted remotely between each robot. Hence, JPEG compression can be employed to drastically reduce the amount of data transmitted over a communication channel, as working with limited bandwidth for VPR can be proven to be a challenging task. However, the effects of JPEG compression on the performance of current VPR techniques have not been previously studied. For this reason, this paper presents an in-depth study of JPEG compression in VPR related scenarios. We use a selection of well-established VPR techniques on 8 datasets with various amounts of compression applied. We show that by introducing compression, the VPR performance is drastically reduced, especially in the higher spectrum of compression. To overcome the negative effects of JPEG compression on the VPR performance, we present a fine-tuned CNN which is optimized for JPEG compressed data and show that it performs more consistently with the image transformations detected in extremely compressed JPEG images. | 翻訳日:2022-09-20 18:00:47 公開日:2022-09-17 |
# 影の点をもつ形状の完成 Shape Completion with Points in the Shadow ( http://arxiv.org/abs/2209.08345v1 ) ライセンス: Link先を確認 | Bowen Zhang, Xi Zhao, He Wang, Ruizhen Hu | (参考訳) 単一視点のクラウド補完は、限られた観測のみに基づいてオブジェクトの完全な幾何学を復元することを目的としている。
主な課題は、未制約で巨大な解空間に苦しむ部分スキャンに基づいて、オブジェクトの観測できない部分を埋めるために、妥当なジオメトリを生成することである。
コンピュータグラフィックスにおける古典的なシャドウボリューム技術に着想を得て,解空間を効果的に削減する新しい手法を提案する。
本手法では,カメラを物体に光を照射する光源とみなす。
このような光線は、ある程度制約があるが十分に表現力のある基礎を完成させる。
そして、完了過程を点変位最適化問題として定式化する。
点は部分走査で初期化され、各点に対して2種類の運動を行い、光線に沿った方向の動きと、形状改善のための制限された局所運動である。
我々はニューラルネットワークを設計し、完了結果を得るために理想的な点運動を予測する。
本手法は, 徹底的な評価と比較により, 精度, 頑健, 一般化できることを実証する。
さらに、MVPデータセット上で、最先端のメソッドを質的に、定量的に上回る。 Single-view point cloud completion aims to recover the full geometry of an object based on only limited observation, which is extremely hard due to the data sparsity and occlusion. The core challenge is to generate plausible geometries to fill the unobserved part of the object based on a partial scan, which is under-constrained and suffers from a huge solution space. Inspired by the classic shadow volume technique in computer graphics, we propose a new method to reduce the solution space effectively. Our method considers the camera a light source that casts rays toward the object. Such light rays build a reasonably constrained but sufficiently expressive basis for completion. The completion process is then formulated as a point displacement optimization problem. Points are initialized at the partial scan and then moved to their goal locations with two types of movements for each point: directional movements along the light rays and constrained local movement for shape refinement. We design neural networks to predict the ideal point movements to get the completion results. We demonstrate that our method is accurate, robust, and generalizable through exhaustive evaluation and comparison. Moreover, it outperforms state-of-the-art methods qualitatively and quantitatively on MVP datasets. | 翻訳日:2022-09-20 18:00:27 公開日:2022-09-17 |
# 画像インペインティングのテクスチャと構造をグローバルに表現する Delving Globally into Texture and Structure for Image Inpainting ( http://arxiv.org/abs/2209.08217v1 ) ライセンス: Link先を確認 | Haipeng Liu, Yang Wang, Meng Wang, Yong Rui | (参考訳) 画像の塗布は目覚ましい進歩を遂げ、豊富な手法にインスピレーションを与え、重要なボトルネックは、マスキング領域における高周波構造と低周波テクスチャ情報のセマンティクスを満たす方法として特定される。
この目的のために、深層モデルはそれらを捉えるのに強力な優位を示すが、局所的な空間領域に制限されている。
本稿では,テクスチャ情報と構造情報にグローバルに目を移し,イメージインパインティングのセマンティクスをよく把握する。
独立した局所パッチに閉じ込められた既存の芸術とは対照的に、各パッチのテクスチャ情報は画像全体の他のパッチから再構成され、粗く満たされた情報、特に仮面領域上の構造情報と一致する。
画像インペイントのための画素レベルの現在のデコーダのみの変換器とは異なり、当社のモデルはエンコーダとデコーダの両方を組み合わせたトランスフォーマパイプラインを採用する。
一方、エンコーダは、自己アテンションモジュールを介して、画像にまたがるすべてのパッチのテクスチャセマンティクス相関をキャプチャする。
一方、マスク領域上の充填パッチのデコーダには、適応パッチ語彙が動的に設定される。
これに基づいて、既知の領域に固定された構造的テクスチャマッチングアテンションモジュールが登場し、確率的拡散過程を通じて進行的塗布を行う2つの世界の長所と結婚する。
我々のモデルは、テクスチャと構造情報の観点から、CNN(Convolutional Neural Networks)やAttention、Transformerモデルといったファッショナブルな芸術に直交している。
ベンチマークに関する広範な実験は、その優位性を検証する。
私たちのコードはhttps://github.com/htyjers/dgts-inpaintingで利用可能です。 Image inpainting has achieved remarkable progress and inspired abundant methods, where the critical bottleneck is identified as how to fulfill the high-frequency structure and low-frequency texture information on the masked regions with semantics. To this end, deep models exhibit powerful superiority to capture them, yet constrained on the local spatial regions. In this paper, we delve globally into texture and structure information to well capture the semantics for image inpainting. As opposed to the existing arts trapped on the independent local patches, the texture information of each patch is reconstructed from all other patches across the whole image, to match the coarsely filled information, specially the structure information over the masked regions. Unlike the current decoder-only transformer within the pixel level for image inpainting, our model adopts the transformer pipeline paired with both encoder and decoder. On one hand, the encoder captures the texture semantic correlations of all patches across image via self-attention module. On the other hand, an adaptive patch vocabulary is dynamically established in the decoder for the filled patches over the masked regions. Building on this, a structure-texture matching attention module anchored on the known regions comes up to marry the best of these two worlds for progressive inpainting via a probabilistic diffusion process. Our model is orthogonal to the fashionable arts, such as Convolutional Neural Networks (CNNs), Attention and Transformer model, from the perspective of texture and structure information for image inpainting. The extensive experiments over the benchmarks validate its superiority. Our code is available at https://github.com/htyjers/DGTS-Inpainting. | 翻訳日:2022-09-20 17:53:18 公開日:2022-09-17 |
# コントラスト学習によるマイトショット分類 Few-Shot Classification with Contrastive Learning ( http://arxiv.org/abs/2209.08224v1 ) ライセンス: Link先を確認 | Zhanyuan Yang, Jinghua Wang, Yingying Zhu | (参考訳) 逐次事前トレーニングとメタトレーニングの2段階のトレーニングパラダイムは、現在のマイノリティ・ショット・ラーニング(fsl)研究で広く使われている。
これらの手法の多くは、新しい最先端の成果を達成するために、自己教師付き学習とコントラスト学習を用いる。
しかし、FSLトレーニングパラダイムの両段階におけるコントラスト学習の可能性はまだ十分に活用されていない。
本稿では,コントラスト学習を両段階にシームレスに統合し,一括分類の性能を向上する,新しいコントラスト学習ベースのフレームワークを提案する。
事前学習の段階では,特徴ベクトル対特徴マップと特徴マップ対特徴マップの形式での自己教師付きコントラストロスを提案し,グローバルおよびローカル情報を用いて優れた初期表現を学習する。
メタトレーニング段階では,同一エピソードの2つの異なる視点で最寄りのセントロイド分類を行い,それらに基づいて距離スケールのコントラスト損失を採用するクロスビュー・エピソディック・トレーニング機構を提案する。
これら2つの戦略は、ビュー間のバイアスを克服し、表現の転送可能性を促進する。
3つのベンチマークデータセットの大規模な実験により,本手法が競合する結果が得られることが示された。 A two-stage training paradigm consisting of sequential pre-training and meta-training stages has been widely used in current few-shot learning (FSL) research. Many of these methods use self-supervised learning and contrastive learning to achieve new state-of-the-art results. However, the potential of contrastive learning in both stages of FSL training paradigm is still not fully exploited. In this paper, we propose a novel contrastive learning-based framework that seamlessly integrates contrastive learning into both stages to improve the performance of few-shot classification. In the pre-training stage, we propose a self-supervised contrastive loss in the forms of feature vector vs. feature map and feature map vs. feature map, which uses global and local information to learn good initial representations. In the meta-training stage, we propose a cross-view episodic training mechanism to perform the nearest centroid classification on two different views of the same episode and adopt a distance-scaled contrastive loss based on them. These two strategies force the model to overcome the bias between views and promote the transferability of representations. Extensive experiments on three benchmark datasets demonstrate that our method achieves competitive results. | 翻訳日:2022-09-20 17:52:49 公開日:2022-09-17 |
# イメージキャプションのための固有点と代表モードの学習 Learning Distinct and Representative Modes for Image Captioning ( http://arxiv.org/abs/2209.08231v1 ) ライセンス: Link先を確認 | Qi Chen, Chaorui Deng, Qi Wu | (参考訳) 長年にわたり、最先端(SoTA)画像キャプション手法は、いくつかの評価指標(例えばCIDEr)で有望な結果を得た。
しかし、近年の研究では、これらの手法によって生成されたキャプションは、トレーニングコーパスの最も一般的なモード(言語パターン)のみをキャプチャする「平均」キャプション、すなわちいわゆるモード崩壊問題に偏りがあることが示されている。
その影響で生成されたキャプションは多様性に制限され、人間による自然なイメージ記述よりも情報に乏しい。
本稿では,画像キャプションのための離散モード学習(DML)パラダイムを提案することによって,この問題を回避する。
私たちの革新的なアイデアは、トレーニングキャプションコーパスのリッチなモードを調べて、"モード埋め込み"のセットを学び、さらに既存の画像キャプションモデルで生成されたキャプションのモードを制御することです。
具体的には、画像条件付き離散変分オートエンコーダ(CdVAE)ブランチとモード条件付きイメージキャプション(MIC)ブランチで構成されるデュアルアーキテクチャを最適化する。
CdVAEブランチは、各画像キャプションを学習コードブックに格納されたモード埋め込みの1つにマッピングし、純粋な非自己回帰生成目標を用いてトレーニングし、モードを区別し、代表する。
MICブランチは、モード埋め込みを制御信号として元の単語埋め込みに追加する既存の画像キャプションモデルから簡単に変更することができる。
実験では,提案したDMLをTransformerとAoANetの2つの広く使われている画像キャプションモデルに適用した。
その結果、学習モード埋め込みは、異なるモードの高品質な画像キャプションを生成するのに成功し、mscocoデータセットの多様性と品質の両方でパフォーマンスが向上することが示された。 Over the years, state-of-the-art (SoTA) image captioning methods have achieved promising results on some evaluation metrics (e.g., CIDEr). However, recent findings show that the captions generated by these methods tend to be biased toward the "average" caption that only captures the most general mode (a.k.a, language pattern) in the training corpus, i.e., the so-called mode collapse problem. Affected by it, the generated captions are limited in diversity and usually less informative than natural image descriptions made by humans. In this paper, we seek to avoid this problem by proposing a Discrete Mode Learning (DML) paradigm for image captioning. Our innovative idea is to explore the rich modes in the training caption corpus to learn a set of "mode embeddings", and further use them to control the mode of the generated captions for existing image captioning models. Specifically, the proposed DML optimizes a dual architecture that consists of an image-conditioned discrete variational autoencoder (CdVAE) branch and a mode-conditioned image captioning (MIC) branch. The CdVAE branch maps each image caption to one of the mode embeddings stored in a learned codebook, and is trained with a pure non-autoregressive generation objective to make the modes distinct and representative. The MIC branch can be simply modified from an existing image captioning model, where the mode embedding is added to the original word embeddings as the control signal. In the experiments, we apply the proposed DML to two widely used image captioning models, Transformer and AoANet. The results show that the learned mode embedding successfully facilitates these models to generate high-quality image captions with different modes, further leading to better performance for both diversity and quality on the MSCOCO dataset. | 翻訳日:2022-09-20 17:52:30 公開日:2022-09-17 |
# 画像品質と物体の距離が物体検出性能に与える影響の理解 Understanding the Impact of Image Quality and Distance of Objects to Object Detection Performance ( http://arxiv.org/abs/2209.08237v1 ) ライセンス: Link先を確認 | Yu Hao, Haoyang Pei, Yixuan Lyu, Zhongzheng Yuan, John-Ross Rizzo, Yao Wang, Yi Fang | (参考訳) 深層学習は画像の物体検出に大きく貢献している。
物体検出の精度と計算コストは画像の空間分解能に依存しており、カメラと記憶の双方に制約される可能性がある。
圧縮はしばしば、空間分解能または振幅分解能のどちらかを減らすことによって達成される。
検出精度は、カメラからの関心対象の距離にも依存する。
本研究では,物体検出精度と計算コストに対する空間分解能,振幅分解能,物体距離の影響について検討する。
入力画像の空間分解能に基づいて特徴ピラミッドと検出ヘッドのスケール数を変化させる解像度適応型 YOLOv5 (RA-YOLO) を開発した。
本手法の訓練と評価のために,TJUデータセットとEurocityデータセットの画像を組み合わせ,空間的リサイズと圧縮を適用して異なる解像度を生成することにより,多様な空間的・振幅的解像度を持つ画像のデータセットを構築した。
RA-YOLOは,空間分解能の広い範囲において,検出精度と推定時間とのトレードオフが良好であることを示す。
提案したRA-YOLOモデルを用いて,空間分解能と振幅分解能が物体検出精度に与える影響を評価する。
高い検出精度をもたらす最適な空間分解能は「許容された」画像サイズに依存することを実証する。
さらに,被写体とカメラの距離が検出精度に与える影響を評価し,高い空間分解能で検出範囲が大きくなることを示す。
これらの結果は, 利用可能な帯域幅, ストレージ, 所望の推測時間および/または所望の検出範囲に基づいて, 画像空間解像度と圧縮設定を選択するための重要なガイドラインを提供する。 Deep learning has made great strides for object detection in images. The detection accuracy and computational cost of object detection depend on the spatial resolution of an image, which may be constrained by both the camera and storage considerations. Compression is often achieved by reducing either spatial or amplitude resolution or, at times, both, both of which have well-known effects on performance. Detection accuracy also depends on the distance of the object of interest from the camera. Our work examines the impact of spatial and amplitude resolution, as well as object distance, on object detection accuracy and computational cost. We develop a resolution-adaptive variant of YOLOv5 (RA-YOLO), which varies the number of scales in the feature pyramid and detection head based on the spatial resolution of the input image. To train and evaluate this new method, we created a dataset of images with diverse spatial and amplitude resolutions by combining images from the TJU and Eurocity datasets and generating different resolutions by applying spatial resizing and compression. We first show that RA-YOLO achieves a good trade-off between detection accuracy and inference time over a large range of spatial resolutions. We then evaluate the impact of spatial and amplitude resolutions on object detection accuracy using the proposed RA-YOLO model. We demonstrate that the optimal spatial resolution that leads to the highest detection accuracy depends on the 'tolerated' image size. We further assess the impact of the distance of an object to the camera on the detection accuracy and show that higher spatial resolution enables a greater detection range. These results provide important guidelines for choosing the image spatial resolution and compression settings predicated on available bandwidth, storage, desired inference time, and/or desired detection range, in practical applications. | 翻訳日:2022-09-20 17:51:55 公開日:2022-09-17 |
# 深度マップによる高速・高精度・物体境界面の正規化 Fast, Accurate and Object Boundary-Aware Surface Normal Estimation from Depth Maps ( http://arxiv.org/abs/2209.08241v1 ) ライセンス: Link先を確認 | Saed Moradi, Alireza Memarmoghadam, Denis Laurendeau | (参考訳) 本稿では,深度マップ(集合点雲)上で直接使用できる高速かつ高精度な表面正規推定法を提案する。
表面正規推定過程は閉形式式として定式化される。
測定ノイズの影響を低減するために、平均化操作を多方向方式で利用する。
マルチディレクティブ正規推定プロセスを次のステップで再構成し、効率的に実施する。
最後に, 深度不連続度における誤った正規推定を除去するために, 単純で効果的な手法を提案する。
提案手法はよく知られた表面正規推定アルゴリズムと比較される。
その結果,提案アルゴリズムは,精度の面ではベースラインアルゴリズムを上回るだけでなく,リアルタイムアプリケーションに適用できるほど高速であることがわかった。 This paper proposes a fast and accurate surface normal estimation method which can be directly used on depth maps (organized point clouds). The surface normal estimation process is formulated as a closed-form expression. In order to reduce the effect of measurement noise, the averaging operation is utilized in multi-direction manner. The multi-direction normal estimation process is reformulated in the next step to be implemented efficiently. Finally, a simple yet effective method is proposed to remove erroneous normal estimation at depth discontinuities. The proposed method is compared to well-known surface normal estimation algorithms. The results show that the proposed algorithm not only outperforms the baseline algorithms in term of accuracy, but also is fast enough to be used in real-time applications. | 翻訳日:2022-09-20 17:51:28 公開日:2022-09-17 |
# triplere: 3重関係ベクトルによる知識グラフ埋め込み TripleRE: Knowledge Graph Embeddings via Tripled Relation Vectors ( http://arxiv.org/abs/2209.08271v1 ) ライセンス: Link先を確認 | Long Yu, Zhicong Luo, Huanyong Liu, Deng Lin, Hongzhu Li, Yafeng Deng | (参考訳) 翻訳に基づく知識グラフの埋め込みは、TransEの登場以来、知識表現学習において最も重要な分野の1つである。
近年、多くの翻訳ベースのアプローチがある程度進歩を遂げているが、その性能はまだ満足のいくものではなかった。
本稿では,TripleREという名前の知識グラフを2つのバージョンで埋め込む手法を提案する。
triplereの最初のバージョンは、創造的に関係ベクトルを3つの部分に分割する。
2つ目のバージョンは残余の概念を利用し、より良いパフォーマンスを達成する。
さらに、エンティティをエンコードするためにnodepieceを使用する試みは、パラメトリックサイズの削減に有望な結果をもたらし、スケーラビリティの問題を解決した。
実験により,大規模ナレッジグラフデータセットにおける最先端性能と,他のデータセットでの競合性能が得られた。 Translation-based knowledge graph embedding has been one of the most important branches for knowledge representation learning since TransE came out. Although many translation-based approaches have achieved some progress in recent years, the performance was still unsatisfactory. This paper proposes a novel knowledge graph embedding method named TripleRE with two versions. The first version of TripleRE creatively divide the relationship vector into three parts. The second version takes advantage of the concept of residual and achieves better performance. In addition, attempts on using NodePiece to encode entities achieved promising results in reducing the parametric size, and solved the problems of scalability. Experiments show that our approach achieved state-of-the-art performance on the large-scale knowledge graph dataset, and competitive performance on other datasets. | 翻訳日:2022-09-20 17:43:16 公開日:2022-09-17 |
# APPDIA:攻撃的ソーシャルメディア会話のための対話型トランスフォーマーに基づくスタイル伝達モデル APPDIA: A Discourse-aware Transformer-based Style Transfer Model for Offensive Social Media Conversations ( http://arxiv.org/abs/2209.08207v1 ) ライセンス: Link先を確認 | Katherine Atwell, Sabit Hassan, Malihe Alikhani | (参考訳) スタイル移行モデルを使ってソーシャルメディアコメントの不快さを減らすことは、より包括的な環境を育むのに役立つ。
しかし、攻撃的テキストとその非攻撃的テキストを含む巨大なデータセットは存在せず、ラベル付きデータに制限のある微調整された事前学習モデルは、スタイル変換されたテキストに本来の意味が失われる可能性がある。
この問題に対処するため、私たちは2つの大きな貢献をします。
まず、初回公開のRedditコメントのパラレルコーパスと、専門家の社会言語学者によって注釈付けされたスタイル変換されたコメントをリリースする。
次に,原文の意味を維持しつつ,redditテキストの不快感を効果的に低減できる最初の談話認識スタイル伝達モデルを提案する。
これらのモデルは、Redditの攻撃的なテキストのスタイルを転送する際に返信するコメントとテキストの間の推論リンクを最初に調べたものだ。
我々は,事前学習されたトランスフォーマーモデルと談話関係を統合するための2つの異なる方法を提案し,redditとそれに対する攻撃的コメントのデータセット上で評価する。
自動計測と人的評価の両面でのベースラインの改善は、私たちの言論認識モデルは、最先端の言論認識モデルと比較して、スタイル変換テキストにおける意味を保存するのに優れていることを示している。 Using style-transfer models to reduce offensiveness of social media comments can help foster a more inclusive environment. However, there are no sizable datasets that contain offensive texts and their inoffensive counterparts, and fine-tuning pretrained models with limited labeled data can lead to the loss of original meaning in the style-transferred text. To address this issue, we provide two major contributions. First, we release the first publicly-available, parallel corpus of offensive Reddit comments and their style-transferred counterparts annotated by expert sociolinguists. Then, we introduce the first discourse-aware style-transfer models that can effectively reduce offensiveness in Reddit text while preserving the meaning of the original text. These models are the first to examine inferential links between the comment and the text it is replying to when transferring the style of offensive Reddit text. We propose two different methods of integrating discourse relations with pretrained transformer models and evaluate them on our dataset of offensive comments from Reddit and their inoffensive counterparts. Improvements over the baseline with respect to both automatic metrics and human evaluation indicate that our discourse-aware models are better at preserving meaning in style-transferred text when compared to the state-of-the-art discourse-agnostic models. | 翻訳日:2022-09-20 17:34:47 公開日:2022-09-17 |
# 柔軟で構造化された知識に基づく質問応答 Flexible and Structured Knowledge Grounded Question Answering ( http://arxiv.org/abs/2209.08284v1 ) ライセンス: Link先を確認 | Yujie Lu, Siqi Ouyang, Kairui Zhou | (参考訳) 言語モデル(lm) 基礎的質問応答(qa)タスクは、固有の関係推論能力を通じてナレッジベースで実現できるか?
LMのみを使用する以前のモデルは、多くのQAタスクでいくつかの成功を収めてきたが、より最近の手法には、論理駆動の暗黙の知識でLMを補完する知識グラフ(KG)が含まれる。
しかしながら、KGsのような構造化データから効果的に情報を抽出することで、LMがオープンな質問を継続する権限を与え、現在のモデルは知識を抽出するためにグラフ技術に依存している。
本稿では,知識に基づく質問応答のための言語と知識を,柔軟性,範囲の広さ,構造化推論との組み合わせにのみ活用することを提案する。
具体的には,従来のGNN技術よりも包括性を表現した動的ホップを用いて,関連するコンテキストを検索する知識構築手法を考案する。
そして、言語と知識の間のボトルネックを交換する情報を橋渡しする深層融合機構を考案する。
広汎な実験により,我々のモデルはCommensenseQAベンチマークの最先端性能を常に実証し,知識ベースにしっかりとQAを基盤としてのみLMを活用する可能性を示している。 Can language models (LM) ground question-answering (QA) tasks in the knowledge base via inherent relational reasoning ability? While previous models that use only LMs have seen some success on many QA tasks, more recent methods include knowledge graphs (KG) to complement LMs with their more logic-driven implicit knowledge. However, effectively extracting information from structured data, like KGs, empowers LMs to remain an open question, and current models rely on graph techniques to extract knowledge. In this paper, we propose to solely leverage the LMs to combine the language and knowledge for knowledge based question-answering with flexibility, breadth of coverage and structured reasoning. Specifically, we devise a knowledge construction method that retrieves the relevant context with a dynamic hop, which expresses more comprehensivenes than traditional GNN-based techniques. And we devise a deep fusion mechanism to further bridge the information exchanging bottleneck between the language and the knowledge. Extensive experiments show that our model consistently demonstrates its state-of-the-art performance over CommensenseQA benchmark, showcasing the possibility to leverage LMs solely to robustly ground QA into the knowledge base. | 翻訳日:2022-09-20 17:34:22 公開日:2022-09-17 |
# 拡散検出から入射検出・スロット充満へ From Disfluency Detection to Intent Detection and Slot Filling ( http://arxiv.org/abs/2209.08359v1 ) ライセンス: Link先を確認 | Mai Hoang Dao, Thinh Hung Truong, Dat Quoc Nguyen | (参考訳) インテント検出とスロット充填の下流作業における拡散検出の影響について,最初の実証的研究を行った。
この研究はベトナムの低リソース言語で、これまでの研究は行わず、拡散検出のためのパブリックデータセットも持っていません。
まず,ベトナム語で流布したインテント検出とスロット充足データセットPhoATISを,手動でコンテキスト不一致を加えて注釈付けすることで拡張する。
次に, 事前学習した言語モデルに基づいて, 不流動性検出と統合意図検出, スロット充填のための強力なベースラインを用いた実験を行う。
私たちはそれを見つけました
一 下流の意図検出及びスロット充填作業の性能に不純物が悪影響を及ぼすこと。
(ii)不流動性文脈において、事前訓練された多言語モデル xlm-r は、事前訓練された単言語モデル phobert よりも、より良い意図検出とスロット充填性能を生み出すのに役立つ。 We present the first empirical study investigating the influence of disfluency detection on downstream tasks of intent detection and slot filling. We perform this study for Vietnamese -- a low-resource language that has no previous study as well as no public dataset available for disfluency detection. First, we extend the fluent Vietnamese intent detection and slot filling dataset PhoATIS by manually adding contextual disfluencies and annotating them. Then, we conduct experiments using strong baselines for disfluency detection and joint intent detection and slot filling, which are based on pre-trained language models. We find that: (i) disfluencies produce negative effects on the performances of the downstream intent detection and slot filling tasks, and (ii) in the disfluency context, the pre-trained multilingual language model XLM-R helps produce better intent detection and slot filling performances than the pre-trained monolingual language model PhoBERT, and this is opposite to what generally found in the fluency context. | 翻訳日:2022-09-20 17:34:01 公開日:2022-09-17 |
# ハイパースペクトル画像の再生に先立つ深いプラグアンドプレイ Deep Plug-and-Play Prior for Hyperspectral Image Restoration ( http://arxiv.org/abs/2209.08240v1 ) ライセンス: Link先を確認 | Zeqiang Lai, Kaixuan Wei, Ying Fu | (参考訳) Deep-learning-based hyperspectral image (HSI) 復元法は、その顕著な性能で大きな人気を得ているが、タスクの特定の変更がいつでも、高価なネットワークリトレーニングを必要とすることが多い。
本稿では,最適化手法の柔軟性を両立させ,深層ニューラルネットワークの強力な表現能力を活用する,効果的なプラグアンドプレイ方式による統一的手法によるHSIの復元を提案する。
具体的には、まず、ゲート型繰り返し畳み込みユニット、短期および長期のスキップ接続、および拡張ノイズレベルマップを活用して、HSI内の豊富な時空間情報を活用するディープHSIデノイザを開発する。
したがって、これはガウスと複雑なノイズ設定の両方の下でHSIの最先端性能をもたらす。
そして,様々なHSI復元作業に取り組む前に,プラグイン・アンド・プレイ・フレームワークを強力な暗黙的HSIとして挿入する。
hsiスーパーレゾリューション、圧縮センシング、インペインティングに関する広範囲な実験を通じて、我々のアプローチは、タスク固有のトレーニングなしで単一のモデルを介して、各タスクの最先端に匹敵する、あるいはさらに優れたパフォーマンスをしばしば達成できることを実証する。 Deep-learning-based hyperspectral image (HSI) restoration methods have gained great popularity for their remarkable performance but often demand expensive network retraining whenever the specifics of task changes. In this paper, we propose to restore HSIs in a unified approach with an effective plug-and-play method, which can jointly retain the flexibility of optimization-based methods and utilize the powerful representation capability of deep neural networks. Specifically, we first develop a new deep HSI denoiser leveraging gated recurrent convolution units, short- and long-term skip connections, and an augmented noise level map to better exploit the abundant spatio-spectral information within HSIs. It, therefore, leads to the state-of-the-art performance on HSI denoising under both Gaussian and complex noise settings. Then, the proposed denoiser is inserted into the plug-and-play framework as a powerful implicit HSI prior to tackle various HSI restoration tasks. Through extensive experiments on HSI super-resolution, compressed sensing, and inpainting, we demonstrate that our approach often achieves superior performance, which is competitive with or even better than the state-of-the-art on each task, via a single model without any task-specific training. | 翻訳日:2022-09-20 17:26:27 公開日:2022-09-17 |
# GedankenNet:物理一貫性を用いたホログラム再構成の自己教師型学習 GedankenNet: Self-supervised learning of hologram reconstruction using physics consistency ( http://arxiv.org/abs/2209.08288v1 ) ライセンス: Link先を確認 | Luzhe Huang, Hanlong Chen, Tairan Liu, Aydogan Ozcan | (参考訳) 過去10年間、ディープラーニングは様々な計算イメージング、センシング、顕微鏡といったタスクに応用されてきた。
教師付き学習方式が採用されているため、これらの手法のほとんどは大規模で多様なラベル付きトレーニングデータに依存している。
このようなトレーニングイメージデータセットの取得と準備は、しばしば手間とコストがかかり、バイアスのある見積もりと新しいタイプのサンプルへの限定された一般化につながる。
本稿では,ラベル付きおよび実験的トレーニングデータを必要としない自己教師付き学習モデルであるgedankennetについて報告する。
自己教師付き学習モデルは, 実験や実世界のサンプルとの類似性をもたず, 人工的に生成する物理抵抗損失とランダム画像を用いて学習した。
自己教師訓練の後、gedankennetは様々な生体試料の実験ホログラムに一般化し、実験的に取得したテストホログラムを用いて異なる種類の物体の位相および振幅画像を再構成した。
実験データや実際の興味のサンプルやその空間的特徴の知識がなければ、gedankennetの自己教師付き学習はマクスウェル方程式と一致する複雑な値のイメージ再構成を達成し、その出力推論と対象解が自由空間における波動伝播を正確に表現した。
この自己教師あり学習はホログラフィ、顕微鏡、計算画像分野における様々な逆問題に対する新たな機会を開く。 The past decade has witnessed transformative applications of deep learning in various computational imaging, sensing and microscopy tasks. Due to the supervised learning schemes employed, most of these methods depend on large-scale, diverse, and labeled training data. The acquisition and preparation of such training image datasets are often laborious and costly, also leading to biased estimation and limited generalization to new types of samples. Here, we report a self-supervised learning model, termed GedankenNet, that eliminates the need for labeled or experimental training data, and demonstrate its effectiveness and superior generalization on hologram reconstruction tasks. Without prior knowledge about the sample types to be imaged, the self-supervised learning model was trained using a physics-consistency loss and artificial random images that are synthetically generated without any experiments or resemblance to real-world samples. After its self-supervised training, GedankenNet successfully generalized to experimental holograms of various unseen biological samples, reconstructing the phase and amplitude images of different types of objects using experimentally acquired test holograms. Without access to experimental data or the knowledge of real samples of interest or their spatial features, GedankenNet's self-supervised learning achieved complex-valued image reconstructions that are consistent with the Maxwell's equations, meaning that its output inference and object solutions accurately represent the wave propagation in free-space. This self-supervised learning of image reconstruction tasks opens up new opportunities for various inverse problems in holography, microscopy and computational imaging fields. | 翻訳日:2022-09-20 17:26:04 公開日:2022-09-17 |
# 共有グラフモデルによるジョイントネットワークトポロジー推定 Joint Network Topology Inference via a Shared Graphon Model ( http://arxiv.org/abs/2209.08223v1 ) ライセンス: Link先を確認 | Madeline Navarro, Santiago Segarra | (参考訳) 我々は,これらのネットワークが同じ(未知の)ランダムグラフモデルから引き出されると仮定して,実測値から複数のネットワークのトポロジを推定する問題を考察する。
我々はランダムグラフモデルとしてgraphonを採用しており、これは異なるサイズのグラフを描画できる非パラメトリックモデルである。
グラフの汎用性により、回復すべきグラフが異なるノード数を含み、グラフ間の正確なアライメントが欠如している場合でも、共同推論問題に取り組むことができる。
提案手法は,最大極大ペナルティとグラフトン推定法を組み合わせることで,既存のネットワーク推論手法を拡張できる。
提案するジョイントネットワークとグラフトン推定は,ノイズの多いグラフサンプリング情報に対するロバストな手法の導入によってさらに強化される。
提案手法は,合成および実世界のデータセットにおける競合する手法と比較することにより検証する。 We consider the problem of estimating the topology of multiple networks from nodal observations, where these networks are assumed to be drawn from the same (unknown) random graph model. We adopt a graphon as our random graph model, which is a nonparametric model from which graphs of potentially different sizes can be drawn. The versatility of graphons allows us to tackle the joint inference problem even for the cases where the graphs to be recovered contain different number of nodes and lack precise alignment across the graphs. Our solution is based on combining a maximum likelihood penalty with graphon estimation schemes and can be used to augment existing network inference methods. The proposed joint network and graphon estimation is further enhanced with the introduction of a robust method for noisy graph sampling information. We validate our proposed approach by comparing its performance against competing methods in synthetic and real-world datasets. | 翻訳日:2022-09-20 17:17:07 公開日:2022-09-17 |
# 機械学習による確率予測と予測のレビュー A review of probabilistic forecasting and prediction with machine learning ( http://arxiv.org/abs/2209.08307v1 ) ライセンス: Link先を確認 | Hristos Tyralis, Georgia Papacharalampous | (参考訳) 機械学習モデルの予測と予測は、エンドユーザが通信する情報量を増やすために、確率分布の形式をとるべきである。
学界や産業における機械学習モデルによる確率的予測と予測の応用が頻繁になってきているが、関連する概念や手法は、分野全体の全体像の下では定式化されておらず、構造化されていない。
本稿では,機械学習アルゴリズムによる予測不確実性推定の話題と,確率的予測を評価するための関連する指標(一貫性スコアリング関数と適切なスコアリングルール)について述べる。
このレビューでは、最近の機械学習アルゴリズム(位置、スケール、形状、ランダムな森林、強化とディープラーニングアルゴリズムの一般化された付加的モデルを含む)への早期統計(ベイズ統計または量子回帰に基づく線形回帰と時系列モデル)の導入から、自然により柔軟である期間をカバーしている。
最新の進歩は、より複雑なアルゴリズムに適用された基本的な概念に基づいているため、ユーザのニーズに合わせて新しいアルゴリズムを開発する方法についての理解を深める。
材料を分類し、研究のホットトピックとなっている課題について議論することで結論付けます。 Predictions and forecasts of machine learning models should take the form of probability distributions, aiming to increase the quantity of information communicated to end users. Although applications of probabilistic prediction and forecasting with machine learning models in academia and industry are becoming more frequent, related concepts and methods have not been formalized and structured under a holistic view of the entire field. Here, we review the topic of predictive uncertainty estimation with machine learning algorithms, as well as the related metrics (consistent scoring functions and proper scoring rules) for assessing probabilistic predictions. The review covers a time period spanning from the introduction of early statistical (linear regression and time series models, based on Bayesian statistics or quantile regression) to recent machine learning algorithms (including generalized additive models for location, scale and shape, random forests, boosting and deep learning algorithms) that are more flexible by nature. The review of the progress in the field, expedites our understanding on how to develop new algorithms tailored to users' needs, since the latest advancements are based on some fundamental concepts applied to more complex algorithms. We conclude by classifying the material and discussing challenges that are becoming a hot topic of research. | 翻訳日:2022-09-20 17:16:53 公開日:2022-09-17 |
# グラディエントDescent Training Shallow Neural Networksの1d$での近似結果 Approximation results for Gradient Descent trained Shallow Neural Networks in $1d$ ( http://arxiv.org/abs/2209.08399v1 ) ライセンス: Link先を確認 | R. Gentile, G. Welper | (参考訳) 最近の論文で広く研究されているニューラルネットワークの2つの側面は、関数近似特性と勾配降下法によるトレーニングである。
近似問題は、最小限の重みで正確な近似を求める。
現在の文献のほとんどでは、これらの重みは完全もしくは部分的に手作りであり、ニューラルネットワークの能力を示しているが、必ずしも実用的ではない。
対照的に、ニューラルネットワークの最適化理論は過度にパラメータ化された状態の重みに大きく依存している。
本稿では,これら2つの要求のバランスをとり,勾配降下による非凸重み最適化による1d$の浅層ネットワークに対する近似結果を提供する。
有限幅ネットワークと無限標本限界を考えるが、これは近似理論の典型的な構成である。
技術的には、この問題は過度にパラメータ化されていないが、ある種の冗長性は最良のレートと比較して近似率の損失として再現れる。 Two aspects of neural networks that have been extensively studied in the recent literature are their function approximation properties and their training by gradient descent methods. The approximation problem seeks accurate approximations with a minimal number of weights. In most of the current literature these weights are fully or partially hand-crafted, showing the capabilities of neural networks but not necessarily their practical performance. In contrast, optimization theory for neural networks heavily relies on an abundance of weights in over-parametrized regimes. This paper balances these two demands and provides an approximation result for shallow networks in $1d$ with non-convex weight optimization by gradient descent. We consider finite width networks and infinite sample limits, which is the typical setup in approximation theory. Technically, this problem is not over-parametrized, however, some form of redundancy reappears as a loss in approximation rate compared to best possible rates. | 翻訳日:2022-09-20 17:16:32 公開日:2022-09-17 |
# ANet: クラトム葉抽出物投与後のマウスの抗うつ効果評価のためのオートエンコーダを用いた局所電位外乱因子 ANet: Autoencoder-Based Local Field Potential Feature Extractor for Evaluating An Antidepressant Effect in Mice after Administering Kratom Leaf Extracts ( http://arxiv.org/abs/2209.08210v1 ) ライセンス: Link先を確認 | Jakkrit Nukitram, Rattanaphon Chaisaen, Phairot Autthasan, Narumon Sengnon, Juraithip Wungsintaweekul, Wanumaidah Saengmolee, Dania Cheaha, Ekkasit Kumarnsit, Thapanun Sudhawiyangkul, Theerawit Wilaiprasitporn | (参考訳) クラトム(KT)は一般的に抗うつ薬(AD)作用を示す。
しかし,どのKT抽出物が標準のADフルオキセチン(flu)に類似したAD特性を有するかを評価することは困難であった。
そこで我々は,KT抽出液とADインフルエンザに応答するマウスの局所野電位(LFP)の類似性を測定するために,オートエンコーダ(AE)を用いたANetを用いた異常検出装置を採用した。
KTシロップに反応した特徴は、ADインフルエンザに反応したものと最も類似しており、85.62ドル\pm$ 0.29%であった。
本研究は, 他の候補であるKTアルカロイドやKT水よりも, 抗うつ薬の代替物質としてKTシロップを用いる可能性が示唆された。
類似度の測定とは別に、ANetをマルチタスクAEとして利用し、異なるKT抽出とADインフルエンザの効果に対応する多クラスLFP応答の識別性能を同時に評価した。
さらに, LFP応答中の学習潜伏特徴を, t-SNE投射と最大平均一致距離として定性的かつ定量的に可視化した。
分類の結果、精度とf1-スコアは79.78$\pm$ 0.39%、79.53$\pm$ 0.00%であった。
要約すると、この研究の結果は、現実世界の応用におけるクラトム型のような代替物質プロファイル評価のための治療設計装置に役立つかもしれない。 Kratom (KT) typically exerts antidepressant (AD) effects. However, evaluating which form of KT extracts possesses AD properties similar to the standard AD fluoxetine (flu) remained challenging. Here, we adopted an autoencoder (AE)-based anomaly detector called ANet to measure the similarity of mice's local field potential (LFP) features that responded to KT leave extracts and AD flu. The features that responded to KT syrup had the highest similarity to those that responded to the AD flu at 85.62 $\pm$ 0.29%. This finding presents the higher feasibility of using KT syrup as an alternative substance for depressant therapy than KT alkaloids and KT aqueous, which are the other candidates in this study. Apart from the similarity measurement, we utilized ANet as a multi-task AE and evaluated the performance in discriminating multi-class LFP responses corresponding to the effect of different KT extracts and AD flu simultaneously. Furthermore, we visualized learned latent features among LFP responses qualitatively and quantitatively as t-SNE projection and maximum mean discrepancy distance, respectively. The classification results reported the accuracy and F1-score of 79.78 $\pm$ 0.39% and 79.53 $\pm$ 0.00%. In summary, the outcomes of this research might help therapeutic design devices for an alternative substance profile evaluation, such as Kratom-based form in real-world applications. | 翻訳日:2022-09-20 17:00:09 公開日:2022-09-17 |
# サプライチェーン管理のための量子計算手法 Quantum Computing Methods for Supply Chain Management ( http://arxiv.org/abs/2209.08246v1 ) ライセンス: Link先を確認 | Hansheng Jiang, Zuo-Jun Max Shen, Junyu Liu | (参考訳) 量子コンピューティングは多くの領域に変革的な影響が期待されているが、その産業問題への実践的な展開は未定である。
我々は,産業,特にサプライチェーン管理における運用管理問題に量子コンピューティングを適用することに注力する。
サプライチェーン管理における多くの問題は、大きな状態とアクション空間を伴い、古典的なコンピュータに計算上の問題を引き起こす。
本研究では,在庫管理問題を解くための量化ポリシー反復アルゴリズムを開発し,その効果を実証する。
また、近い将来にこの量子アルゴリズムを実装する際のハードウェア要件と潜在的な課題についても詳細に論じる。
我々のシミュレーションと実験はIBM QiskitとqBraidシステムによって実現されている。 Quantum computing is expected to have transformative influences on many domains, but its practical deployments on industry problems are underexplored. We focus on applying quantum computing to operations management problems in industry, and in particular, supply chain management. Many problems in supply chain management involve large state and action spaces and pose computational challenges on classic computers. We develop a quantized policy iteration algorithm to solve an inventory control problem and demonstrative its effectiveness. We also discuss in-depth the hardware requirements and potential challenges on implementing this quantum algorithm in the near term. Our simulations and experiments are powered by the IBM Qiskit and the qBraid system. | 翻訳日:2022-09-20 16:59:44 公開日:2022-09-17 |
# 群集制御のためのマルチエージェント強化学習支援サブオプティマイズ政策 Sub-optimal Policy Aided Multi-Agent Reinforcement Learning for Flocking Control ( http://arxiv.org/abs/2209.08347v1 ) ライセンス: Link先を確認 | Yunbo Qiu, Yue Jin, Jian Wang, Xudong Zhang | (参考訳) 群れの制御は難しい問題であり、ドローンや車両のような複数のエージェントが群れを維持しながら目標の位置に到達し、環境中のエージェント間の衝突や衝突を避ける必要がある。
マルチエージェント強化学習は、群れ制御において有望な性能を達成した。
しかしながら、伝統的な強化学習に基づく手法は、エージェントと環境の間のかなりの数の相互作用を必要とする。
本稿では,SPA-MARL(Sub-optimal policy aided multi-agent reinforcement learning algorithm)を提案する。
spa-marlは、事前のポリシーを直接活用し、手動で設計したり、非学習方法で解いたりすることで、学習中のエージェントを支援する。
SPA-MARLは、サブ最適ポリシーとそれ自身のパフォーマンスの違いを認識し、サブ最適ポリシーがより良い場合、サブ最適ポリシーを模倣する。
我々はSPA-MARLを利用して、群れ制御の問題を解決する。
人工電位場に基づく従来の制御手法を用いて、準最適ポリシーを生成する。
実験により、SPA-MARLはトレーニングプロセスを高速化し、MARLベースラインと使用済みの準最適ポリシーの両方を上回ります。 Flocking control is a challenging problem, where multiple agents, such as drones or vehicles, need to reach a target position while maintaining the flock and avoiding collisions with obstacles and collisions among agents in the environment. Multi-agent reinforcement learning has achieved promising performance in flocking control. However, methods based on traditional reinforcement learning require a considerable number of interactions between agents and the environment. This paper proposes a sub-optimal policy aided multi-agent reinforcement learning algorithm (SPA-MARL) to boost sample efficiency. SPA-MARL directly leverages a prior policy that can be manually designed or solved with a non-learning method to aid agents in learning, where the performance of the policy can be sub-optimal. SPA-MARL recognizes the difference in performance between the sub-optimal policy and itself, and then imitates the sub-optimal policy if the sub-optimal policy is better. We leverage SPA-MARL to solve the flocking control problem. A traditional control method based on artificial potential fields is used to generate a sub-optimal policy. Experiments demonstrate that SPA-MARL can speed up the training process and outperform both the MARL baseline and the used sub-optimal policy. | 翻訳日:2022-09-20 16:59:36 公開日:2022-09-17 |
# フラッキング制御のためのデモによるサンプル効率の良いマルチエージェント強化学習 Sample-Efficient Multi-Agent Reinforcement Learning with Demonstrations for Flocking Control ( http://arxiv.org/abs/2209.08351v1 ) ライセンス: Link先を確認 | Yunbo Qiu, Yuzhu Zhan, Yue Jin, Jian Wang, Xudong Zhang | (参考訳) 浮揚制御は、エージェントの協調性と安全性を高めるマルチエージェント無人航空機やマルチエージェント自律水中車両のようなマルチエージェントシステムにおいて重要な問題である。
従来の手法とは対照的に、マルチエージェント強化学習(MARL)はより柔軟に群れ制御の問題を解く。
しかしながら,marlに基づく手法では,エージェントと環境との相互作用から大量の経験を収集する必要があるため,サンプル非効率に苦しむ。
そこで本研究では,従来の方法と並行して収集した非熟練のデモンストレーションを活用できるmarl (pwd-marl) 用プリトレーニング手法を提案する。
事前訓練の過程で、エージェントはMARLによるデモンストレーションからポリシーを学習し、同時に行動クローニングを行い、デモの過度な適合を防止する。
PwD-MARLは、非専門家によるデモンストレーションで事前訓練することで、オンラインMARLのプロセスにおけるサンプル効率を温かいスタートで改善する。
実験の結果、PwD-MARLは、悪い実演や少ない演目でも、群れ制御の問題において、サンプル効率と政策性能を改善することが示された。 Flocking control is a significant problem in multi-agent systems such as multi-agent unmanned aerial vehicles and multi-agent autonomous underwater vehicles, which enhances the cooperativity and safety of agents. In contrast to traditional methods, multi-agent reinforcement learning (MARL) solves the problem of flocking control more flexibly. However, methods based on MARL suffer from sample inefficiency, since they require a huge number of experiences to be collected from interactions between agents and the environment. We propose a novel method Pretraining with Demonstrations for MARL (PwD-MARL), which can utilize non-expert demonstrations collected in advance with traditional methods to pretrain agents. During the process of pretraining, agents learn policies from demonstrations by MARL and behavior cloning simultaneously, and are prevented from overfitting demonstrations. By pretraining with non-expert demonstrations, PwD-MARL improves sample efficiency in the process of online MARL with a warm start. Experiments show that PwD-MARL improves sample efficiency and policy performance in the problem of flocking control, even with bad or few demonstrations. | 翻訳日:2022-09-20 16:59:16 公開日:2022-09-17 |
# グレースケール対角画像領域におけるFNNとCNNの性能差に関する研究 A study on the deviations in performance of FNNs and CNNs in the realm of grayscale adversarial images ( http://arxiv.org/abs/2209.08262v1 ) ライセンス: Link先を確認 | Durga Shree Nagabushanam, Steve Mathew, Chiranji Lal Chowdhary | (参考訳) ニューラルネットワークはノイズ摂動を伴う画像の分類において、より精度の低い傾向にある。
畳み込みニューラルネットワーク、cnnは、良性画像の分類において並列性のない精度で知られている。
しかし、我々の研究では、フィードフォワードニューラルネットワークのFNNではノイズの摂動との対応性が極めて低く、精度はほぼ乱れていないことが示されている。
FNNは、人間の視覚に強いノイズである、ノイズ集約的な単一チャネル画像の分類に優れていることが観察されている。
本研究では,手書き桁データセットであるMNISTを用いて,1と2の隠蔽層を持つFNNと3,4,6,8の畳み込みを持つCNNを用いて,それらの精度を分析した。
FNNは、ノイズの強度に関係なく、分類精度が85%以上であることを示した。
このデータを用いてCNNを解析したところ、CNNの分類精度の低下はCNNの他の半分であった。
精度傾向の相関分析と数学的モデリングは、これらの結論へのロードマップとして作用する。 Neural Networks are prone to having lesser accuracy in the classification of images with noise perturbation. Convolutional Neural Networks, CNNs are known for their unparalleled accuracy in the classification of benign images. But our study shows that they are extremely vulnerable to noise addition while Feed-forward Neural Networks, FNNs show very less correspondence with noise perturbation, maintaining their accuracy almost undisturbed. FNNs are observed to be better at classifying noise-intensive, single-channeled images that are just sheer noise to human vision. In our study, we have used the hand-written digits dataset, MNIST with the following architectures: FNNs with 1 and 2 hidden layers and CNNs with 3, 4, 6 and 8 convolutions and analyzed their accuracies. FNNs stand out to show that irrespective of the intensity of noise, they have a classification accuracy of more than 85%. In our analysis of CNNs with this data, the deceleration of classification accuracy of CNN with 8 convolutions was half of that of the rest of the CNNs. Correlation analysis and mathematical modelling of the accuracy trends act as roadmaps to these conclusions. | 翻訳日:2022-09-20 16:43:07 公開日:2022-09-17 |
# 適応畳み込みニューラルネットワークを用いた外科切除肺腫瘍の自動分節化と再発リスク予測 Automated Segmentation and Recurrence Risk Prediction of Surgically Resected Lung Tumors with Adaptive Convolutional Neural Networks ( http://arxiv.org/abs/2209.08423v1 ) ライセンス: Link先を確認 | Marguerite B. Basta, Sarfaraz Hussein, Hsiang Hsu, and Flavio P. Calmon | (参考訳) 肺がんは、がんに関連した死亡率のかなりの割合を占める主要な原因である。
画像セグメンテーションなどの新しい技術は、検出と早期診断の改善に最重要であるが、この病気の治療には依然として大きな課題がある。
特に, 術後に再発性病変を発症する症例は多いが, 再発例が多い。
その結果、患者の再発リスクをより正確に予測できる予後ツールが求められている。
本稿では,術前ct画像における肺腫瘍の分節化と再発リスク予測のための畳み込みニューラルネットワーク(cnns)の利用について検討する。
まず, 医用画像セグメンテーションの進展に伴い, 残存するU-Netを用いて各結節の局在と特徴付けを行う。
そして、同定された腫瘍を第2のCNNに渡して再発リスク予測を行う。
システムの最終結果は、第2ネットワークの予測を臨床属性で合成するランダムな森林分類器を用いて生成される。
セグメンテーションステージはLIDC-IDRIデータセットを使用し、ダイススコアは70.3%に達する。
再発リスクステージは、国立がん研究所のNLSTデータセットを使用し、73.0%のAUCを達成する。
提案するフレームワークは,まず,様々なマルチタスクシステムにおけるパイプラインの実現を一般化し,次に,ディープラーニングと画像処理が現在の予測ツールを改善する可能性を秘めている。
我々の知る限りでは、これは最初の完全自動化されたセグメンテーションと再発リスク予測システムである。 Lung cancer is the leading cause of cancer related mortality by a significant margin. While new technologies, such as image segmentation, have been paramount to improved detection and earlier diagnoses, there are still significant challenges in treating the disease. In particular, despite an increased number of curative resections, many postoperative patients still develop recurrent lesions. Consequently, there is a significant need for prognostic tools that can more accurately predict a patient's risk for recurrence. In this paper, we explore the use of convolutional neural networks (CNNs) for the segmentation and recurrence risk prediction of lung tumors that are present in preoperative computed tomography (CT) images. First, expanding upon recent progress in medical image segmentation, a residual U-Net is used to localize and characterize each nodule. Then, the identified tumors are passed to a second CNN for recurrence risk prediction. The system's final results are produced with a random forest classifier that synthesizes the predictions of the second network with clinical attributes. The segmentation stage uses the LIDC-IDRI dataset and achieves a dice score of 70.3%. The recurrence risk stage uses the NLST dataset from the National Cancer institute and achieves an AUC of 73.0%. Our proposed framework demonstrates that first, automated nodule segmentation methods can generalize to enable pipelines for a wide range of multitask systems and second, that deep learning and image processing have the potential to improve current prognostic tools. To the best of our knowledge, it is the first fully automated segmentation and recurrence risk prediction system. | 翻訳日:2022-09-20 16:42:47 公開日:2022-09-17 |
# DynaConF:非定常時間系列の動的予測 DynaConF: Dynamic Forecasting of Non-Stationary Time-Series ( http://arxiv.org/abs/2209.08411v1 ) ライセンス: Link先を確認 | Siqi Liu, Andreas Lehrmann | (参考訳) 深層学習モデルは様々な時系列予測タスクにおいて印象的な結果を示しており、過去の条件分布をモデル化することが本質である。
しかし、この条件分布が定常でない場合、これらのモデルが一貫して学習し、正確に予測することが課題となる。
本研究では,非定常力学モデルから定常条件分布モデルを明確に分離することにより,時間とともに非定常条件分布をモデル化する新しい手法を提案する。
本手法は,条件付き分布変化に適応可能なベイズ動的モデルと,因子化出力空間を用いて大規模多変量時系列を処理可能な深い条件付き分布モデルに基づいている。
合成およびポピュラーなデータセットに関する実験結果から,我々のモデルは最先端のディープラーニングソリューションよりも,非定常時系列に適応できることが示された。 Deep learning models have shown impressive results in a variety of time series forecasting tasks, where modeling the conditional distribution of the future given the past is the essence. However, when this conditional distribution is non-stationary, it poses challenges for these models to learn consistently and to predict accurately. In this work, we propose a new method to model non-stationary conditional distributions over time by clearly decoupling stationary conditional distribution modeling from non-stationary dynamics modeling. Our method is based on a Bayesian dynamic model that can adapt to conditional distribution changes and a deep conditional distribution model that can handle large multivariate time series using a factorized output space. Our experimental results on synthetic and popular public datasets show that our model can adapt to non-stationary time series better than state-of-the-art deep learning solutions. | 翻訳日:2022-09-20 16:33:01 公開日:2022-09-17 |
# ヘテロフィアグラフを改良したGNN - グラフリウィリングアプローチ Make Heterophily Graphs Better Fit GNN: A Graph Rewiring Approach ( http://arxiv.org/abs/2209.08264v1 ) ライセンス: Link先を確認 | Wendong Bi, Lun Du, Qiang Fu, Yanlin Wang, Shi Han, Dongmei Zhang | (参考訳) グラフニューラルネットワーク(gnns)は、グラフデータをモデリングするための一般的な機械学習手法である。
多くのGNNはホモフィリーグラフでは良好に機能し、ヘテロフィリーグラフでは不満足な性能を持つ。
近年、メッセージパッシング機構を調整したり、メッセージパッシングの受容場を拡大することで、異種グラフのためのGNNの設計に注意を向ける研究者もいる。
モデル設計の観点からヘテロフィリーの問題を緩和する既存の研究とは違って,グラフ構造を変えてヘテロフィリーを低減し,従来のGNNの性能を向上させることによって,直交的な視点からヘテロフィリーグラフを研究することを提案する。
総合的な実証研究と分析を通じて,本手法の可能性を検証する。
その可能性を完全に活用するために,同種エッジの追加と異種エッジの刈取によりグラフをリワイヤするDeep Heterophily Graph Rewiring (DHGR) という手法を提案する。
ノード近傍のラベル/フィーチャー・ディストリビューションの類似性を比較することにより、詳細な再配線方法を決定する。
さらに,DHGRの高効率性を保証するスケーラブルな実装を設計する。
DHRGはプラグインモジュール、すなわちグラフ前処理ステップとして、GNNをホモフィリーとヘテロフィリーの両方に含む任意のGNNに対して容易に使用でき、ノード分類タスクのパフォーマンスを高めることができる。
我々の知る限りでは、ヘテロフィリーグラフに対するグラフ再構成を研究する最初の研究である。
11の公開グラフデータセットに対する大規模な実験により,提案手法の優位性を実証した。 Graph Neural Networks (GNNs) are popular machine learning methods for modeling graph data. A lot of GNNs perform well on homophily graphs while having unsatisfactory performance on heterophily graphs. Recently, some researchers turn their attention to designing GNNs for heterophily graphs by adjusting the message passing mechanism or enlarging the receptive field of the message passing. Different from existing works that mitigate the issues of heterophily from model design perspective, we propose to study heterophily graphs from an orthogonal perspective by rewiring the graph structure to reduce heterophily and making the traditional GNNs perform better. Through comprehensive empirical studies and analysis, we verify the potential of the rewiring methods. To fully exploit its potential, we propose a method named Deep Heterophily Graph Rewiring (DHGR) to rewire graphs by adding homophilic edges and pruning heterophilic edges. The detailed way of rewiring is determined by comparing the similarity of label/feature-distribution of node neighbors. Besides, we design a scalable implementation for DHGR to guarantee high efficiency. DHRG can be easily used as a plug-in module, i.e., a graph pre-processing step, for any GNNs, including both GNN for homophily and heterophily, to boost their performance on the node classification task. To the best of our knowledge, it is the first work studying graph rewiring for heterophily graphs. Extensive experiments on 11 public graph datasets demonstrate the superiority of our proposed methods. | 翻訳日:2022-09-20 16:25:45 公開日:2022-09-17 |
# AdaCC:非均衡分類のための累積コスト感性ブースティング AdaCC: Cumulative Cost-Sensitive Boosting for Imbalanced Classification ( http://arxiv.org/abs/2209.08309v1 ) ライセンス: Link先を確認 | Vasileios Iosifidis, Symeon Papadopoulos, Bodo Rosenhahn, Eirini Ntoutsi | (参考訳) クラス不均衡は、ほとんどの教師付き学習モデルが多数派に対して偏見を示し、少数派のクラスでは低パフォーマンスを示すため、機械学習にとって大きな課題となる。
コストセンシティブな学習は、学習者に入力として提供されるユーザ定義の固定型誤分類コストマトリックスを介して、クラスを異なる方法で扱うことでこの問題に対処する。
このようなパラメータチューニングはドメイン知識を必要とする困難なタスクであり、さらに間違った調整が全体的な予測性能の劣化につながる可能性がある。
本研究では,不均衡データに対して,固定型誤分類コスト行列を使わずに,モデルの性能に応答して誤分類コストを動的に調整する,新たなコスト感受性向上手法を提案する。
AdaCCと呼ばれる本手法は,次の昇降ラウンドの誤分類コストを調整するために,昇降モデルの累積挙動に依存するためパラメータフリーであり,トレーニング誤差に関する理論的保証が提供される。
例えば、AUCは[0.3%-28.56%]、バランスの取れた精度は[3.4%-21.4%]、gmeanは[4.8%-45%]、リコールは[7.4%-85.5%]である。 Class imbalance poses a major challenge for machine learning as most supervised learning models might exhibit bias towards the majority class and under-perform in the minority class. Cost-sensitive learning tackles this problem by treating the classes differently, formulated typically via a user-defined fixed misclassification cost matrix provided as input to the learner. Such parameter tuning is a challenging task that requires domain knowledge and moreover, wrong adjustments might lead to overall predictive performance deterioration. In this work, we propose a novel cost-sensitive boosting approach for imbalanced data that dynamically adjusts the misclassification costs over the boosting rounds in response to model's performance instead of using a fixed misclassification cost matrix. Our method, called AdaCC, is parameter-free as it relies on the cumulative behavior of the boosting model in order to adjust the misclassification costs for the next boosting round and comes with theoretical guarantees regarding the training error. Experiments on 27 real-world datasets from different domains with high class imbalance demonstrate the superiority of our method over 12 state-of-the-art cost-sensitive boosting approaches exhibiting consistent improvements in different measures, for instance, in the range of [0.3%-28.56%] for AUC, [3.4%-21.4%] for balanced accuracy, [4.8%-45%] for gmean and [7.4%-85.5%] for recall. | 翻訳日:2022-09-20 16:25:20 公開日:2022-09-17 |
# De Bruijnがニューラルネットワークへ:動的グラフ上の時系列データのための因果認識グラフニューラルネットワーク De Bruijn goes Neural: Causality-Aware Graph Neural Networks for Time Series Data on Dynamic Graphs ( http://arxiv.org/abs/2209.08311v1 ) ライセンス: Link先を確認 | Lisi Qarkaxhija, Vincenzo Perri, Ingo Scholtes | (参考訳) De Bruijn Graph Neural Networks (DBGNNs)は、動的グラフ上の時間分解データのための、新しい時間認識グラフニューラルネットワークアーキテクチャである。
本手法は,動的グラフの因果トポロジーに現れる時間的トポロジーパターンを考慮し,因果的ウォーク,すなわち,ノードが時間とともに相互に影響を与えうるリンクの時間順序列によって決定する。
我々のアーキテクチャは、階数 k の De Bruijn グラフのノードが長さ k-1 のウォークを表し、エッジが長さ k のウォークを表す反復線グラフ構造である、高階の De Bruijn グラフの複数の層の上に構築されている。
我々は,De Bruijnグラフを用いて非マルコフ力学に従うメッセージパッシング方式を実装し,動的グラフの因果トポロジーのパターンを学習するグラフニューラルネットワークアーキテクチャを開発した。
異なる順序 k を持つ de bruijn グラフを使って同じデータセットをモデル化できるという問題に対して、我々はさらに、メッセージパッシングに使用する最適なグラフトポロジを決定するために統計モデルの選択を適用する。
合成および経験的データセットの評価は、DBGNNが動的グラフの時間的パターンを活用できることを示している。 We introduce De Bruijn Graph Neural Networks (DBGNNs), a novel time-aware graph neural network architecture for time-resolved data on dynamic graphs. Our approach accounts for temporal-topological patterns that unfold in the causal topology of dynamic graphs, which is determined by causal walks, i.e. temporally ordered sequences of links by which nodes can influence each other over time. Our architecture builds on multiple layers of higher-order De Bruijn graphs, an iterative line graph construction where nodes in a De Bruijn graph of order k represent walks of length k-1, while edges represent walks of length k. We develop a graph neural network architecture that utilizes De Bruijn graphs to implement a message passing scheme that follows a non-Markovian dynamics, which enables us to learn patterns in the causal topology of a dynamic graph. Addressing the issue that De Bruijn graphs with different orders k can be used to model the same data set, we further apply statistical model selection to determine the optimal graph topology to be used for message passing. An evaluation in synthetic and empirical data sets suggests that DBGNNs can leverage temporal patterns in dynamic graphs, which substantially improves the performance in a supervised node classification task. | 翻訳日:2022-09-20 16:24:52 公開日:2022-09-17 |
# 同変ガウス過程と畳み込みニューラルネットワークの相互関係 Interrelation of equivariant Gaussian processes and convolutional neural networks ( http://arxiv.org/abs/2209.08371v1 ) ライセンス: Link先を確認 | Andrey Demichev and Alexander Kryukov | (参考訳) 現在、ニューラルネットワーク(NN)とガウス過程(GP)の関係に基づく機械学習(ML)には、NNの信号伝搬、NNの学習曲線の理論的導出、MLのQFTメソッドなど、かなり有望な新しいトレンドが存在する。
畳み込みニューラルネットワーク(cnn)の重要な特徴は、入力データの対称性変換に関してその等価性(一貫性)である。
本研究では、ベクトル値のニューロン活性化を持つ2次元ユークリッド群とそれに対応する独立に導入された同変ガウス過程(GP)との関係を確立する。 Currently there exists rather promising new trend in machine leaning (ML) based on the relationship between neural networks (NN) and Gaussian processes (GP), including many related subtopics, e.g., signal propagation in NNs, theoretical derivation of learning curve for NNs, QFT methods in ML, etc. An important feature of convolutional neural networks (CNN) is their equivariance (consistency) with respect to the symmetry transformations of the input data. In this work we establish a relationship between the many-channel limit for CNNs equivariant with respect to two-dimensional Euclidean group with vector-valued neuron activations and the corresponding independently introduced equivariant Gaussian processes (GP). | 翻訳日:2022-09-20 16:24:27 公開日:2022-09-17 |
# ヒューマンポーズ駆動型オブジェクト効果推奨 Human Pose Driven Object Effects Recommendation ( http://arxiv.org/abs/2209.08353v1 ) ライセンス: Link先を確認 | Zhaoxin Fan, Fengxin Li, Hongyan Liu, Jun He, Xiaoyong Du | (参考訳) 本稿では,マイクロビデオプラットフォームにおけるオブジェクトエフェクト推薦の新たな話題について検討する。
画像フレームから映像コンテンツを直接学習することによる背景バイアスの問題を回避するため,3次元人物ポーズに隠れた有意義なボディランゲージの利用を提案する。
そこで本研究では,人間のポーズ駆動型物体効果推薦ネットワーク「poserec」について紹介する。
PoseRecは、人間の3Dポーズ検出の利点を活用し、ビデオイテム登録のための多フレームの3Dポーズから情報を学び、高品質なオブジェクトエフェクトレコメンデーション性能をもたらす。
さらに, 対象効果推薦に存在するあいまいさと空間性の問題を解決するために, 新規なアイテム認識型暗黙的プロトタイプ学習モジュールと, ポーズ認識型トランスダクティブ型強陰性マイニングモジュールを提案する。
さらに、新しい研究トピックのメソッドをベンチマークするために、Pose-OBEというオブジェクトエフェクトレコメンデーションのための新しいデータセットを構築します。
Pose-OBEの大規模な実験により,本手法は強いベースラインよりも優れた性能が得られることが示された。 In this paper, we research the new topic of object effects recommendation in micro-video platforms, which is a challenging but important task for many practical applications such as advertisement insertion. To avoid the problem of introducing background bias caused by directly learning video content from image frames, we propose to utilize the meaningful body language hidden in 3D human pose for recommendation. To this end, in this work, a novel human pose driven object effects recommendation network termed PoseRec is introduced. PoseRec leverages the advantages of 3D human pose detection and learns information from multi-frame 3D human pose for video-item registration, resulting in high quality object effects recommendation performance. Moreover, to solve the inherent ambiguity and sparsity issues that exist in object effects recommendation, we further propose a novel item-aware implicit prototype learning module and a novel pose-aware transductive hard-negative mining module to better learn pose-item relationships. What's more, to benchmark methods for the new research topic, we build a new dataset for object effects recommendation named Pose-OBE. Extensive experiments on Pose-OBE demonstrate that our method can achieve superior performance than strong baselines. | 翻訳日:2022-09-20 16:16:14 公開日:2022-09-17 |
# 高角映像からの車両軌道再構成のための空間時間深層埋め込み Spatial-Temporal Deep Embedding for Vehicle Trajectory Reconstruction from High-Angle Video ( http://arxiv.org/abs/2209.08417v1 ) ライセンス: Link先を確認 | Tianya T. Zhang Ph.D., Peter J. Jin Ph.D., Han Zhou, Benedetto Piccoli, Ph.D | (参考訳) 空間-時間マップ(stmap)ベースの手法は、様々なデータ駆動モデリングや模倣学習アプリケーションのニーズを満たすことができる車両軌道再構成のための高角ビデオを処理する大きな可能性を示している。
本稿では,STMap上の車両ストリップ分割のためのインスタンス認識埋め込みを生成するために,画素レベルとインスタンスレベルのパリティ制約を課す空間時間深層埋め込み(STDE)モデルを開発した。
ピクセルレベルでは、各ピクセルは異なる範囲の8-neighborピクセルでエンコードされ、このエンコーディングはニューラルネットワークを誘導して埋め込みメカニズムを学ぶために使用される。
インスタンスレベルでは、識別損失関数は、同じインスタンスに属するピクセルをより近づけて、埋め込み空間内の異なるインスタンスの平均値を分離するように設計されている。
空間-時間親和性の出力はmutex-watershedアルゴリズムによって最適化され、最終的なクラスタリング結果が得られる。
セグメンテーションの指標に基づいて,STMap処理に使用されている5つのベースラインを性能評価し,シャドウ,静的ノイズ,重なり合いの影響下で頑健さを示した。
設計されたモデルは、すべての公開NGSIM US-101ビデオを処理して完全な車両軌道を生成し、優れたスケーラビリティと適応性を示す。
最後に,STDEを用いた走査線法と今後の方向性について考察した。
コード、STMapデータセット、ビデオトラジェクトリは、オンラインリポジトリで公開されている。
github リンク: shorturl.at/jklt0。 Spatial-temporal Map (STMap)-based methods have shown great potential to process high-angle videos for vehicle trajectory reconstruction, which can meet the needs of various data-driven modeling and imitation learning applications. In this paper, we developed Spatial-Temporal Deep Embedding (STDE) model that imposes parity constraints at both pixel and instance levels to generate instance-aware embeddings for vehicle stripe segmentation on STMap. At pixel level, each pixel was encoded with its 8-neighbor pixels at different ranges, and this encoding is subsequently used to guide a neural network to learn the embedding mechanism. At the instance level, a discriminative loss function is designed to pull pixels belonging to the same instance closer and separate the mean value of different instances far apart in the embedding space. The output of the spatial-temporal affinity is then optimized by the mutex-watershed algorithm to obtain final clustering results. Based on segmentation metrics, our model outperformed five other baselines that have been used for STMap processing and shows robustness under the influence of shadows, static noises, and overlapping. The designed model is applied to process all public NGSIM US-101 videos to generate complete vehicle trajectories, indicating a good scalability and adaptability. Last but not least, the strengths of the scanline method with STDE and future directions were discussed. Code, STMap dataset and video trajectory are made publicly available in the online repository. GitHub Link: shorturl.at/jklT0. | 翻訳日:2022-09-20 16:15:51 公開日:2022-09-17 |
# Decontextualized Embeddings を用いた教師なし語彙置換 Unsupervised Lexical Substitution with Decontextualised Embeddings ( http://arxiv.org/abs/2209.08236v1 ) ライセンス: Link先を確認 | Takashi Wada, Timothy Baldwin, Yuji Matsumoto, Jey Han Lau | (参考訳) 事前学習された言語モデルを用いた語彙置換の新しい教師なし手法を提案する。
代用単語の予測に言語モデルの生成能力を用いた従来の手法と比較して,複数の文脈における単語の平均的文脈表現という文脈的および非文脈的単語埋め込みの類似性に基づいて代用単語を検索する。
我々は英語とイタリア語で実験を行い、我々の手法が強いベースラインを大幅に上回り、明示的な監督や微調整なしに新しい最先端技術を確立することを示す。
さらに,本手法は低周波代用音の予測において特に有効であり,また代用音素候補の多種多様なリストを生成し,記事・名詞の一致による形態素的・形態素的バイアスを低減する。 We propose a new unsupervised method for lexical substitution using pre-trained language models. Compared to previous approaches that use the generative capability of language models to predict substitutes, our method retrieves substitutes based on the similarity of contextualised and decontextualised word embeddings, i.e. the average contextual representation of a word in multiple contexts. We conduct experiments in English and Italian, and show that our method substantially outperforms strong baselines and establishes a new state-of-the-art without any explicit supervision or fine-tuning. We further show that our method performs particularly well at predicting low-frequency substitutes, and also generates a diverse list of substitute candidates, reducing morphophonetic or morphosyntactic biases induced by article-noun agreement. | 翻訳日:2022-09-20 16:07:00 公開日:2022-09-17 |
# ファウショット自然言語生成のための選択トークン生成 Selective Token Generation for Few-shot Natural Language Generation ( http://arxiv.org/abs/2209.08206v1 ) ライセンス: Link先を確認 | Daejin Jo, Taehwan Kwon, Eun-Sol Kim, Sungwoong Kim | (参考訳) 限定的なトレーニングデータを持つ自然言語モデリングは難しい問題であり、多くのアルゴリズムが大規模事前学習言語モデル(plm)を使用している。
その中でも,大規模PLM上にタスク固有のアダプタを組み込んだ付加学習が,数ショット設定で広く用いられている。
しかし、この追加されたアダプタは、通常、新しく訓練されたアダプタのみによってシーケンス全体が生成されるため、特にnlg(nlg)においてplmの知識を無視しやすい。
そこで本研究では,学習と推論の両方において,タスクジェネラルPLMとタスク固有アダプタの間で言語トークンを選択的に出力する強化学習(RL)に基づく,新たな付加的学習アルゴリズムを開発した。
この2つのジェネレータに対する出力トークンの選択により、アダプタはシーケンス生成におけるタスク関連部分のみを考慮に入れられるようになり、RLトレーニングにおいて過度に適合するだけでなく、安定性も向上する。
さらに,数発のタスク毎にPLMから補完的なアダプタを取得するために,RLを用いて同時にトレーニングされた別個の選択モジュールを利用する。
質問応答,データ・ツー・テキスト生成,テキスト要約などのnlgタスクにおける実験結果から,提案する選択トークン生成は,plmに基づく従来の付加学習アルゴリズムを大きく上回ることがわかった。 Natural language modeling with limited training data is a challenging problem, and many algorithms make use of large-scale pretrained language models (PLMs) for this due to its great generalization ability. Among them, additive learning that incorporates a task-specific adapter on top of the fixed large-scale PLM has been popularly used in the few-shot setting. However, this added adapter is still easy to disregard the knowledge of the PLM especially for few-shot natural language generation (NLG) since an entire sequence is usually generated by only the newly trained adapter. Therefore, in this work, we develop a novel additive learning algorithm based on reinforcement learning (RL) that selectively outputs language tokens between the task-general PLM and the task-specific adapter during both training and inference. This output token selection over the two generators allows the adapter to take into account solely the task-relevant parts in sequence generation, and therefore makes it more robust to overfitting as well as more stable in RL training. In addition, to obtain the complementary adapter from the PLM for each few-shot task, we exploit a separate selecting module that is also simultaneously trained using RL. Experimental results on various few-shot NLG tasks including question answering, data-to-text generation and text summarization demonstrate that the proposed selective token generation significantly outperforms the previous additive learning algorithms based on the PLMs. | 翻訳日:2022-09-20 16:04:58 公開日:2022-09-17 |
# fr:統一エンコーダによる折り畳み合理化 FR: Folded Rationalization with a Unified Encoder ( http://arxiv.org/abs/2209.08285v1 ) ライセンス: Link先を確認 | Wei Liu, Haozhao Wang, Jun Wang, Ruixuan Li, Chao Yue, Yuankai Zhang | (参考訳) 従来の作業では、ジェネレータが最も重要な部品を選択し、次に選択した部品に基づいて予測を行う予測器という2相モデルが一般的である。
しかし、そのような二相モデルでは、予測器が未訓練の発電機によって発生するノイズに過度に適合する退化問題を生じさせ、その結果、発電機は無意味な部品を選択する傾向にある準最適モデルに収束する。
そこで本研究では,論理モデルの2つの位相をテキスト意味抽出の観点から1つに折り畳む折り畳み合理化(fr)を提案する。
FRの鍵となる考え方は、ジェネレータと予測器の間に統一エンコーダを使用することであり、FRはジェネレータが従来の2相モデルでブロックした貴重な情報にアクセスし、より良いジェネレータを提供する。
実験的に、FRは最先端の手法と比較してF1スコアを最大10.3%改善することを示した。 Conventional works generally employ a two-phase model in which a generator selects the most important pieces, followed by a predictor that makes predictions based on the selected pieces. However, such a two-phase model may incur the degeneration problem where the predictor overfits to the noise generated by a not yet well-trained generator and in turn, leads the generator to converge to a sub-optimal model that tends to select senseless pieces. To tackle this challenge, we propose Folded Rationalization (FR) that folds the two phases of the rationale model into one from the perspective of text semantic extraction. The key idea of FR is to employ a unified encoder between the generator and predictor, based on which FR can facilitate a better predictor by access to valuable information blocked by the generator in the traditional two-phase model and thus bring a better generator. Empirically, we show that FR improves the F1 score by up to 10.3% as compared to state-of-the-art methods. | 翻訳日:2022-09-20 16:04:33 公開日:2022-09-17 |
# 領域一般化のための共変量と条件シフトの緩和 Mitigating Both Covariate and Conditional Shift for Domain Generalization ( http://arxiv.org/abs/2209.08253v1 ) ライセンス: Link先を確認 | Jianxin Lin, Yongqiang Tang, Junping Wang and Wensheng Zhang | (参考訳) ドメイン一般化(Domain Generalization、DG)は、複数のソースドメインのモデルを学習することを目的としており、モデルが未確認のターゲットドメインに適切に一般化できることを願っている。
領域間の分布シフトは共変量シフトと条件シフトを含むが、どちらもより一般化性を高めるために扱わなければならない。
本稿では,視覚的アライメントと不確実性誘導信念(VAUE)による分布変化に対処する新しいDG手法を提案する。
具体的には、共変量シフトに対して、画像スタイルの分布を共通の経験的ガウス分布に整合させることで、共変量シフトを視覚空間で排除できるように、視覚アライメントモジュールを設計する。
条件シフトに対しては,主観論理とデンプスターシェーファー理論に基づく不確実性誘導信念アンサンブル戦略を採用する。
テストサンプルが与えられた条件分布は、ソースドメインの動的組み合わせによって推定される。
提案手法は,オフィスホーム,vlc,地形認識,pacsの4つのデータセットにおいて優れた性能を示すため,包括的な実験を行った。 Domain generalization (DG) aims to learn a model on several source domains, hoping that the model can generalize well to unseen target domains. The distribution shift between domains contains the covariate shift and conditional shift, both of which the model must be able to handle for better generalizability. In this paper, a novel DG method is proposed to deal with the distribution shift via Visual Alignment and Uncertainty-guided belief Ensemble (VAUE). Specifically, for the covariate shift, a visual alignment module is designed to align the distribution of image style to a common empirical Gaussian distribution so that the covariate shift can be eliminated in the visual space. For the conditional shift, we adopt an uncertainty-guided belief ensemble strategy based on the subjective logic and Dempster-Shafer theory. The conditional distribution given a test sample is estimated by the dynamic combination of that of source domains. Comprehensive experiments are conducted to demonstrate the superior performance of the proposed method on four widely used datasets, i.e., Office-Home, VLCS, TerraIncognita, and PACS. | 翻訳日:2022-09-20 15:48:13 公開日:2022-09-17 |
# イントロスペクティブラーニング : ニューラルネットワークにおける推論のための2段階的アプローチ Introspective Learning : A Two-Stage Approach for Inference in Neural Networks ( http://arxiv.org/abs/2209.08425v1 ) ライセンス: Link先を確認 | Mohit Prabhushankar, Ghassan AlRegib | (参考訳) 本稿では,ニューラルネットワークの意思決定過程における2つの段階を提唱する。
1つは、既存のフィードフォワード推論フレームワークで、与えられたデータのパターンを検知し、以前に学習したパターンと関連付ける。
第2段階は、利用可能なすべての選択肢を考慮し、評価することで、フィードフォワードの決定を反映するようにネットワークに求める、遅いリフレクションステージである。
2つの段階をイントロスペクティブラーニング(introspective learning)と呼ぶ。
この反射の測定には、トレーニングされたニューラルネットワークの勾配を使用します。
単純な3層多層パーセプトロンは、抽出された全ての勾配特徴に基づいて予測する第2段階として用いられる。
両段階からホック後の説明を視覚的に可視化し,イントロスペクションに対する視覚的根拠を提供する。
認識の応用として,ノイズデータへの一般化において,イントロスペクティブネットワークの方が4%,キャリブレーション誤差が42%少なくなっていることを示す。
また,ダウンストリームタスクにおいて,アクティブラーニング,アウト・オブ・ディストリビューション検出,不確実性推定など,一般化可能性と校正を必要とするイントロスペクティブネットワークの価値について述べる。
最後に,画像品質評価の適用のために,提案したマシンイントロスペクションを人間のイントロスペクションに適用する。 In this paper, we advocate for two stages in a neural network's decision making process. The first is the existing feed-forward inference framework where patterns in given data are sensed and associated with previously learned patterns. The second stage is a slower reflection stage where we ask the network to reflect on its feed-forward decision by considering and evaluating all available choices. Together, we term the two stages as introspective learning. We use gradients of trained neural networks as a measurement of this reflection. A simple three-layered Multi Layer Perceptron is used as the second stage that predicts based on all extracted gradient features. We perceptually visualize the post-hoc explanations from both stages to provide a visual grounding to introspection. For the application of recognition, we show that an introspective network is 4% more robust and 42% less prone to calibration errors when generalizing to noisy data. We also illustrate the value of introspective networks in downstream tasks that require generalizability and calibration including active learning, out-of-distribution detection, and uncertainty estimation. Finally, we ground the proposed machine introspection to human introspection for the application of image quality assessment. | 翻訳日:2022-09-20 15:47:54 公開日:2022-09-17 |
# 変圧器モデルを用いた生成科学論文の検出 Detecting Generated Scientific Papers using an Ensemble of Transformer Models ( http://arxiv.org/abs/2209.08283v1 ) ライセンス: Link先を確認 | Anna Glazkova and Maksim Glazkov | (参考訳) DAGPap22共有タスクのために開発されたニューラルモデルについて,Scholarly Document Processingの第3ワークショップで紹介した。
この共有タスクは、生成された科学論文の自動検出をターゲットとしている。
我々の研究は、異なるトランスフォーマーベースのモデルの比較と、不均衡なクラスを扱う追加のデータセットとテクニックの使用に焦点を当てています。
最後に,SciBERT,RoBERTa,DeBERTaのアンサンブルをランダムなオーバーサンプリング手法を用いて微調整した。
我々のモデルはF1スコアの99.24%を達成した。
公式評価の結果は, このシステムを第3位に位置づけた。 The paper describes neural models developed for the DAGPap22 shared task hosted at the Third Workshop on Scholarly Document Processing. This shared task targets the automatic detection of generated scientific papers. Our work focuses on comparing different transformer-based models as well as using additional datasets and techniques to deal with imbalanced classes. As a final submission, we utilized an ensemble of SciBERT, RoBERTa, and DeBERTa fine-tuned using random oversampling technique. Our model achieved 99.24% in terms of F1-score. The official evaluation results have put our system at the third place. | 翻訳日:2022-09-20 15:38:37 公開日:2022-09-17 |
# 自己アタッチメント治療のための共感型AIコーチ An Empathetic AI Coach for Self-Attachment Therapy ( http://arxiv.org/abs/2209.08316v1 ) ライセンス: Link先を確認 | Lisa Alazraki, Ali Ghachem, Neophytos Polydorou, Foaad Khosmood and Abbas Edalat | (参考訳) 本研究では,デジタルコーチのための新たなデータセットと計算戦略を提案する。
本フレームワークは,ユーザのテキスト応答の背景となる感情を識別する深層学習分類器と,新規で流動的で共感的な発話を生成するための深層学習支援検索手法を,ルールベースの会話エージェントに付加する。
ユーザが対話することのできる、人間のようなペルソナも作っています。
私たちの目標は、仮想セラピーセッションで高いレベルのエンゲージメントを達成することです。
我々は,N=16人の被験者を対象に,5日間にわたり少なくとも4人のエージェントと相互作用した非臨床試験において,我々のフレームワークの有効性を評価した。
私たちのプラットフォームは、単純なルールベースのフレームワークよりも共感、ユーザエンゲージメント、有用性に対して一貫して高い評価を受けています。
最後に、受信したフィードバックに応じて、アプリケーションの設計と性能をさらに改善するためのガイドラインを提供する。 In this work, we present a new dataset and a computational strategy for a digital coach that aims to guide users in practicing the protocols of self-attachment therapy. Our framework augments a rule-based conversational agent with a deep-learning classifier for identifying the underlying emotion in a user's text response, as well as a deep-learning assisted retrieval method for producing novel, fluent and empathetic utterances. We also craft a set of human-like personas that users can choose to interact with. Our goal is to achieve a high level of engagement during virtual therapy sessions. We evaluate the effectiveness of our framework in a non-clinical trial with N=16 participants, all of whom have had at least four interactions with the agent over the course of five days. We find that our platform is consistently rated higher for empathy, user engagement and usefulness than the simple rule-based framework. Finally, we provide guidelines to further improve the design and performance of the application, in accordance with the feedback received. | 翻訳日:2022-09-20 15:38:29 公開日:2022-09-17 |
# 対話型AIシステムにおける自己学習制御のための制約付きポリシー最適化 Constrained Policy Optimization for Controlled Self-Learning in Conversational AI Systems ( http://arxiv.org/abs/2209.08429v1 ) ライセンス: Link先を確認 | Mohammad Kachuee, Sungjin Lee | (参考訳) 近年,ユーザ満足度指標と文脈帯域に基づく自己学習手法が,対話型AIシステムにおける一貫した改善を実現するための有望な結果を示している。
しかし,このような指標を非政治的盗賊学習の目的によって直接的に対象とすることで,現在のユーザエクスペリエンスを損なうような急激な方針変更のリスクが増大することがしばしばある。
本研究では,ユーザ定義の制約により,個々のドメインのきめ細かな探索目標を支援するスケーラブルなフレームワークを提案する。
例えば、ショッピングのようなビジネスクリティカルな領域におけるポリシーの逸脱を減らすと同時に、音楽のような分野へのさらなる探索予算を割り当てたい場合もあります。
さらに,この問題に対処するために,スケーラブルで実用的な新しいメタ勾配学習手法を提案する。
提案手法は,ドメイン間の制約満足度を均衡させるメタ目的により,制約違反のペナルティ項を適応的に調整する。
現実的な制約ベンチマークのセット上で、現実世界の会話型AIのデータを用いて広範な実験を行う。
実験結果から,提案手法は,政策価値と制約満足率の最適バランスを達成することができることを示した。 Recently, self-learning methods based on user satisfaction metrics and contextual bandits have shown promising results to enable consistent improvements in conversational AI systems. However, directly targeting such metrics by off-policy bandit learning objectives often increases the risk of making abrupt policy changes that break the current user experience. In this study, we introduce a scalable framework for supporting fine-grained exploration targets for individual domains via user-defined constraints. For example, we may want to ensure fewer policy deviations in business-critical domains such as shopping, while allocating more exploration budget to domains such as music. Furthermore, we present a novel meta-gradient learning approach that is scalable and practical to address this problem. The proposed method adjusts constraint violation penalty terms adaptively through a meta objective that encourages balanced constraint satisfaction across domains. We conduct extensive experiments using data from a real-world conversational AI on a set of realistic constraint benchmarks. Based on the experimental results, we demonstrate that the proposed approach is capable of achieving the best balance between the policy value and constraint satisfaction rate. | 翻訳日:2022-09-20 15:38:13 公開日:2022-09-17 |
# 入力制約付き確率線形システムの学習に基づく適応制御 Learning-Based Adaptive Control for Stochastic Linear Systems with Input Constraints ( http://arxiv.org/abs/2209.07040v2 ) ライセンス: Link先を確認 | Seth Siriya, Jingge Zhu, Dragan Ne\v{s}i\'c, Ye Pu | (参考訳) そこで本研究では,加法を受けるスカラー線形系,すなわちガウス外乱と有界制御入力制約に対する適応制御について,システムパラメータの境界や制御方向の事前知識を必要とせず,確実性同値スキームを提案する。
系が極端に安定であると仮定すると、閉ループ系の平均二乗有界性は証明される。
最後に, この結果を示す数値的な例を示す。 We propose a certainty-equivalence scheme for adaptive control of scalar linear systems subject to additive, i.i.d. Gaussian disturbances and bounded control input constraints, without requiring prior knowledge of the bounds of the system parameters, nor the control direction. Assuming that the system is at-worst marginally stable, mean square boundedness of the closed-loop system states is proven. Lastly, numerical examples are presented to illustrate our results. | 翻訳日:2022-09-20 12:56:34 公開日:2022-09-17 |