このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20221221となっている論文です。

PDF登録状況(公開日: 20221221)

TitleAuthorsAbstract論文公表日・翻訳日
# Apps Gone Rogue: エピデミックにおける個人のプライバシの維持

Apps Gone Rogue: Maintaining Personal Privacy in an Epidemic ( http://arxiv.org/abs/2003.08567v2 )

ライセンス: Link先を確認
Ramesh Raskar, Isabel Schunemann, Rachel Barbar, Kristen Vilcans, Jim Gray, Praneeth Vepakomma, Suraj Kapa, Andrea Nuzzo, Rajiv Gupta, Alex Berke, Dazza Greenwood, Christian Keegan, Shriank Kanaparti, Robson Beaudry, David Stansbury, Beatriz Botero Arcila, Rishank Kanaparti, Vitor Pamplona, Francesco M Benedetti, Alina Clough, Riddhiman Das, Kaushal Jain, Khahlil Louisy, Greg Nadeau, Steve Penrod, Yasaman Rajaee, Abhishek Singh, Greg Storm, John Werner, Ayush Chopra, Gauri Gupta, Vivek Sharma(参考訳) 感染を迅速に止める重要な戦略である封じ込めは、感染した個体の迅速な識別と隔離、感染した個体が訪れた場所の消毒、前日や数週間に接触した人物の特定が必要である。 達成は、感染した個人の位置と接触履歴の正確かつタイムリーな収集を要求する。 伝統的に、このプロセスは労働集約的であり、メモリエラーの影響を受けやすく、プライバシーの懸念に満ちている。 最近のスマートフォンのほぼユビキタスな普及により、2019年の新型コロナウイルス(covid-19)の感染拡大など、感染した人の連絡先を素早く特定できるツールが多くの人々に提供されるようになった。 残念ながら、第1世代の接触追跡ツールは、大量監視を拡張し、個人の自由を制限し、個人に関する最も個人的な詳細を明らかにするために使われている。 我々は,携帯電話を用いたコンタクトトレーシングにおける様々な技術アプローチを概説し,これらの技術が個人や社会に与える影響とリスクについて詳細に述べる。 我々は、これらのリスクを軽減するための高度なセキュリティ強化アプローチと、マスコンタクトトレーシング技術の開発と展開において必要となるトレードオフについて説明する。 本稿では,感染拡大とパンデミックの封じ込めに関する対話を継続し,この分野を前進させる機会を議論することを目的とする。 フィードバックと議論を招待します。

Containment, the key strategy in quickly halting an epidemic, requires rapid identification and quarantine of the infected individuals, determination of whom they have had close contact with in the previous days and weeks, and decontamination of locations the infected individual has visited. Achieving containment demands accurate and timely collection of the infected individual's location and contact history. Traditionally, this process is labor intensive, susceptible to memory errors, and fraught with privacy concerns. With the recent almost ubiquitous availability of smart phones, many people carry a tool which can be utilized to quickly identify an infected individual's contacts during an epidemic, such as the current 2019 novel Coronavirus crisis. Unfortunately, the very same first-generation contact tracing tools have been used to expand mass surveillance, limit individual freedoms and expose the most private details about individuals. We seek to outline the different technological approaches to mobile-phone based contact-tracing to date and elaborate on the opportunities and the risks that these technologies pose to individuals and societies. We describe advanced security enhancing approaches that can mitigate these risks and describe trade-offs one must make when developing and deploying any mass contact-tracing technology. With this paper, our aim is to continue to grow the conversation regarding contact-tracing for epidemic and pandemic containment and discuss opportunities to advance this space. We invite feedback and discussion.
翻訳日:2023-05-28 17:59:40 公開日:2022-12-21
# 回避交差分光法による周期駆動量子多体系の加熱時間の推定

Estimating heating times in periodically driven quantum many-body systems via avoided crossing spectroscopy ( http://arxiv.org/abs/2011.06017v2 )

ライセンス: Link先を確認
Artem Rakcheev, Andreas M. L\"auchli(参考訳) 量子(または古典)多体系の周期駆動は、系の性質を大きく変えることができるため、トポロジカルな絶縁体や離散時間結晶のようなエキゾチックな量子位相を設計できる有望な方法として現れてきた。 このようなセットアップにおける大きな制限は、一般的に相互作用する駆動型システムが時間とともに加熱し、望ましいプロパティを失うことである。 関係する時間スケールを理解することはこの分野において重要なトピックであり、今のところ、具体的なシステムの加熱時間を定量的に、かつ計算的に効率的に決定するためのアプローチはごくわずかである。 本稿では,Floquetプロパゲータの水平交差を回避して符号化されたマイクロプロセスから加熱率を構築するための新しい手法を提案する。 本研究では,個々の交差を解消し,それに基づいて加熱速度を構築する方法を提案する。 この方法は、弱いドライブに対するフェルミ・ゴールデン・ルールのアプローチと密接に関連しているが、建設によって非摂動効果を捉えるため、それを超えることができる。 これにより, 離散時間結晶の加熱時間や周波数依存性結合などのシナリオに適用可能となり, 従来は加熱時間を推定する効率的な手法が得られていなかった。

Periodic driving of a quantum (or classical) many-body system can alter the systems properties significantly and therefore has emerged as a promising way to engineer exotic quantum phases, such as topological insulators and discrete time crystals. A major limitation in such setups, is that generally interacting, driven systems will heat up over time and lose the desired properties. Understanding the relevant time scales is thus an important topic in the field and so far, there have only been few approaches to determine heating times for a concrete system quantitatively, and in a computationally efficient way. In this article we propose a new approach, based on building the heating rate from microscopic processes, encoded in avoided level crossings of the Floquet propagator. We develop a method able to resolve individual crossings and show how to construct the heating rate based on these. The method is closely related to the Fermi Golden Rule approach for weak drives, but can go beyond it, since it captures non-perturbative effects by construction. This enables our method to be applicable in scenarios such as the heating time of discrete time crystals or frequency dependent couplings, which are very relevant for Floquet engineering, where previously no efficient methods for estimating heating times were available.
翻訳日:2023-04-24 11:31:56 公開日:2022-12-21
# ウォーク/ゼタ対応

Walk/Zeta Correspondence ( http://arxiv.org/abs/2104.10287v4 )

ライセンス: Link先を確認
Takashi Komatsu, Norio Konno, Iwao Sato(参考訳) 先程の研究では,Grover ウォークに対応する一般化ゼータ関数と一般化アイハラゼータ関数について,Konno-Sato 定理を通した正規グラフ上のGrover ウォークの正の支持版をそれぞれ提示した。 本稿では、これらのウォークを、ランダムウォーク、相関ランダムウォーク、量子ウォーク、フーリエ解析によるトーラス上のオープン量子ランダムウォークを含む一連のウォークに拡張する。

Our previous work presented explicit formulas for the generalized zeta function and the generalized Ihara zeta function corresponding to the Grover walk and the positive-support version of the Grover walk on the regular graph via the Konno-Sato theorem, respectively. This paper extends these walks to a class of walks including random walks, correlated random walks, quantum walks, and open quantum random walks on the torus by the Fourier analysis.
翻訳日:2023-04-03 00:36:12 公開日:2022-12-21
# k$-アンタグルメント証人のクラスについて

On a class of $k$-entanglement witnesses ( http://arxiv.org/abs/2104.14058v4 )

ライセンス: Link先を確認
Marcin Marciniak, Tomasz M{\l}ynik, Hiroyuki Osaka(参考訳) al. の yang は、$\mathcal{m}_3(\mathbb{c})$ からそれ自身へ作用する各 2-正の写像は分解可能であることを示した。 これは、$\mathbb{C}^3\otimes\mathbb{C}^3$ 上の各 PPT 状態がシュミット数を持つという主張と等価である。 これは perez-horodecki criterion の一般化であり、$\mathbb{c}^2\otimes\mathbb{c}^2$ または $\mathbb{c}^2\otimes\mathbb{c}^3$ 上の各 ppt 状態は schmidt ランク 1 である。 自然問題は、Yang at al. の結果が $\mathbb{C}^3\otimes\mathbb{C}^4$ 上の PPT 状態に対して真であるかどうかである。 この問題は高次元においても考慮できる。 我々は,反例として疑われる正の地図を構築した。 より一般に、k$-ポジティビティ特性が容易に制御できる行列代数の間の正の写像のクラスを提供する。

Recently, Yang at al. showed that each 2-positive map acting from $\mathcal{M}_3(\mathbb{C})$ into itself is decomposable. It is equivalent to the statement that each PPT state on $\mathbb{C}^3\otimes\mathbb{C}^3$ has Schmidt number at most 2. It is a generalization of Perez-Horodecki criterion which states that each PPT state on $\mathbb{C}^2\otimes\mathbb{C}^2$ or $\mathbb{C}^2\otimes\mathbb{C}^3$ has Schmidt rank 1 i.e. is separable. Natural question arises whether the result of Yang at al. stays true for PPT states on $\mathbb{C}^3\otimes\mathbb{C}^4$. This question can be considered also in higher dimensions. We construct a positive maps which is suspected for being a counterexample. More generally, we provide a class of positive maps between matrix algebras whose $k$-positivity properties can be easily controlled.
翻訳日:2023-04-02 02:24:17 公開日:2022-12-21
# ディジタル・アナログ量子計算におけるノイズ

Noise in Digital and Digital-Analog Quantum Computation ( http://arxiv.org/abs/2107.12969v2 )

ライセンス: Link先を確認
Paula Garc\'ia-Molina, Ana Martin, Mikel Garcia de Andoin, and Mikel Sanz(参考訳) 量子コンピューティングは、物質の量子的な性質によって提供される量子リソースを使用して、古典的計算を強化する。 しかし、現在の量子コンピューティングにおけるノイズの多い中間スケール量子(nisq)時代の特徴は、数個の量子プロセッサから、少なくとも数百の物理量子ビットまで、量子エラー訂正技術を実装しない量子プロセッサを使用することである。 これにより量子アルゴリズムの実装におけるスケーラビリティが制限される。 デジタルアナログ量子コンピューティング(DAQC)は、NISQ時代の枠組みにおいて、デジタル量子コンピューティングを上回る弾力的な代替量子コンピューティングパラダイムとして提案されている。 これは、アナログ量子シミュレーションの堅牢性に高速な単一量子ゲートによって提供される柔軟性を追加することから生じる。 ここでは、ノイズ源の存在下で、デジタル・アナログパラダイムとデジタル・アナログパラダイムを慎重に比較する。 この比較は、量子フーリエ変換と量子位相推定アルゴリズムの性能を、広範囲の単一および2量子ノイズ源で比較することによって示される。 実際、超伝導量子プロセッサに通常存在する異なるノイズチャネルが考慮されるとき、デジタルアナログパラダイムのためのこれらのアルゴリズムの忠実性はデジタルアプローチで得られるものよりも優れている。 さらに、プロセッサのサイズが大きくなると、この差は増大し、DAQCはNISQ時代の合理的な代替パラダイムとなる。 最後に、バン誤りを含む異なるノイズ源をキャンセルするための量子誤差軽減手法にDAQCパラダイムを適用する方法を示す。

Quantum computing uses quantum resources provided by the underlying quantum nature of matter to enhance classical computation. However, the current Noisy Intermediate-Scale Quantum (NISQ) era in quantum computing is characterized by the use of quantum processors comprising from a few tens to, at most, a few hundreds of physical qubits without implementing quantum error correction techniques. This limits the scalability in the implementation of quantum algorithms. Digital-analog quantum computing (DAQC) has been proposed as a more resilient alternative quantum computing paradigm to outperform digital quantum computation within the NISQ era framework. It arises from adding the flexibility provided by fast single-qubit gates to the robustness of analog quantum simulations. Here, we perform a careful comparison between the digital and digital-analog paradigms under the presence of noise sources. The comparison is illustrated by comparing the performance of the quantum Fourier transform and quantum phase estimation algorithms under a wide range of single- and two-qubit noise sources. Indeed, we obtain that when the different noise channels usually present in superconducting quantum processors are considered, the fidelity of these algorithms for the digital-analog paradigm outperforms the one obtained for the digital approach. Additionally, this difference grows when the size of the processor scales up, making DAQC a sensible alternative paradigm in the NISQ era. Finally, we show how to adapt the DAQC paradigm to quantum error mitigation techniques for canceling different noise sources, including the bang error.
翻訳日:2023-03-20 19:23:17 公開日:2022-12-21
# 量子システムにおける多時間統計の緩和

Relaxation of Multitime Statistics in Quantum Systems ( http://arxiv.org/abs/2108.07420v3 )

ライセンス: Link先を確認
Neil Dowling, Pedro Figueroa-Romero, Felix A. Pollock, Philipp Strasberg, Kavan Modi(参考訳) 平衡統計力学は、マクロスケールでの物理学を理解する強力なツールを提供する。 しかし、この問題は微視的な量子記述に基づいてどのように正当化できるのかという疑問が残る。 ここでは、単一時間統計に焦点を当てた純粋状態量子統計力学の考え方を拡張し、孤立した量子過程の平衡を示す。 すなわち、システムが極端に多くの時間にわたって探索される場合や観測可能が特にきめ細かな粒度である場合を除き、十分に大規模なマルチタイムオブザーバブルが平衡過程と非平衡過程を区別できないことを示す。 我々の結果の驚くべき結論は、非マルコビアン性やその他の非平衡過程のマルチタイム特性も等しくなることである。

Equilibrium statistical mechanics provides powerful tools to understand physics at the macroscale. Yet, the question remains how this can be justified based on a microscopic quantum description. Here, we extend the ideas of pure state quantum statistical mechanics, which focus on single time statistics, to show the equilibration of isolated quantum processes. Namely, we show that most multitime observables for sufficiently large times cannot distinguish a nonequilibrium process from an equilibrium one, unless the system is probed for an extremely large number of times or the observable is particularly fine-grained. A surprising corollary of our results is that the size of non-Markovianity and other multitime characteristics of a nonequilibrium process also equilibrate.
翻訳日:2023-03-18 05:31:45 公開日:2022-12-21
# 量子アルゴリズムの熱力学最適化:量子ビットレジスタのオンザゴー消去

Thermodynamic optimization of quantum algorithms: On-the-go erasure of qubit registers ( http://arxiv.org/abs/2112.04402v2 )

ライセンス: Link先を確認
Florian Meier and L\'idia del Rio(参考訳) 量子コンピューティングにおける2つのボトルネックを考える: メモリサイズと熱散逸に起因するノイズの制限。 両方を最適化しようとすると、与えられたアルゴリズムに不要な量子レジスタの「on-the-go消去」を調査する。 本研究では,これらのシナリオにおける消去の最小熱力学的コストについて検討し,量子レジスタのランダウアー消去結果に適用する。 アベリアの隠れ部分群問題を解くアルゴリズムのクラスでは、最適な消去プロトコルが見つかる。 効率的なオン・ザ・ゴーの消去を構築するための問題に関する十分な部分情報があれば、その代わりにアルゴリズムを単純化するために使うことができるので、そもそも計算を実行するのにキュービットがより少なくなります。 これら2つのアプローチに明確なプロトコルを提供します。

We consider two bottlenecks in quantum computing: limited memory size and noise caused by heat dissipation. Trying to optimize both, we investigate "on-the-go erasure" of quantum registers that are no longer needed for a given algorithm: freeing up auxiliary qubits as they stop being useful would facilitate the parallelization of computations. We study the minimal thermodynamic cost of erasure in these scenarios, applying results on the Landauer erasure of entangled quantum registers. For the class of algorithms solving the Abelian hidden subgroup problem, we find optimal on-the-go erasure protocols. We conclude that there is a trade-off: if we have enough partial information about a problem to build efficient on-the-go erasure, we can use it to instead simplify the algorithm, so that fewer qubits are needed to run the computation in the first place. We provide explicit protocols for these two approaches.
翻訳日:2023-03-05 03:03:43 公開日:2022-12-21
# Lifshitz式におけるプラズマモデルとドリューモデル誘電率

Plasma model and Drude model permittivities in Lifshitz formula ( http://arxiv.org/abs/2112.12136v2 )

ライセンス: Link先を確認
V.V.Nesterenko(参考訳) 物理レベルの厳密さでは、リフシッツの公式においてプラズマモード誘電率またはドリューモデル誘電率を使用するという理論的な議論は存在しないことが示されている。 この質問における決定は、理論計算と実験の比較にかかっている。 この研究の過程で、ゆらぎ散逸定理の導出は、どの推論段階とどのように散逸が考慮されるかを明確に示すために提案されている。 特に、この定理は可逆力学系の場合、すなわち散逸が存在しない場合にどのように作用するかが示されている。 これにより、この定理が散逸のないシステムには適用できないという明示的な主張が誤っていることが証明される。 この研究は、有限温度での統計物理学における平衡2時間グリーン関数の厳密な形式的利用に基づいている。

At the physical level of rigour it is shown that there are no substantial theoretical arguments in favour of using either plasma mode permittivity or Drude model permittivity in the Lifshitz formula. The decision in this question rests with the comparison of theoretical calculations with the experiment. In the course of the study the derivation of the fluctuation-dissipation theorem is proposed where it is displayed clear at which reasoning stage and in what way the dissipation is taken into account. In particular it is shown how this theorem works in the case of the system with reversible dynamics, that is when dissipation is absent. Thereby it is proved that explicit assertion according to which this theorem is inapplicable to systems without dissipation is erroneous. The research is based on making use of the rigorous formalism of equilibrium two-time Green functions in statistical physics at finite temperature.
翻訳日:2023-03-03 20:06:11 公開日:2022-12-21
# 強古典ドライブを用いた超高速幾何量子計算

Enhanced-Fidelity Ultrafast Geometric Quantum Computation Using Strong Classical Drives ( http://arxiv.org/abs/2203.06831v3 )

ライセンス: Link先を確認
Ye-Hong Chen, Adam Miranowicz, Xi Chen, Yan Xia, Franco Nori(参考訳) 本稿では, 回転波近似(RWA)を超越した非断熱的幾何学的1ビットおよび2ビットゲートの実装法を提案する。 このプロトコルは、以前のRWAプロトコルで使用される最も最適な制御方法と互換性があるため、RWAプロトコルと同じくらい頑丈である(あるいはより堅牢である)。 反回転効果を用いることで、強いドライブを適用できる。 したがって、高忠実度(\geq 99.99\%$)ゲートを実装するRWAに比べてゲート速度を5~10倍向上させることができる。 このような超高速な進化(ナノ秒、ピコ秒でさえ)はデコヒーレンスの影響を著しく減少させる(例えば、クビットの散逸と脱落)。 さらに、逆回転効果はゲート不忠実性(弱い駆動と強い駆動の両方)を誘導しないため、RWAプロトコルよりも高い忠実性を達成することができる。 したがって、デコヒーレンスの存在下では、$\geq 99\%$fidelitiesの超高速な量子ゲートを実装できる。

We propose a general approach to implement nonadiabatic geometric single- and two-qubit gates beyond the rotating wave approximation (RWA). This protocol is compatible with most optimal control methods used in previous RWA protocols; thus, it is as robust as (or even more robust than) the RWA protocols. Using counter-rotating effects allows us to apply strong drives. Therefore, we can improve the gate speed by 5--10 times compared to the RWA counterpart for implementing high-fidelity ($\geq 99.99\%$) gates. Such an ultrafast evolution (nanoseconds, even picoseconds) significantly reduces the influence of decoherence (e.g., the qubit dissipation and dephasing). Moreover, because the counter-rotating effects no longer induce gate infidelities (in both the weak and strong driving regimes), we can achieve a higher fidelity compared to the RWA protocols. Therefore, in the presence of decoherence, one can implement ultrafast geometric quantum gates with $\geq 99\%$ fidelities.
翻訳日:2023-02-22 03:45:49 公開日:2022-12-21
# AIと自律システムのための原理に基づく倫理的保証

A Principles-based Ethical Assurance Argument for AI and Autonomous Systems ( http://arxiv.org/abs/2203.15370v3 )

ライセンス: Link先を確認
Zoe Porter, Ibrahim Habli, John McDermid, Marten Kaas(参考訳) 保証のケースは構造化された議論であり、しばしば、航空機のようなソフトウェア集約システムがその意図された文脈で確実に安全であることを確信するために使用される証拠によって支持される。 倫理的AIコミュニティにおける新たな提案の1つは、保証ケースの方法論を拡張して適用することで、AI対応および自律システムは、意図したコンテキスト内で使用する場合に、許容できる倫理的である、という確信を達成することである。 本論文は提案を実質的に発展させ,具体化する。 特定の文脈でAI/ASを使用することによる倫理的受容性についての体系的な推論を構築するためのフレームワーク、倫理的保証議論パターンを提案する。 この枠組みは、正義、受益性、非正当性、人間の自律性への敬意の4つの中心的倫理原則に基づいている。 提案手法の初期の可能性を示すために, 自動運転車タクシーの事例を例に, 倫理的保証の議論パターンが実際どのようにインスタンス化されるかを示す。

Assurance cases are structured arguments, supported by evidence, that are often used to establish confidence that a software-intensive system, such as an aeroplane, will be acceptably safe in its intended context. One emerging proposition within the ethical AI community is to extend and apply the assurance case methodology to achieve confidence that AI-enabled and autonomous systems will be acceptably ethical when used within their intended contexts. This paper substantially develops the proposition and makes it concrete. We present a framework - an ethical assurance argument pattern - to structure systematic reasoning about the ethical acceptability of using a given AI/AS in a specific context. The framework is based on four core ethical principles: justice; beneficence; non-maleficence; and respect for human autonomy. To illustrate the initial plausibility of the proposed methodology, we show how the ethical assurance argument pattern might be instantiated in practice with the example of an autonomous vehicle taxi service.
翻訳日:2023-02-19 15:52:50 公開日:2022-12-21
# 創造的aiの政治生態学の紹介

Introducing Political Ecology of Creative-Ai ( http://arxiv.org/abs/2301.10233v1 )

ライセンス: Link先を確認
Andre Holzapfel(参考訳) 本章では、人工知能を芸術的プロセス(Creative-Ai)に適用するための政治生態学の視点を紹介する。 したがって、創造的アイの発展と雇用の環境的・社会的影響はこのテキストの焦点であり、芸術的創造を商品に転換する経済システムの一部であると考えている。 まず,特定のCreative-Aiの事例を分析し,ジャック・アッタリの「社会における音楽の役割」について考察し,大規模音楽ストリーミングプラットフォームによって制御される自動作曲ネットワークの環境と社会的影響について考察する。 Creative-Aiから生まれる可能性は芸術的観点から期待できるかもしれないが、企業利益との絡み合いは深刻な懸念を引き起こす。 これらの懸念は、Creative-Aiの今後の方向性に対する批判的な視点を発達させる研究と芸術の間の幅広いクロスセクターの同盟によってのみ対処できる。

This chapter introduces the perspective of political ecology to the application of artificial intelligence to artistic processes (Creative-Ai). Hence, the environmental and social impact of the development and employment of Creative-Ai are the focus of this text, when we consider them as part of an economic system that transforms artistic creation to a commodity. I first analyse specific Creative-Ai cases, and then conduct a speculation that takes Jacques Attali's writing on the role of music in society as a vantage point, and investigates the environmental and social consequences of an automatic composition network controlled by a large music streaming platform. Whereas the possibilities that emerge from Creative-Ai may be promising from an artistic perspective, its entanglement with corporate interest raises severe concerns. These concerns can only be addressed by a wide cross-sectoral alliance between research and arts that develops a critical perspective on the future directions of Creative-Ai.
翻訳日:2023-02-19 13:50:04 公開日:2022-12-21
# CNN廃棄物分類プロジェクト報告

CNN waste classification project report ( http://arxiv.org/abs/2212.11050v1 )

ライセンス: Link先を確認
Fei Wu, LiQin Zhang and An Tran(参考訳) 本報告は廃棄物管理プロジェクトに関するものである。 cnnを分類器として,携帯電話から取得した廃棄物画像の分類を行った。 当社のモデルは高精度な6つのムダクラスを識別でき、swiftによってiosプラットフォームにアプリケーションとして移行することに成功しています。 さらに、このレポートでは計画プロジェクトからランディングプロジェクトまでの基本的なプロジェクト管理についても紹介しています。

This report is about waste management project. We used CNN as classifier to classify waste image captured from mobile phone. Our model can identify 6 waste classes with highly accurate and our model is successfully transferred into IOS platform as application by swift. In addition, this report also introduced some basic project management from planning project to landing project, for instance using agile development to develop this waste app.
翻訳日:2023-02-19 13:14:25 公開日:2022-12-21
# 共有事項認証のためのクオタブル署名

Quotable Signatures for Authenticating Shared Quotes ( http://arxiv.org/abs/2212.10963v1 )

ライセンス: Link先を確認
Joan Boyar, Simon Erfurth, Kim S. Larsen, Ruben Niederhagen(参考訳) quotableシグネチャは、ユーザが署名されたドキュメントの一部を引用できるデジタル署名であり、引用の読み手がその真正性を検証することができる。 本論文は, (1) 任意の, 連続的な引用に対する署名の大きさの境界を与える, (2) メルクル木を用いてクォータブル署名を実現する, (2) メルクル木で実現されるクォータブル署名の安全性を証明する, (3) メルクル木で実現されるクォータブル署名の署名, 引用, 検証のためのアルゴリズムを提供する, という3つの方法で, "クォータブル署名" の理論を付加する。 さらに本論文では,クォータブルシグネチャの具体的ユースケースを慎重に検討し,正真正真正銘コンテンツの強化による誤情報対策に用いた。 クォータブルなシグネチャを使うことが偽ニュースの効果を緩和する理由として、モチベーションがあげられる。

Quotable signatures are digital signatures that allow a user to quote parts of a signed document, permitting a reader of the quote to verify its authenticity. This paper adds to the theory on {quotable signatures} in three ways: (1) by giving bounds on the size of signatures for arbitrary and contiguous quotes, when the quotable signatures are realized using Merkle trees, (2) by proving the security of quotable signature realized using Merkle trees, and (3) by providing algorithms for signing, quoting, and verifying quotable signatures realized using Merkle trees. Additionally, the paper carefully considers a concrete use case of quotable signatures, using them to combat misinformation by bolstering authentic content. Motivation is given for why using quotable signatures could help mitigate the effects of fake news.
翻訳日:2023-02-19 13:14:19 公開日:2022-12-21
# 人工知能との会話:言語モデルと人間の価値の整合性

In conversation with Artificial Intelligence: aligning language models with human values ( http://arxiv.org/abs/2209.00731v2 )

ライセンス: Link先を確認
Atoosa Kasirzadeh, Iason Gabriel(参考訳) 大規模言語技術は、様々な文脈で人間と様々な形のコミュニケーションにますます使われている。 これらの技術のユースケースのひとつに会話エージェントがあり、プロンプトやクエリに応答して自然言語を出力する。 この行動様式は多くの社会的・倫理的疑問を提起する。 例えば、会話エージェントを人間の規範や価値観に合わせることが何を意味するのか? どの規範や値に合わせるべきか? どのように達成できるのでしょうか? 本稿では,これらの疑問に答えるためのステップをいくつか提案する。 まず,会話エージェントと対話者間の言語コミュニケーションの構成要素に関する哲学的分析を行うことから始める。 次に、この分析を用いて、人間と会話エージェント間の言語コミュニケーションを成功させることのできる会話の理想的な規範を特定し、定式化する。 さらに,これらの規範を用いて,会話エージェントと人間の価値観を,さまざまな分散ドメインで一致させる方法について検討する。 本稿では,これらの規範や価値観に適合した対話エージェントの設計に関する提案の実践的意味を論じる。

Large-scale language technologies are increasingly used in various forms of communication with humans across different contexts. One particular use case for these technologies is conversational agents, which output natural language text in response to prompts and queries. This mode of engagement raises a number of social and ethical questions. For example, what does it mean to align conversational agents with human norms or values? Which norms or values should they be aligned with? And how can this be accomplished? In this paper, we propose a number of steps that help answer these questions. We start by developing a philosophical analysis of the building blocks of linguistic communication between conversational agents and human interlocutors. We then use this analysis to identify and formulate ideal norms of conversation that can govern successful linguistic communication between humans and conversational agents. Furthermore, we explore how these norms can be used to align conversational agents with human values across a range of different discursive domains. We conclude by discussing the practical implications of our proposal for the design of conversational agents that are aligned with these norms and values.
翻訳日:2023-02-19 10:56:01 公開日:2022-12-21
# 初等計算機科学Ph.D. 学生はコミュニティとメンタルヘルスを尊重する文化を創造し

Empowering First-Year Computer Science Ph.D. Students to Create a Culture that Values Community and Mental Health ( http://arxiv.org/abs/2208.12650v3 )

ライセンス: Link先を確認
Yaniv Yacoby, John Girash, David C. Parkes(参考訳) 医師プログラムは、しばしばうつ病、不安、孤立、不気味な現象の頻度が高い。 その結果、卒業生は研究に焦点を絞ったキャリアの準備が不十分で、才能の不足に繋がる可能性がある。 研究への事前の露出にもかかわらず、博士課程に入る学生は、しばしば科学の問題を理想化した見解を持っている。 これらの先入観は、自身の専門的な成長において学生にとって障害となる可能性がある。 残念なことに、多くの博士課程における既存のカリキュラムや課外プログラミングは、学生の職業に対する誤解を体系的に解決するメカニズムを含んでいない。 本研究は,博士課程への入学を義務付けるセミナーを通じて,精神科の健康に対処するための新たな取り組みについて述べる。 本セミナーは,(1)自己統制能力の向上,(2)学生に積極的に学術的文化的価値観を検証し,それらを形作ることを教えることで,学生の専門的なレジリエンスを高めることを目的としている。 評価の結果,セミナー終了後の両領域で改善が見られた。

Doctoral programs often have high rates of depression, anxiety, isolation, and imposter phenomenon. Consequently, graduating students may feel inadequately prepared for research-focused careers, contributing to an attrition of talent. Prior work identifies an important contributing factor to maladjustment: even with prior exposure to research, entering Ph.D. students often have problematically idealized views of science. These preconceptions can become obstacles for students in their own professional growth. Unfortunately, existing curricular and extracurricular programming in many doctoral programs fail to include mechanisms to systematically address students' misconceptions of their profession. In this work, we describe a new initiative at our institution that aims to address Ph.D. mental health via a mandatory seminar for entering doctoral students. The seminar is designed to build professional resilience in students by (1) increasing self-regulatory competence, and (2) teaching students to proactively examine academic cultural values and to participate in shaping them. Our evaluation indicates that students improved in both areas after completing the seminar.
翻訳日:2023-02-19 10:47:32 公開日:2022-12-21
# 漁業情報による(非)マルコビアン性の特徴付け

Characterizing (non-)Markovianity through Fisher Information ( http://arxiv.org/abs/2204.04072v4 )

ライセンス: Link先を確認
Paolo Abiuso, Matteo Scandi, Dario De Santis, Jacopo Surace(参考訳) 非孤立物理系は、通常、その環境に関する情報を失い、そのような損失が不可逆であれば、進化はマルコフ的であると言われる。 非マルコフ効果は、物理的状態間の距離などの情報量化器が時間とともにどのように進化するかを監視することによって研究される。 ここでは,この文脈で研究する自然な対象としてフィッシャー情報計量が出現することを示し,その収縮特性とマルコビアン性の関係を数学的および操作的観点から完全に特徴づける。 古典力学と量子力学の両方において、マルコビアン性は状態の集合のすべての点でフィッシャー計量の単調収縮と同値であることが証明される。 同時に、フィッシャー距離の伸長に基づく非マルコフ性の操作的証人は、一般に、特定の物理的後処理が力学に適用されない限り、すべての非マルコフ進化を検出できない。 最後に、任意の時刻におけるフィッシャー距離の非マルコフ的拡張は、ベイズ的回帰を通じて、時間 0 における力学の初期状態に関する情報の逆フローに対応することを示す。

A non-isolated physical system typically loses information to its environment, and when such loss is irreversible the evolution is said to be Markovian. Non-Markovian effects are studied by monitoring how information quantifiers, such as the distance between physical states, evolve in time. Here we show that the Fisher information metric emerges as a natural object to study in this context; we fully characterize the relation between its contractivity properties and Markovianity, both from the mathematical and operational point of view. We prove, both for classical and quantum dynamics, that Markovianity is equivalent to the monotonous contraction of the Fisher metric at all points of the set of states. At the same time, operational witnesses of non-Markovianity based on the dilation of the Fisher distance cannot, in general, detect all non-Markovian evolutions, unless specific physical postprocessing is applied to the dynamics. Finally, we show for the first time that non-Markovian dilations of Fisher distance between states at any time correspond to backflow of information about the initial state of the dynamics at time 0, via Bayesian retrodiction.
翻訳日:2023-02-17 21:28:15 公開日:2022-12-21
# オブザーバ量子センシングと制御によるランダム・テレグラフ・ノイズ除去の最適化

Optimized mitigation of random-telegraph-noise dephasing by spectator-qubit sensing and control ( http://arxiv.org/abs/2205.12567v3 )

ライセンス: Link先を確認
Hongting Song, Areeya Chantasri, Behnam Tonekaboni, Howard M. Wiseman(参考訳) Spectator qubits (SQ) は、アクセスが難しいデータキュービットのノイズを軽減するツールである。 ノイズにはるかに敏感なように設計されたSQは頻繁に測定され、蓄積された結果はデータキュービットの修正に滅多に使われない。 ランダムな電信ノイズを強調するハードウェア関連例として,複素線形写像を用いたベイズ法を紹介し,最適適応計測制御プロトコルを提案する。 脱コヒーレンス率の抑制はSQ感度において二次的であり、SQパラダイムは正しい状態において任意に機能する。

Spectator qubits (SQs) are a tool to mitigate noise in hard-to-access data qubits. The SQ, designed to be much more sensitive to the noise, is measured frequently, and the accumulated results used rarely to correct the data qubits. For the hardware-relevant example of dephasing from random telegraph noise, we introduce a Bayesian method employing complex linear maps which leads to a plausibly optimal adaptive measurement and control protocol. The suppression of the decoherence rate is quadratic in the SQ sensitivity, establishing that the SQ paradigm works arbitrarily well in the right regime.
翻訳日:2023-02-11 19:31:41 公開日:2022-12-21
# spectator qubitsによるランダム・テレグラフ・ノイズ緩和のための欲望と地図に基づく最適化アルゴリズム

Greedy versus Map-based Optimized Adaptive Algorithms for random-telegraph-noise mitigation by spectator qubits ( http://arxiv.org/abs/2205.12566v3 )

ライセンス: Link先を確認
Behnam Tonekaboni, Areeya Chantasri, Hongting Song, Yanan Liu, Howard M. Wiseman(参考訳) データストレージキュービットを可能な限り隔離し、最小限の測定と制御を行うシナリオでは、ノイズ除去は追加のノイズプローブを使用して行うことができ、必要に応じて修正を行うことができる。 固体量子ビットの場合、ランダムな電信プロセスで記述された2状態ゆらぎ器と、同じくクビットであるノイズプローブ、いわゆるオブザーバ量子ビット(SQ)から生じる劣化雑音について検討する。 我々は,SQの射影測定を前提とした理論モデルを構築し,ノイズ緩和がうまく機能する体制において,異なる測定・制御戦略の性能を導出する。 まずはgreedyアルゴリズム、すなわち、データキュービットのコヒーレンスを常に最大化する戦略から始めます。 このアルゴリズムが非常にうまく機能していることが数値的に示され、その適応戦略はほんの数パラメータの単純なアルゴリズムによってよく近似できることが分かる。 これとベイズ写像を用いた解析的構成に基づき、我々は1パラメータ (\theta$) のアルゴリズム群を設計する。 SQの高雑音感度の漸近的状態において、この$\Theta$- Familyのアルゴリズムは、この感度の正方形としての因子スケーリングにより、データキュービットのデコヒーレンス率を減少させる。 最適値である$\theta^\star$ に等しい$\theta$を設定すると、漸近的レジーム(moaaar)のためのマップベースの最適化適応アルゴリズムが得られる。 解析的および数値的に、MOAAARは、特にSQの高雑音感度状態において、Greedyアルゴリズムよりも優れていることを示す。

In a scenario where data-storage qubits are kept in isolation as far as possible, with minimal measurements and controls, noise mitigation can still be done using additional noise probes, with corrections applied only when needed. Motivated by the case of solid-state qubits, we consider dephasing noise arising from a two-state fluctuator, described by random telegraph process, and a noise probe which is also a qubit, a so-called spectator qubit (SQ). We construct the theoretical model assuming projective measurements on the SQ, and derive the performance of different measurement and control strategies in the regime where the noise mitigation works well. We start with the Greedy algorithm; that is, the strategy that always maximizes the data qubit coherence in the immediate future. We show numerically that this algorithm works very well, and find that its adaptive strategy can be well approximated by a simpler algorithm with just a few parameters. Based on this, and an analytical construction using Bayesian maps, we design a one-parameter ($\Theta$) family of algorithms. In the asymptotic regime of high noise-sensitivity of the SQ, we show analytically that this $\Theta$-family of algorithms reduces the data qubit decoherence rate by a divisor scaling as the square of this sensitivity. Setting $\Theta$ equal to its optimal value, $\Theta^\star$, yields the Map-based Optimized Adaptive Algorithm for Asymptotic Regime (MOAAAR). We show, analytically and numerically, that MOAAAR outperforms the Greedy algorithm, especially in the regime of high noise sensitivity of SQ.
翻訳日:2023-02-11 19:31:30 公開日:2022-12-21
# 相互作用するマイクロ波光子のロバストバウンド状態の形成

Formation of robust bound states of interacting microwave photons ( http://arxiv.org/abs/2206.05254v3 )

ライセンス: Link先を確認
Alexis Morvan, Trond I. Andersen, Xiao Mi, Charles Neill, Andre Petukhov, Kostyantyn Kechedzhi, Dmitry Abanin, Rajeev Acharya, Frank Arute, Kunal Arya, Abraham Asfaw, Juan Atalaya, Ryan Babbush, Dave Bacon, Joseph C. Bardin, Joao Basso, Andreas Bengtsson, Gina Bortoli, Alexandre Bourassa, Jenna Bovaird, Leon Brill, Michael Broughton, Bob B. Buckley, David A. Buell, Tim Burger, Brian Burkett, Nicholas Bushnell, Zijun Chen, Ben Chiaro, Roberto Collins, Paul Conner, William Courtney, Alexander L. Crook, Ben Curtin, Dripto M. Debroy, Alexander Del Toro Barba, Sean Demura, Andrew Dunsworth, Daniel Eppens, Catherine Erickson, Lara Faoro, Edward Farhi, Reza Fatemi, Leslie Flores Burgos, Ebrahim Forati, Austin G. Fowler, Brooks Foxen, William Giang, Craig Gidney, Dar Gilboa, Marissa Giustina, Alejandro Grajales Dau, Jonathan A. Gross, Steve Habegger, Michael C. Hamilton, Matthew P. Harrigan, Sean D. Harrington, Jeremy Hilton, Markus Hoffmann, Sabrina Hong, Trent Huang, Ashley Huff, William J. Huggins, Sergei V. Isakov, Justin Iveland, Evan Jeffrey, Zhang Jiang, Cody Jones, Pavol Juhas, Dvir Kafri, Tanuj Khattar, Mostafa Khezri, Marika Kieferova, Seon Kim, Alexei Kitaev, Paul V. Klimov, Andrey R. Klots, Alexander N. Korotkov, Fedor Kostritsa, John Mark Kreikebaum, David Landhuis, Pavel Laptev, Kim-Ming Lau, Lily Laws, Joonho Lee, Kenny Lee, Brian J. Lester, Alexander Lill, Wayne Liu, Aditya Locharla, Erik Lucero, Fionn D. Malone, Orion Martin, Jarrod R. McClean, Matt McEwen, Bernardo Meurer Costa, Kevin C. Miao, Masoud Mohseni, Shirin Montazeri, Emily Mount, Wojciech Mruczkiewicz, Ofer Naaman, Matthew Neeley, Ani Nersisyan, Michael Newman, Anthony Nguyen, Murray Nguyen, Murphy Yuezhen Niu, Thomas E. O'Brien, Ricardo Olenewa, Alex Opremcak, Rebecca Potter, Chris Quintana, Nicholas C. Rubin, Negar Saei, Daniel Sank, Kannan Sankaragomathi, Kevin J. Satzinger, Henry F. Schurkus, Christopher Schuster, Michael J. Shearn, Aaron Shorter, Vladimir Shvarts, Jindra Skruzny, W. Clarke Smith, George Sterling, Doug Strain, Yuan Su, Marco Szalay, Alfredo Torres, Guifre Vidal, Benjamin Villalonga, Catherine Vollgraff Heidweiller, Theodore White, Cheng Xing, Z. Jamie Yao, Ping Yeh, Juhwan Yoo, Adam Zalcman, Yaxing Zhang, Ningfeng Zhu, Hartmut Neven, Sergio Boixo, Anthony Megrant, Julian Kelly, Yu Chen, Vadim Smelyanskiy, Igor Aleiner, Lev B. Ioffe, Pedram Roushan(参考訳) 相関粒子の系は科学の多くの分野に現れ、自然界で最も難解なパズルを表現している。 これらの系における計算上の課題は、相互作用が他のエネルギースケールに匹敵するときに生じ、粒子の状態は他の全ての粒子に依存する。 3体問題に対する一般解の欠如と強相関電子に対する許容理論は、粒子数や相互作用強度が増加すると相関系の理解が消えることを示している。 相互作用系の特徴の1つは、多粒子境界状態の形成である。 24個の超伝導量子ビットからなるリングにおいて,スピン-1/2 XXZモデルの周期量子回路を実装するために,高忠実度パラメータ化可能なfSimゲートを開発した。 隣接する量子ビット領域にマイクロ波光子を配置することで、これらの励起の伝播を研究し、その結合性を最大5光子で観察する。 境界状態の極小スペクトルを構成する位相感度法を考案し、合成フラックスを導入することでそれらの擬似電荷を抽出する。 環と追加の量子ビット間の相互作用を導入することで、可積分性破れに対する境界状態の予期せぬレジリエンスを観測する。 この発見は、非可積分系における境界状態が連続体スペクトルと重なるときに不安定であるという一般的な知恵に反する。 我々の研究は、相互作用する光子の束縛状態の実験的証拠を提供し、可積分限界を超える安定性を発見した。

Systems of correlated particles appear in many fields of science and represent some of the most intractable puzzles in nature. The computational challenge in these systems arises when interactions become comparable to other energy scales, which makes the state of each particle depend on all other particles. The lack of general solutions for the 3-body problem and acceptable theory for strongly correlated electrons shows that our understanding of correlated systems fades when the particle number or the interaction strength increases. One of the hallmarks of interacting systems is the formation of multi-particle bound states. In a ring of 24 superconducting qubits, we develop a high fidelity parameterizable fSim gate that we use to implement the periodic quantum circuit of the spin-1/2 XXZ model, an archetypal model of interaction. By placing microwave photons in adjacent qubit sites, we study the propagation of these excitations and observe their bound nature for up to 5 photons. We devise a phase sensitive method for constructing the few-body spectrum of the bound states and extract their pseudo-charge by introducing a synthetic flux. By introducing interactions between the ring and additional qubits, we observe an unexpected resilience of the bound states to integrability breaking. This finding goes against the common wisdom that bound states in non-integrable systems are unstable when their energies overlap with the continuum spectrum. Our work provides experimental evidence for bound states of interacting photons and discovers their stability beyond the integrability limit.
翻訳日:2023-02-09 22:53:43 公開日:2022-12-21
# 複数の観測可能なエントロピー不確実性関係からのタイト境界

Tight bounds from multiple observables entropic uncertainty relations ( http://arxiv.org/abs/2207.13469v2 )

ライセンス: Link先を確認
Alberto Riccardi, Giovanni Chesi, Chiara Macchiavello and Lorenzo Maccone(参考訳) 局所計測結果の確率のジョイントシャノンエントロピーの観点から定義されるエントロピー不確かさ関係(eur)を用いて,二成分系と多成分系の両方の加法性について検討し,これらを絡み合い検出に適用する。 特に、量子相関の存在を証明した状態独立性および状態依存性エントロピー不等式を導入する。 EUR の加法性は、2つ以上の可観測性を含む EUR に対してのみ成り立つが、2つ以上の可観測性を考える不等式や、サブシステムのフォン・ノイマンエントロピーの追加は量子相関を検出できることを示す。 さらに,両部系および数種類の3量子系の状態に対する検出能力について検討した。

We investigate the additivity properties for both bipartite and multipartite systems by using entropic uncertainty relations (EUR) defined in terms of the joint Shannon entropy of probabilities of local measurement outcomes and we apply them to entanglement detection. In particular, we introduce state-independent and state-dependent entropic inequalities whose violation certifies the presence of quantum correlations. We show that the additivity of EUR holds only for EUR that involve two observables, while inequalities that consider more than two observables or the addition of the Von Neumann entropy of a subsystem enable to detect quantum correlations. Furthermore, we study their detection power for bipartite systems and for several classes of states of a three-qubit system.
翻訳日:2023-02-03 07:59:04 公開日:2022-12-21
# 多元的非局所性に対する一致後選択:因果図としきい値効率

Coincidence postselection for genuine multipartite nonlocality: Causal diagrams and threshold efficiencies ( http://arxiv.org/abs/2207.13579v2 )

ライセンス: Link先を確認
Valentin Gebhart and Augusto Smerzi(参考訳) 非局所性(GMN)は、すべての実験参加者間で完全に集合的な非局所的相関を記述した多部非局所性(英語版)の最も強い形態であり、それぞれ異なる遠方のパーティが共有絡み合った多粒子状態から粒子を局所的に測定する場合に観察することができる。 GMNのデモンストレーションでは、実験的に観測された統計は、通常、後から選択される: あるパーティが粒子を検出しないイベントは破棄されなければならない。 この一致後の選択は、一般的に適切な非局所的なデモンストレーションを無効にする検出抜け穴につながる。 本研究では,非局所性およびgmnの実証実験において,偶然検出のための検出抜け穴を閉じる方法について述べる。 まず, 検出された粒子の数が保存されている場合, 理想的かつノイズのない実験装置を用いて, 因果図と無署名原理を用いて, 偶然の事後選択が検出の抜け穴を作れないことを証明できることを示す。 さらに,有限検出効率の現実的な実験装置に対して,測定データの選定後においても新しいバージョンが有効であるように,ベル不等式を研削する方法を示す。 この場合、しきい値検出効率は、実験で超えた場合、検出穴を開けることなく非局所性やGMNを示す可能性がある。 その結果,非イデアル検出器を許容しても,真の$N$粒子非局所性はN$独立粒子源から生成できることが示唆された。

Genuine multipartite nonlocality (GMN), the strongest form of multipartite nonlocality that describes fully collective nonlocal correlations among all experimental parties, can be observed when different distant parties each locally measure a particle from a shared entangled many-particle state. For the demonstration of GMN, the experimentally observed statistics are typically postselected: Events for which some parties do not detect a particle must be discarded. This coincidence postselection generally leads to the detection loophole that invalidates a proper nonlocality demonstration. In this work, we address how to close the detection loophole for a coincidence detection in demonstrations of nonlocality and GMN. We first show that if the number of detected particles is conserved, i.e., using ideal and noiseless experimental devices, one can employ causal diagrams and the no-signalling principle to prove that a coincidence postselection cannot create any detection loophole. Furthermore, for realistic experimental devices with finite detection efficiencies, we show how a general Bell inequality can be sharpened such that its new version is still valid after a postselection of the measurement data. In this case, there are threshold detection efficiencies that, if surpassed in the experiment, lead to the possibility to demonstrate nonlocality and GMN without opening the detection loophole. Our results imply that genuine $N$-partite nonlocality can be generated from $N$ independent particle sources even when allowing for non-ideal detectors.
翻訳日:2023-02-03 07:48:12 公開日:2022-12-21
# 長距離リンドブラジアンによる散逸時間結晶

Dissipative time crystals with long-range Lindbladians ( http://arxiv.org/abs/2208.11659v3 )

ライセンス: Link先を確認
Gianluca Passarelli, Procolo Lucignano, Rosario Fazio, Angelo Russomanno(参考訳) 散逸時間結晶は、ハミルトニアンの$Z_2$対称性が環境によって破壊され、全スピン作用素$S^2$の正方形が保存されるときにスピン系に現れる。 この原稿では、後者の条件を緩和し、スピン対称性がなくても、時変対称性を破る集合振動が熱力学的極限内で持続することを示す。 我々は、パワーローの崩壊するスピン演算子を用いて \textit{ad hoc} Lindbladian を設計し、崩壊指数が 0<\eta\leq 1$ に従うと、時間変換対称性の破れが現れることを示す。 このモデルは、時間-結晶相を含む驚くほど豊富な位相図を示し、固定点の1次、2次、連続的な遷移を示す。 平均場近似における位相図と磁化ダイナミクスについて検討する。 0<\eta\leq1$であり、ガウス近似が考慮されている場合、系は相当量の量子揺らぎを発生しないため、熱力学的極限を取ると、この近似は定量的に正確であることが証明される。

Dissipative time crystals can appear in spin systems, when the $Z_2$ symmetry of the Hamiltonian is broken by the environment, and the square of total spin operator $S^2$ is conserved. In this manuscript, we relax the latter condition and show that time-translation-symmetry breaking collective oscillations persist, in the thermodynamic limit, even in the absence of spin symmetry. We engineer an \textit{ad hoc} Lindbladian using power-law decaying spin operators and show that time-translation symmetry breaking appears when the decay exponent obeys $0<\eta\leq 1$. This model shows a surprisingly rich phase diagram, including the time-crystal phase as well as first-order, second-order, and continuous transitions of the fixed points. We study the phase diagram and the magnetization dynamics in the mean-field approximation. We prove that this approximation is quantitatively accurate, when $0<\eta\leq1$ and the thermodynamic limit is taken, because the system does not develop sizable quantum fluctuations, if the Gaussian approximation is considered.
翻訳日:2023-01-29 23:48:02 公開日:2022-12-21
# ツリーテンソルネットワークの自動構造最適化

Automatic structural optimization of tree tensor networks ( http://arxiv.org/abs/2209.03196v2 )

ライセンス: Link先を確認
Toshiya Hikihara, Hiroshi Ueda, Kouichi Okunishi, Kenji Harada, Tomotoshi Nishino(参考訳) ツリーテンソルネットワーク(TTN)は、量子多体システムの実用シミュレーションに不可欠な理論的枠組みを提供し、等尺テンソルの接続によって定義されるネットワーク構造がその近似精度を向上させる上で重要な役割を果たす。 本稿では, 等長線を局所的に再接続することで, ネットワーク構造を自動的に最適化し, 両端の絡み合いを抑えるTTNアルゴリズムを提案する。 このアルゴリズムは、密度行列再正規化群のような従来のttnアプローチにシームレスに実装できる。 相互作用の階層的空間分布を持つ不均一反強磁性ハイゼンベルクスピン鎖にアルゴリズムを適用する。 そして,システムの基底状態に埋め込まれた絡み合い構造を,最適化TTNにおける完全二分木として効率的に可視化できることを実証した。 アルゴリズムの改良や応用についても論じる。

Tree tensor network (TTN) provides an essential theoretical framework for the practical simulation of quantum many-body systems, where the network structure defined by the connectivity of the isometry tensors plays a crucial role in improving its approximation accuracy. In this paper, we propose a TTN algorithm that enables us to automatically optimize the network structure by local reconnections of isometries to suppress the bipartite entanglement entropy on their legs. The algorithm can be seamlessly implemented to such a conventional TTN approach as density-matrix renormalization group. We apply the algorithm to the inhomogeneous antiferromagnetic Heisenberg spin chain having a hierarchical spatial distribution of the interactions. We then demonstrate that the entanglement structure embedded in the ground-state of the system can be efficiently visualized as a perfect binary tree in the optimized TTN. Possible improvements and applications of the algorithm are also discussed.
翻訳日:2023-01-27 15:51:51 公開日:2022-12-21
# ねじれたトップ層を持つ三層グラフェン中のフロッケホフシュタッター蝶

Floquet Hofstadter butterfly in trilayer graphene with a twisted top layer ( http://arxiv.org/abs/2209.03295v2 )

ライセンス: Link先を確認
Nadia Benlakhouy, Ahmed Jellal, Hocine Bahlouli(参考訳) 単重三層グラフェン(TLG)中のホフスタッター蝶の磁場を円偏光(CPL)と導波路から発する長手光を用いて検討した。 tlgは平衡状態において2つの異なるキラル限界を持ち、蝶の中心分枝は2つの正確な縮退成分に分裂する。 ホフスタッターの蝶はより識別可能である。 また,CPLはホフシュタッター蝶エネルギースペクトルの中央分岐部とランダウ準位の間に大きなギャップを生じ,エネルギー$E = 0$に対応する明確な非対称性を持つことがわかった。 右利きのCPLでは、中央のバンドは左利きのCPLとは対照的に、左利きのCPLでは、中央のバンドは上向きにシフトする。 最後に,導波路由来の縦偏光の影響について検討した。 興味深いことに、ホフスタッター蝶のエネルギースペクトルのキラル対称性は小さな駆動強度で破壊され、二層グラフェンのツイストとは対照的に大きく復元される。

The magnetic field generated Hofstadter butterfly in single-twist trilayer graphene (TLG) is investigated using circularly polarized light (CPL) and longitudinal light emanating from a waveguide. We show that single-twist TLG has two distinct chiral limits in the equilibrium state, and the central branch of the butterfly splits into two precisely degenerate components. The Hofstadter butterfly appears to be more discernible. We also discovered that CPL causes a large gap opening at the central branch of the Hofstadter butterfly energy spectrum and between the Landau levels, with a clear asymmetry corresponding to energy $E = 0$. We point out that for right-handed CPL, the central band shifts downward, in stark contrast to left-handed CPL, where the central band shifts upward. Finally, we investigated the effect of longitudinally polarized light, which originates from a waveguide. Interestingly, we observed that the chiral symmetries of the Hofstadter butterfly energy spectrum are broken for small driving strengths and get restored at large ones, contrary to what was observed in twisted bilayer graphene.
翻訳日:2023-01-27 15:41:31 公開日:2022-12-21
# 非エルミートSSHモデルの性質:PT対称性の役割

Properties of the non-Hermitian SSH model: role of PT-symmetry ( http://arxiv.org/abs/2209.13838v2 )

ライセンス: Link先を確認
Dipendu Halder, Sudin Ganguly, Saurabh Basu(参考訳) 本研究は,非エルミートsu-schrieffer-heegerモデルにおけるpt対称と非pt対称シナリオの位相的性質の区別を扱っている。 非PT対称性のケースは細胞間ホッピング振幅と細胞内ホッピング振幅の両方において非相互性で表され、PT対称性のケースは複雑なオンサイトスタガードポテンシャルによってモデル化される。 特に, 例外点, 巻線数, バンド構造, およびバルク境界対応 (BBC) の分解について検討した。 さらに,これらの場合の可観測物に対する二量化強度の相互作用について検討する。 非PT対称のケースは、非相互パラメータのチューニングによって巻き数が半整数で突然変化し、BBCの完全な分解を示し、非エルミート皮膚効果を示す、より親しみやすい状況を示す。 PT対称の場合のトポロジカルな性質は、複素(純粋に実)エネルギースペクトルを持つ未破壊領域を示すこと以外は、エルミート類似に近づき、一方、巻く数の別の変種はポテンシャルの強さの関数として連続的な挙動を示す一方で、従来のBBCは保存されている。

The present work addresses the distinction between the topological properties of PT symmetric and non-PT symmetric scenarios for the non-Hermitian Su-Schrieffer-Heeger (SSH) model. The non-PT symmetric case is represented by non-reciprocity in both the inter- and the intra-cell hopping amplitudes, while the one with PT symmetry is modeled by a complex on-site staggered potential. In particular, we study the loci of the exceptional points, the winding numbers, band structures, and explore the breakdown of bulk-boundary correspondence (BBC). We further study the interplay of the dimerization strengths on the observables for these cases. The non-PT symmetric case denotes a more familiar situation, where the winding number abruptly changes by a half-integer through tuning of the non-reciprocity parameters, and demonstrates a complete breakdown of BBC, thereby showing the non-Hermitian skin effect. The topological nature of the PT symmetric case appears to follow closely to its Hermitian analogue, except that it shows unbroken (broken) regions with complex (purely real) energy spectra, while another variant of the winding number exhibits a continuous behavior as a function of the strength of the potential, while the conventional BBC is preserved.
翻訳日:2023-01-24 19:51:17 公開日:2022-12-21
# 超強結合系における仮想励起と絡み合いダイナミクスとポリガミー

Virtual excitations and entanglement dynamics and polygamy in three ultra-strongly coupled systems ( http://arxiv.org/abs/2209.14814v2 )

ライセンス: Link先を確認
Radouan Hab-arrih, Ahmed Jellal(参考訳) 3つの非共振超強結合振動子のミルバーンダイナミクスはシンプレクティック幾何を用いて解決される。 仮想励起のミルバーンダイナミクスと、それらがペアの絡み合いに与える影響を考察する。 励起と絡み合いのダイナミクスは, 時間, 物理パラメータ, デコヒーレンス率に対して類似したプロファイルを持つことがわかった。 さらに, 励振の消滅は分離可能性を伴うことを示し, 絡み合いと仮想励振の階層性を示す。 さらに,物理パラメータが3部構成の仮想励振の再分配に与える影響について解析した。 その結果、量子ディスコードのように励起の単元性に違反することが示された。 これは励起が絡み合いを超えた量子相関のシグネチャと考えることができることを意味する。 さらに,実環境において(デコヒーレンスを伴って)結合量子回路をモデル化できる点を強調した。

The Milburn dynamics of three nonresonant ultra-strongly coupled oscillators are resolved by using symplectic geometry. We look at the Milburn dynamics of virtual excitations and how they affect pairwise entanglement. It is found that the dynamics of excitations and entanglement experience similar profiles against time, physical parameters, and decoherence rate. Furthermore, we show that the extinction of excitations entails separability, which demonstrates the hierarchy between entanglement and virtual excitations. Additionally, we analyze the effects of physical parameters on the redistribution of virtual excitations among the three bi-partitions. As a result, we show the violation of the monogamy of excitations as in quantum discord. This implies that excitations can be considered as signatures of quantum correlations beyond entanglement. Besides, we emphasize that our treatment can be used to model coupled quantum circuits in real situations (with decoherence).
翻訳日:2023-01-24 16:52:14 公開日:2022-12-21
# EXK-SC:情報フレームワークの拡張と知識衝突に基づく意味コミュニケーションモデル

EXK-SC: A Semantic Communication Model Based on Information Framework Expansion and Knowledge Collision ( http://arxiv.org/abs/2210.13047v2 )

ライセンス: Link先を確認
Gangtao Xin and Pingyi Fan(参考訳) 意味コミュニケーションは、送信されたシンボルの精度を改善することではなく、シンボルシーケンスが正確に持つ期待される意味を表現することに焦点を当てている。 しかし、セマンティクスメッセージとその対応するコードブック生成の測定はまだ未解決の問題である。 単純なものを複雑なシステムに統合し、インテリジェンスも生成する拡張は、人間の言語システムの進化と真に一致している。 このアイデアを意味コミュニケーションシステムに適用し、シンボルシーケンスによる意味伝達を定量化し、シャノンのデジタル通信方式と同様の方法で意味情報システムを調べる。 この研究は、意味情報フレームワークにおける意味拡張と知識の衝突を論じる最初のものである。 セマンティック展開と伝達情報率の関係など,いくつかの重要な理論的結果が提示される。 このような意味情報フレームワークは意味コミュニケーションのための新しいパラダイムを提供し、意味拡張と知識の衝突が意味情報理論の基礎となると信じている。

Semantic communication is not focused on improving the accuracy of transmitted symbols, but is concerned with expressing the expected meaning that the symbol sequence exactly carries. However, the measurement of semantic messages and their corresponding codebook generation are still open issues. Expansion, which integrates simple things into a complex system and even generates intelligence, is truly consistent with the evolution of the human language system. We apply this idea to the semantic communication system, quantifying semantic transmission by symbol sequences and investigating the semantic information system in a similar way as Shannon's method for digital communication systems. This work is the first to discuss semantic expansion and knowledge collision in the semantic information framework. Some important theoretical results are presented, including the relationship between semantic expansion and the transmission information rate. We believe such a semantic information framework may provide a new paradigm for semantic communications, and semantic expansion and knowledge collision will be the cornerstone of semantic information theory.
翻訳日:2023-01-21 19:03:18 公開日:2022-12-21
# 非直交量子状態で表される測定結果の非古典的関係のキャラクタリゼーション

Characterization of the non-classical relation between measurement outcomes represented by non-orthogonal quantum states ( http://arxiv.org/abs/2211.02199v2 )

ライセンス: Link先を確認
Ming Ji and Holger F. Hofmann(参考訳) 量子力学は、共同で実行できない測定結果の間の一見パラドックス的な関係を記述している。 ヒルベルト空間において、そのような非互換な測定の結果は非直交状態によって表される。 本稿では、非直交量子状態によって表される結果と実際の測定コンテキストに依存しない測定結果の同時割り当てによって示唆される関係との関係との関係について検討する。 この分析は、ある結果の不合理性に関する3つの言明が、特定の4番目の結果も不可能に思えるが、量子論は、その結果が消滅しない確率で観測できるというよく知られたシナリオに基づいている。 ヒルベルト空間形式論は、最初の3つの結果の総確率がゼロになるにつれて増加する4番目の確率の下限を定義することにより、4つの測定結果の関係を修飾する。 したがって、量子論は測定結果間の非文脈的整合性に違反するだけでなく、異なる測定結果の間の文脈的関係を記述するヒルベルト空間内部積の必要結果として実際にそれを要求する。

Quantum mechanics describes seemingly paradoxical relations between the outcomes of measurements that cannot be performed jointly. In Hilbert space, the outcomes of such incompatible measurements are represented by non-orthogonal states. In this paper, we investigate how the relation between outcomes represented by non-orthogonal quantum states differs from the relations suggested by a joint assignment of measurement outcomes that do not depend on the actual measurement context. The analysis is based on a well-known scenario where three statements about the impossibilities of certain outcomes would seem to make a specific fourth outcome impossible as well, yet quantum theory allows the observation of that outcome with a non-vanishing probability. We show that the Hilbert space formalism modifies the relation between the four measurement outcomes by defining a lower bound of the fourth probability that increases as the total probability of the first three outcomes drops to zero. Quantum theory thus makes the violation of non-contextual consistency between the measurement outcomes not only possible, but actually requires it as a necessary consequence of the Hilbert space inner products that describe the contextual relation between the outcomes of different measurements.
翻訳日:2023-01-20 09:11:36 公開日:2022-12-21
# 古典・量子計算のための最適化トロッター分解

Optimised Trotter Decompositions for Classical and Quantum Computing ( http://arxiv.org/abs/2211.02691v3 )

ライセンス: Link先を確認
Johann Ostmeyer(参考訳) 数値物理学のほとんどすべての分野において$\exp(Ht)$のような指数作用素の鈴木・トラッター分解が必要である。 しばしば、検討中の指数は2つ以上の演算子、例えば量子コンピュータ上の局所ゲートとして$H=\sum_k A_k$に分割する必要がある。 そこで本研究では, 完全2つの作用素に対して導出された高最適化スキームを, このような一般スズキ-トローター分解に適用できることを実証し, 精度の形式的証明と効率の数値的証明を提供する。 既存の対称分解スキームを$n\le4$まで包括的にレビューし、実数係数と複素数係数を含む多くの新しいスキームで補完する。 理論上最も効率的な単項分解と非単項分解を導出する。 このリストは、高次$n\le8$の非常に効率的なスキームによって拡張される。 さらに, 古典的デバイス上でのテイラー展開が, 10^{-4}$ の相対的精度を超過しない計算作業において, 機械の精度を達成するためにどのように用いられるかを示す。 最後に、短くて分かりやすい要約は、任意のシナリオにおいて最適な分解を選択する方法を説明します。

Suzuki-Trotter decompositions of exponential operators like $\exp(Ht)$ are required in almost every branch of numerical physics. Often the exponent under consideration has to be split into more than two operators $H=\sum_k A_k$, for instance as local gates on quantum computers. We demonstrate how highly optimised schemes originally derived for exactly two operators $A_{1,2}$ can be applied to such generic Suzuki-Trotter decompositions, providing a formal proof of correctness as well as numerical evidence of efficiency. A comprehensive review of existing symmetric decomposition schemes up to order $n\le4$ is presented and complemented by a number of novel schemes, including both real and complex coefficients. We derive the theoretically most efficient unitary and non-unitary 4th order decompositions. The list is augmented by several exceptionally efficient schemes of higher order $n\le8$. Furthermore we show how Taylor expansions can be used on classical devices to reach machine precision at a computational effort at which state of the art Trotterization schemes do not surpass a relative precision of $10^{-4}$. Finally, a short and easily understandable summary explains how to choose the optimal decomposition in any given scenario.
翻訳日:2023-01-20 08:48:46 公開日:2022-12-21
# 多重スペクトル退化をもつ2光子駆動Kerr量子発振器

Two-photon driven Kerr quantum oscillator with multiple spectral degeneracies ( http://arxiv.org/abs/2211.03689v2 )

ライセンス: Link先を確認
Diego Ruiz, Ronan Gautier, J\'er\'emie Guillaud and Mazyar Mirrahimi(参考訳) 2光子プロセスによって駆動されるkerr非線形発振器は、量子情報をエンコードし、フォールトトレラント量子計算へのハードウェア効率の高いスケーリングを保証する有望なシステムである。 本稿では、振動子共振に対する2光子駆動のデチューニングという余分な制御パラメータが、定義された量子ビットの特性において重要な役割を担っていることを示す。 このデチューニングの特定の値において、系の強い対称性の恩恵を受け、有効閉じ込めハミルトニアンのスペクトルにおける複数の退化をもたらす。 全体として、これらの退化はビットフリップエラーの強い抑制につながる。 また,このようなハミルトニアン閉じ込めと色消散の組み合わせについて検討し,ボソニック符号空間外の漏洩を抑制する。 我々は,ビットフリップ誤りの強い抑制を保ちながら,高速かつ高忠実なゲートを実現できることを示す。

Kerr nonlinear oscillators driven by a two-photon process are promising systems to encode quantum information and to ensure a hardware-efficient scaling towards fault-tolerant quantum computation. In this paper, we show that an extra control parameter, the detuning of the two-photon drive with respect to the oscillator resonance, plays a crucial role in the properties of the defined qubit. At specific values of this detuning, we benefit from strong symmetries in the system, leading to multiple degeneracies in the spectrum of the effective confinement Hamiltonian. Overall, these degeneracies lead to a stronger suppression of bit-flip errors. We also study the combination of such Hamiltonian confinement with colored dissipation to suppress leakage outside of the bosonic code space. We show that the additional degeneracies allow us to perform fast and high-fidelity gates while preserving a strong suppression of bit-flip errors.
翻訳日:2023-01-20 01:42:40 公開日:2022-12-21
# 量子ジャンプを含む位相拡張

Topological extension including quantum jump ( http://arxiv.org/abs/2211.04233v3 )

ライセンス: Link先を確認
Xiangyu Niu, Junjie Wang(参考訳) 本研究では,Su-Schrieffer-Heegerモデル(SSH)のトポロジ特性について検討した。 系が量子ジャンプイベントがない場合、力学は完全に研究された非相互非エルミタン(NH)SSHモデルと等価である。 第3の量子化によりリンドブラディアンの分類を明らかにし、従って対応する巻数を定義する。 興味深いことに、2つの記述は同じ遷移点を共有し、トポロジーを忠実に予測する。 加えて、量子ジャンプ項が提示されたとき、位相遷移点がシフトしうるが、これは効果的なnh理論では予測できない。 我々の研究は、位相的性質の研究において、nhおよびオープン量子システム記述を橋渡しし、量子ジャンプのユニークな役割を明らかにする。

We study the topological properties of the Su-Schrieffer-Heeger (SSH) model with collective loss and gain. When the system is in the absence of quantum jump events, the dynamic is equivalent to a fully studied non-reciprocal non-Hermitian (NH) SSH model. We unveil the classification of Lindbladians by means of the third quantization and hence define the corresponding winding number. Intriguingly, the two descriptions share the same transition points, and faithfully predict the topology. In addition, when the quantum jumping terms are presented, the phase transition points may shift, which cannot be predicted by the effective NH theory. Our work bridges the NH and open quantum system descriptions in studying the topological properties, and reveals the unique role of quantum jumps.
翻訳日:2023-01-19 23:26:03 公開日:2022-12-21
# 分子システムのためのハイブリッド補助場量子モンテカルロ

Hybrid Auxiliary Field Quantum Monte Carlo for Molecular Systems ( http://arxiv.org/abs/2211.10824v3 )

ライセンス: Link先を確認
Yixiao Chen, Linfeng Zhang, Weinan E, Roberto Car(参考訳) 電子基底状態に対する基底状態多体シュロディンガー方程式を解くために量子モンテカルロ法を提案する。 この方法は変分モンテカルロからの最適化と補助場量子モンテカルロからの伝播を組み合わせ、符号問題を大幅に緩和する。 分子システムへの応用において,動的あるいは静的な電子相関によって支配される構成について,高精度な結果が得られる。

We propose a quantum Monte Carlo approach to solve the ground state many-body Schrodinger equation for the electronic ground state. The method combines optimization from variational Monte Carlo and propagation from auxiliary field quantum Monte Carlo, in a way that significantly alleviates the sign problem. In application to molecular systems, we obtain highly accurate results for configurations dominated by either dynamic or static electronic correlation.
翻訳日:2023-01-18 02:02:16 公開日:2022-12-21
# 指導生成剤 tl;dr の認知的評価

A Cognitive Evaluation of Instruction Generation Agents tl;dr They Need Better Theory-of-Mind Capabilities ( http://arxiv.org/abs/2301.05149v1 )

ライセンス: Link先を確認
Lingjun Zhao and Khanh Nguyen and Hal Daum\'e III(参考訳) 我々は、人間が自然言語を通して効果的に他人を導くことができる認知能力を数学的に特徴付ける。 ニューラルネットワークに基づく命令生成エージェントは、同様の認知能力を有しており、それらの能力を調べるための評価スキームを設計する。 その結果,これらのエージェントは,探索空間を効果的に狭めることができるが,聞き手の指示に対する解釈が不十分であり,小規模な候補集合からでも最善の指示を選択できない場合が多かった。 我々は、聞き手のより優れた理論モデルでエージェントを増強し、実際の人間を導く上で大きなパフォーマンス向上を得る。 しかし、私たちの最高のエージェントと人間のガイドの間には、かなりのギャップがあります。 我々はこのギャップを埋めることの課題について議論し、AIベースのエージェントと対話する際に、より良い人間の行動モデルを構築する必要性を強調した。

We mathematically characterize the cognitive capabilities that enable humans to effectively guide others through natural language. We show that neural-network-based instruction generation agents possess similar cognitive capabilities, and design an evaluation scheme for probing those capabilities. Our results indicate that these agents, while capable of effectively narrowing the search space, poorly predict the listener's interpretations of their instructions and thus often fail to select the best instructions even from a small candidate set. We augment the agents with better theory-of-mind models of the listener and obtain significant performance boost in guiding real humans. Yet, there remains a considerable gap between our best agent and human guides. We discuss the challenges in closing this gap, emphasizing the need to construct better models of human behavior when interacting with AI-based agents.
翻訳日:2023-01-15 23:17:27 公開日:2022-12-21
# 三方向決定に基づく臨床主観的アプローチによる精神障害の分類

Classifying Mental-Disorders through Clinicians Subjective Approach based on Three-way Decision ( http://arxiv.org/abs/2301.03351v1 )

ライセンス: Link先を確認
Md Sakib Ullah Sourav, Huidong Wang(参考訳) 精神疾患診断において、現代のデータ駆動型手動による精神障害分類法は最も一般的な手法であるが、いくつかの必然的な欠陥がある。 3方向決定を枠組みとして, 定量的分析, 定量的解析, 評価に基づく分析の3つの部分からなる, 臨床医の主観的アプローチ(CSA)分析のための統一モデルを提案する。 臨床医の最大の想定値に応じた病気の程度に基づくランキングリストと数値の重み付けのセットは、質的かつ定量的な調査の結果である。 さらに, 疾患の分類を3つのグループに分類し, 評価に基づく3段階のモデルを用いて, より明確な方法による疾患の理解と表現を図っている。 提案手法は,精神疾患の診断における精度向上のための補完的ツールとして,マニュアルベースプロセスと統合される可能性がある。

In psychiatric diagnosis, a contemporary data-driven, manual-based method for mental disorders classification is the most popular technique; however, it has several inevitable flaws. Using the three-way decision as a framework, we propose a unified model that stands for clinicians' subjective approach (CSA) analysis consisting of three parts: quantitative analysis, quantitative analysis, and evaluation-based analysis. A ranking list and a set of numerical weights based on illness magnitude levels according to the clinician's greatest degree of assumptions are the findings of the qualitative and quantitative investigation. We further create a comparative classification of illnesses into three groups with varying important levels; a three-way evaluation-based model is utilized in this study for the aim of understanding and portraying these results in a more clear way. This proposed method might be integrated with the manual-based process as a complementary tool to improve precision while diagnosing mental disorders
翻訳日:2023-01-15 23:15:53 公開日:2022-12-21
# スピン0粒子の量子相対論的時間-平衡作用素と量子トンネル時間問題

Quantized relativistic time-of-arrival operators for spin-0 particles and the quantum tunneling time problem ( http://arxiv.org/abs/2212.00343v2 )

ライセンス: Link先を確認
Philip Caesar Flores and Eric A. Galapon(参考訳) 直近の報告(arXiv:2207.09040)の完全な説明として、修正ワイル順序法を用いてスピン-0粒子に対する量子化相対論的時間演算子を構築し、正方形障壁を横切る時間を計算する。 その結果, 相対論的スピン-0粒子のトンネル時間は, バリア高さ$V_o$が残りの質量エネルギーよりも低い条件下で瞬時であることがわかった。 これは、瞬時トンネルが到着時間の文脈で固有の量子効果であることを意味する。

We provide a full account of our recent report (arXiv:2207.09040) which constructed a quantized relativistic time-of-arrival operator for spin-0 particles using a modified Weyl-ordering rule to calculate the traversal time across a square barrier. It was shown that the tunneling time of a relativistic spin-0 particle is instantaneous under the condition that the barrier height $V_o$ is less than the rest mass energy. This implies that instantaneous tunneling is an inherent quantum effect in the context of arrival times.
翻訳日:2023-01-09 22:29:18 公開日:2022-12-21
# qkdとdiqkdの有利蒸留における量子チャーンオフ分岐

The Quantum Chernoff Divergence in Advantage Distillation for QKD and DIQKD ( http://arxiv.org/abs/2212.06975v2 )

ライセンス: Link先を確認
Mikka Stasiuk, Norbert L\"utkenhaus, Ernest Y.-Z. Tan(参考訳) デバイス非依存型量子鍵分布(DIQKD)は、最小限のセキュリティ仮定を持つ秘密鍵蒸留へのアプローチを提供することで、量子デバイスにおける不完全性の敵対的利用を軽減することを目的としている。 誤差補正における双方向通信方式であるアドバンテージ蒸留は, デバイス依存QKDとデバイス非依存QKDの両方において, 耐雑音性を高めるのに有効であることが証明されている。 従来、IID集団攻撃に対するデバイス非依存のセキュリティ証明は、プロトコル内のいくつかの状態間の完全性を含むセキュリティ条件に基づいて、繰り返し符号プロトコルとして知られる有利な蒸留プロトコルのために開発された。 しかし、十分なセキュリティ条件と必要なセキュリティ条件の間にはギャップがあり、忠実性に基づく厳密なノイズ許容範囲の計算を妨げている。 我々は、このギャップを、対称仮説検定で生じる識別可能性尺度である量子チャーンオフ発散に忠実性を置き換える別の証明構造を示すことによって閉じる。 IID集団攻撃モデルにおいて、量子チャーノフの発散による繰り返し符号プロトコルの安全性(後者の場合に関する自然予想まで)を十分かつ必要条件に整合させることから、このプロトコルが関連する関心の量であることを示す。 さらに, このセキュリティ条件により, diqkdの耐雑音閾値について, 従来の結果よりも若干の改善が得られた。 この結果は、diqkdが可能となる状況に関する量子情報理論における基礎的問題に対する洞察を与える。

Device-independent quantum key distribution (DIQKD) aims to mitigate adversarial exploitation of imperfections in quantum devices, by providing an approach for secret key distillation with modest security assumptions. Advantage distillation, a two-way communication procedure in error correction, has proven effective in raising noise tolerances in both device-dependent and device-independent QKD. Previously, device-independent security proofs against IID collective attacks were developed for an advantage distillation protocol known as the repetition-code protocol, based on security conditions involving the fidelity between some states in the protocol. However, there exists a gap between the sufficient and necessary security conditions, which hinders the calculation of tight noise-tolerance bounds based on the fidelity. We close this gap by presenting an alternative proof structure that replaces the fidelity with the quantum Chernoff divergence, a distinguishability measure that arises in symmetric hypothesis testing. Working in the IID collective attacks model, we derive matching sufficient and necessary conditions for the repetition-code protocol to be secure (up to a natural conjecture regarding the latter case) in terms of the quantum Chernoff divergence, hence indicating that this serves as the relevant quantity of interest for this protocol. Furthermore, using this security condition we obtain some improvements over previous results on the noise tolerance thresholds for DIQKD. Our results provide insight into a fundamental question in quantum information theory regarding the circumstances under which DIQKD is possible.
翻訳日:2023-01-09 14:21:52 公開日:2022-12-21
# 固有クロックとしての量子不確かさ

Quantum Uncertainty as an Intrinsic Clock ( http://arxiv.org/abs/2212.09442v2 )

ライセンス: Link先を確認
Etera R. Livine(参考訳) 量子重力における時間の問題、より一般的には局在化の問題は、量子ゆらぎを時計の本質的な概念として考えることで解決できるかもしれない。 本稿では、任意の時間依存性の高調波ポテンシャルで進化する古典系を、量子化系の位置不確かさの進化によって定義される時間再パラメータ化により、常に一定周波数と正規ビートを持つ標準高調波発振器にマッピング可能であることを示す。 これはまた、量子過程によって自然に解かれる古典力学の問題の例を提供する。

We suggest that the problem of time in quantum gravity, and more generally the problem of localization, might be addressed by considering the quantum fluctuations as providing an intrinsic notion of clock. We illustrate the usefulness of such a clock by showing that a classical system evolving in an arbitrary time-dependent harmonic potential can always be mapped onto the standard harmonic oscillator with fixed frequency and regular beat by a time reparametrization defined by the evolution of the position uncertainty of the quantized system. This also provides an example of a problem of classical mechanics naturally solved by a quantum process.
翻訳日:2023-01-09 13:20:36 公開日:2022-12-21
# カールマン線形化に基づく高次多項式微分方程式の効率的な量子アルゴリズム

Carleman linearization based efficient quantum algorithm for higher order polynomial differential equations ( http://arxiv.org/abs/2212.10775v1 )

ライセンス: Link先を確認
Amit Surana, Abeynaya Gnanasekaran and Tuhin Sahai(参考訳) 量子プラットフォーム上で任意の次数多項式ベクトル場を持つ非線形微分方程式をシミュレートする効率的な量子アルゴリズムを提案する。 通常の微分方程式(ODE)や偏微分方程式(PDE)によって支配される物理系のモデルは、高次元性、剛性、非線形性、初期条件への敏感な依存のため、古典的なコンピュータでは解決が難しい。 スパース$n$次元線形ODEでは、ポリ(log(nx))時間に比例した量子状態を生成する量子アルゴリズムが、QLSA(quantum linear systems algorithm)を用いて開発された。 近年、この枠組みは二次多項式ベクトル場を持つ非線形 ode の系に拡張され、二次系を近似線型形式に埋め込むことができるカールマン線型化を適用した。 特定の条件下で計算上の優位性を示す詳細な複雑性解析を行った。 任意の(有限)値に対して$k$-次多項式ベクトル場を持つ非線形ODEのシステムを扱うために,このアルゴリズムの拡張を提案する。 ステップは以下の通り。 1)$k$-次多項式ODEを高次元二次多項式ODEにマッピングする。 2) カルマン線型化を適用して二次ODEを線形ODEの無限次元系に変換する。 3) 線形ODEの切り抜きと離散化, forward Euler法とQLSAを用いた解法。 あるいは、カールマン線型化を$k$-次多項式ODEに直接適用して、無限次元線型ODEの系を作り、ステップ3を適用することもできる。 この解法はより効率的に計算できる。 提案するアルゴリズムの詳細な複雑性解析を行い,$k$でのランタイムの多項式スケーリングを証明し,そのフレームワークを例に示す。

We present an efficient quantum algorithm to simulate nonlinear differential equations with polynomial vector fields of arbitrary degree on quantum platforms. Models of physical systems that are governed by ordinary differential equations (ODEs) or partial differential equation (PDEs) can be challenging to solve on classical computers due to high dimensionality, stiffness, nonlinearities, and sensitive dependence to initial conditions. For sparse $n$-dimensional linear ODEs, quantum algorithms have been developed which can produce a quantum state proportional to the solution in poly(log(nx)) time using the quantum linear systems algorithm (QLSA). Recently, this framework was extended to systems of nonlinear ODEs with quadratic polynomial vector fields by applying Carleman linearization that enables the embedding of the quadratic system into an approximate linear form. A detailed complexity analysis was conducted which showed significant computational advantage under certain conditions. We present an extension of this algorithm to deal with systems of nonlinear ODEs with $k$-th degree polynomial vector fields for arbitrary (finite) values of $k$. The steps involve: 1) mapping the $k$-th degree polynomial ODE to a higher dimensional quadratic polynomial ODE; 2) applying Carleman linearization to transform the quadratic ODE to an infinite-dimensional system of linear ODEs; 3) truncating and discretizing the linear ODE and solving using the forward Euler method and QLSA. Alternatively, one could apply Carleman linearization directly to the $k$-th degree polynomial ODE, resulting in a system of infinite-dimensional linear ODEs, and then apply step 3. This solution route can be computationally more efficient. We present detailed complexity analysis of the proposed algorithms, prove polynomial scaling of runtime on $k$ and demonstrate the framework on an example.
翻訳日:2023-01-09 06:41:16 公開日:2022-12-21
# ライドバーグ原子アレイにおける2次元$\mathrm{U(1)}$ゲージ理論の量子シミュレーション

Quantum simulation of two-dimensional $\mathrm{U(1)}$ gauge theory in Rydberg atom arrays ( http://arxiv.org/abs/2212.10863v1 )

ライセンス: Link先を確認
Zheng Zhou, Zheng Yan, Changle Liu, Yan Chen, and Xue-Feng Zhang(参考訳) 空間次元が 1 よりも大きい $\mathrm{u(1)}$ 量子ゲージ理論のシミュレーションは、物理的に非常に重要であるが、実験的には達成されていない。 ここでは、三角格子 rydberg 原子配列上の $\mathrm{u(1)}$ ゲージ理論の単純な実現を提案する。 実験的な到達範囲内では、実効モデルが位相的セクタの出現、非可測性、解解ロクサー・キヴェルソン点など、$\mathrm{u(1)}$ゲージ理論の様々な側面をうまくシミュレートできることが分かる。 提案手法は実験的に実装が容易であり, 先行提案である$\mathrm{u(1)}$ および $\mathbb z_2$ のゲージ理論と比較して, 発音可能な量子力学を示す。

Simulating $\mathrm{U(1)}$ quantum gauge theories with spatial dimension greater than one is of great physical significance yet has not been achieved experimentally. Here we propose a simple realization of $\mathrm{U(1)}$ gauge theory on triangular lattice Rydberg atom arrays. Within experimentally accessible range, we find that the effective model well simulates various aspects of the $\mathrm{U(1)}$ gauge theory, such as emergence of topological sectors, incommensurability, and the deconfined Rokhsar-Kivelson point. Our proposal is easy to implement experimentally and exhibits pronounced quantum dynamics compared with previous proposals realizing $\mathrm{U(1)}$ and $\mathbb Z_2$ gauge theories.
翻訳日:2023-01-09 06:40:48 公開日:2022-12-21
# ガウスの法則、ゲージ場の顕在化とその局所可観測物への影響

Gauss's law, the manifestations of gauge fields, and their impact on local observables ( http://arxiv.org/abs/2212.11009v1 )

ライセンス: Link先を確認
Detlev Buchholz, Fabio Ciolli, Giuseppe Ruzzi and Ezio Vasselli(参考訳) 電磁場の普遍代数の枠組みの中では、外部電荷の大域的中性配置が磁場に与える影響を解析する。 外部電荷は場に影響されないが、普遍代数の局所的自己同型を誘導する。 ガウスの法則は、これらの自己同型が電磁場のみを含むユニタリ作用素によって実装できないことを意味し、それらは外自己同型である。 自由度の欠如は普遍代数の拡大に組み込むことができ、これは具体的にはゲージ場と外部電荷を記述するアーベル代数の指数関数で表される。 このように、ゲージ場はゲージ不変可観測体の枠組みに現れている。 真空状態における自己同型の作用は、局所的に真空状態とは無関係な大域電荷が消滅する電磁場の表現をもたらす。 この特徴は電磁場の拡大普遍代数において消失する。 状態のエネルギー含量はどちらの場合もよく定義され、下から有界である。 これらの世界的中立状態から荷電状態への遷移とエネルギー量の決定も議論されている。

Within the framework of the universal algebra of the electromagnetic field, the impact of globally neutral configurations of external charges on the field is analyzed. External charges are not affected by the field, but they induce localized automorphisms of the universal algebra. Gauss's law implies that these automorphisms cannot be implemented by unitary operators involving only the electromagnetic field, they are outer automorphisms. The missing degrees of freedom can be incorporated in an enlargement of the universal algebra, which can concretely be represented by exponential functions of gauge fields and an abelian algebra describing the external charges. In this manner, gauge fields manifest themselves in the framework of gauge invariant observables. The action of the automorphisms on the vacuum state gives rise to representations of the electromagnetic field with vanishing global charge, which are locally disjoint from the vacuum representation. This feature disappears in the enlarged universal algebra of the electromagnetic field. The energy content of the states is well defined in both cases and bounded from below. The passage from these globally neutral states to charged states and the determination of their energy content are also being discussed.
翻訳日:2023-01-09 06:40:32 公開日:2022-12-21
# 有効薄膜トーラス限界からのチャーン絶縁体の断熱的調製

Adiabatic preparation of fractional Chern insulators from an effective thin-torus limit ( http://arxiv.org/abs/2212.11294v1 )

ライセンス: Link先を確認
Benjamin Michen, C\'ecile Repellin, and Jan Carl Budich(参考訳) 量子シミュレータにおける断熱合成の出発点として,分数チャーン絶縁体(fcis)の準一次元(thin torus,tt)極限を探索する。 本手法は,一方向のホッピング振幅を実験的に制御可能なノブとして調整し,システムの有効アスペクト比を動的に変化させる。 連続体における分数量子ホール(FQH)系のTT制限と同様に、ホッピング誘起TT制限はFCI状態と自明な電荷密度波(CDW)基底状態とを断熱的に結合する。 この断熱経路は、cdw状態の初期化とホッピング異方性の断熱的減少に依存する状態形成スキームに利用することができる。 以上の結果は,格子上および結合線からなる複数のfciモデルにおける励起ギャップの計算に基づく。 強い異方性ホッピング限界のギャップを解析的に計算することにより,そのスケーリングが十分に大きなホッピング異方性のための大規模FCIの生成と相容れないことを示す。 正確な対角化の枠組みにおける数値シミュレーションは、これらの結果を裏付ける完全な異方性範囲を探索する。

We explore the quasi one-dimensional (thin torus, or TT) limit of fractional Chern insulators (FCIs) as a starting point for their adiabatic preparation in quantum simulators. Our approach is based on tuning the hopping amplitude in one direction as an experimentally amenable knob to dynamically change the effective aspect ratio of the system. Similar to the TT limit of fractional quantum Hall (FQH) systems in the continuum, we find that the hopping-induced TT limit adiabatically connects the FCI state to a trivial charge density wave (CDW) ground state. This adiabatic path may be harnessed for state preparation schemes relying on the initialization of a CDW state followed by the adiabatic decrease of a hopping anisotropy. Our findings are based on the calculation of the excitation gap in a number of FCI models, both on a lattice and consisting of coupled wires. By analytical calculation of the gap in the limit of strongly anisotropic hopping, we show that its scaling is compatible with the preparation of large size FCIs for sufficiently large hopping anisotropy. Our numerical simulations in the framework of exact diagonalization explore the full anisotropy range to corroborate these results.
翻訳日:2023-01-09 06:39:58 公開日:2022-12-21
# 量子双局所シナリオのためのインフレーション階層と偏極階層は完全である

The inflation hierarchy and the polarization hierarchy are complete for the quantum bilocal scenario ( http://arxiv.org/abs/2212.11299v1 )

ライセンス: Link先を確認
Laurens T. Ligthart and David Gross(参考訳) 量子力学系で測定を行うことで得られる相関の集合を特徴付けるのは、基本的なが難しい問題である。 この問題は、量子状態の準備手順が与えられた因果構造に従うと仮定される場合、特に困難である。 近年、いわゆる量子インフレーション技術に基づいて、この量子因果整合問題に対する最初の完全性結果が与えられている。 しかし、完全性は観測対象のシュミット階の上限のような追加の技術的制約を課すことで達成された。 そこで本研究では, 量子双局所シナリオにおいて, エンタングルメントスワッピング実験のよく研究された抽象モデルにおいて, これらの合併症は不要であることを示す。 量子インフレーション階層は、可換な局所性モデルにおけるバイローカライズシナリオに対して完備であることを示す。 また、tsirelson による観測の双局所バージョン、すなわち有限次元において、可換可観測モデルと局所性のテンソル積モデルが一致することを述べる。 これらの結果は、renouとxuが最近提起した疑問に答える。 最後に,本手法は,生成元と関係によって定義される作用素代数の状態における多項式関数の最適化問題に対して完結したsdp階層を生じさせるものとして,より一般に解釈できることを示す。 この偏極階層の完全性は、最大$C^*$-テンソル積上の状態に対する量子デ・フィネッティの定理から従う。

It is a fundamental but difficult problem to characterize the set of correlations that can be obtained by performing measurements on quantum mechanical systems. The problem is particularly challenging when the preparation procedure for the quantum states is assumed to comply with a given causal structure. Recently, a first completeness result for this quantum causal compatibility problem has been given, based on the so-called quantum inflation technique. However, completeness was achieved by imposing additional technical constraints, such as an upper bound on the Schmidt rank of the observables. Here, we show that these complications are unnecessary in the quantum bilocal scenario, a much-studied abstract model of entanglement swapping experiments. We prove that the quantum inflation hierarchy is complete for the bilocal scenario in the commuting observables model of locality. We also give a bilocal version of an observation by Tsirelson, namely that in finite dimensions, the commuting observables model and the tensor product model of locality coincide. These results answer questions recently posed by Renou and Xu. Finally, we point out that our techniques can be interpreted more generally as giving rise to an SDP hierarchy that is complete for the problem of optimizing polynomial functions in the states of operator algebras defined by generators and relations. The completeness of this polarization hierarchy follows from a quantum de Finetti theorem for states on maximal $C^*$-tensor products.
翻訳日:2023-01-09 06:39:36 公開日:2022-12-21
# トポロジカル半金属中の不純物および格子欠陥の量子効果

Quantum Effects of Impurities and Lattice Defects in Topological Semimetals ( http://arxiv.org/abs/2212.11384v1 )

ライセンス: Link先を確認
J. P. Santos Pires(参考訳) トポロジカル・セミメタル(英: Topological semimetals)は、フェルミ準位で位相的に保護された円錐状バンドタッチを特徴とする新しい3次元電子相のクラスである。 これらのバンドタッチポイントは運動量空間におけるベリー曲率のモノポールであり、3+1次元ワイルフェルミオンを創発準粒子として効果的に実現する。 このような特徴は摂動に強いが、それらには全く敏感ではない。 この論文では、オンサイト確率場、ランダムな滑らかなポテンシャル領域、点状スカラー不純物、格子点欠陥の電子構造および電気力学特性の影響を解析することにより、不規則なweyl半金属(wsms)の未熟な基礎を探求する。

Topological semimetals are a class of novel three-dimensional (3D) electronic phases that feature topologically protected conical band-touchings at the Fermi level. These band-touching points are monopoles of Berry curvature in momentum space and effectively realize (3+1)-dimensional Weyl fermions as emergent quasiparticles. Such features are robust to perturbations but not completely insensitive to them. In this thesis, we explore the yet fertile ground of disordered Weyl semimetals (WSMs), most notably by analysing the effects of on-site random fields, random smooth potential regions, point-like scalar impurities, and lattice point-defects in their electronic structure and electrodynamic properties.
翻訳日:2023-01-09 06:38:59 公開日:2022-12-21
# 熱純量子状態を持つ量子コンピュータにおけるゲージ理論の位相図の探索に向けて

Toward Exploring Phase Diagrams of Gauge Theories on Quantum Computers with Thermal Pure Quantum States ( http://arxiv.org/abs/2212.11388v1 )

ライセンス: Link先を確認
Zohreh Davoudi, Niklas Mueller, Connor Powers(参考訳) 古典モンテカルロ法による格子量子色力学における悪名高い符号問題を回避すべく,非零密度における有限温度格子ゲージ理論の量子計算へのアプローチを提案する。 ゲージ理論系に拡張する際の統計力学の熱的純量子状態形式に基づいて、熱期待値と非等角時間相関関数の符号プロブレムフリー量子計算を可能にする。 古典的なベンチマークが可能である単純な格子ゲージ理論、すなわち、有限化学ポテンシャルにおける1+1次元の格子ゲージ理論を用いて、短期量子ハードウエア実現のためのアルゴリズム的およびハードウェア的不完全性に対する資源要求と堅牢性について議論する。

Aiming at evading the notorious sign problem in classical Monte-Carlo approaches to lattice quantum chromodynamics, we present an approach for quantum computing finite-temperature lattice gauge theories at non-zero density. Based on the thermal pure-quantum-state formalism of statistical mechanics when extended to gauge-theory systems, our approach allows for sign-problem-free quantum computations of thermal expectation values and non-equal time correlation functions. By taking a simple lattice gauge theory for which classical benchmarks are possible, namely $\mathbb{Z}_2$ lattice gauge theory in 1+1 dimensions at finite chemical potential, we discuss resource requirements and robustness to algorithmic and hardware imperfections for near-term quantum-hardware realizations.
翻訳日:2023-01-09 06:38:43 公開日:2022-12-21
# 量子対古典的誕生と死の過程 : 真に解決可能な例

Quantum vs Classical Birth and Death Processes; Exactly Solvable Examples ( http://arxiv.org/abs/2212.10710v1 )

ライセンス: Link先を確認
Ryu Sasaki(参考訳) 連続および離散時間誕生・死(bd)過程のコインレス量子化手順が提示される。 量子ハミルトニアン H は、BD方程式を記述する行列 L を定常(可逆)分布の平方根として変換することによって導出される。 量子系と古典系は全固有値を共有し、固有ベクトルは1対1の関係を持つ。 出生率b(x)と死亡率d(x)が、アスキースキーの直交多項式を管理する差分方程式の係数として選択されると、量子系は正確に解くことができる。 固有ベクトルは直交多項式自身であり、固有値は解析的に与えられる。 固有値はすべて整数、または整数パラメータのすべての整数であるため、多くの例は周期的である。 この状況は、正確に解ける1次元量子力学系と非常によく似ている。 これらの正確に解けるマルコフ鎖は、様々なシミュレーション目的に有用な調整可能な自由パラメータを含む。

A coinless quantisation procedure of continuous and discrete time Birth and Death (BD) processes is presented. The quantum Hamiltonian H is derived by similarity transforming the matrix L describing the BD equation in terms of the square root of the stationary (reversible) distribution. The quantum and classical systems share the entire eigenvalues and the eigenvectors are related one to one. When the birth rate B(x) and the death rate D(x) are chosen to be the coefficients of the difference equation governing the orthogonal polynomials of Askey scheme, the quantum system is exactly solvable. The eigenvectors are the orthogonal polynomials themselves and the eigenvalues are given analytically. Many examples are periodic since their eigenvalues are all integers, or all integers for integer parameters. The situation is very similar to the exactly solvable one dimensional quantum mechanical systems. These exactly solvable Markov chains contain many adjustable free parameters which could be helpful for various simulation purposes.
翻訳日:2023-01-09 06:29:42 公開日:2022-12-21
# 量子対古典マルコフ連鎖 : 特に解決可能な例

Quantum vs classical Markov chains; Exactly solvable examples ( http://arxiv.org/abs/2212.10713v1 )

ライセンス: Link先を確認
Ryu Sasaki(参考訳) グラフ上の一般可逆マルコフ連鎖のコインレス量子化手順を示す。 量子ハミルトン h は、可逆分布の平方根の観点から、基本遷移確率行列 k の類似性変換によって得られる。 古典的および量子的マルコフ連鎖の進化は、量子ハミルトニアン h の固有値問題の解によって説明され、オダケ・ササキによって導かれたアスキースキースキームの超幾何学的直交多項式に基づく20以上の正確な可解マルコフ連鎖は、マルコフ連鎖の量子的/古典的コントラストを精査するためのよい窓となる。 これらのうち,krawtchouk,hahn,q-hahn,charlier,meixnerの5つの明示的な例を実計算例として示す。

A coinless quantisation procedure of general reversible Markov chains on graphs is presented. A quantum Hamiltonian H is obtained by a similarity transformation of the fundamental transition probability matrix K in terms of the square root of the reversible distribution. The evolution of the classical and quantum Markov chains are described by the solutions of the eigenvalue problem of the quantum Hamiltonian H. About twenty plus exactly solvable Markov chains based on the hypergeometric orthogonal polynomials of Askey scheme, derived by Odake-Sasaki, would provide a good window for scrutinising the quantum/classical contrast of Markov chains. Among them five explicit examples, related to the Krawtchouk, Hahn, q-Hahn, Charlier and Meixner, are demonstrated to illustrate the actual calculations.
翻訳日:2023-01-09 06:29:29 公開日:2022-12-21
# 強励起子-ビブロンカップリングによる偏光・放射強度の崩壊と再生

Collapses and revivals of polarization and radiation intensity induced by strong exciton-vibron coupling ( http://arxiv.org/abs/2212.11060v1 )

ライセンス: Link先を確認
E. A. Tereshchenkov, V. Yu. Shishkov and E. S. Andrianov(参考訳) 近年,電子自由度と振動自由度を強く結合するシステムが注目されている。 本研究では,外部単色場によって駆動される強結合ビブロンとエキシトンからなる系の過渡ダイナミクスについて考察する。 コヒーレントポンプの下では、励起子の偏光は複雑な量子力学を示し、3つの段階に分けられる。 第一段階では、励起子振動は、ビブロンのシフトフォック状態に遷移するため、固有周波緩和で発振する。 これらのシフトフォック状態が励起励起子状態の有効貯水池の役割を果たすことを実証した。 この貯水池への緩和時期は、エキシトン-ビブロンカップリングに依存する。 第2段階では、励起は第1段階でビブロニックシフト状態の貯水池に移動し、電子自由度に戻り、励起子の固有周波数での振動の再生が現れる。 したがって、分子分極のダイナミクスは崩壊と復活を示す。 最終段階では、これらの崩壊と回復は散逸し、偏光は外部磁場の周波数でレイリー反応を示す。 検出された崩壊と復活は、エキシトン遷移周波数付近のスペクトル線の多重分割として放射スペクトルに現れる。

Recently, systems with strong coupling between electronic and vibrational degrees of freedom attract a great attention. In this work, we consider the transient dynamics of the system consisting of strongly coupled vibron and exciton driven by external monochromatic field. We show that under coherent pumping, polarization of exciton exhibits complex quantum dynamics which can be divided into three stages. At the first stage, exciton oscillations at its eigenfrequency relax due to the transition to set of shifted Fock states of vibrons. We demonstrate that these shifted Fock states play the role of an effective reservoir for the excited exciton state. The time of relaxation to this reservoir depends on exciton-vibron coupling. At the second stage, excitation, transferred to the reservoir of the vibronic shifted states at the first stage, returns into electronic degrees of freedom and revival of oscillations at exciton eigenfrequency appears. Thus, the dynamics of molecular polarization exhibit collapses and revivals. At the final stage, these collapses and revivals dissipate and polarization exhibits Rayleigh response at the frequency of the external field. Discovered collapses and revivals manifest in radiation spectrum as multiple splitting of the spectral line near the exciton transition frequency.
翻訳日:2023-01-09 05:55:44 公開日:2022-12-21
# ハバード・ディマーの修正シュリーファー・ウルフ変換における再帰的関係と量子固有解法

Recursive relations and quantum eigensolver algorithms within modified Schrieffer--Wolff transformations for the Hubbard dimer ( http://arxiv.org/abs/2212.11089v1 )

ライセンス: Link先を確認
Quentin Mar\'ecat, Bruno Senjean, Matthieu Sauban\`ere(参考訳) 半充填ハバード二量体に適用したシュリーファー-ウォルフ変換に対する再帰的関係を導出した。 標準SW変換は変換されたハミルトニアンを摂動の第1次のみにブロック対角化するように設定されているが、再帰的関係から、そのアプローチで変分あるいは反復的な2つのタイプの修正から推測するか、あるいは同次の場合、無限次摂動において所望のブロック対角化を強制する。 修正されたSWユニタリ変換は、ノイズおよび耐故障性に適応したテスト量子アルゴリズムの設計に使用される。 この研究は、一般のハバード・ハミルトンの代替量子アルゴリズムの設計への道を開いた。

We derive recursive relations for the Schrieffer--Wolff (SW) transformation applied to the half-filled Hubbard dimer. While the standard SW transformation is set to block-diagonalize the transformed Hamiltonian solely at the first order of perturbation, we infer from recursive relations two types of modifications, variational or iterative, that approach, or even enforce for the homogeneous case, the desired block-diagonalization at infinite order of perturbation. The modified SW unitary transformations are then used to design an test quantum algorithms adapted to the noisy and fault-tolerant era. This work paves the way toward the design of alternative quantum algorithms for the general Hubbard Hamiltonian.
翻訳日:2023-01-09 05:55:29 公開日:2022-12-21
# QBistがメルローポンティを読む

A QBist reads Merleau-Ponty ( http://arxiv.org/abs/2212.11094v1 )

ライセンス: Link先を確認
R\"udiger Schack(参考訳) Michel Bitbol氏(Bitbol 2020)とLaura de la Tremblaye氏(de La Tremblaye 2020)による以前の研究に続いて、この短い論文はQBismとMaurice Merleau-Ponty氏のエッセイであるThe Intertwining -- the chiasmの接触点を探求する。

Following earlier work by Michel Bitbol (Bitbol 2020) and Laura de la Tremblaye (de La Tremblaye 2020) which examines QBism from the perspective of phenomenology, this short paper explores points of contact between QBism and Maurice Merleau-Ponty's essay The intertwining -- the chiasm.
翻訳日:2023-01-09 05:55:11 公開日:2022-12-21
# 量子アニーリング学習検索の実装

Quantum Annealing Learning Search Implementations ( http://arxiv.org/abs/2212.11132v1 )

ライセンス: Link先を確認
Andrea Bonomi, Thomas De Min, Enrico Zardini, Enrico Blanzieri, Valter Cavecchia, Davide Pastorello(参考訳) 本稿では,d波量子アニーラ上のハイブリッド量子古典アルゴリズムquantum annealing learning search (qals) の2つの実装(c++とpython)の詳細とテストについて述べる。 QALSは2019年に、D-Waveマシンのハードウェアアーキテクチャに直接表現できない一般的なQUBO問題を解決する新しい手法として提案された。 古典的反復構造内の量子機械への繰り返し呼び出しと関連する収束証明は、与えられた問題の量子アーキテクチャへの符号化を見つけるための学習メカニズムを生じる。 本研究は,QALSテストにおける数値分割問題(NPP)とトラベリングセールスマン問題(TSP)について考察する。 その結果、QALSは、特に古典的手法が一般に量子アニールよりも優れているNPPにおいて、他の考慮された方法と同様に、実行できないことが判明した。 しかしながら、TSPテストを見ると、QALSはQUBO問題を直接QPUトポロジにマッピングできない処理という主要な目標を達成している。

This paper presents the details and testing of two implementations (in C++ and Python) of the hybrid quantum-classical algorithm Quantum Annealing Learning Search (QALS) on a D-Wave quantum annealer. QALS was proposed in 2019 as a novel technique to solve general QUBO problems that cannot be directly represented into the hardware architecture of a D-Wave machine. Repeated calls to the quantum machine within a classical iterative structure and a related convergence proof originate a learning mechanism to find an encoding of a given problem into the quantum architecture. The present work considers the Number Partitioning Problem (NPP) and the Travelling Salesman Problem (TSP) for the testing of QALS. The results turn out to be quite unexpected, with QALS not being able to perform as well as the other considered methods, especially in NPP, where classical methods outperform quantum annealing in general. Nevertheless, looking at the TSP tests, QALS has fulfilled its primary goal, i.e., processing QUBO problems not directly mappable to the QPU topology.
翻訳日:2023-01-09 05:55:00 公開日:2022-12-21
# マルコフ開量子系における量子リセット過程による加速緩和

Accelerating relaxation in Markovian open quantum systems through quantum reset processes ( http://arxiv.org/abs/2212.11170v1 )

ライセンス: Link先を確認
Ruicheng Bao and Zhonghuai Hou(参考訳) 緩やかな緩和過程の発散時間スケールは、古典系と量子系の両方において定常状態の性質と定常状態熱エンジンのようないくつかの系の機能化の研究の障害である。 したがって、緩和時間スケールの短縮は多くの場合望ましい。 ここでは、量子計算における共通かつ重要な演算である量子リセットを用いることで、任意の初期状態を持つ一般マルコフ開量子系の緩和ダイナミクスは、単純なプロトコルによって大幅に加速できると主張する。 リセットプロトコルによって誘導されるこの高速な緩和は、量子Mpemba効果を想起させる。 提案したリセットプロトコルは、2状態の量子システムに適用され、一つの量子ビットやスピンを特徴付けることができる。 さらに、緩和を加速する新しい戦略は、閉量子系や非マルコフ開量子系にも応用できるかもしれない。

The divergent timescales of slow relaxation processes are obstacles to the study of stationary state properties and the functionalization of some systems like steady state heat engines, both in classical and quantum systems. Thus the shortening of the relaxation time scale would be desirable in many cases. Here we claim that using quantum reset, a common and important operation in quantum computation, the relaxation dynamics of general Markovian open quantum systems with arbitrary initial states is able to be accelerated significantly through a simple protocol. This faster relaxation induced by the reset protocol is reminiscent of the quantum Mpemba effect. The reset protocol we proposed is applied to a two-state quantum systems to illustrate our theory, which may characterize a single qubit or a spin. Furthermore, our new strategy to accelerate relaxations may also be applied to closed quantum systems or even some non-Markovian open quantum systems.
翻訳日:2023-01-09 05:54:40 公開日:2022-12-21
# 変分量子固有解法に対するランダム化コンパイルとゼロノイズ外挿による相乗的量子誤差緩和

Synergetic quantum error mitigation by randomized compiling and zero-noise extrapolation for the variational quantum eigensolver ( http://arxiv.org/abs/2212.11198v1 )

ライセンス: Link先を確認
Tomochika Kurita, Hammam Qassim, Masatoshi Ishii, Hirotaka Oshima, Shintaro Sato, Joseph Emerson(参考訳) 本稿では,変分量子固有解法(VQE)アルゴリズムの量子誤差軽減戦略を提案する。 数値シミュレーションにより,vqeのコヒーレントノイズは,従来の緩和法では抑制しにくいような大きな誤差を生じさせる可能性があるが,提案手法では,これらの誤差を著しく低減できることがわかった。 提案手法は従来報告されていたランダム化コンパイル(RC)とゼロノイズ外挿(ZNE)の組み合わせである。 直感的には、ランダム化コンパイルは、回路内のコヒーレントエラーを確率的ポーリ誤差に変換し、コスト関数を評価する際にゼロノイズ限界への外挿を容易にする。 小分子に対するvqeの数値シミュレーションにより,提案手法は,様々な種類のコヒーレントノイズによるエネルギー誤差を最大2桁緩和できることを示した。

We propose a quantum error mitigation strategy for the variational quantum eigensolver (VQE) algorithm. We find, via numerical simulation, that very small amounts of coherent noise in VQE can cause substantially large errors that are difficult to suppress by conventional mitigation methods, and yet our proposed mitigation strategy is able to significantly reduce these errors. The proposed strategy is a combination of previously reported techniques, namely randomized compiling (RC) and zero-noise extrapolation (ZNE). Intuitively, randomized compiling turns coherent errors in the circuit into stochastic Pauli errors, which facilitates extrapolation to the zero-noise limit when evaluating the cost function. Our numerical simulation of VQE for small molecules shows that the proposed strategy can mitigate energy errors induced by various types of coherent noise by up to two orders of magnitude.
翻訳日:2023-01-09 05:54:27 公開日:2022-12-21
# 大型2次元量子ロータモデルのユニタリダイナミクスに向けて

Towards unitary dynamics of large two-dimensional quantum rotor models ( http://arxiv.org/abs/2212.11289v1 )

ライセンス: Link先を確認
Matija Medvidovi\'c, Dries Sels(参考訳) 本稿では,連続変数量子多体系のダイナミクスをシミュレートする手法を提案する。 我々のアプローチは、カスタムニューラルネットワーク多体量子状態に基づいている。 本研究では,2次元量子ロータのダイナミクスに着目し,連続的に試行状態を表現し,ハミルトニアンモンテカルロに基づく最先端サンプリング手法を用いて,大規模実験関係系サイズをシミュレートする。 本手法は,64 (8$\times$ 8) の結合ロータを持つ2次元系において,量子クエンチ後の戻り確率や渦振動などの量にアクセスできることを示す。 本手法は, シミュレーションと実験のギャップを橋渡しし, 未探索のシステムサイズと進化時間における連続系の正確な非平衡シミュレーションに利用できる。

We present a method to simulate the dynamics of continuous variable quantum many-body systems. Our approach is based on custom neural-network many-body quantum states. We focus on dynamics of two-dimensional quantum rotors and simulate large experimentally-relevant system sizes by representing a trial state in a continuous basis and using state-of-the-art sampling approaches based on Hamiltonian Monte Carlo. We demonstrate the method can access quantities like the return probability and vorticity oscillations after a quantum quench in two-dimensional systems of up to 64 (8 $\times$ 8) coupled rotors. Our approach can be used for accurate non-equilibrium simulations of continuous systems at previously unexplored system sizes and evolution times, bridging the gap between simulation and experiment.
翻訳日:2023-01-09 05:54:12 公開日:2022-12-21
# キラル人工原子の共鳴蛍光

Resonance fluorescence of a chiral artificial atom ( http://arxiv.org/abs/2212.11400v1 )

ライセンス: Link先を確認
Chaitali Joshi, Frank Yang, and Mohammad Mirhosseini(参考訳) マイクロ波フォトニック導波路に強い一方向結合を持つ超伝導人工原子を示す。 我々の人工原子は、トランスモン量子ビットを2つの空間分離点で導波路と時間変調相互作用で結合することによって実現される。 提案手法におけるパラメトリックカップリングによる指向性干渉は非相互応答となり, 自発放射の前方/後方比が100を超えている。 この人工キラル原子の量子非線形挙動を、強い共鳴駆動下で共鳴蛍光スペクトルを計測し、よく解かれたモルロー三重項を観測することで検証する。 さらに, 人工原子の第2遷移エネルギーに対するキラリティを示し, パルスシーケンスで制御し, 繰り返し光子上でのクビット状態依存非相互位相を実現する。 実験では,全ての接続性を持つ量子ネットワーク,多体絡みの駆動散逸安定化,複雑な非古典的光状態の発生など,キラル量子光学のパラダイムで追求されたいくつかの重要な機能をスケーラブルに実現するための超伝導ハードウェアプラットフォームを提示する。

We demonstrate a superconducting artificial atom with strong unidirectional coupling to a microwave photonic waveguide. Our artificial atom is realized by coupling a transmon qubit to the waveguide at two spatially separated points with time-modulated interactions. Direction-sensitive interference arising from the parametric couplings in our scheme results in a non-reciprocal response, where we measure a forward/backward ratio of spontaneous emission exceeding 100. We verify the quantum nonlinear behavior of this artificial chiral atom by measuring the resonance fluorescence spectrum under a strong resonant drive and observing well-resolved Mollow triplets. Further, we demonstrate chirality for the second transition energy of the artificial atom and control it with a pulse sequence to realize a qubit-state-dependent non-reciprocal phase on itinerant photons. Our demonstration puts forth a superconducting hardware platform for the scalable realization of several key functionalities pursued within the paradigm of chiral quantum optics, including quantum networks with all-to-all connectivity, driven-dissipative stabilization of many-body entanglement, and the generation of complex non-classical states of light.
翻訳日:2023-01-09 05:54:00 公開日:2022-12-21
# 変分量子固有解法に対する自己整合場アプローチ:軌道最適化は適応する

A self-consistent field approach for the variational quantum eigensolver: orbital optimization goes adaptive ( http://arxiv.org/abs/2212.11405v1 )

ライセンス: Link先を確認
Aaron Fitzpatrick and Anton Nyk\"anen and N. Walter Talarico and Alessandro Lunghi and Sabrina Maniscalco and Guillermo Garc\'ia-P\'erez and Stefan Knecht(参考訳) 本稿では, 適応デリバティブ・アセンブラ型変分量子固有解法 (ADAPT-VQE) における自己一貫したフィールド・アプローチ(SCF) について, 短期量子コンピュータ上での化学系の効率的な量子シミュレーションを行う。 この目的のために、ADAPT-VQE-SCFアプローチは、アンザッツを少数のパラメータで生成するというアイデアを組み合わせることで、分子軌道基底の変化に対して正しいエネルギー表現を直接最小化することで、浅い深さの量子回路を実現する。 遷移金属錯体フェロセン (fe$\rm (c_5h_5)_2$) の計算を含む数値解析により, 初期分子軌道におけるvqe最適化と比較して, 量子回路内の2量子ビットゲート数を大幅に増加させることなく, 自己整合軌道最適化ループの収束に到達できることが示された。 さらに、ADAPT-VQEサイクルの各イテレーション内で軌道最適化を同時に行うことができる。 ADAPT-VQE-SCFは,最先端の計算化学の基礎であるCASSCFに類似したルーチンを,短期量子コンピュータ上でハードウェア効率よく実装することができる。 したがって、adapt-vqe-scf は量子コンピュータ上の定量的量子化学シミュレーションのパラダイムシフトへの道を歩み、量子ビットの削減と、最小基底集合を持つ完全な活性空間の概念に基づく初期の方法とは対照的に、大きく柔軟な原子軌道基底集合の使用を開放する。

We present a self consistent field approach (SCF) within the Adaptive Derivative-Assembled Problem-Tailored Ansatz Variational Quantum Eigensolver (ADAPT-VQE) framework for efficient quantum simulations of chemical systems on near-term quantum computers. To this end, our ADAPT-VQE-SCF approach combines the idea of generating an ansatz with a small number of parameters, resulting in shallow-depth quantum circuits with a direct minimization of an energy expression which is correct to second order with respect to changes in the molecular orbital basis. Our numerical analysis, including calculations for the transition metal complex ferrocene (Fe$\rm (C_5H_5)_2$), indicates that convergence in the self-consistent orbital optimization loop can be reached without a considerable increase in the number of two-qubit gates in the quantum circuit by comparison to a VQE optimization in the initial molecular orbital basis. Moreover, the orbital optimization can be carried out simultaneously within each iteration of the ADAPT-VQE cycle. ADAPT-VQE-SCF thus allows us to implement a routine analogous to CASSCF, a cornerstone of state-of-the-art computational chemistry, in a hardware-efficient manner on near-term quantum computers. Hence, ADAPT-VQE-SCF paves the way towards a paradigm shift for quantitative quantum-chemistry simulations on quantum computers by requiring fewer qubits and opening up for the use of large and flexible atomic orbital basis sets in contrast to earlier methods that are predominantly based on the idea of full active spaces with minimal basis sets.
翻訳日:2023-01-09 05:53:42 公開日:2022-12-21
# 数式におけるパターン認識実験

Pattern Recognition Experiments on Mathematical Expressions ( http://arxiv.org/abs/2301.01624v1 )

ライセンス: Link先を確認
David Naccache and Ofer Yifrach-Stav(参考訳) 数学的表現におけるパターン認識実験の結果について述べる。 予測結果のいくつかの例を挙げる。 いずれも新鮮さを徹底的にチェックしたものではない。 我々は、その世代で発見された全ての関係を証明しようとはしなかった。

We provide the results of pattern recognition experiments on mathematical expressions. We give a few examples of conjectured results. None of which was thoroughly checked for novelty. We did not attempt to prove all the relations found and focused on their generation.
翻訳日:2023-01-09 05:46:04 公開日:2022-12-21
# ほぼ均一性を有する半導体量子ドットにおける高軌道孔のコヒーレント制御

Coherent control of a high-orbital hole in a semiconductor quantum dot with near-unity fidelity ( http://arxiv.org/abs/2212.10749v1 )

ライセンス: Link先を確認
Junyong Yan, Chen Chen, Xiao-Dong Zhang, Yu-Tong Wang, Hans-Georg Babin, Andreas D. Wieck, Arne Ludwig, Yun Meng, Xiaolong Hu, Huali Duan, Wenchao Chen, Wei Fang, Moritz Cygorek, Xing Lin, Da-Wei Wang, Chao-Yuan Jin, Feng Liu(参考訳) コヒーレント駆動型半導体量子ドットは、フォトニック量子技術の基盤となる非古典的な光源と量子論理ゲートのための最も有望なプラットフォームの一つである。 しかし、これまでは、量子ドットのコヒーレントな操作は、主にその最低軌道状態に限られている。 高軌道状態の超高速コヒーレント制御は、可変テラヘルツパルスの要求によって妨げられる。 この制約を断ち切るために、オージェ法によりホールの高軌道状態を制御する全光学的手法を実証する。 オージャー過程のコヒーレントな性質は、ラビ振動とラムゼー干渉によって95.8%の忠実度で明らかにされる。 このコヒーレンスを利用することで、シングルホール緩和機構のさらなる検証が可能になる。 驚くほど長い緩和時間(156(2)ps)がフォノンボトルネック効果によって観測され説明される。 我々の研究は、量子エミッタにおける高軌道状態の基本的な性質を理解し、新しいタイプの軌道ベースの量子フォトニクスデバイスを開発する新しい可能性を開く。

Coherently driven semiconductor quantum dots are one of the most promising platforms for non-classical light sources and quantum logic gates which form the foundation of photonic quantum technologies. However, to date, coherent manipulation of quantum dots is limited mainly to their lowest orbital states. Ultrafast coherent control of high-orbital states is obstructed by the demand for tunable terahertz pulses. To break this constraint, we demonstrate an all-optical method to control high-orbital states of a hole via stimulated Auger process. The coherent nature of the Auger process is revealed by Rabi oscillation and Ramsey interference with a fidelity of 95.8%. Harnessing this coherence further enables the investigation of single-hole relaxation mechanism. A surprisingly long relaxation time (156(2) ps) is observed and explained by phonon bottleneck effect. Our work opens new possibilities for understanding the fundamental properties of high-orbital states in quantum emitters and developing new types of orbital-based quantum photonic devices.
翻訳日:2023-01-09 05:46:01 公開日:2022-12-21
# 相関光子対を用いた再構成型位相コントラスト顕微鏡

Reconfigurable phase contrast microscopy with correlated photon pairs ( http://arxiv.org/abs/2212.10918v1 )

ライセンス: Link先を確認
Hazel Hodgson, Yingwen Zhang, Duncan England, Benjamin Sussman(参考訳) 自発パラメトリックダウンコンバージョンに固有の運動量相関を用いた位相感応顕微鏡法を提案する。 相関対からの1つの光子は微視的ターゲットに集中し、もう1つの光子はフーリエ平面で測定される。 これにより、ターゲットを叩く光子毎の照明位置と角度の知識が提供され、画像を形成するのに使用される照明角のポストプロダクション制御が可能となる。 このアプローチの汎用性は、ビームブロックや可動部品を使わずに、非対称照明と差動位相コントラストイメージングで示される。

A phase-sensitive microscopy technique is proposed and demonstrated that employs the momentum correlations inherent in spontaneous parametric down-conversion. One photon from a correlated pair is focused onto a microscopic target while the other is measured in the Fourier plane. This provides knowledge of the position and angle of illumination for every photon striking the target, allowing full post-production control of the illumination angle used to form an image. The versatility of this approach is showcased with asymmetric illumination and differential phase contrast imaging, without any beam blocks or moving parts.
翻訳日:2023-01-09 05:45:44 公開日:2022-12-21
# 熱力学資源としてのフェルミオン一体絡み合い

Fermionic one-body entanglement as a thermodynamic resource ( http://arxiv.org/abs/2212.10954v1 )

ライセンス: Link先を確認
Krzysztof Ptaszynski, Massimiliano Esposito(参考訳) 2つのフェルミオンモードの占有状態のコヒーレントな重ね合わせが絡み合うか、すなわち、その本質的な量子相関が操作的にアクセス可能で資源として有用であるか、という議論が続いている。 これは、物理観測可能な集合を制約するパリティスーパーセレクション規則のため、個々のモード上の局所操作では、そのような絡み合いはアクセスできないという根拠から疑問視されている。 言い換えれば、ベルの不平等の違反を観察することはできない。 しかし、ここでは、2モードフェルミオン状態の絡み合いは、開系熱力学過程における真の量子資源として利用でき、分離可能な状態に対するタスクを禁止できることを示す。 したがって、量子熱力学はフェルミオンの絡み合いの性質とそれを定義するために使われる異なる概念の操作的意味に光を放つことができる。

There is ongoing controversy about whether a coherent superposition of the occupied states of two fermionic modes should be regarded entangled or not, that is, whether its intrinsic quantum correlations are operationally accessible and useful as a resource. This has been questioned on the basis that such an entanglement cannot be accessed by local operations on individual modes due to the parity superselection rule which constrains the set of physical observables. In other words, one cannot observe violations of Bell's inequality. Here we show, however, that entanglement of a two-mode fermionic state can be used as a genuine quantum resource in open-system thermodynamic processes, enabling one to perform tasks forbidden for separable states. We thus demonstrate that quantum thermodynamics can shed light on the nature of fermionic entanglement and the operational meaning of the different notions used to define it.
翻訳日:2023-01-09 05:45:34 公開日:2022-12-21
# 光の非局所的純度検出のための検証可能なホモダイン測定

Verifiable homodyne measurement for detecting non-local properies of light ( http://arxiv.org/abs/2212.10958v1 )

ライセンス: Link先を確認
Go Kato, Kiyoshi Tamaki, Masaki Owari, Koji Azuma(参考訳) ホモダイン検出は、光の量子状態を特定するための最も基本的なツールの1つである。 量子テレポーテーションの絡み合いや量子鍵分布における秘密鍵の蒸留可能性など、有用な非局所的性質を検出するために用いられる。 そのため、検出方式では、局所発振器(lo)パルスと呼ばれる明るい光パルスを使用し、loパルスは通常信号パルスと共に送信される。 LOパルスは無限強度のコヒーレント状態であると仮定される。 しかし、光伝送路のノイズや悪意のある第三者の介入により、この仮定を維持することは実際には困難である。 結果として、実装はもはやホモダイン検出ではなく、それらの結果が絡み合いや秘密鍵の検出に成功しているだけである。 本稿では,loパルスを仮定することなく,光非局所的特性を検証可能な方法で検出するホモダイン検出法を提案する。 この方式は基本的に、ホモダイン検出の従来の実装と同じ設定に基づいている。 この結果は、理想のLOパルスからの偏差に起因するホモダイン検出における任意の抜け穴を閉じることに寄与する。

The homodyne detection is one of the most basic tools for identifying the quantum state of light. It has been used to detect useful non-local properties, such as entanglement for the quantum teleportation and distillability of a secret key in quantum key distribution. In so doing, the detection scheme employs a bright optical pulse, called the local oscillator (LO) pulse, and the LO pulse is usually transmitted along with the signal pulses. The LO pulse is presumed to be a coherent state with an infinite intensity. However, it is difficult in practice to hold this presumption owing to noise in the optical transmission channels or an intervention by a malicious third party. As a result, the implementation may no longer be the homodyne detection, and those outcomes may merely disguise successful detection of entanglement or a secret key. Here, we present an alternative scheme that works as the homodyne detection to detect the non-local properties of light in a verifiable manner, without any presumption for the LO pulses. This scheme is essentially based on the same setup as the conventional implementation for the homodyne detection. This result contributes to close any possible loophole in the homodyne detection caused by the deviation from the ideal LO pulses.
翻訳日:2023-01-09 05:45:18 公開日:2022-12-21
# NPハードだけど解決しづらい? 量子コンピューティングを使って最適化問題に取り組む

NP-hard but no longer hard to solve? Using quantum computing to tackle optimization problems ( http://arxiv.org/abs/2212.10990v1 )

ライセンス: Link先を確認
Rhonda Au-Yeung, Nicholas Chancellor, and Pascal Halffmann(参考訳) 過去10年間、公的および産業的な研究資金により、量子コンピューティングはショールのアルゴリズムの初期の約束から実験を経て、現実世界の問題を解決するためにノイズの多い中間スケール量子デバイス(nisq)の時代へと移行した。 量子法は古典的アプローチが失敗する特定の(NP-)ハードな最適化問題を効率的に解ける可能性が高い。 本稿では,量子コンピュータを用いた最適化問題を解く量子最適化の分野について考察する。 これを適切なユースケースを通じて実証し、量子コンピュータの現在の品質、解法能力、ベンチマークの難しさについて論じる。 完全なベンチマークではなく概念実証を示すが、結果は量子法と古典法の比較において適切なメトリクスを使うことの重要性を強調している。 最後に,最近の量子最適化のブレークスルーと現状と今後の方向性について考察する。

In the last decade, public and industrial research funding has moved quantum computing from the early promises of Shor's algorithm through experiments to the era of noisy intermediate scale quantum devices (NISQ) for solving real-world problems. It is likely that quantum methods can efficiently solve certain (NP-)hard optimization problems where classical approaches fail. In our perspective, we examine the field of quantum optimization where we solve optimisation problems using quantum computers. We demonstrate this through a proper use case and discuss the current quality of quantum computers, their solver capabilities, and benchmarking difficulties. Although we show a proof-of-concept rather than a full benchmark, we use the results to emphasize the importance of using appropriate metrics when comparing quantum and classical methods. We conclude with discussion on some recent quantum optimization breakthroughs and the current status and future directions.
翻訳日:2023-01-09 05:45:00 公開日:2022-12-21
# カシミール物理のモード形成

How modes shape Casimir Physics ( http://arxiv.org/abs/2212.10997v1 )

ライセンス: Link先を確認
Francesco Intravaia(参考訳) モードは時間を通じて物理システムの理解に着実に影響を与えてきた。 少なくともカシミール効果の予測以降は、カシミール物理学や、この研究分野に典型的な様々な現象の理解において非常に重要な役割を担っている。 平衡モードでは、ゼロ点エネルギーと量子系における既約ゆらぎの存在の間に直結し、相互作用の物理学における解剖学的視点を提供する。 非平衡系では、モードは量子ゆらぎによって引き起こされる現象の挙動を理解するために決定的であり、その強さと機能的依存を決定する重要な側面を強調する。 本稿では,この研究領域の理解を形作る上で,カシミール物理学にどのような影響を与えているか,その中心的役割を強調する最近の研究と結果について概説する。

Modes have steadily influenced the understanding of physical systems through time. At least since the prediction of the Casimir effect, they also play a very important role in Casimir Physics and in the understanding of the different phenomena typical of this research field. At equilibrium modes provide a direct connection between the zero-point energy and the existence of irreducible fluctuations in a quantum system, offering an anatomic view into the physics of the interaction. In nonequilibrium systems, modes can be decisive to understand the behavior of quantum fluctuation-induced phenomena, highlighting key aspects which determine their strength and their functional dependence. In this article we review some recent studies and results that highlight how modes impact Casimir physics and the central role they play in shaping our understanding of this area of research.
翻訳日:2023-01-09 05:44:48 公開日:2022-12-21
# Berry-Foucault 振り子

The Berry-Foucault Pendulum ( http://arxiv.org/abs/2212.11003v1 )

ライセンス: Link先を確認
D. D. Solnyshkov, I. Septembre, K. Ndiaye, G. Malpuech(参考訳) 幾何学的位相はフーコー振り子の回転とベリー曲率による異常ホール効果(AHE)の両方において役割を果たすことが知られている。 ここでは、ベリー曲率によって誘導されるAHEを持つ2次元高調波発振器がフーコー振子と全く同じように振る舞うことを示す。 回転振子構成はAHEを強化し、観測を簡素化し、ベリー曲率の高精度測定を可能にする。 また,非断熱性と非調和性が最大回転角を決定する方法を示し,観測の最適条件を求める。

The geometric phase is known to play a role both in the rotation of the Foucault pendulum and in the anomalous Hall effect (AHE) due to the Berry curvature. Here, we show that a 2D harmonic oscillator with AHE induced by Berry curvature behaves exactly like the Foucault pendulum: in both, the plane of the oscillations rotates with time. The rotating pendulum configuration enhances the AHE, simplifying its observation and allowing high-precision measurements of the Berry curvature. We also show how the non-adiabaticity and anharmonicity determine the maximal rotation angle and find the optimal conditions for the observations.
翻訳日:2023-01-09 05:44:35 公開日:2022-12-21
# 位相絶縁体と量子ドットの系におけるランダムスピン軌道ゲート

Random spin-orbit gates in the system of a Topological insulator and a Quantum dot ( http://arxiv.org/abs/2212.11026v1 )

ライセンス: Link先を確認
S. Wolski, M. Inglot, C. Jasiukiewicz, K. A. Kouzakov, T. Mas{\l}owski, T. Szczepa\'nski, S. Stagraczy\'nski, R. Stagraczy\'nski, V. K. Dugaev, and L. Chotorlishvili(参考訳) 位相絶縁体と量子ドットの系におけるスピン依存散乱過程を研究した。 ユニタリ散乱過程は、2つの電子の初期状態に適用されるゲート変換と見なされる。 不純物によるランダム性やバンドパラメータのアロイングによる影響により、ランダムなユニタリゲートの形式化が実現される。 システム内の絡み合いを定量化するために,コンカレンスとアンサンブル平均R'enyiエントロピーを探索した。 その結果, 外部磁場を印加すると, 閉じ込め長さよりも長い距離の長距離絡み合いが生じることがわかった。 その結果, 反復電子のトポロジカルな特徴は, 強い障害があっても生き残る頑丈な長距離絡み合いの形成を維持できることがわかった。

The spin-dependent scattering process in a system of topological insulator and quantum dot is studied. The unitary scattering process is viewed as a gate transformation applied to an initial state of two electrons. Due to the randomness imposed through the impurities and alloying-induced effects of band parameters, the formalism of the random unitary gates is implemented. For quantifying entanglement in the system, we explored concurrence and ensemble-averaged R\'enyi entropy. We found that applied external magnetic field leads to long-range entanglement on the distances much larger than the confinement length. We showed that topological features of itinerant electrons sustain the formation of robust long-distance entanglement, which survives even in the presence of a strong disorder.
翻訳日:2023-01-09 05:44:22 公開日:2022-12-21
# 共振器光に結合した吊り鏡の有効記述 -光ばねによるノーマルモード分割によるQ強調の限界-

Effective description of a suspended mirror coupled to cavity light -Limitations of Q-enhancement due to normal mode splitting by an optical spring- ( http://arxiv.org/abs/2212.11056v1 )

ライセンス: Link先を確認
Yuuki Sugiyama, Tomoya Shichijo, Nobuyuki Matsumoto, Akira Matsumura, Daisuke Miki, and Kazuhiro Yamamoto(参考訳) ペンデュラムは、究極的には低い散逸(高品質な要因)特性のため、長い間、力センサーとして使用されてきた。 これらは重力定数の測定、重力波の検出、超軽量ダークマターの決定に広く用いられている。 さらに、マクロな振り子に対して量子制御を行うことで重力の量子性を示すことが期待されている。 近年,光ばね(arxiv:2210.13169])を用いて2つの振り子間の量子絡み合いが生成できることが実証されているが,光ばねが振子と回転モードの分離を比較的高い散逸率で適用することにより,品質因子(q因子)を低減できることは無視されている。 そこで本研究では,ビーム(吊り鏡,振り子)と光バネを用いて吊り下げられたシリンダとを解析し,通常のモード分割を考慮したシステムを提案する。 q因子の低減は、鏡の半径とビームの長さの比、キャビティフォトンがない場合の回転モードと振子モードの周波数の比というビームパラメータのみによって決定される。 解析の結果, 還元係数4.38は再現され, 実験結果である[phys. rev. lett. 122, 071101 (2019)]。 本研究では,自由度を考慮した現実的な振り子システムにおいて,光学ばねを用いて低散逸(高品質)に到達できることを示す。

Pendulums have long been used as force sensors due to their ultimately low dissipation (high-quality factor) characteristic. They are widely used in the measurement of the gravitational constant, detection of gravitational waves, and determination of the ultralight dark matter. Furthermore, it is expected to demonstrate the quantum nature of gravity by performing quantum control for macroscopic pendulums. Recently, we have demonstrated that quantum entanglement between two pendulums can be generated using an optical spring [arXiv:2210.13169]; however, we have ignored that an optical spring can reduce the quality factor (Q-factor) by applying normal mode splitting between the pendulum and rotational modes possessing relatively high dissipation. Herein, we analyze a system comprising a cylinder suspended using a beam (a suspended mirror, i.e., a pendulum) and an optical spring to consider normal mode splitting. The reduction in Q-factor is determined only by the beam parameters: the ratio of the radius of the mirror to the length of the beam, and the ratio of the frequency of the rotational mode to the pendulum mode in the absence of cavity photon. In our analysis, we find that the reduction factor 4.38 is reproduced, which is consistent with the experimental result in [Phys. Rev. Lett. 122, 071101 (2019)]. Our analysis shows that low dissipation (high quality) can be reached using an optical spring for the realistic pendulum system considering the rotational degree of freedom.
翻訳日:2023-01-09 05:44:11 公開日:2022-12-21
# CarFi: Wi-Fi CSIを用いたライダーのローカライゼーション

CarFi: Rider Localization Using Wi-Fi CSI ( http://arxiv.org/abs/2301.01592v1 )

ライセンス: Link先を確認
Sirajum Munir, Hongkai Chen, Shiwei Fang, Mahathir Monjur, Shan Lin, and Shahriar Nirjon(参考訳) 配車サービスの普及に伴い、人々はシェアードモビリティ(例えばuber、lyft)のドライバーに交通機関の受け取りを頼らざるを得なくなっている。 しかし、都市部ではGPS信号が高層ビルや混雑した環境(スタジアム、空港、バーなど)、夜間、悪天候で遮断されるため、運転者や乗り手がお互いを見つけるのが困難である。 時間を浪費し、ユーザエクスペリエンスを悪くし、アイドル運転によるCO2排出量の増加を招きます。 この研究では、ドライバーがライダーの路面側を決定するのに役立つWi-Fiの可能性を探る。 提案システムでは、移動車に搭載された2つのアンテナからWi-Fi CSIを使用して、ライダーの街路側を決定する。 実世界のデータを現実的で困難な環境で収集することにより、CarFiは視線(LoS)と非視線(nLoS)の両方の条件におけるライダー側判定において95.44%正確であり、リアルタイムに組み込みGPU上で実行可能であることが分かる。

With the rise of hailing services, people are increasingly relying on shared mobility (e.g., Uber, Lyft) drivers to pick up for transportation. However, such drivers and riders have difficulties finding each other in urban areas as GPS signals get blocked by skyscrapers, in crowded environments (e.g., in stadiums, airports, and bars), at night, and in bad weather. It wastes their time, creates a bad user experience, and causes more CO2 emissions due to idle driving. In this work, we explore the potential of Wi-Fi to help drivers to determine the street side of the riders. Our proposed system is called CarFi that uses Wi-Fi CSI from two antennas placed inside a moving vehicle and a data-driven technique to determine the street side of the rider. By collecting real-world data in realistic and challenging settings by blocking the signal with other people and other parked cars, we see that CarFi is 95.44% accurate in rider-side determination in both line of sight (LoS) and non-line of sight (nLoS) conditions, and can be run on an embedded GPU in real-time.
翻訳日:2023-01-09 05:35:54 公開日:2022-12-21
# 4ビット系に対する幾何学的真の多部絡み合い

Geometric genuine multipartite entanglement for four-qubit systems ( http://arxiv.org/abs/2212.11690v1 )

ライセンス: Link先を確認
Ansh Mishra, Aditya Raj, Abhishek Kumar, Soumik Mahanti, and Prasanta K. Panigrahi(参考訳) Xie と Eberly は、真のマルチパーティ・エンタングルメント (GME) 測度 `concurrence fill' (\textit{Phys.) を導入した。 Rev. Lett. は、サードパーティシステムに対して040403 (2021)} である。 三角形の領域として定義され、辺の長さは各二分割の正方形収束を表す。 我々は、GMEを4つのシステムへ直接拡張する。 しかし、著者によって提示された予想とは対照的に、単に四面体の体積に拡張することはできず、各面面積を二乗共起として扱うことができる。 4量子ビット系のより複雑な絡み合い構造は、絶対最大絡み合い状態は存在しないが、2つの異なるタイプの二分割を持ち、GME測度のよりリッチな幾何学的解釈を示す。 我々のGME測度は2種類の平面構造の領域の組み合わせとして幾何学的に解釈することができる。 そのうちの1つは巡回四角形であり、もう1つは三角形である(辺は四角形である)。 本研究は,4つの量子ビット系に対する複数の絡み合い構成の非存在性を示すとともに,GMEの4つの状態に対する妥当性を裏付けるものである。

Xie and Eberly introduced a genuine multipartite entanglement (GME) measure `concurrence fill'(\textit{Phys. Rev. Lett., \textbf{127}, 040403 (2021)}) for three-party systems. It is defined as the area of a triangle whose side lengths represent squared concurrence in each bi-partition. We present a direct extension of the GME to four-party systems. However, contrary to the conjecture presented by the authors, it can not be simply extended to be the volume of a tetrahedron, with each face area as the squared concurrence. The more complex entanglement structure for four-qubit systems, where absolute maximally entangled states do not exist, comprises two different types of bi-partitions and reveals a richer geometrical interpretation of the GME measure. Our GME measure can be geometrically interpreted as a combination of areas of two types of planar structures (resulting from two types of bi-partition). One of them is a cyclic quadrilateral, and the other one is a triangle (the sides representing squared concurrence). In the process, we identify several constraints for the bipartite concurrences and show the non-existence of several entanglement configurations for four qubit systems, supporting the validity of our GME measure for four-party states.
翻訳日:2023-01-09 04:50:52 公開日:2022-12-21
# ゼロ交叉数を数える量子アルゴリズム

A quantum algorithm for counting zero-crossings ( http://arxiv.org/abs/2212.11814v1 )

ライセンス: Link先を確認
Alok Shukla(参考訳) バーンスタイン・ヴァジラニ問題の一般化であるゼロクロスカウント問題を提案する。 この問題の目標は、秘密の文字列に依存する特別なタイプの列 S においてゼロ交叉数(または符号の変更数)を数えることである。 この問題を解決するために量子アルゴリズムが提示される。 提案する量子アルゴリズムは,この問題を解くために1つのoracleクエリしか必要としないが,古典的アルゴリズムでは,n がシーケンス s の大きさであるような,少なくとも n 個の oracle クエリが必要である。 シークエンスオーダリングにおけるウォルシュ・アダマール変換は、デジタル信号や画像処理など、幅広い科学的・工学的な応用に用いられている。 したがって、Walsh-Hadamard変換をシークエンス順序で計算する量子回路は、シークエンス順序でWalsh-Hadamard変換の計算を必要とするアプリケーションのための量子コンピューティングアルゴリズムにおいて有用である。

We present a zero-crossings counting problem that is a generalization of the Bernstein-Vazirani problem. The goal of this problem is to count the number of zero-crossings (or sign changes) in a special type of sequence S, whose definition depends upon a secret string. A quantum algorithm is presented to solve this problem. The proposed quantum algorithm requires only one oracle query to solve the problem, whereas a classical algorithm would need at least N oracle queries, where N is the size of the sequence S. In addition to solving the zero-crossings counting problem, we also give a quantum circuit for performing the Walsh-Hadamard transforms in sequency ordering. The Walsh-Hadamard transform in sequency ordering is used in a wide range of scientific and engineering applications, including in digital signal and image processing. Therefore, the proposed quantum circuit for computing the Walsh-Hadamard transforms in sequency ordering may be helpful in quantum computing algorithms for applications for which the computation of the Walsh-Hadamard transform in sequency ordering is required.
翻訳日:2023-01-09 04:50:03 公開日:2022-12-21
# 完全数え上げ統計とコヒーレンス:統一量子マスター方程式による熱輸送の揺らぎ対称性

Full counting statistics and coherences: fluctuation symmetry in heat transport with the Unified quantum master equation ( http://arxiv.org/abs/2212.11307v1 )

ライセンス: Link先を確認
Matthew Gerry, Dvira Segal(参考訳) 近年、「統一」量子マスター方程式が導出され、Gorini-Kossakowski-Lindblad-Sudarshan (GKLS)形式であることが示されている。 この方程式は開量子系の力学を、完全な世俗近似を保ち、エネルギーに近い固有状態間のコヒーレンスの影響を保持する方法で記述する。 我々は,全計数統計を統一量子マスター方程式を用いて実装し,準縮退準位を持つ開量子系におけるエネルギー電流の統計量について検討する。 一般に、この方程式は揺らぎの対称性を満たす動力学を生じさせ、平均フラックスのレベルでの熱力学の第2法則に十分条件を与える。 コヒーレンスを構成するようなほとんど退化したエネルギー準位を持つ系では、ユニファイド方程式は同時に熱力学的に一貫性を持ち、完全なセレキュラルマスター方程式よりも正確である。 温度の異なる2つの熱浴間でのエネルギー輸送を容易にする「V」システムの実証実験を行った。 我々は、統一方程式によって予測されるこの系における定常的な熱電流の統計をレッドフィールド方程式によって与えられるものと比較するが、概して熱力学的に整合性はない。 また、コヒーレンスが完全に放棄される世俗方程式と比較する。 ほぼ縮退レベル間のコヒーレンスを維持することは,電流とその累積物質を適切に捕獲するには不可欠である。 一方、熱力学的不確実性関係を具現化した熱電流の相対的変動は、量子コヒーレンスに不連続な依存性を示す。

Recently, a "Unified" quantum master equation was derived and shown to be of the Gorini-Kossakowski-Lindblad-Sudarshan (GKLS) form. This equation describes the dynamics of open quantum systems in a manner that forgoes the full secular approximation and retains the impact of coherences between eigenstates close in energy. We implement full counting statistics with the Unified quantum master equation to investigate the statistics of energy currents through open quantum systems with nearly degenerate levels. We show that, in general, this equation gives rise to dynamics that satisfy fluctuation symmetry, a sufficient condition for the Second Law of Thermodynamics at the level of average fluxes. For systems with nearly degenerate energy levels, such that coherences build up, the Unified equation is simultaneously thermodynamically consistent and more accurate than the fully Secular master equation. We exemplify our results for a "V" system facilitating energy transport between two thermal baths at different temperatures. We compare the statistics of steady-state heat currents through this system as predicted by the Unified equation to those given by the Redfield equation, which is less approximate but, in general, not thermodynamically consistent. We also compare results to the Secular equation, where coherences are entirely abandoned. We find that maintaining coherences between nearly degenerate levels is essential for the properly capturing the current and its cumulants. On the other hand, the relative fluctuations of the heat current, which embody the thermodynamic uncertainty relation, display inconsequential dependence on quantum coherences.
翻訳日:2023-01-09 04:43:11 公開日:2022-12-21
# バイアスのあるgottesman-kitaev-preskill反復コード

Biased Gottesman-Kitaev-Preskill repetition code ( http://arxiv.org/abs/2212.11397v1 )

ライセンス: Link先を確認
Matthew P. Stafford, Nicolas C. Menicucci(参考訳) Gottesmann-Kitaev-Preskill (GKP)エンコーディングに基づく連続可変量子コンピューティングアーキテクチャは、GKP状態とガウス演算の確率的供給でフォールトトレランスを達成できるため、有望な候補として浮上している。 さらに、長方形格子GKP状態への一般化により、偏りによる性能向上を示す量子ビット符号との結合によりバイアスを導入、活用することができる。 しかしながら、これらの符号(XZZX曲面符号など)は、まだ重量4の安定化器測定を必要としており、克服する複雑な復号処理を必要とする。 本研究では,正方形格子GKP符号化の符号容量挙動を,等方的ガウス変位チャネルの下で繰り返し符号と連結して検討する。 ノイズの標準偏差に対して$\sigma = 0.599$の数値しきい値は、gkpレベルでのバイアスの増加によるトレードオフによってバイアスのあるgkp平面符号を上回っている。 これはすべて、重量2スタビリザー演算子と、キュービットレベルで単純なデコードだけで達成される。 さらに、中間レベルのバイアス(アスペクト比$\leq 2.4$)と9つ以上のデータモードでは、論理誤差率の大幅な削減が$\sigma \leq 0.3$で達成でき、GKPバイアスの繰り返し符号を単純な低レベル量子ビット符号化として使用することで、さらなる結合を実現することができる。

Continuous-variable quantum computing architectures based upon the Gottesmann-Kitaev-Preskill (GKP) encoding have emerged as a promising candidate because one can achieve fault-tolerance with a probabilistic supply of GKP states and Gaussian operations. Furthermore, by generalising to rectangular-lattice GKP states, a bias can be introduced and exploited through concatenation with qubit codes that show improved performance under biasing. However, these codes (such as the XZZX surface code) still require weight-four stabiliser measurements and have complex decoding requirements to overcome. In this work, we study the code-capacity behaviour of a rectangular-lattice GKP encoding concatenated with a repetition code under an isotropic Gaussian displacement channel. We find a numerical threshold of $\sigma = 0.599$ for the noise's standard deviation, which outperforms the biased GKP planar surface code with a trade-off of increased biasing at the GKP level. This is all achieved with only weight-two stabiliser operators and simple decoding at the qubit level. Furthermore, with moderate levels of bias (aspect ratio $\leq 2.4$) and nine or fewer data modes, significant reductions in logical error rates can still be achieved for $\sigma \leq 0.3$, opening the possibility of using GKP-biased repetition codes as a simple low-level qubit encoding for further concatenation.
翻訳日:2023-01-09 04:42:28 公開日:2022-12-21
# マルチショットシャドウ推定の性能解析

Performance analysis of multi-shot shadow estimation ( http://arxiv.org/abs/2212.11068v1 )

ライセンス: Link先を確認
You Zhou and Qing Liu(参考訳) シャドウ推定は、統計的な保証で量子状態の多くの観測可能量を予測するための効率的な方法である。 マルチショットのシナリオでは、同じユニタリ進化の後、シーケンシャルに準備された状態の投影的測定をk$xで行い、ランダムにサンプリングされたユニタリのラウンドでこの手順を繰り返します。 その結果、合計で$MK$の計測値が得られた。 本稿では,観測可能な$o$の期待値の推定のばらつきを特徴とするマルチショットシナリオにおけるシャドウ推定の性能を解析する。 さらに、shadow-norm $\|o \|_{\mathrm{shadow}}$がhuang et.alに導入された。 ~Nat。 Phys。 ~2020\cite{huang2020predicting}] 分散は別のノルムにも関係しており、クロスシェードノルム $\|o \|_{\mathrm{xshadow}}$ と表記する。 ランダムなpauli と clifford の測定値の両方について、$\|o \|_{\mathrm{xshadow}}$ の上限を分析して示す。 特に、無作為なパウリ測定で観測可能なパウリの正確な分散式を解明する。 本研究はマルチショットシャドウ推定の応用について理論的指針を与える。

Shadow estimation is an efficient method for predicting many observables of a quantum state with a statistical guarantee. In the multi-shot scenario, one performs projective measurement on the sequentially prepared state for $K$ times after the same unitary evolution, and repeats this procedure for $M$ rounds of random sampled unitary. As a result, there are $MK$ times measurements in total. Here we analyze the performance of shadow estimation in this multi-shot scenario, which is characterized by the variance of estimating the expectation value of some observable $O$. We find that in addition to the shadow-norm $\|O \|_{\mathrm{shadow}}$ introduced in [Huang et.al.~Nat.~Phys.~2020\cite{huang2020predicting}], the variance is also related to another norm, and we denote it as the cross-shadow-norm $\|O \|_{\mathrm{Xshadow}}$. For both random Pauli and Clifford measurements, we analyze and show the upper bounds of $\|O \|_{\mathrm{Xshadow}}$. In particular, we figure out the exact variance formula for Pauli observable under random Pauli measurements. Our work gives theoretical guidance for the application of multi-shot shadow estimation.
翻訳日:2023-01-09 04:33:05 公開日:2022-12-21
# 非絶対分離性に関する資源理論

Resource Theory of Non-absolute Separability ( http://arxiv.org/abs/2212.11105v1 )

ライセンス: Link先を確認
Ayan Patra, Arghya Maity, Aditi Sen De(参考訳) 我々は、絶対的に分離不能な状態(非AS)に対する資源理論を開発し、いかなる大域的ユニタリーにも絡み合わない状態(AS)も自由状態として認識され、いかなる大域的ユニタリー演算の凸混合もコストを伴わずに行うことができる。 我々は,非絶対分離可能性 (NAS) の定量化に2つの手法を用いており,その1つは距離測定に基づくものであり,もう1つは目撃者演算子によるものである。 いずれのNAS尺度も,「良い」NAS尺度に従わなければならないすべての条件に従うことを証明している。 固定次元のすべての純状態において、NAS含量は等しく、最大であることを示す。 次に距離に基づくnas測度と絡み合い定量化器との接続を確立する。 結果は非AS状態、すなわちWerner状態のクラスで説明します。

We develop a resource theory for non-absolutely separable states (non-AS) in which absolutely separable states (AS) that cannot be entangled by any global unitaries are recognised as free states and any convex mixture of global unitary operations can be performed without incurring any costs. We employ two approaches to quantify non-absolute separability (NAS) -- one based on distance measures and the other one through the use of a witness operator. We prove that both the NAS measures obey all the conditions which should be followed by a ``good'' NAS measure. We demonstrate that NAS content is equal and maximal in all pure states for a fixed dimension. We then establish a connection between the distance-based NAS measure and the entanglement quantifier. We illustrate our results with a class of non-AS states, namely Werner states.
翻訳日:2023-01-09 04:32:43 公開日:2022-12-21
# 量子コンピューティングによる最適化問題を解決するための解経路の推薦

Recommending Solution Paths for Solving Optimization Problems with Quantum Computing ( http://arxiv.org/abs/2212.11127v1 )

ライセンス: Link先を確認
Benedikt Poggel, Nils Quetschlich, Lukas Burgholzer, Robert Wille, Jeanette Miriam Lorenz(参考訳) 量子コンピューティングで現実の最適化問題を解決するには、定式化、エンコーディング、アルゴリズム、ハードウェアに関する多くの選択肢を選択する必要がある。 エンドユーザや研究者にとっても、優れたソリューションパスを見つけることは難しい。 我々は,最適なソリューションパスを識別し,推奨するフレームワークを提案する。 これは、量子コンピューティング支援ソリューション技術が、量子技術に関する深い知識を必要とせず、エンドユーザーにアクセスできるようにするのに必要な、新しい抽象化レイヤーを導入する。 最新のハイブリッドアルゴリズム、エンコーディングおよび分解技術はモジュラー方式で統合することができ、問題固有のパフォーマンス指標を用いて評価することができる。 同様に、変分量子アルゴリズムのグラフィカル解析ツールも開発されている。 古典的、フォールトトレラントな量子および量子インスパイアされた手法は、有効な解経路をもたらす公平な比較を保証するために含めることができる。 我々は,選択した選択肢の集合に対する我々のアプローチを実証し,そのキャパシタン化車両ルーティング問題(CVRP)への適用例を示す。 また、最適化問題に対する量子支援ソリューションワークフローにおいて、提案する自動化層の重要な要件と設計上の課題を特定する。

Solving real-world optimization problems with quantum computing requires choosing between a large number of options concerning formulation, encoding, algorithm and hardware. Finding good solution paths is challenging for end users and researchers alike. We propose a framework designed to identify and recommend the best-suited solution paths. This introduces a novel abstraction layer that is required to make quantum-computing-assisted solution techniques accessible to end users without requiring a deeper knowledge of quantum technologies. State-of-the-art hybrid algorithms, encoding and decomposition techniques can be integrated in a modular manner and evaluated using problem-specific performance metrics. Equally, tools for the graphical analysis of variational quantum algorithms are developed. Classical, fault tolerant quantum and quantum-inspired methods can be included as well to ensure a fair comparison resulting in useful solution paths. We demonstrate and validate our approach on a selected set of options and illustrate its application on the capacitated vehicle routing problem (CVRP). We also identify crucial requirements and the major design challenges for the proposed automation layer within a quantum-assisted solution workflow for optimization problems.
翻訳日:2023-01-09 04:32:25 公開日:2022-12-21
# レーザー励起二レベル原子の共鳴蛍光カスケード

The resonance fluorescence cascade of a laser-excited two-level atom ( http://arxiv.org/abs/2212.11137v1 )

ライセンス: Link先を確認
Serge Reynaud(参考訳) コヒーレントレーザー光によって励起される2レベル原子による蛍光光子のカスケードを概観する。 この議論は共鳴蛍光のランダムな性質を強調し、2つの放出光子間の遅延分布を過程の一次特性として用いる。 光子計数や光子相関などの他の特徴が推定される。

The cascade of fluorescence photons by a two-level atom excited by coherent laser light is reviewed. The discussion emphasizes the random nature of resonance fluorescence and uses the distribution of delays between two successively emitted photons as the primary characterization of the process. Other characterizations such as photon counting and photon correlation are deduced.
翻訳日:2023-01-09 04:32:10 公開日:2022-12-21
# 教師付き学習による2レベル駆動量子系のキャラクタリゼーション

Characterization of a driven two-level quantum system by Supervised Learning ( http://arxiv.org/abs/2212.11166v1 )

ライセンス: Link先を確認
R. Couturier, E. Dionis, S. Gu\'erin, C. Guyeux, D. Sugny(参考訳) 本研究では,外部の時間依存ドライブに従属する2レベル量子システムが教師あり学習によって特徴づけられる程度について検討する。 このアプローチをバンバン制御の場合には適用し、与えられた目標状態に対するオフセットと最終距離の推定を行う。 推定値は、決定されるパラメータについて事前知識を必要としないという意味でグローバルである。 異なるニューラルネットワークアルゴリズムは、一連のデータセットでテストされる。 補間対象の写像の性質に対する推定手順の限界を指摘する。 異なる結果の物理的関連性について論じる。

We investigate the extent to which a two-level quantum system subjected to an external time-dependent drive can be characterized by supervised learning. We apply this approach to the case of bang-bang control and the estimation of the offset and the final distance to a given target state. The estimate is global in the sense that no a priori knowledge is required on the parameters to be determined. Different neural network algorithms are tested on a series of data sets. We point out the limits of the estimation procedure with respect to the properties of the mapping to be interpolated. We discuss the physical relevance of the different results.
翻訳日:2023-01-09 04:31:46 公開日:2022-12-21
# ノイズアシラを有する誤差検出型ボソニック絡膜ゲート

Error-detectable bosonic entangling gates with a noisy ancilla ( http://arxiv.org/abs/2212.11196v1 )

ライセンス: Link先を確認
Takahiro Tsunoda, James D. Teoh, William D. Kalfus, Stijn J. de Graaf, Benjamin J. Chapman, Jacob C. Curtis, Neel Thakur, Steven M. Girvin, Robert J. Schoelkopf(参考訳) ボソニック量子誤差補正は、量子記憶のコヒーレンスを拡張するためのアプローチとして成功したが、深い量子回路を実行するには、符号化された量子ビット間の高忠実性ゲートが必要である。 そこで我々は,様々なボソニック符号化のための誤り検出可能な2量子ビットゲートのファミリーを提案する。 ボソニック作用素の "Bloch sphere" に基づく新しい幾何学的枠組みから、二項、四脚猫、双線およびその他のボソニック符号に対する $ZZ_L(\theta)$ および $\text{eSWAP}(\theta)$ ゲートを構築する。 ゲートハミルトニアンは設計が簡単で、2つのボソニックキュービットと1つのキュービットに分散結合したアンシラの間でプログラム可能なビームスプリッターだけを必要とする。 このハミルトニアンは、アンシラトランスモンとマイクロ波キャビティを持つ回路QEDハードウェアで実現可能である。 提案した理論フレームワークは回路QEDのために開発されたが、このハミルトンを効果的に生成できる任意のプラットフォームに一般化可能である。 重要なことは、ゲートの間、 ancilla と bosonic qubit の1次誤差を検出することもできる。 これにより,2次ハードウェアエラーのみに制限された,今日のハードウェアで10~4ドル程度の誤差検出ゲート忠実度に到達できることが示される。

Bosonic quantum error correction has proven to be a successful approach for extending the coherence of quantum memories, but to execute deep quantum circuits, high-fidelity gates between encoded qubits are needed. To that end, we present a family of error-detectable two-qubit gates for a variety of bosonic encodings. From a new geometric framework based on a "Bloch sphere" of bosonic operators, we construct $ZZ_L(\theta)$ and $\text{eSWAP}(\theta)$ gates for the binomial, 4-legged cat, dual-rail and several other bosonic codes. The gate Hamiltonian is simple to engineer, requiring only a programmable beamsplitter between two bosonic qubits and an ancilla dispersively coupled to one qubit. This Hamiltonian can be realized in circuit QED hardware with ancilla transmons and microwave cavities. The proposed theoretical framework was developed for circuit QED but is generalizable to any platform that can effectively generate this Hamiltonian. Crucially, one can also detect first-order errors in the ancilla and the bosonic qubits during the gates. We show that this allows one to reach error-detected gate fidelities at the $10^{-4}$ level with today's hardware, limited only by second-order hardware errors.
翻訳日:2023-01-09 04:31:39 公開日:2022-12-21
# 高速高忠実フライングビット整形

Efficient High-Fidelity Flying Qubit Shaping ( http://arxiv.org/abs/2212.11202v1 )

ライセンス: Link先を確認
Benedikt Tissot and Guido Burkard(参考訳) matter qubitからphotonic qubitへの変換は、分散量子コンピューティングやいくつかの量子インターネットやネットワークプロトコルといった多くの量子技術の基礎である。 我々は不完全なエミッタに対する任意の物質量子状態のフォトニックパルス放出効率の上限を見つけ、忠実性を最適化するための道筋を示す。 我々は、量子ドット、固体状態欠陥、閉じ込められたイオンを含む幅広い物理系、および任意のパルス持続時間を含む様々なパラメータ状態に適用可能な刺激ラマン放出の理論を定式化する。 さらに、パルスの入出力理論を使って支配的な放出過程をコヒーレントダイナミクスに吸収するという数学的アイデアは、量子軌道アプローチが他の物理系を研究する大きな可能性を秘めている。

Matter qubit to photonic qubit conversion is the cornerstone of numerous quantum technologies such as distributed quantum computing, as well as several quantum internet and networking protocols. We find the upper limit for the photonic pulse emission efficiency of arbitrary matter qubit states for imperfect emitters and show a path forward to optimize the fidelity. We formulate a theory for stimulated Raman emission which is applicable to a wide range of physical systems including quantum dots, solid state defects, and trapped ions, as well as various parameter regimes, including arbitrary pulse durations. Furthermore, the mathematical idea to use input-output theory for pulses to absorb the dominant emission process into the coherent dynamics, followed by a quantum trajectory approach has great potential to study other physical systems.
翻訳日:2023-01-09 04:31:15 公開日:2022-12-21
# 量子機器の不適合性

Incompatibility of quantum instruments ( http://arxiv.org/abs/2212.11225v1 )

ライセンス: Link先を確認
Leevi Lepp\"aj\"arvi and Michal Sedl\'ak(参考訳) 量子機器は、結果確率と、量子系の測定によって引き起こされる状態変化を記述する。 2つの楽器の非互換性。 e. 与えられた量子系上でそれらを同時に実現できないことは、チャネルの不整合性と正の演算子評価測度(POVM)の不整合を一般化する。 誘導されたPOVMとチャネルに対するインスツルメンツ互換性の影響を導出する。 また,非disturbanceの概念と器材適合性の関係についても検討した。 最後に,補助楽器と呼ぶ機器の適合性と後処理との等価性が証明される。 本稿では,様々な種類の楽器の例について述べる。

Quantum instruments describe outcome probability as well as state change induced by measurement of a quantum system. Incompatibility of two instruments, i. e. the impossibility to realize them simultaneously on a given quantum system, generalizes incompatibility of channels and incompatibility of positive operator-valued measures (POVMs). We derive implications of instrument compatibility for the induced POVMs and channels. We also study relation of instrument compatibility to the concept of non-disturbance. Finally, we prove equivalence between instrument compatibility and postprocessing of certain instruments, which we term complementary instruments. We illustrate our findings on examples of various classes of instruments.
翻訳日:2023-01-09 04:31:00 公開日:2022-12-21
# NISQ-eraにおける中間クォートを用いたロバスト量子算術演算

Robust Quantum Arithmetic Operations with Intermediate Qutrits in the NISQ-era ( http://arxiv.org/abs/2212.11305v1 )

ライセンス: Link先を確認
Amit Saha, Anupam Chattopadhyay, Amlan Chakrabarti(参考訳) NISQ時代(ノイズ中間スケール量子)における多くの科学的発展は、その漸近的優位性により、従来の量子アルゴリズムと比較して量子アルゴリズムの重要性を高めている。 いくつかの量子アルゴリズムにおける資源推定では、算術演算が重要である。 多数の toffoli ゲートや t ゲートがアンシラを含まないと報告されたリソースにより、加算/減算、乗算/除算、平方根など算術演算の効率的な実装がバイナリ量子システムで実現されている。 近年では,中間クトリットがアンシラフリーフロンティアゾーンに採用され,効果的に機能することが示されている。 本稿では,Tゲートとアンシラを含まないゲート数と回路深度に関して,上記の量子演算を全て効率的に実装するために,中間クォート法を含む。 計算タスクの演算処理を考慮したコスト削減を目的とした今後の研究は, 中間クトリットを用いた資源推定によって導かれるかもしれない。 そのため、基本演算回路に関して拡張性を検討する。 中間クォートリットのアプローチはより高いエネルギーレベルへのアクセスを必要とするため、設計は誤りを受けやすい。 しかし,回路の奥行きをqubitのみの作業と比較した場合,回路効率を低下させることにより,誤差の確率の低下が重要であることを実証した。

Numerous scientific developments in this NISQ-era (Noisy Intermediate Scale Quantum) have raised the importance for quantum algorithms relative to their conventional counterparts due to its asymptotic advantage. For resource estimates in several quantum algorithms, arithmetic operations are crucial. With resources reported as a number of Toffoli gates or T gates with/without ancilla, several efficient implementations of arithmetic operations, such as addition/subtraction, multiplication/division, square root, etc., have been accomplished in binary quantum systems. More recently, it has been shown that intermediate qutrits may be employed in the ancilla-free frontier zone, enabling us to function effectively there. In order to achieve efficient implementation of all the above-mentioned quantum arithmetic operations with regard to gate count and circuit-depth without T gate and ancilla, we have included an intermediate qutrit method in this paper. Future research aiming at reducing costs while taking into account arithmetic operations for computing tasks might be guided by our resource estimations using intermediate qutrits. Therefore, the enhancements are examined in relation to the fundamental arithmetic circuits. The intermediate qutrit approach necessitates access to higher energy levels, making the design susceptible to errors. We nevertheless demonstrate that the percentage decrease in the probability of error is significant due to the fact that we achieve circuit efficiency by reducing circuit-depth in comparison to qubit-only works.
翻訳日:2023-01-09 04:30:52 公開日:2022-12-21
# 超伝導量子プロセッサにおける繰り返しアンティルサクセス回路を用いた量子ニューラルネットワークの実現

Realization of a quantum neural network using repeat-until-success circuits in a superconducting quantum processor ( http://arxiv.org/abs/2212.10742v1 )

ライセンス: Link先を確認
M. S. Moreira, G. G. Guerreschi, W. Vlothuizen, J. F. Marques, J. van Straten, S. P. Premaratne, X. Zou, H. Ali, N. Muthusubramanian, C. Zachariadis, J. van Someren, M. Beekman, N. Haider, A. Bruno, C. G. Almudever, A. Y. Matsuura, and L. DiCarlo(参考訳) ニューラルネットワークは、複雑な問題に対するデジタルソリューションの不可欠な部分になりつつある。 しかし、量子プロセッサへのニューラルネットワークの導入は、量子回路を用いた非線形関数の実装に関する課題に直面している。 本稿では,リアルタイム制御フローフィードバックによって実現される繰り返しアンティルサクセス回路を用いて,非線形活性化関数を持つ量子ニューロンを実現する。 これらのニューロンは、ディープラーニングタスクを量子コヒーレントに実行するために、さまざまなレイアウトで配置できる基本構成要素を構成する。 例えば、教師付き学習パラダイムにおけるネットワーク活性化パラメータの最適化により、2ビットから1ビットのブール関数をすべて学習できる最小フィードフォワード量子ニューラルネットワークを構築する。 このモデルは非線形分類を行い、全ての入力の最大重ね合わせからなる単一のトレーニング状態の複数のコピーから効果的に学習する。

Artificial neural networks are becoming an integral part of digital solutions to complex problems. However, employing neural networks on quantum processors faces challenges related to the implementation of non-linear functions using quantum circuits. In this paper, we use repeat-until-success circuits enabled by real-time control-flow feedback to realize quantum neurons with non-linear activation functions. These neurons constitute elementary building blocks that can be arranged in a variety of layouts to carry out deep learning tasks quantum coherently. As an example, we construct a minimal feedforward quantum neural network capable of learning all 2-to-1-bit Boolean functions by optimization of network activation parameters within the supervised-learning paradigm. This model is shown to perform non-linear classification and effectively learns from multiple copies of a single training state consisting of the maximal superposition of all inputs.
翻訳日:2023-01-09 04:25:00 公開日:2022-12-21
# スクイーズ駆動を用いたJaynes-Cummingsモデルに基づく臨界量子センシング

Critical quantum sensing based on the Jaynes-Cummings model with a squeezing drive ( http://arxiv.org/abs/2212.10760v1 )

ライセンス: Link先を確認
Jia-Hao L\"u, Wen Ning, Xin Zhu, Fan Wu, Li-Tuo Shen, Zhen-Biao Yang and Shi-Biao Zheng(参考訳) 量子センシングは、量子システムのユニークな性質を利用して、関連するパラメータの測定精度を向上させる。 量子相転移の臨界点付近における物理系の発散感受性は、臨界エンハンス量子センシングを可能にする。 量子ラビモデル(QRM)は、単一ボソニック場に結合した単一量子ビットで構成され、その単純さのためにそのような重要な拡張を実現するための良い候補であるが、臨界現象を実現するのに必要な超強量子場結合を実現することは実験的に困難である。 本研究では,超強結合条件を必要とせず,ボソニック場がパラメトリック駆動であるjaynes-cummings(jc)モデルに現れる臨界性を利用して,センシングのためのqrmのアナログを構築するための代替方法を検討する。

Quantum sensing improves the accuracy of measurements of relevant parameters by exploiting the unique properties of quantum systems. The divergent susceptibility of physical systems near a critical point for quantum phase transition enables criticality-enhanced quantum sensing. The quantum Rabi model (QRM), composed of a single qubit coupled to a single bosonic field, represents a good candidate for realizing such critical enhancement for its simplicity, but it is experimentally challenging to achieve the ultrastrong qubit-field coupling required to realize the critical phenomena. In this work, we explore an alternative to construct the analog of the QRM for the sensing, exploiting the criticality appearing in the Jaynes-Cummings (JC) model whose bosonic field is parametrically driven, not necessitating the ultrastrong coupling condition thus to some extent relaxing the requirement for the practical implementation.
翻訳日:2023-01-09 04:24:46 公開日:2022-12-21
# 周期的駆動による量子進化のユニタリシティの探索

Probing The Unitarity of Quantum Evolution Through Periodic Driving ( http://arxiv.org/abs/2212.10771v1 )

ライセンス: Link先を確認
Alaina M. Green, Tanmoy Pandit, C. Huerta Alderete, Norbert M. Linke, and Raam Uzdin(参考訳) 量子コンピュータやシミュレータが古典的に検証できない結果を生み出し始めると、これらのデバイスで実験的エラーを検出し診断するための様々なツールを開発することが不可欠になる。 状態やプロセストモグラフィーは実験誤差の原因を特徴づける自然な方法であるが、強い測定要求はこれらの戦略を最小の量子系を除いてすべて実現不可能にする。 本研究では,周期駆動量子システムの特性に基づくユニタリ進化のシグネチャを定式化する。 これらのシグネチャが存在しないことは、進化におけるユニタリティ状態または周期性条件のどちらかの破片を示している。 これらのシグネチャを用いて、捕捉されたイオン量子コンピュータ上で不整合誤差を実験的に検出する。 本手法は, 観測可能な1つの観測値の繰り返し測定に基づいて, システムサイズではなく, 力学特性に応じてスケールする測定要求値による誤差の低コスト評価を行う。

As quantum computers and simulators begin to produce results that cannot be verified classically, it becomes imperative to develop a variety of tools to detect and diagnose experimental errors on these devices. While state or process tomography is a natural way to characterize sources of experimental error, the intense measurement requirements make these strategies infeasible in all but the smallest of quantum systems. In this work, we formulate signatures of unitary evolution based on specific properties of periodically driven quantum systems. The absence of these signatures indicates a break either in the unitarity or periodicity condition on the evolution. We experimentally detect incoherent error on a trapped-ion quantum computer using these signatures. Our method is based on repeated measurements of a single observable, making this a low-cost evaluation of error with measurement requirements that scales according to the character of the dynamics, rather than the system size.
翻訳日:2023-01-09 04:24:28 公開日:2022-12-21
# 2部量子状態判別と分解可能な絡み合い証

Bipartite quantum state discrimination and decomposable entanglement witness ( http://arxiv.org/abs/2212.10799v1 )

ライセンス: Link先を確認
Donghoon Ha, Jeong San Kim(参考訳) 両部量子状態の偏差を正成分転移測定を用いて検討し、正成分転移測定による最小誤差の偏差が絡み目の分解可能性と密接に関連していることを示す。 分解可能な絡み合いの証人の概念を用いて,正の偏差測定により最小限のエラー識別の条件を確立する。 また, 最大成功確率の上限の条件を, 任意の正の偏移測定値に対して提示する。 最後に,多次元二成分量子状態の例を用いて結果を示す。

We consider bipartite quantum state discrimination using positive-partial-transpose measurements and show that minimum-error discrimination by positive-partial-transpose measurements is closely related to the decomposability of entanglement witness. By using the concept of decomposable entanglement witness, we establish conditions on minimum-error discrimination by positive-partial-transpose measurements. We also provide conditions on the upper bound of the maximum success probability over all possible positive-partial-transpose measurements. Finally, we illustrate our results using examples of multidimensional bipartite quantum states.
翻訳日:2023-01-09 04:24:15 公開日:2022-12-21
# 量子リピータ:量子ネットワークから量子インターネットへ

Quantum repeaters: From quantum networks to the quantum internet ( http://arxiv.org/abs/2212.10820v1 )

ライセンス: Link先を確認
Koji Azuma, Sophia E. Economou, David Elkouss, Paul Hilaire, Liang Jiang, Hoi-Kwong Lo, Ilan Tzitrin(参考訳) 量子インターネットは、量子情報処理の聖杯であり、幅広い量子技術とプロトコルを世界規模で展開することができる。 しかし、量子インターネットが現実になる前には、多くの課題が存在する。 おそらく最も重要なのは、量子情報の長距離伝送において重要な構成要素である量子リピータの実現である。 古典的なリピータ、拡張器、ブースターのアナログとして、量子リピータは量子ネットワークを構成する量子チャネルの損失とノイズを克服する働きをする。 本稿では,量子リピータの概念的フレームワークとアーキテクチャ,およびその実現に向けた実験的進歩について述べる。 また、ポイントツーポイント量子通信によって設定される通信レートの限界を克服するための様々な短期的提案についても論じる。 最後に、量子リピータが量子インターネットの設計と実装という幅広い課題にどのように適合するかを概観する。

A quantum internet is the holy grail of quantum information processing, enabling the deployment of a broad range of quantum technologies and protocols on a global scale. However, numerous challenges exist before the quantum internet can become a reality. Perhaps the most crucial of these is the realization of a quantum repeater, an essential component in the long-distance transmission of quantum information. As the analog of a classical repeater, extender, or booster, the quantum repeater works to overcome loss and noise in the quantum channels comprising a quantum network. Here, we review the conceptual frameworks and architectures for quantum repeaters, as well as the experimental progress towards their realization. We also discuss the various near-term proposals to overcome the limits to the communication rates set by point-to-point quantum communication. Finally, we overview how quantum repeaters fit within the broader challenge of designing and implementing a quantum internet.
翻訳日:2023-01-09 04:24:06 公開日:2022-12-21
# 一対の量子ビットを持つEPRステアリングにおける1つの純粋ステアリング状態のパワーについて

On the power of one pure steered state for EPR-steering with a pair of qubits ( http://arxiv.org/abs/2212.10825v1 )

ライセンス: Link先を確認
Qiu-Cheng Song, Travis J. Baker and Howard M. Wiseman(参考訳) はじめに紹介されたように、EPR現象は、一方のパーティ(アリス)が二つの測定設定、もう一方のパーティ(ボブ)の量子系を2つの異なる純粋な状態のアンサンブルに選択することで、操る能力である。 後に量子情報タスクとして形式化されたように、epr-ステアリングは、個々のアンサンブルが混合状態であっても、純粋で十分に異なる状態であっても示せる。 Alice と Bob はそれぞれ qubit を持ち、Alice は2コトミック射影測定を行うシナリオを考える。 この場合、彼女が操ることのできるアンサンブルの状態は、ボブのブロッホ球の楕円体${\cal E}$の表面を形成する。 さらに、ステアリング楕円体 ${\cal E}$ を非零体積とする。 アリスの最初の測度設定が2つの純粋な状態からなるアンサンブルを生成すれば、これと他の測度設定がEPRステアリングを示すことが以前は示されていた。 ここでは、アリスの第1設定のアンサンブルが1つの純粋な状態 $\mathsf{p}\in{\cal E}$ しか含まない場合、確率 $p_\mathsf{p}$ が成立する。 射影幾何学を用いて、アリスが与えられた平面にこれら2つのアンサンブルが存在するとき、この設定と2番目の設定を用いてボブの状態のeprステアリングを証明できる必要十分条件を解析的に導出する。 これに基づいて、与えられた${\cal E}$に対して、$p_\mathsf{p}$ が十分高ければ [$p_{\sf p} > p_{\rm max}^{{\cal E}} \in [0,1)$] ならば、アリスによる任意の別個の第2設定は、EPRステアリングを示すのに十分である。 同様に、$p_\mathsf{p}>p_{\rm min}^{{\cal E}}$という$p_{\rm min}^{{\cal E}}$をAliceが最初の設定といくつかの設定だけでEPRステアリングを実証するために必要となる。 さらに、我々が導出する表現はタイトであり、球状ステアリング楕円体の場合、境界は次のように一致する: $p_{\rm max}^{{\cal e}} = p_{\rm min}^{{\cal e}}$。

As originally introduced, the EPR phenomenon was the ability of one party (Alice) to steer, by her choice between two measurement settings, the quantum system of another party (Bob) into two distinct ensembles of pure states. As later formalized as a quantum information task, EPR-steering can be shown even when the distinct ensembles comprise mixed states, provided they are pure enough and different enough. Consider the scenario where Alice and Bob each have a qubit and Alice performs dichotomic projective measurements. In this case, the states in the ensembles to which she can steer form the surface of an ellipsoid ${\cal E}$ in Bob's Bloch ball. Further, let the steering ellipsoid ${\cal E}$ have nonzero volume. It has previously been shown that if Alice's first measurement setting yields an ensemble comprising two pure states, then this, plus any one other measurement setting, will demonstrate EPR-steering. Here we consider what one can say if the ensemble from Alice's first setting contains only one pure state $\mathsf{p}\in{\cal E}$, occurring with probability $p_\mathsf{p}$. Using projective geometry, we derive the necessary and sufficient condition analytically for Alice to be able to demonstrate EPR-steering of Bob's state using this and some second setting, when the two ensembles from these lie in a given plane. Based on this, we show that, for a given ${\cal E}$, if $p_\mathsf{p}$ is high enough [$p_{\sf p} > p_{\rm max}^{{\cal E}} \in [0,1)$] then any distinct second setting by Alice is sufficient to demonstrate EPR-steering. Similarly we derive a $p_{\rm min}^{{\cal E}}$ such that $p_\mathsf{p}>p_{\rm min}^{{\cal E}}$ is necessary for Alice to demonstrate EPR-steering using only the first setting and some other setting. Moreover, the expressions we derive are tight; for spherical steering ellipsoids, the bounds coincide: $p_{\rm max}^{{\cal E}} = p_{\rm min}^{{\cal E}}$.
翻訳日:2023-01-09 04:23:51 公開日:2022-12-21
# 2量子交絡状態の非局所性の強さとその応用

Strength of the nonlocality of two-qubit entangled state and its applications ( http://arxiv.org/abs/2212.10885v1 )

ライセンス: Link先を確認
Anuma Garg, Satyabrata Adhikari(参考訳) 非局所性は、局所現実理論では説明できない量子力学の特徴である。 ベルの不等式に違反して検出できる。 我々は、プレイヤーが2ビットの絡み合った状態を$\rho_{AB}^{ent}$で共有できるXORゲームの助けを借りて、非局所性の検出の問題を調査した。 共有状態は、ゲームの成功の最大確率$P^{max}$に関連するプレイヤー間の非局所的相関を生成することができる。 我々は、$\rho_{ab}^{ent}$の非局所性を検出するために、$s_{nl}(\rho_{ab}^{ent})$で表される非局所性の強さとして知られる量を定義した。 主に、$P^{max}$が$\rho_{AB}^{ent}$の非局所性の検出に失敗する場合に対処する。 この問題を研究するために、我々は、$p^{max}$ と chsh witness演算子 $w_{chsh}$ の期待値の関係を確立し、それゆえ$s_{nl}(\rho_{ab}^{ent})$ と $w_{chsh}$ の関係を確立した。 W_{CHSH}$ が状態 $\rho_{AB}^{ent}$ を検知しない場合、この関係は非局所性の検出に失敗することを発見した。 この場合、我々は$S_{NL}(\rho_{AB}^{ent})$を推定できるプロセスを開発した。 さらに、$S_{NL}(\rho_{AB}^{ent})$の上限は、状態が$\rho_{AB}^{ent}$を検出するとき、最適証人演算子$W^{opt}$の項で得られる。 Svetlichny演算子によって決定される非局所性の強みによって決定される2ビット非局所性と3ビット非局所性の連関を確立する。 最後に、非局所性$S_{NL}(\rho_{23})$を制御された量子テレポーテーションにおける制御器の電力の上限を決定するために使用し、$\rho_{23}$は純三ビット状態$\rho_{123}$の還元密度作用素を表す。

Nonlocality is a feature of quantum mechanics that cannot be explained by local realistic theory. It can be detected by the violation of Bell inequality. We have investigated the problem of detection of nonlocality with the help of an XOR game in which the players may share a two-qubit entangled state $\rho_{AB}^{ent}$. The shared state may generate a nonlocal correlation between the players which is related to the maximum probability $P^{max}$ of success of the game. For the detection of nonlocality of $\rho_{AB}^{ent}$, we have defined a quantity known as strength of nonlocality denoted by $S_{NL}(\rho_{AB}^{ent})$. We mainly deal with the situation when $P^{max}$ fails to detect the nonlocality of $\rho_{AB}^{ent}$. To study this problem, we have established a relation between $P^{max}$ and the expectation value of the CHSH witness operator $W_{CHSH}$ and hence between $S_{NL}(\rho_{AB}^{ent})$ and $W_{CHSH}$. We found that this relationship fails to detect nonlocality when $W_{CHSH}$ does not detect the state $\rho_{AB}^{ent}$. In this case, we developed a process by which we may estimate $S_{NL}(\rho_{AB}^{ent})$. We further obtain an upper bound of $S_{NL}(\rho_{AB}^{ent})$ in terms of optimal witness operator $W^{opt}$ when it detect the state $\rho_{AB}^{ent}$. We establish a linkage between the two-qubit nonlocality determined by the strength of nonlocality and the three-qubit nonlocality determined by the Svetlichny operator. Lastly, as an application, we have used the introduced measure of non-locality $S_{NL}(\rho_{23})$ to determine the upper bound of the power of the controller in the controlled quantum teleportation, where $\rho_{23}$ denote the reduced density operator of the pure three-qubit state $\rho_{123}$.
翻訳日:2023-01-09 04:23:00 公開日:2022-12-21
# 電磁誘導透過性に基づく利得支援量子熱エンジン

Gain-assisted quantum heat engine based on electromagnetically induced transparency ( http://arxiv.org/abs/2212.10949v1 )

ライセンス: Link先を確認
Laraib Niaz, You-Lin Chuang, and Rahmatullah(参考訳) 本稿では電磁誘導透過(EIT)に基づくゲインアシスト型量子熱エンジン(QHE)の実現手法を提案する。 2つの熱貯水池とカップリング場と相互作用する3レベル { \Lambda} 型原子系を考える。 利得は2つの下位レベルの間の自然発生コヒーレンス(SGC)を介してシステム内で誘導される。 SGCを生成するためには、厳密な条件を維持する必要があるが、システムのダイナミクスへの影響は大きい。 SGCはQHEの放射断面積とスペクトル輝度を高めることができる。 また, 放射断面積とスペクトル輝度に対する制御場とプローブ場の相対位相の影響についても検討した。

We present a scheme to realize a gain-assisted quantum heat engine (QHE) based on electromagnetically induced transparency (EIT). We consider a three-level { \Lambda}-type atomic system that interacts with two thermal reservoirs and a coupling field. The gain is induced in the system via spontaneously generated coherence (SGC) between two lower levels. To generate SGC, our system must maintain some rigorous conditions, but its effect on the system's dynamics is significant. The SGC can enhance the emission cross-section and spectral brightness of the QHE. We also investigate the role of the relative phase between the control and probe field on the emission cross-section and spectral brightness.
翻訳日:2023-01-09 04:22:24 公開日:2022-12-21
# 双分割有界絡みの7つの定義

Seven definitions of bipartite bound entanglement ( http://arxiv.org/abs/2212.11015v1 )

ライセンス: Link先を確認
Michael Gaida and Matthias Kleinmann(参考訳) 絡み合い状態は、局所的な操作と古典的な通信のみを使用することで、任意の数の状態のコピーを最大絡み合い状態に結合できない場合、絡み合い状態は束縛される。 もしこの有界絡み合いの概念を形式化すれば、すぐに4つの異なる定義に到達する。 さらに、少なくとも3つの定義が文献、特に有界絡みに関する最初の論文で一般的に使われている。 ここでは, 臨界蒸留プロトコルを概説し, 量子情報理論の異なる結果がどのように相互作用し, 最終的に7つの定義が等価であることを示す。 我々の自己完結分析は、文献に散在する先行結果を統一し、拡張し、有界絡みの構造の詳細を明らかにする。

An entangled state is bound entangled, if one cannot combine any number of copies of the state to a maximally entangled state, by using only local operations and classical communication. If one formalizes this notion of bound entanglement, one arrives immediately at four different definitions. In addition, at least three more definitions are commonly used in the literature, in particular so in the very first paper on bound entanglement. Here we review critical distillation protocols and we examine how different results from quantum information theory interact in order to prove that all seven definitions are eventually equivalent. Our self-contained analysis unifies and extends previous results scattered in the literature and reveals details of the structure of bound entanglement.
翻訳日:2023-01-09 04:22:16 公開日:2022-12-21
# アルゴリズムによるシャドースペクトロスコピー

Algorithmic Shadow Spectroscopy ( http://arxiv.org/abs/2212.11036v1 )

ライセンス: Link先を確認
Hans Hon Sang Chan, Richard Meister, Matthew L. Goh, B\'alint Koczor(参考訳) 物性に関する重要な情報を含む量子系の固有状態間のエネルギー差を見つけることは、多体物理学における中心的な課題である。 量子コンピュータは、従来のハードウェアよりも効率的にこのタスクを実行することを約束するが、この情報の抽出は依然として困難である。 このタスクのための非自明なプロトコルは、回路複雑性(位相推定)の大幅な増加か、多数の回路反復(可変量子固有解法)を必要とする。 本稿では,非常に少ない回路繰り返し(ショット)と余分な資源(アンシラキュービット)でエネルギーギャップを抽出し,時間発展と測定を超越した新しいシミュレータ非依存量子アルゴリズムであるshadow spectroscopyを提案する。 このアプローチは、量子系のすべての可観測性は、時間進化した量子状態の古典的な影から周波数を抽出できる同じ調和成分に従って進化しなければならないという基本的な特徴に基づいている。 結果として生じる時間周期信号の大きな集合の古典的なポストプロセッシングは、ハイゼンベルク制限精度とハミルトンエネルギーの直接差を明らかにする。 古典計算の複雑さは線形であるが、必要な回路反復数(量子資源)は解析された観測可能数の対数のみである。 さらに、シャドウ分光法をプローブモデルシステムに適用し、CH$2$の励起状態を適用することで、アプローチが実際は直感的に使いやすく、ゲートノイズに対して非常に堅牢であり、新しいタイプのアルゴリズムエラー緩和技術に好適であることを確認し、時間ステップ当たり10ショットという通常の量子アルゴリズムよりも桁違いに少ないショット数を使用する。

Finding energy differences between eigenstates of a quantum system, which contains key information about its properties, is a central task in many-body physics. Quantum computers promise to perform this task more efficiently than classical hardware; however, extraction of this information remains challenging. Non-trivial protocols for this task require either a substantial increase in circuit complexity (phase estimation) or a large number of circuit repetitions (variational quantum eigensolvers). Here we present shadow spectroscopy, a novel simulator-agnostic quantum algorithm which extracts energy gaps using an extremely low number of circuit repetitions (shots) and no extra resources (ancilla qubits) beyond performing time evolution and measurements. The approach builds on the fundamental feature that every observable property of a quantum system must evolve according to the same harmonic components, whose frequencies can be extracted from classical shadows of time-evolved quantum states. Classical post processing of the large set of resulting time-periodic signals directly reveals Hamiltonian energy differences with Heisenberg-limited precision. While the classical computational complexity is linear, the number of circuit repetitions (quantum resources) required is only logarithmic in the number of analysed observables. Moreover, applying shadow spectroscopy numerically to probe model systems and CH$_2$ excited states verifies that the approach is intuitively easy to use in practice, very robust against gate noise, amiable to a new type of algorithmic-error mitigation technique, and uses orders of magnitude fewer number of shots than typical near-term quantum algorithms -- as low as 10 shots per timestep is sufficient.
翻訳日:2023-01-09 04:22:03 公開日:2022-12-21
# 量子アルゴリズムの簡単な紹介

A brief introduction to quantum algorithms ( http://arxiv.org/abs/2212.10734v1 )

ライセンス: Link先を確認
Shihao Zhang and Lvzhou Li(参考訳) 量子アルゴリズムは、ある問題に対する古典的なアルゴリズムよりも優れており、効率的な情報処理の候補として有望である。 ここでは,量子アルゴリズムの簡単な紹介を学術的コミュニティと一般大衆の両方に公開することを目的とする。 まず、量子並列性、量子アルゴリズムの基本的枠組み、および量子アルゴリズム設計の難しさを解明することから始める。 そして、主に過去30年から40年の間に行われた量子アルゴリズム研究の進歩の歴史的概要に焦点を当てる。 最後に、量子アルゴリズムの研究に関する2つの一般的な疑問を明らかにし、さらなる探索のために読者を刺激することを望んでいる。

Quantum algorithms are demonstrated to outperform classical algorithms for certain problems and thus are promising candidates for efficient information processing. Herein we aim to provide a brief and popular introduction to quantum algorithms for both the academic community and the general public with interest. We start from elucidating quantum parallelism, the basic framework of quantum algorithms and the difficulty of quantum algorithm design. Then we mainly focus on a historical overview of progress in quantum algorithm research over the past three to four decades. Finally, we clarify two common questions about the study of quantum algorithms, hoping to stimulate readers for further exploration.
翻訳日:2023-01-09 04:13:00 公開日:2022-12-21
# 古典的コードに基づくフラッグガジェット

Flag Gadgets based on Classical Codes ( http://arxiv.org/abs/2212.10738v1 )

ライセンス: Link先を確認
Benjamin Anker and Milad Marvian(参考訳) フォールトトレラントシンドローム抽出は、フォールトトレラント量子計算を実装する上で重要な要素である。 従来の方法では、シンドロームの重みで線形に複数の余剰量子ビットを使用するが、フラッグガジェットを用いていくつかの改良が加えられている。 本研究では,古典的コードを用いてフラッグガジェットを設計するフレームワークを開発した。 このフレームワークを用いて,従来手法よりも指数関数的に少ない量子ビットを用いた任意の距離の安定器符号に対して,量子ビット計測とリセットが誤差補正のラウンドに比べて比較的遅い場合に,フォールトトレラントシンドローム抽出を行う方法を示す。 さらに,1台のガジェットを用いて複数スタビライザの耐故障性測定を行うために構築した指数的貯蓄を利用する。 開発したフレームワークを用いてコンピュータ支援検索を行い、必要なキュービット数を減らす小さな例をいくつか見つけ出す。 これらの小さな例は、小規模量子コンピュータの短期実験に関係している可能性がある。

Fault-tolerant syndrome extraction is a key ingredient in implementing fault-tolerant quantum computations. While conventional methods use a number of extra qubits linear in the weight of the syndrome, several improvements have been introduced using flag gadgets. In this work, we develop a framework to design flag gadgets using classical codes. Using this framework we show how to perform fault-tolerant syndrome extraction for any stabilizer code with arbitrary distance using exponentially fewer qubits than conventional methods when qubit measurement and reset are relatively slow compared to a round of error correction. We further take advantage of the exponential saving provided by our construction to fault-tolerantly measure multiple stabilizers using a single gadget. Using the developed framework we perform computer-assisted search to find several small examples where our constructions reduce the number of qubits required. These small examples may be relevant to near-term experiments on small-scale quantum computers.
翻訳日:2023-01-09 04:12:53 公開日:2022-12-21
# スマートウォッチを用いた実験室から日常生活までのカップルのマルチモーダル感情認識

Multimodal Emotion Recognition among Couples from Lab Settings to Daily Life using Smartwatches ( http://arxiv.org/abs/2212.13917v1 )

ライセンス: Link先を確認
George Boateng(参考訳) カップルは通常、慢性疾患を一緒に管理し、管理職は患者とロマンチックなパートナーの両方に感情的な負担を負う。 結果として、日常生活における各パートナーの感情認識は、慢性疾患管理における彼らの感情的幸福に関する洞察を与えることができる。 現在、パートナーの感情は、連続的な感情評価や、手動、時間集約、費用がかかる観察レポートに実用的でない自己報告を用いて、研究室や日常生活で推測されている。 現在、カップル間の感情認識に関する研究に関する包括的な概観はない。 さらに,(1)米国における英語話者のカップルに着目し,(2)実験室で収集したデータに着目し,(3)パートナーの自己報告・主観的感情ではなく,観察者による評価を行った。 本論文に含まれる研究(論文8 - 論文5, 論文3)では, カップルの感情認識に関する現在の文献のギャップを埋め, 総計1,051人から161時間のデータを用いた感情認識システムを開発し, 現状である研究室からカップルの感情認識を日常生活に導くための貢献を行う。 この論文は、パートナーが日々の感情をモニターし、感情の幸福感を改善するための介入の配信を可能にする自動感情認識システムの構築に寄与する。

Couples generally manage chronic diseases together and the management takes an emotional toll on both patients and their romantic partners. Consequently, recognizing the emotions of each partner in daily life could provide an insight into their emotional well-being in chronic disease management. The emotions of partners are currently inferred in the lab and daily life using self-reports which are not practical for continuous emotion assessment or observer reports which are manual, time-intensive, and costly. Currently, there exists no comprehensive overview of works on emotion recognition among couples. Furthermore, approaches for emotion recognition among couples have (1) focused on English-speaking couples in the U.S., (2) used data collected from the lab, and (3) performed recognition using observer ratings rather than partner's self-reported / subjective emotions. In this body of work contained in this thesis (8 papers - 5 published and 3 currently under review in various journals), we fill the current literature gap on couples' emotion recognition, develop emotion recognition systems using 161 hours of data from a total of 1,051 individuals, and make contributions towards taking couples' emotion recognition from the lab which is the status quo, to daily life. This thesis contributes toward building automated emotion recognition systems that would eventually enable partners to monitor their emotions in daily life and enable the delivery of interventions to improve their emotional well-being.
翻訳日:2023-01-01 14:09:32 公開日:2022-12-21
# ECGに基づく電解質予測:回帰と確率的手法の評価

ECG-Based Electrolyte Prediction: Evaluating Regression and Probabilistic Methods ( http://arxiv.org/abs/2212.13890v1 )

ライセンス: Link先を確認
Philipp Von Bachmann, Daniel Gedon, Fredrik K. Gustafsson, Ant\^onio H. Ribeiro, Erik Lampa, Stefan Gustafsson, Johan Sundstr\"om, Thomas B. Sch\"on(参考訳) 目的: 体中の電解質濃度のアンバランスは壊滅的な結果をもたらすが、正確でアクセスしやすい測定は患者の予後を改善する可能性がある。 血液検査は正確な測定を提供するが、それらは侵襲的であり、実験室の分析は遅くも到達不能である。 対照的に、心電図(ecg)は素早く簡単に取得できる広く採用されているツールである。 しかし, 連続電解質濃度をECGから直接推定する問題はよく研究されていない。 そこで我々は, 電解質濃度の正確な予測に回帰法を用いることができるか検討した。 方法: この課題に対するディープニューラルネットワーク(DNN)の利用について検討する。 290000のECGを含む新しいデータセットを用いて, 4つの電解質間の回帰特性を解析した。 理解を深めるために,連続予測から高度濃度レベルの二分分類までの全スペクトルについても検討した。 臨床的有用性を高めるために, 最終的に確率的回帰法に拡張し, 異なる不確実性推定値を評価する。 結果: 電解質の相互作用と心電図におけるその発現において臨床的に正当化される異なる電解質間で, 性能は著しく異なることが判明した。 また、回帰精度を従来の機械学習モデルと比較し、DNNの優れた性能を示す。 結論: 離散化は, 分類性能の向上につながるが, 連続濃度レベル予測の原案の解決には役立たない。 確率的回帰は潜在的に実用性を示すが、不確実性推定は特にうまく校正されていない。 意義:本研究は電解質濃度の正確かつ信頼性の高いecgに基づく予測に向けた第一歩である。

Objective: Imbalances of the electrolyte concentration levels in the body can lead to catastrophic consequences, but accurate and accessible measurements could improve patient outcomes. While blood tests provide accurate measurements, they are invasive and the laboratory analysis can be slow or inaccessible. In contrast, an electrocardiogram (ECG) is a widely adopted tool which is quick and simple to acquire. However, the problem of estimating continuous electrolyte concentrations directly from ECGs is not well-studied. We therefore investigate if regression methods can be used for accurate ECG-based prediction of electrolyte concentrations. Methods: We explore the use of deep neural networks (DNNs) for this task. We analyze the regression performance across four electrolytes, utilizing a novel dataset containing over 290000 ECGs. For improved understanding, we also study the full spectrum from continuous predictions to binary classification of extreme concentration levels. To enhance clinical usefulness, we finally extend to a probabilistic regression approach and evaluate different uncertainty estimates. Results: We find that the performance varies significantly between different electrolytes, which is clinically justified in the interplay of electrolytes and their manifestation in the ECG. We also compare the regression accuracy with that of traditional machine learning models, demonstrating superior performance of DNNs. Conclusion: Discretization can lead to good classification performance, but does not help solve the original problem of predicting continuous concentration levels. While probabilistic regression demonstrates potential practical usefulness, the uncertainty estimates are not particularly well-calibrated. Significance: Our study is a first step towards accurate and reliable ECG-based prediction of electrolyte concentration levels.
翻訳日:2023-01-01 14:09:06 公開日:2022-12-21
# URW-KG:非西洋作家の表現不足に対処するためのリソース

The URW-KG: a Resource for Tackling the Underrepresentation of non-Western Writers ( http://arxiv.org/abs/2212.13104v1 )

ライセンス: Link先を確認
Marco Antonio Stranisci, Giuseppe Spillo, Cataldo Musto, Viviana Patti, Rossana Damiano(参考訳) デジタルメディアは前例のない文学的知識へのアクセスを可能にした。 著者、読者、学者は、書籍とその著者に関する情報を発見、共有できるようになった。 にもかかわらず、デジタルアーカイブはいまだにバランスがとれていない:非西洋諸国の作家は表現が低く、そのような状況は古い差別の形式を繰り返すことになる。 本稿では,wikidata や,open library,goodreads,google books の3つのソースからの作品や著者に関する情報を収集し,マッピングすることで,この表現の欠如を探索し,修正するためのリソースである,未表示の writer knowledge graph (urw-kg) を提案する。 kg埋め込みに基づく実験は、グラフにエンコードされた統合情報により、学者や利用者がウィキデータのみに対して、非西洋文学作品や著者により簡単に露出できることを示した。 これにより、著者の発見と探索のためのより公平で効果的なツールの開発が開かれる。

Digital media have enabled the access to unprecedented literary knowledge. Authors, readers, and scholars are now able to discover and share an increasing amount of information about books and their authors. Notwithstanding, digital archives are still unbalanced: writers from non-Western countries are less represented, and such a condition leads to the perpetration of old forms of discrimination. In this paper, we present the Under-Represented Writers Knowledge Graph (URW-KG), a resource designed to explore and possibly amend this lack of representation by gathering and mapping information about works and authors from Wikidata and three other sources: Open Library, Goodreads, and Google Books. The experiments based on KG embeddings showed that the integrated information encoded in the graph allows scholars and users to be more easily exposed to non-Western literary works and authors with respect to Wikidata alone. This opens to the development of fairer and effective tools for author discovery and exploration.
翻訳日:2023-01-01 14:08:45 公開日:2022-12-21
# 間隔に基づくイベントシーケンスから高ユーティリティパターンをマイニングするための投影上界

A Projected Upper Bound for Mining High Utility Patterns from Interval-Based Event Sequences ( http://arxiv.org/abs/2212.11364v1 )

ライセンス: Link先を確認
S. Mohammad Mirbagheri(参考訳) 高ユーティリティパターンマイニングは興味深いが難しい問題である。 問題の本質的な計算コストは、解の有効性に加えて効率性が求められる場合、さらなる課題を課す。 近年,パターンの長さとサイズに制約のある間隔ベースのイベントシーケンスについて検討している。 しかし,提案手法は十分な効率性に欠ける。 この問題に対処するために,区間に基づく事象の系列から検出されるパターンの有用性を推定した上界を提案する。 その有効性を示すために、上界はHUIPMinerアルゴリズムが採用したプルーニング戦略によって利用される。 実験の結果,新しい上限値により,実行時間とメモリ使用量の両方の観点からHUIPMinerの性能が向上することがわかった。

High utility pattern mining is an interesting yet challenging problem. The intrinsic computational cost of the problem will impose further challenges if efficiency in addition to the efficacy of a solution is sought. Recently, this problem was studied on interval-based event sequences with a constraint on the length and size of the patterns. However, the proposed solution lacks adequate efficiency. To address this issue, we propose a projected upper bound on the utility of the patterns discovered from sequences of interval-based events. To show its effectiveness, the upper bound is utilized by a pruning strategy employed by the HUIPMiner algorithm. Experimental results show that the new upper bound improves HUIPMiner performance in terms of both execution time and memory usage.
翻訳日:2023-01-01 14:07:41 公開日:2022-12-21
# 多様体上の極端ベイズ最適化

Extrinsic Bayesian Optimizations on Manifolds ( http://arxiv.org/abs/2212.13886v1 )

ライセンス: Link先を確認
Yihao Fang, Mu Niu, Pokman Cheung, Lizhen Lin(参考訳) 本稿では,多様体上の一般最適化問題に対する外部ベイズ最適化(eBO)フレームワークを提案する。 ベイズ最適化アルゴリズムはガウス過程を用いて目的関数のサロゲートを構築し、そのサロゲートにおける不確実性を取得関数から導出することによって定量化する。 この取得関数は、最適化プロセスにおける探索を導くガウス過程のカーネルに基づく改善の確率を表す。 多様体上のベイズ最適化アルゴリズムを設計する上で重要な課題は、一般多様体上のガウス過程に対して有効な共分散核を構築することの難しさにある。 我々のアプローチは、まず多様体を同変埋め込みを通じて高次元ユークリッド空間に埋め込み、次いで埋め込み後の像多様体上に有効な共分散核を構築することによって、外部ガウス過程を採用することである。 これにより、複素多様体上の最適化のための効率的でスケーラブルなアルゴリズムが導かれる。 球面, グラスマン多様体, 正定行列多様体などの多様体上の様々な最適化問題に eBO を適用して, eBO フレームワークの有用性を実証するために, シミュレーション研究と実データ解析を行った。

We propose an extrinsic Bayesian optimization (eBO) framework for general optimization problems on manifolds. Bayesian optimization algorithms build a surrogate of the objective function by employing Gaussian processes and quantify the uncertainty in that surrogate by deriving an acquisition function. This acquisition function represents the probability of improvement based on the kernel of the Gaussian process, which guides the search in the optimization process. The critical challenge for designing Bayesian optimization algorithms on manifolds lies in the difficulty of constructing valid covariance kernels for Gaussian processes on general manifolds. Our approach is to employ extrinsic Gaussian processes by first embedding the manifold onto some higher dimensional Euclidean space via equivariant embeddings and then constructing a valid covariance kernel on the image manifold after the embedding. This leads to efficient and scalable algorithms for optimization over complex manifolds. Simulation study and real data analysis are carried out to demonstrate the utilities of our eBO framework by applying the eBO to various optimization problems over manifolds such as the sphere, the Grassmannian, and the manifold of positive definite matrices.
翻訳日:2023-01-01 14:06:42 公開日:2022-12-21
# 構造誘導画像アウトパインティング

Structure-guided Image Outpainting ( http://arxiv.org/abs/2212.12326v1 )

ライセンス: Link先を確認
Xi Wang, Weixi Cheng, and Wenliang Jia(参考訳) 深層学習技術は、ここ数年で画像の塗装、修復、再構築に大きく進歩している。 画像外挿(image outpainting)は画像外挿(image extrapolation)としても知られ、大規模な面積の損失と正当な隣接情報の欠如によって引き起こされる困難のために、注意と実践的なアプローチが欠如している。 これらの困難により、既存のモデルのほとんどは人間の目と非現実的であり、空間的に一貫性のない画像に塗装されている。 デコンボリューションを通じて偽コンテンツを生成する場合、単純生成法は高周波の詳細と構造的信頼性に欠ける結果をもたらす可能性がある。 そこで, 画像の劣化問題に対処する新しい手法として, 生成品質を最適化する条件として構造的事前を導入するとともに, 知覚の健全性を高めるために新しい意味的埋め込み項を導入する。 本稿では,生成支援のための構造的事前構造として,gan(generative adversarial network)と条件エッジを用いた深層学習手法を提案する。 我々は,エッジ推論トレーニング,コンテンツインペインティングトレーニング,関節トレーニングを含む多相対向トレーニング手法を用いる。 新たに追加されたセマンティック埋め込み損失は、実際に有効であることが証明されている。

Deep learning techniques have made considerable progress in image inpainting, restoration, and reconstruction in the last few years. Image outpainting, also known as image extrapolation, lacks attention and practical approaches to be fulfilled, owing to difficulties caused by large-scale area loss and less legitimate neighboring information. These difficulties have made outpainted images handled by most of the existing models unrealistic to human eyes and spatially inconsistent. When upsampling through deconvolution to generate fake content, the naive generation methods may lead to results lacking high-frequency details and structural authenticity. Therefore, as our novelties to handle image outpainting problems, we introduce structural prior as a condition to optimize the generation quality and a new semantic embedding term to enhance perceptual sanity. we propose a deep learning method based on Generative Adversarial Network (GAN) and condition edges as structural prior in order to assist the generation. We use a multi-phase adversarial training scheme that comprises edge inference training, contents inpainting training, and joint training. The newly added semantic embedding loss is proved effective in practice.
翻訳日:2022-12-26 16:18:16 公開日:2022-12-21
# 非教師付きモデルと変圧器型教師付きモデルを用いた運送業界のテキスト分類

Text classification in shipping industry using unsupervised models and Transformer based supervised models ( http://arxiv.org/abs/2212.12407v1 )

ライセンス: Link先を確認
Ying Xie and Dongping Song(参考訳) ラベル付きデータを特定のコンテキストで保持することは、コストと時間を要する可能性がある。 教師なし学習、半教師付き学習、自己学習など様々なアルゴリズムが採用されているが、テキスト分類の性能は文脈によって異なる。 ラベル付きデータセットの欠如を考慮し,標準国際貿易分類 (sitc) コードを用いて国際運送業界における貨物コンテンツの分類を行うための,新規かつ単純で教師なしのテキスト分類モデルを提案した。 提案手法は,事前学習したGlove Word Embeddingsを用いて単語を表現し,Cosine similarityを用いて最も可能性の高いラベルを見つけることに由来する。 教師なしテキスト分類モデルと教師付きテキスト分類モデルを比較するために,カーゴ内容の分類にトランスフォーマーモデルを適用した。 トレーニングデータがないため、SITC数値コードと対応するテキスト記述がトレーニングデータとして使用された。 手動でラベル付けされた貨物内容データを用いて、教師なし分類とトランスフォーマーに基づく教師付き分類の分類性能を評価した。 比較の結果,トレーニングデータセットのサイズを30%増やしても,教師なし分類がトランスフォーマーベースの教師付き分類を大幅に上回ることがわかった。 トレーニングデータの欠落は、ディープラーニングモデル(Transformersなど)が実用的なアプリケーションの成功を妨げる重要なボトルネックである。 教師なし分類は、訓練データが少ないときにテキストを分類する、より効率的で効果的な方法を提供する。

Obtaining labelled data in a particular context could be expensive and time consuming. Although different algorithms, including unsupervised learning, semi-supervised learning, self-learning have been adopted, the performance of text classification varies with context. Given the lack of labelled dataset, we proposed a novel and simple unsupervised text classification model to classify cargo content in international shipping industry using the Standard International Trade Classification (SITC) codes. Our method stems from representing words using pretrained Glove Word Embeddings and finding the most likely label using Cosine Similarity. To compare unsupervised text classification model with supervised classification, we also applied several Transformer models to classify cargo content. Due to lack of training data, the SITC numerical codes and the corresponding textual descriptions were used as training data. A small number of manually labelled cargo content data was used to evaluate the classification performances of the unsupervised classification and the Transformer based supervised classification. The comparison reveals that unsupervised classification significantly outperforms Transformer based supervised classification even after increasing the size of the training dataset by 30%. Lacking training data is a key bottleneck that prohibits deep learning models (such as Transformers) from successful practical applications. Unsupervised classification can provide an alternative efficient and effective method to classify text when there is scarce training data.
翻訳日:2022-12-26 16:09:19 公開日:2022-12-21
# セマンティックスを駆使したコミュニケーション:テュートリアル・クム・サーベイ

Semantics-Empowered Communication: A Tutorial-cum-Survey ( http://arxiv.org/abs/2212.08487v2 )

ライセンス: Link先を確認
Zhilin Lu, Rongpeng Li, Kun Lu, Xianfu Chen, Ekram Hossain, Zhifeng Zhao, and Honggang Zhang(参考訳) セマンティックスを駆使したコミュニケーション(セムコム)の研究の盛り上がりとともに、学界と産業の両方において幅広い側面(理論、応用、メトリクス、実装など)に対する前例のない関心が高まっている。 本研究の目的は,背景分類学と研究分類学の両方に関する総合的な調査と,詳細な技術チュートリアルを提供することである。 具体的には、文献をレビューし、意味伝達における「何」と「なぜ」の質問に答えることから始める。 その後、理論、メトリクス、データセット、ツールキットを含む対応するエコシステムを提示し、その上で研究の方向性の分類を提示する。 さらに,明示的かつ暗黙的な推論に基づく手法を用いて,重要な実現手法を分類し,それらがどのように進化し,現代的コンテンツの<&>チャネルセマンティクスを用いたコミュニケーションに寄与するかを詳述する。 semcomにおける最新の取り組みのレビューと要約の他に、総合的で統一的な視点から、他のコミュニケーションレベル(信頼度と目標指向のコミュニケーションなど)との関係について論じる。 その後、今後の開発や産業の応用を促進するために、セマンティックな正確性、堅牢性、大規模スケーラビリティを高めるための高度な実用技術を強調します。 最後に,今後の研究機会に光を当てた技術的課題について論じる。

Along with the springing up of semantics-empowered communication (SemCom) researches, it is now witnessing an unprecedentedly growing interest towards a wide range of aspects (e.g., theories, applications, metrics and implementations) in both academia and industry. In this work, we primarily aim to provide a comprehensive survey on both the background and research taxonomy, as well as a detailed technical tutorial. Specifically, we start by reviewing the literature and answering the "what" and "why" questions in semantic transmissions. Afterwards, we present corresponding ecosystems, including theories, metrics, datasets and toolkits, on top of which the taxonomy for research directions is presented. Furthermore, we propose to categorize the critical enabling techniques by explicit and implicit reasoning-based methods, and elaborate on how they evolve and contribute to modern content \& channel semantics-empowered communications. Besides reviewing and summarizing the latest efforts in SemCom, we discuss the relations with other communication levels (e.g., reliable and goal-oriented communications) from a holistic and unified viewpoint. Subsequently, in order to facilitate the future developments and industrial applications, we also highlight advanced practical techniques for boosting semantic accuracy, robustness, and large-scale scalability, just to mention a few. Finally, we discuss the technical challenges that shed light on future research opportunities.
翻訳日:2022-12-25 02:54:20 公開日:2022-12-21
# ロバストなオーディオフィンガープリントのためのオーディオデニュージング

Audio Denoising for Robust Audio Fingerprinting ( http://arxiv.org/abs/2212.11277v1 )

ライセンス: Link先を確認
Kamil Akesbi(参考訳) 音楽発見サービスは、短いモバイル録音から曲を識別する。 これらの解は、しばしば音声フィンガープリントに基づいており、より具体的にスペクトルピークの抽出に依存して、多くの歪みに頑健である。 実環境における背景雑音に対するこれらのアルゴリズムのロバスト性の研究は、ほとんど行われていない。 特にAFPシステムは、ノイズ比が低い場合、すなわち背景雑音が強い場合、依然として苦戦している。 このプロジェクトでは、Deep Learningでこの問題に取り組みます。 そこで我々は,ピークベースAFPアルゴリズムの前に記述型DLモデルを挿入するハイブリッド手法を提案する。 実データ拡張パイプラインを用いてノイズのある音楽録音をシミュレートし、dlモデルを訓練して雑音を解消する。 雑音モデルでは,afpシステムの抽出ピークに対する背景雑音の影響が制限され,雑音に対するロバスト性が向上した。 さらに,検討されたAFPシステムにDLモデルを適応させる新たな損失関数を提案する。 私たちの知る限りでは、このハイブリッド戦略はこれまでテストされていない。

Music discovery services let users identify songs from short mobile recordings. These solutions are often based on Audio Fingerprinting, and rely more specifically on the extraction of spectral peaks in order to be robust to a number of distortions. Few works have been done to study the robustness of these algorithms to background noise captured in real environments. In particular, AFP systems still struggle when the signal to noise ratio is low, i.e when the background noise is strong. In this project, we tackle this problematic with Deep Learning. We test a new hybrid strategy which consists of inserting a denoising DL model in front of a peak-based AFP algorithm. We simulate noisy music recordings using a realistic data augmentation pipeline, and train a DL model to denoise them. The denoising model limits the impact of background noise on the AFP system's extracted peaks, improving its robustness to noise. We further propose a novel loss function to adapt the DL model to the considered AFP system, increasing its precision in terms of retrieved spectral peaks. To the best of our knowledge, this hybrid strategy has not been tested before.
翻訳日:2022-12-23 15:29:24 公開日:2022-12-21
# metasurface-based diffractive neural networkによる意思決定と制御

Decision-making and control with metasurface-based diffractive neural networks ( http://arxiv.org/abs/2212.11278v1 )

ライセンス: Link先を確認
Jumin Qiu, Tianbao Yu, Lujun Huang, Andrey Miroshnichenko, Shuyuan Xiao(参考訳) 人工知能の最終的な目標は、人間の脳を模倣して意思決定を行い、高次元の感覚入力から直接制御することである。 all-optical diffractive neural networksは、高速かつ低消費電力の人工知能を実現するための有望なソリューションを提供する。 これまで報告された拡散型ニューラルネットワークのほとんどが、物体認識や画像分類などの環境との相互作用を伴わない単タスクや複数タスクに焦点を当てているが、我々の知識に基づいて意思決定や制御を行うネットワークはまだ開発されていない。 本稿では,人間レベルの意思決定と制御能力の模倣を可能にする拡散ニューラルネットワークを実現するために,深層強化学習を提案する。 このようなネットワークは環境との相互作用を通じて最適な制御ポリシーを見つけ、誘電体準曲面で容易に実現することができる。 これらのネットワークの優れたパフォーマンスは、Tic-Tac-Toe、Super Mario Bros.、Car Racingの3種類のクラシックゲームに関わり、人間プレイヤーと同等またはそれ以上のレベルを達成することで検証される。 我々の研究は、人工知能の高レベルの知覚能力に、単純な認識や分類のために設計された状態の目標駆動制御から根本的なシフトを約束する、微分ニューラルネットワークの進歩の歩みを表している。 自動運転、インテリジェントロボット、そしてインテリジェントな製造にエキサイティングな応用が見つかるかもしれない。

The ultimate goal of artificial intelligence is to mimic the human brain to perform decision-making and control directly from high-dimensional sensory input. All-optical diffractive neural networks provide a promising solution for realizing artificial intelligence with high-speed and low-power consumption. To date, most of the reported diffractive neural networks focus on single or multiple tasks that do not involve interaction with the environment, such as object recognition and image classification, while the networks that can perform decision-making and control, to our knowledge, have not been developed yet. Here, we propose to use deep reinforcement learning to realize diffractive neural networks that enable imitating the human-level capability of decision-making and control. Such networks allow for finding optimal control policies through interaction with the environment and can be readily realized with the dielectric metasurfaces. The superior performances of these networks are verified by engaging three types of classic games, Tic-Tac-Toe, Super Mario Bros., and Car Racing, and achieving the same or even higher levels comparable to human players. Our work represents a solid step of advancement in diffractive neural networks, which promises a fundamental shift from the target-driven control of a pre-designed state for simple recognition or classification tasks to the high-level sensory capability of artificial intelligence. It may find exciting applications in autonomous driving, intelligent robots, and intelligent manufacturing.
翻訳日:2022-12-23 15:29:06 公開日:2022-12-21
# グラフニューラルネットワークによる西ナイルウイルスの予測:不規則サンプリング地空間データにおける空間依存性

Forecasting West Nile Virus with Graph Neural Networks: Harnessing Spatial Dependence in Irregularly Sampled Geospatial Data ( http://arxiv.org/abs/2212.11367v1 )

ライセンス: Link先を確認
Adam Tonks (1), Trevor Harris (2), Bo Li (1), William Brown (3), Rebecca Smith (3) ((1) Department of Statistics, University of Illinois at Urbana-Champaign, (2) Department of Statistics, Texas A&M University, (3) Department of Pathobiology, University of Illinois at Urbana-Champaign)(参考訳) 機械学習手法は、降水量予測、ヘイズ予測、収穫予測など、地理空間環境問題への応用が増加している。 しかしながら、蚊の個体数や病気予測に適用される機械学習手法の多くは、与えられたデータの基盤となる空間構造を本質的に考慮していない。 本研究は、イリノイ州の西ナイルウイルスの存在を予測するために、GraphSAGE層からなる空間認識グラフニューラルネットワークモデルを適用し、州内における蚊の監視と治療活動を支援する。 より一般に、不規則にサンプリングされた地理空間データに適用されたグラフニューラルネットワークは、ロジスティック回帰、xgboost、完全接続ニューラルネットワークなど、様々なベースライン手法の性能を超える可能性がある。

Machine learning methods have seen increased application to geospatial environmental problems, such as precipitation nowcasting, haze forecasting, and crop yield prediction. However, many of the machine learning methods applied to mosquito population and disease forecasting do not inherently take into account the underlying spatial structure of the given data. In our work, we apply a spatially aware graph neural network model consisting of GraphSAGE layers to forecast the presence of West Nile virus in Illinois, to aid mosquito surveillance and abatement efforts within the state. More generally, we show that graph neural networks applied to irregularly sampled geospatial data can exceed the performance of a range of baseline methods including logistic regression, XGBoost, and fully-connected neural networks.
翻訳日:2022-12-23 15:28:40 公開日:2022-12-21
# GCS-Q:量子グラフ結合構造生成

GCS-Q: Quantum Graph Coalition Structure Generation ( http://arxiv.org/abs/2212.11372v1 )

ライセンス: Link先を確認
Supreeth Mysore Venkatesh, Antonio Macaluso, Matthias Klusch(参考訳) 合理的エージェントによる所定の連立ゲームのための最適な連立構造を生成する問題は、彼らの社会的福祉を最大化し、NPハードであることが知られている分割を見つけることである。 本稿では、連立構造生成における誘導サブグラフゲーム(ISG)のための新しい量子支援ソリューションGCS-Qを提案する。 GCS-Qは、大連立を初期連立構造として考慮し、連立を2つの空でないサブセットに反復的に分割して、より高い連立価値の連立構造を得る。 特に、$n$-agent ISG が与えられたとき、GCS-Q は量子アニールデバイスを用いて最適な分割問題を $\mathcal{O} (n)$ times で解き、各ステップで $\mathcal{O}(2^n)$パーティションを探索する。 我々はGCS-Qが現在最も優れた古典的ソルバのランタイムを$n^2$で上回り、予想最悪の近似比が標準ベンチマークデータセットで9,3\%であることを示す。

The problem of generating an optimal coalition structure for a given coalition game of rational agents is to find a partition that maximizes their social welfare and is known to be NP-hard. This paper proposes GCS-Q, a novel quantum-supported solution for Induced Subgraph Games (ISGs) in coalition structure generation. GCS-Q starts by considering the grand coalition as initial coalition structure and proceeds by iteratively splitting the coalitions into two nonempty subsets to obtain a coalition structure with a higher coalition value. In particular, given an $n$-agent ISG, the GCS-Q solves the optimal split problem $\mathcal{O} (n)$ times using a quantum annealing device, exploring $\mathcal{O}(2^n)$ partitions at each step. We show that GCS-Q outperforms the currently best classical solvers with its runtime in the order of $n^2$ and an expected worst-case approximation ratio of $93\%$ on standard benchmark datasets.
翻訳日:2022-12-23 15:23:22 公開日:2022-12-21
# 歩行者横断行動に対する都市交通の因果効果推定のためのデバイアス機械学習

Debiased machine learning for estimating the causal effect of urban traffic on pedestrian crossing behaviour ( http://arxiv.org/abs/2212.11322v1 )

ライセンス: Link先を確認
Kimia Kamal and Bilal Farooq(参考訳) avsが都市道路に移行し、その後交通状況が前例のない変化を遂げる前は、交通政策や歩行者の横断行動に関連する未来的道路設計の評価が重要であった。 最近の研究は、avの存在下での歩行者待ち時間に対する様々な変数の非因果的影響を分析した。 しかし,交通密度が歩行者待ち時間に与える影響について主に検討した。 我々は、政策と利害結果の両方に影響を与える共同創設者の影響に対処し、バイアスのない政策評価をもたらすダブル/デバイアスド機械学習(DML)モデルを開発する。 さらに,歩行者の横断行動,歩行者のストレスレベル,待ち時間の2つの主成分からなるコプラベースジョイントモデルを構築し,交通密度の影響を解析する。 copulaアプローチは、旅行行動モデリングにおける因果分析として分類できる自己選択問題に対処するために、文献で広く使われている。 コプラアプローチとDMLの結果は,交通密度の影響に基づいて比較した。 DMLモデル構造では、密度パラメータの標準誤差項はコプラアプローチよりも低く、信頼区間ははるかに信頼性が高い。 さらに、同様の効果の兆候にもかかわらず、共同設立者の刺激的な影響により、コプラアプローチはDMLよりも低い交通密度の影響を推定する。 要するに、DMLモデル構造は、機械学習アルゴリズムを使用して、共同創設者の影響を柔軟に調整することができ、将来のポリシーを計画する上でより信頼性が高い。

Before the transition of AVs to urban roads and subsequently unprecedented changes in traffic conditions, evaluation of transportation policies and futuristic road design related to pedestrian crossing behavior is of vital importance. Recent studies analyzed the non-causal impact of various variables on pedestrian waiting time in the presence of AVs. However, we mainly investigate the causal effect of traffic density on pedestrian waiting time. We develop a Double/Debiased Machine Learning (DML) model in which the impact of confounders variable influencing both a policy and an outcome of interest is addressed, resulting in unbiased policy evaluation. Furthermore, we try to analyze the effect of traffic density by developing a copula-based joint model of two main components of pedestrian crossing behavior, pedestrian stress level and waiting time. The copula approach has been widely used in the literature, for addressing self-selection problems, which can be classified as a causality analysis in travel behavior modeling. The results obtained from copula approach and DML are compared based on the effect of traffic density. In DML model structure, the standard error term of density parameter is lower than copula approach and the confidence interval is considerably more reliable. In addition, despite the similar sign of effect, the copula approach estimates the effect of traffic density lower than DML, due to the spurious effect of confounders. In short, the DML model structure can flexibly adjust the impact of confounders by using machine learning algorithms and is more reliable for planning future policies.
翻訳日:2022-12-23 15:21:47 公開日:2022-12-21
# 機械学習に基づく陽子療法用線量検証フレームワークにおける生物学的洗浄および深度選択の感度解析

Sensitivity analysis of biological washout and depth selection for a machine learning based dose verification framework in proton therapy ( http://arxiv.org/abs/2212.11352v1 )

ライセンス: Link先を確認
Shixiong Yu, Yuxiang Liu, Zongsheng Hu, Haozhao Zhang, Pengyu Qi, Hao Peng(参考訳) 陽電子エミッタによる線量検証は,人工知能の強みを活用する上で有望な品質保証ツールである。 実用化に向けて一歩近づくためには,生物学的洗浄と深さ選択の2つの因子の感度分析を行う必要がある。 選択だ 双方向リカレントニューラルネットワーク(RNN)モデルを開発した。 訓練データセットは, モンテカルロシミュレーション(空間分解能1mm, 生物学的洗浄は行わない)を用いて, ct画像を用いたファントム(腹部領域)と複数のビームエネルギー/経路に基づいて生成した。 生物学的洗浄液のモデリングには, 物理的劣化と生物学的洗浄液の両方を取り入れた簡易な分析モデルを用いて, 5分間にわたる活性分布の変化を行った。 深度選択(マルチフィールド・アングル照射による挑戦)の研究のために, 異なる窓長(100mm, 125mm, 150mm)の切り欠きを生の活性プロファイルに適用した。 最後に, 両要因(深度125mm, 生物学的洗剤5分)を組み合わせることにより, 最悪のシナリオの性能を検討した。 精度は,範囲不確かさ,平均絶対誤差(MAE),平均相対誤差(MRE)で定量的に評価した。 提案するAIフレームワークは,2つの要因に関連する摂動に対して良好な免疫力を示す。 プロトン誘発性陽電子放出物質の検出と機械学習の併用は、プロトン療法におけるオンライン患者固有の検証を実装する大きな可能性を秘めている。

Dose verification based on proton-induced positron emitters is a promising quality assurance tool and may leverage the strength of artificial intelligence. To move a step closer towards practical application, the sensitivity analysis of two factors needs to be performed: biological washout and depth selection. selection. A bi-directional recurrent neural network (RNN) model was developed. The training dataset was generated based upon a CT image-based phantom (abdomen region) and multiple beam energies/pathways, using Monte-Carlo simulation (1 mm spatial resolution, no biological washout). For the modeling of biological washout, a simplified analytical model was applied to change raw activity profiles over a period of 5 minutes, incorporating both physical decay and biological washout. For the study of depth selection (a challenge linked to multi field/angle irradiation), truncations were applied at different window lengths (100, 125, 150 mm) to raw activity profiles. Finally, the performance of a worst-case scenario was examined by combining both factors (depth selection: 125 mm, biological washout: 5 mins). The accuracy was quantitatively evaluated in terms of range uncertainty, mean absolute error (MAE) and mean relative errors (MRE). Our proposed AI framework shows good immunity to the perturbation associated with two factors. The detection of proton-induced positron emitters, combined with machine learning, has great potential to implement online patient-specific verification in proton therapy.
翻訳日:2022-12-23 15:21:08 公開日:2022-12-21
# ディープラーニングのためのテストジェネレータが不正なインプットを生成する日時と理由:実証的研究

When and Why Test Generators for Deep Learning Produce Invalid Inputs: an Empirical Study ( http://arxiv.org/abs/2212.11368v1 )

ライセンス: Link先を確認
Vincenzo Riccio and Paolo Tonella(参考訳) ディープラーニング(DL)ベースのシステムをテストするには、DLシステムがトレーニングデータセットを超えて一般化するかどうかを評価するために、本質的に大規模で代表的なテストセットが必要である。 逆テスト入力ジェネレータ(TIG)は、誤動作を引き起こすことによってDLシステムの問題を露呈する人工的な入力を生成するために提案されている。 残念なことに、このような入力は、入力ドメインの一部として認識できないため、信頼性の低い品質評価を提供する。 自動バリデータは、入力妥当性は形式化が難しい概念であり、自動化は難しいが、人手によるテスターの入力の妥当性チェックの負担を軽減することができる。 本稿では,自動検証と人的検証の両方により,TIGがどの程度有効な入力を生成できるかを検討する。 2つの異なる自動検証者、220人の評価者、5つの異なるtig、3つの分類タスクを含む大規模な実証研究を行った。 自動バリデータによると, 人工的に生成した入力の84%が有効であるが, そのラベルは必ずしも保存されていない。 自動バリデーターは人間との良好なコンセンサス(78%の精度)に達するが、機能豊富なデータセットを扱う際にはまだ制限がある。

Testing Deep Learning (DL) based systems inherently requires large and representative test sets to evaluate whether DL systems generalise beyond their training datasets. Diverse Test Input Generators (TIGs) have been proposed to produce artificial inputs that expose issues of the DL systems by triggering misbehaviours. Unfortunately, such generated inputs may be invalid, i.e., not recognisable as part of the input domain, thus providing an unreliable quality assessment. Automated validators can ease the burden of manually checking the validity of inputs for human testers, although input validity is a concept difficult to formalise and, thus, automate. In this paper, we investigate to what extent TIGs can generate valid inputs, according to both automated and human validators. We conduct a large empirical study, involving 2 different automated validators, 220 human assessors, 5 different TIGs and 3 classification tasks. Our results show that 84% artificially generated inputs are valid, according to automated validators, but their expected label is not always preserved. Automated validators reach a good consensus with humans (78% accuracy), but still have limitations when dealing with feature-rich datasets.
翻訳日:2022-12-23 15:20:42 公開日:2022-12-21
# ABODE-Net:スマートメータデータを用いた非侵入的建物機能検出のための注意型ディープラーニングモデル

ABODE-Net: An Attention-based Deep Learning Model for Non-intrusive Building Occupancy Detection Using Smart Meter Data ( http://arxiv.org/abs/2212.11396v1 )

ライセンス: Link先を確認
Zhirui Luo, Ruobin Qi, Qingqing Li, Jun Zheng, Sihua Shao(参考訳) 業務情報は、建築セクターの効率的なエネルギー管理に有用である。 高度計測インフラ(ami)ネットワークでスマートメータが収集した大規模高分解能電力消費データにより,建築物の占有状況の非侵入的推定が可能となった。 本稿では,ABODE-Netと呼ばれる,新しい並列注意ブロック(PA)を用いて,スマートメーターデータを用いた占有度検出を行う深層傾きモデルを提案する。 paブロックは、時間的、変数的、チャネル的注意モジュールを並列的に組み合わせ、占有者検出の重要な特徴を示す。 我々は,2つのスマートメータデータセットを性能評価に活用した。 パフォーマンス比較には最先端の浅層機械学習とディープラーニングモデルが含まれている。 その結果、abode-netは全ての実験ケースで他のモデルを大きく上回っており、非侵入的な建物占有検知のソリューションとしての有効性が証明された。

Occupancy information is useful for efficient energy management in the building sector. The massive high-resolution electrical power consumption data collected by smart meters in the advanced metering infrastructure (AMI) network make it possible to infer buildings' occupancy status in a non-intrusive way. In this paper, we propose a deep leaning model called ABODE-Net which employs a novel Parallel Attention (PA) block for building occupancy detection using smart meter data. The PA block combines the temporal, variable, and channel attention modules in a parallel way to signify important features for occupancy detection. We adopt two smart meter datasets widely used for building occupancy detection in our performance evaluation. A set of state-of-the-art shallow machine learning and deep learning models are included for performance comparison. The results show that ABODE-Net significantly outperforms other models in all experimental cases, which proves its validity as a solution for non-intrusive building occupancy detection.
翻訳日:2022-12-23 15:20:20 公開日:2022-12-21
# Pairwise Summationsにおける適応型および動的マルチリゾリューションハッシュ

Adaptive and Dynamic Multi-Resolution Hashing for Pairwise Summations ( http://arxiv.org/abs/2212.11408v1 )

ライセンス: Link先を確認
Lianke Qin, Aravind Reddy, Zhao Song, Zhaozhuo Xu, Danyang Zhuo(参考訳) 本稿では,高速ペアワイズ和量推定のための適応的かつ動的マルチレゾリューションハッシュデータ構造であるadam-hashを提案する。 データ集合 $X \subset \mathbb{R}^d$, a binary function $f:\mathbb{R}^d\times \mathbb{R}^d\to \mathbb{R}$, and a point $y \in \mathbb{R}^d$, the Pairwise Summation Estimate $\mathrm{PSE}_X(y) := \frac{1}{|X|} \sum_{x \in X} f(x,y)$ が与えられる。 任意のデータセット $x$ に対して、クエリポイント $y \in \mathbb{r}^d$ が与えられた場合、データ構造は約$\mathrm{pse}_x(y)$ を推定し、$|x|$ のサブ線形であるようなデータ構造を設計する必要がある。 この問題に対する以前の取り組みは、データセットが静的でクエリが独立である場合にのみ焦点を当ててきた。 本稿では,ポイントの挿入,削除,置換を許容するより実用的な \textit{dynamic} 設定に適したハッシュベースのpseデータ構造を設計する。 さらに,提案したAdam-Hash は適応型 PSE クエリにも頑健であり,従来のクエリ $q_1, q_2, \dots, q_{j-1}$ の出力に依存するクエリ $q_j \in \mathbb{R}^d$ を選択することができる。

In this paper, we propose Adam-Hash: an adaptive and dynamic multi-resolution hashing data-structure for fast pairwise summation estimation. Given a data-set $X \subset \mathbb{R}^d$, a binary function $f:\mathbb{R}^d\times \mathbb{R}^d\to \mathbb{R}$, and a point $y \in \mathbb{R}^d$, the Pairwise Summation Estimate $\mathrm{PSE}_X(y) := \frac{1}{|X|} \sum_{x \in X} f(x,y)$. For any given data-set $X$, we need to design a data-structure such that given any query point $y \in \mathbb{R}^d$, the data-structure approximately estimates $\mathrm{PSE}_X(y)$ in time that is sub-linear in $|X|$. Prior works on this problem have focused exclusively on the case where the data-set is static, and the queries are independent. In this paper, we design a hashing-based PSE data-structure which works for the more practical \textit{dynamic} setting in which insertions, deletions, and replacements of points are allowed. Moreover, our proposed Adam-Hash is also robust to adaptive PSE queries, where an adversary can choose query $q_j \in \mathbb{R}^d$ depending on the output from previous queries $q_1, q_2, \dots, q_{j-1}$.
翻訳日:2022-12-23 15:20:05 公開日:2022-12-21
# 模倣だけでは不十分:強化学習による模倣の堅牢化

Imitation Is Not Enough: Robustifying Imitation with Reinforcement Learning for Challenging Driving Scenarios ( http://arxiv.org/abs/2212.11419v1 )

ライセンス: Link先を確認
Yiren Lu, Justin Fu, George Tucker, Xinlei Pan, Eli Bronstein, Becca Roelofs, Benjamin Sapp, Brandyn White, Aleksandra Faust, Shimon Whiteson, Dragomir Anguelov, Sergey Levine(参考訳) 模倣学習(il)は、人間の運転データを大規模に収集し、運転の好みを特定し、人間のような行動を生み出すための、シンプルで強力な方法である。 しかし、模倣学習のみに基づく政策は、安全性と信頼性の懸念を十分に考慮できないことが多い。 本稿では,単純な報酬を用いた強化学習と組み合わさった模倣学習が,模倣だけで学んだものよりも運転方針の安全性と信頼性を大幅に向上させることを示す。 特に,シミュレーションと強化学習を組み合わせることで,1万マイル以上の都市走行データのポリシをトレーニングし,衝突リスクの異なるレベルに分類されたテストシナリオにおける有効性を測定した。 我々の知る限り、これは大量の現実世界の人間の運転データを利用する自動運転における模倣と強化学習の併用の最初の応用である。

Imitation learning (IL) is a simple and powerful way to use high-quality human driving data, which can be collected at scale, to identify driving preferences and produce human-like behavior. However, policies based on imitation learning alone often fail to sufficiently account for safety and reliability concerns. In this paper, we show how imitation learning combined with reinforcement learning using simple rewards can substantially improve the safety and reliability of driving policies over those learned from imitation alone. In particular, we use a combination of imitation and reinforcement learning to train a policy on over 100k miles of urban driving data, and measure its effectiveness in test scenarios grouped by different levels of collision risk. To our knowledge, this is the first application of a combined imitation and reinforcement learning approach in autonomous driving that utilizes large amounts of real-world human driving data.
翻訳日:2022-12-23 15:12:29 公開日:2022-12-21
# 単一サーバキューシステムにおける学習型最適アドミッション制御

Learning-based Optimal Admission Control in a Single Server Queuing System ( http://arxiv.org/abs/2212.11316v1 )

ライセンス: Link先を確認
Asaf Cohen, Vijay G. Subramanian, Yili Zhang(参考訳) 我々は,M/M/1待ち行列システムにおける入場率を未知のサービス率で最大化する長期平均利益を考える。 サービス完了時に定額の報酬と、待ち行列で待機している顧客に対して実施される時間単位当たりのコストにより、ディスペンサーは、システムの待ち行列の長さの観察の全履歴に基づいて、到着客を認めるか否かを判断する。 \cite[Econometrica]{Naor} は、もしモデルのすべてのパラメータが知られているなら、静的しきい値ポリシーを使うのが最適であることを示した。 本稿では, 学習に基づくディスパッチアルゴリズムを提案し, その後悔を, \cite{Naor} の全情報モデルに対する最適ディスパッチポリシーに関して特徴づける。 完全情報を持つ最適なしきい値がゼロでない場合に、そのアルゴリズムが$o(1)$の後悔を達成し、全情報を持つ最適なしきい値が$0$(すなわち、すべての到着を拒否する最適方針)である場合に$o(\ln^{3+\epsilon}(n))$の後悔を達成する。

We consider a long-term average profit maximizing admission control problem in an M/M/1 queuing system with a known arrival rate but an unknown service rate. With a fixed reward collected upon service completion and a cost per unit of time enforced on customers waiting in the queue, a dispatcher decides upon arrivals whether to admit the arriving customer or not based on the full history of observations of the queue-length of the system. \cite[Econometrica]{Naor} showed that if all the parameters of the model are known, then it is optimal to use a static threshold policy - admit if the queue-length is less than a predetermined threshold and otherwise not. We propose a learning-based dispatching algorithm and characterize its regret with respect to optimal dispatch policies for the full information model of \cite{Naor}. We show that the algorithm achieves an $O(1)$ regret when all optimal thresholds with full information are non-zero, and achieves an $O(\ln^{3+\epsilon}(N))$ regret in the case that an optimal threshold with full information is $0$ (i.e., an optimal policy is to reject all arrivals), where $N$ is the number of arrivals and $\epsilon>0$.
翻訳日:2022-12-23 15:11:48 公開日:2022-12-21
# 3次元姿勢推定のための高度ベースライン:2段階的アプローチ

Advanced Baseline for 3D Human Pose Estimation: A Two-Stage Approach ( http://arxiv.org/abs/2212.11344v1 )

ライセンス: Link先を確認
Zichen Gui, Jungang Luo(参考訳) ヒトのポーズ推定は様々な産業で広く応用されている。 近年、多くの高度な2次元(2次元)人間のポーズ推定ソリューションが導入されたが、3次元(3次元)の人間のポーズ推定はコンピュータビジョンにおける活発な研究分野である。 一般に、3次元のポーズ推定法は、一段階と二段階の2つのカテゴリーに分けられる。 本稿では,2段階法における2次元から3次元の昇降過程に着目し,既存の解に基づく3次元姿勢推定のためのより高度なベースラインモデルを提案する。 我々の改善には、機械学習モデルと複数のパラメータの最適化、トレーニングモデルへの重み付き損失の導入が含まれる。 最後に、最終的なパフォーマンスをテストするためにHuman3.6Mベンチマークを使用しました。

Human pose estimation has been widely applied in various industries. While recent decades have witnessed the introduction of many advanced two-dimensional (2D) human pose estimation solutions, three-dimensional (3D) human pose estimation is still an active research field in computer vision. Generally speaking, 3D human pose estimation methods can be divided into two categories: single-stage and two-stage. In this paper, we focused on the 2D-to-3D lifting process in the two-stage methods and proposed a more advanced baseline model for 3D human pose estimation, based on the existing solutions. Our improvements include optimization of machine learning models and multiple parameters, as well as introduction of a weighted loss to the training model. Finally, we used the Human3.6M benchmark to test the final performance and it did produce satisfactory results.
翻訳日:2022-12-23 15:11:24 公開日:2022-12-21
# 乳牛検出閉塞問題

Cattle Detection Occlusion Problem ( http://arxiv.org/abs/2212.11418v1 )

ライセンス: Link先を確認
Aparna Mendu, Bhavya Sehgal, Vaishnavi Mendu(参考訳) 広大な地域における牛の管理は、農業分野ではまだ難しい問題である。 テクノロジーの進化に伴い、消費者レベルのデジタルカメラを備えた無人航空機(UAV)は、リスクが少なく高価であるため家畜推定のための手動の動物調査の代替手段として人気を集めている。本稿は、最先端の物体検出アルゴリズムであるYOLOv7、RetinaNetとResNet50のバックボーン、RetinaNetとEfficientNetとマスクRCNNを比較して比較する。 深層学習アルゴリズムを使ってドローンが捉えた巨大なデータセットから隠れ牛を検知し、牛の正確な検出を行うという、閉塞性の問題を改善することを目的としている。 実験の結果、yolov7は他の2つのアルゴリズムと比較して0.612の精度で優れていた。 提案手法は, 牛の顔検出における通常の競合アルゴリズムよりも優れており, 特に難易度が高い。

The management of cattle over a huge area is still a challenging problem in the farming sector. With evolution in technology, Unmanned aerial vehicles (UAVs) with consumer level digital cameras are becoming a popular alternative to manual animal censuses for livestock estimation since they are less risky and expensive.This paper evaluated and compared the cutting-edge object detection algorithms, YOLOv7,RetinaNet with ResNet50 backbone, RetinaNet with EfficientNet and mask RCNN. It aims to improve the occlusion problem that is to detect hidden cattle from a huge dataset captured by drones using deep learning algorithms for accurate cattle detection. Experimental results showed YOLOv7 was superior with precision of 0.612 when compared to the other two algorithms. The proposed method proved superior to the usual competing algorithms for cow face detection, especially in very difficult cases.
翻訳日:2022-12-23 15:11:09 公開日:2022-12-21
# ターゲット条件付き表現独立(TCRI) : ドメイン不変からドメイン一般表現へ

Target Conditioned Representation Independence (TCRI); From Domain-Invariant to Domain-General Representations ( http://arxiv.org/abs/2212.11342v1 )

ライセンス: Link先を確認
Olawale Salaudeen, Oluwasanmi Koyejo(参考訳) ドメイン一般化のためのターゲット条件表現独立(TCRI)目標を提案する。 TCRIは、不完全な制約による既存のドメイン一般化メソッドの制限に対処する。 特に、TCRIは条件付き独立性制約によって動機付けられた正規化器を実装しており、ドメインの一般化に必要な不変機構の完全集合を厳密に学習するのに十分である。 実験により,TCRIは合成データと実世界のデータの両方に有効であることがわかった。 TCRIは平均的な精度でベースラインと競合し、最悪のドメインの精度で性能を上回り、望ましいクロスドメイン安定性を示している。

We propose a Target Conditioned Representation Independence (TCRI) objective for domain generalization. TCRI addresses the limitations of existing domain generalization methods due to incomplete constraints. Specifically, TCRI implements regularizers motivated by conditional independence constraints that are sufficient to strictly learn complete sets of invariant mechanisms, which we show are necessary and sufficient for domain generalization. Empirically, we show that TCRI is effective on both synthetic and real-world data. TCRI is competitive with baselines in average accuracy while outperforming them in worst-domain accuracy, indicating desired cross-domain stability.
翻訳日:2022-12-23 15:02:19 公開日:2022-12-21
# モンテカルロ木探索を用いた特徴抽出

Feature Acquisition using Monte Carlo Tree Search ( http://arxiv.org/abs/2212.11360v1 )

ライセンス: Link先を確認
Sungsoo Lim, Diego Klabjan, Mark Shapiro(参考訳) 特徴獲得アルゴリズムは、MLモデルの学習性能を向上させるために、取得コストのバランスを保ちながら、情報的特徴を取得する問題に対処する。 従来のアプローチでは, 獲得シーケンスを決定するために, 期待される特徴の効用値を計算することに重点を置いてきた。 他のアプローチでは、問題をマルコフ決定プロセス(mdp)と強化学習に基づくアルゴリズムとして定式化した。 これまでのアプローチと比較すると 1) 特徴獲得問題をMDPとして定式化し、モンテカルロ木探索を適用する。 2 モデル改良及び取得コストに基づく各取得工程の中間報酬の計算 3)マルチオブジェクトモンテカルロ木探索によるモデル改善と取得コストを同時に最適化する。 近位政策最適化と深いqネットワークアルゴリズムをベンチマークとして,提案手法の有効性を実験的に示す。

Feature acquisition algorithms address the problem of acquiring informative features while balancing the costs of acquisition to improve the learning performances of ML models. Previous approaches have focused on calculating the expected utility values of features to determine the acquisition sequences. Other approaches formulated the problem as a Markov Decision Process (MDP) and applied reinforcement learning based algorithms. In comparison to previous approaches, we focus on 1) formulating the feature acquisition problem as a MDP and applying Monte Carlo Tree Search, 2) calculating the intermediary rewards for each acquisition step based on model improvements and acquisition costs and 3) simultaneously optimizing model improvement and acquisition costs with multi-objective Monte Carlo Tree Search. With Proximal Policy Optimization and Deep Q-Network algorithms as benchmark, we show the effectiveness of our proposed approach with experimental study.
翻訳日:2022-12-23 15:02:09 公開日:2022-12-21
# 解釈の回避:マインドリーダーを倒す方法

Circumventing interpretability: How to defeat mind-readers ( http://arxiv.org/abs/2212.11415v1 )

ライセンス: Link先を確認
Lee Sharkey(参考訳) 人工知能(AI)システムの能力の増大により、彼らの意図が人間の価値観と一致していることを保証するために、内部を解釈することがより重要になる。 しかし、不一致の人工知能が、私たちの理解を困難にするために、集中したインセンティブを持つと考える理由はある。 本稿では、有能なAIがスケーラブルな解釈可能性手法を回避できる多くの方法について議論し、これらの潜在的な将来のリスクについて考えるためのフレームワークを提案する。

The increasing capabilities of artificial intelligence (AI) systems make it ever more important that we interpret their internals to ensure that their intentions are aligned with human values. Yet there is reason to believe that misaligned artificial intelligence will have a convergent instrumental incentive to make its thoughts difficult for us to interpret. In this article, I discuss many ways that a capable AI might circumvent scalable interpretability methods and suggest a framework for thinking about these potential future risks.
翻訳日:2022-12-23 15:01:57 公開日:2022-12-21
# duat:医療画像分割のためのデュアルアグリゲーショントランスフォーマネットワーク

DuAT: Dual-Aggregation Transformer Network for Medical Image Segmentation ( http://arxiv.org/abs/2212.11677v1 )

ライセンス: Link先を確認
Feilong Tang, Qiming Huang, Jinfeng Wang, Xianxu Hou, Jionglong Su, Jingxin Liu(参考訳) トランスフォーマーベースのモデルは、長距離依存をモデル化し、グローバル表現をキャプチャすることで、コンピュータビジョンタスクで成功することが広く実証されている。 しかし、それらはしばしば大きなパターンの特徴によって支配され、医療画像の分割において重要な局所的な詳細(境界や小さなオブジェクトなど)を失う。 この問題を軽減するために,DuATと呼ばれるDual-Aggregation Transformer Networkを提案する。このネットワークは,GLSA(Global-to-Local Spatial Aggregation)とSBA(Selective Boundary Aggregation)モジュールという,革新的な2つの設計が特徴である。 glsaには、グローバルとローカルの両方の空間的特徴を集約し、表現する能力があり、それぞれ大きな物体と小さな物体を見つけるのに有用である。 sbaモジュールは、境界の詳細の保存と再結合オブジェクトの配置を改善するため、低レベルの特徴と高レベルの特徴から境界特性を集約するために使用される。 6つのベンチマークデータセットによる広範囲な実験により,大腸内視鏡画像における皮膚病変像の分画,ポリープの分画において,提案モデルが最先端の手法より優れていることが示された。 さらに,小型オブジェクトセグメンテーションやあいまいなオブジェクト境界など,さまざまな困難な状況において,既存の手法よりも頑健である。

Transformer-based models have been widely demonstrated to be successful in computer vision tasks by modelling long-range dependencies and capturing global representations. However, they are often dominated by features of large patterns leading to the loss of local details (e.g., boundaries and small objects), which are critical in medical image segmentation. To alleviate this problem, we propose a Dual-Aggregation Transformer Network called DuAT, which is characterized by two innovative designs, namely, the Global-to-Local Spatial Aggregation (GLSA) and Selective Boundary Aggregation (SBA) modules. The GLSA has the ability to aggregate and represent both global and local spatial features, which are beneficial for locating large and small objects, respectively. The SBA module is used to aggregate the boundary characteristic from low-level features and semantic information from high-level features for better preserving boundary details and locating the re-calibration objects. Extensive experiments in six benchmark datasets demonstrate that our proposed model outperforms state-of-the-art methods in the segmentation of skin lesion images, and polyps in colonoscopy images. In addition, our approach is more robust than existing methods in various challenging situations such as small object segmentation and ambiguous object boundaries.
翻訳日:2022-12-23 14:54:46 公開日:2022-12-21
# 軽量単眼深度推定

Lightweight Monocular Depth Estimation ( http://arxiv.org/abs/2212.11363v1 )

ライセンス: Link先を確認
Ruilin Ma, Shiyao Chen, Qin Zhang(参考訳) 2次元画像からシーン形状を導出する問題に対処する上で,単眼深度推定は重要な役割を果たす。 ロボット、自動運転車、シーン理解、3D再構築など、さまざまな産業で使用されている。 本手法の目的は,画像セグメンテーションネットワークのUnet構造を入力として,単一のRGB画像のみを与えられた各画素の深さ値を予測するために,軽量な機械学習モデルを構築することである。 我々は、NYU Depth V2データセットを使用して構造をテストし、結果を他の方法と比較する。 提案手法は比較的高い精度と低ルート平均二乗誤差を実現する。

Monocular depth estimation can play an important role in addressing the issue of deriving scene geometry from 2D images. It has been used in a variety of industries, including robots, self-driving cars, scene comprehension, 3D reconstructions, and others. The goal of our method is to create a lightweight machine-learning model in order to predict the depth value of each pixel given only a single RGB image as input with the Unet structure of the image segmentation network. We use the NYU Depth V2 dataset to test the structure and compare the result with other methods. The proposed method achieves relatively high accuracy and low rootmean-square error.
翻訳日:2022-12-23 14:34:56 公開日:2022-12-21
# 芸術的任意の様式の移譲

Artistic Arbitrary Style Transfer ( http://arxiv.org/abs/2212.11376v1 )

ライセンス: Link先を確認
Weiting Li, Rahul Vyas, Ramya Sree Penta(参考訳) 任意のスタイル転送は、コンテンツイメージとスタイルイメージという2つのイメージから新しいイメージを生成するために使用されるテクニックである。 新たに生成された画像は見当たらず、アルゴリズム自体から生成される。 構造とスタイルコンポーネントのバランスをとることは、他の最先端アルゴリズムが解決しようとする大きな課題でした。 あらゆる努力にもかかわらず、コンテンツイメージの構造の上に作られたアートスタイルを一貫性を維持しながら適用することは、依然として大きな課題です。 本研究では,畳み込みニューラルネットワークを用いた深層学習手法を用いて,これらの問題を解決した。 本実装では,まずコンテンツ画像から事前学習した detectionron 2 モデルを用いて背景からフォアグラウンドを抽出し,sanet で使用される任意のスタイル転送手法を適用する。 2つのスタイル化されたイメージが得られたら、完全なエンドピースのスタイル転送のプロセスの後、2つのイメージ塊を縫い合わせる。

Arbitrary Style Transfer is a technique used to produce a new image from two images: a content image, and a style image. The newly produced image is unseen and is generated from the algorithm itself. Balancing the structure and style components has been the major challenge that other state-of-the-art algorithms have tried to solve. Despite all the efforts, it's still a major challenge to apply the artistic style that was originally created on top of the structure of the content image while maintaining consistency. In this work, we solved these problems by using a Deep Learning approach using Convolutional Neural Networks. Our implementation will first extract foreground from the background using the pre-trained Detectron 2 model from the content image, and then apply the Arbitrary Style Transfer technique that is used in SANet. Once we have the two styled images, we will stitch the two chunks of images after the process of style transfer for the complete end piece.
翻訳日:2022-12-23 14:34:47 公開日:2022-12-21
# 小説における感情自動モデリング

Automatic Emotion Modelling in Written Stories ( http://arxiv.org/abs/2212.11382v1 )

ライセンス: Link先を確認
Lukas Christ, Shahin Amiriparian, Manuel Milling, Ilhan Aslan, Bj\"orn W. Schuller(参考訳) ストーリーを語ることは人間のコミュニケーションの不可欠な部分であり、感情を誘発し、聴衆の感情状態に影響を与える。 物語における感情的軌跡を自動的にモデル化することは、学術的な興味を惹きつけている。 しかし、既存の作業の多くは教師なし辞書ベースのアプローチに限られているため、このタスクのラベル付きベンチマークは存在しない。 我々は,子どもの物語に個別の感情カテゴリを付与した既存のデータセットに対して,連続的ヴァレンスと覚醒的アノテーションを導入することで,このギャップに対処した。 我々は、このデータに対する追加アノテーションを収集し、もともとの分類ラベルを値空間と覚醒空間にマッピングする。 本稿では,近年の自然言語処理の進歩を生かして,文章の執筆過程における有価度と覚醒信号を予測するトランスフォーマーベースの新しい手法を提案する。 我々は,事前学習したELECTRAモデルを微調整するためのいくつかの戦略を探求し,その感情を推定する際の文の文脈を考える利点について検討する。 さらに,LSTM層とTransformer層を追加して実験を行った。 最適構成は,評価値に対して .7338 ,テストセット上で .6302 の一致相関係数(CCC)を達成し,提案手法の適合性を実証する。 私たちのコードと追加のアノテーションはhttps://github.com/lc0197/emotion_modelling_storiesで利用可能です。

Telling stories is an integral part of human communication which can evoke emotions and influence the affective states of the audience. Automatically modelling emotional trajectories in stories has thus attracted considerable scholarly interest. However, as most existing works have been limited to unsupervised dictionary-based approaches, there is no labelled benchmark for this task. We address this gap by introducing continuous valence and arousal annotations for an existing dataset of children's stories annotated with discrete emotion categories. We collect additional annotations for this data and map the originally categorical labels to the valence and arousal space. Leveraging recent advances in Natural Language Processing, we propose a set of novel Transformer-based methods for predicting valence and arousal signals over the course of written stories. We explore several strategies for fine-tuning a pretrained ELECTRA model and study the benefits of considering a sentence's context when inferring its emotionality. Moreover, we experiment with additional LSTM and Transformer layers. The best configuration achieves a Concordance Correlation Coefficient (CCC) of .7338 for valence and .6302 for arousal on the test set, demonstrating the suitability of our proposed approach. Our code and additional annotations are made available at https://github.com/lc0197/emotion_modelling_stories.
翻訳日:2022-12-23 14:27:15 公開日:2022-12-21
# 行列文脈帯域に対するオンライン統計的推測

Online Statistical Inference for Matrix Contextual Bandit ( http://arxiv.org/abs/2212.11385v1 )

ライセンス: Link先を確認
Qiyu Han, Will Wei Sun, and Yichen Zhang(参考訳) コンテキストバンディットは、現在の文脈情報と過去のフィードバックデータに基づいて、シーケンシャルな意思決定に広く使われている。 現代のアプリケーションでは、そのようなコンテキストフォーマットはリッチであり、しばしば行列として定式化できる。 さらに、既存のバンディットアルゴリズムは主に報酬最大化に焦点を当てているが、統計的推測には注意が払われていない。 これらのギャップを埋めるため、本研究では、真のモデルパラメータが低ランク行列である行列文脈バンディットフレームワークを検討し、逐次意思決定と統計的推論を同時に行うための完全なオンライン手順を提案する。 モデルパラメータの低ランク構造とデータ収集プロセスの適応性は難しい — 標準的な低ランク推定器は完全なオンラインではなく、偏りがある一方で、既存のバンディットアルゴリズムの推論アプローチでは低ランク性を考慮できず、偏りもある。 そこで本研究では,2つのバイアス源を同時に処理するオンライン二重バイアス推論手法を提案する。 理論上,提案するオンライン二重偏差推定器の漸近正規性を確立し,構築された信頼区間の妥当性を証明する。 我々の推論結果は、新たに開発された低ランク確率勾配降下推定器とその非漸近収束結果に基づいて構築される。

Contextual bandit has been widely used for sequential decision-making based on the current contextual information and historical feedback data. In modern applications, such context format can be rich and can often be formulated as a matrix. Moreover, while existing bandit algorithms mainly focused on reward-maximization, less attention has been paid to the statistical inference. To fill in these gaps, in this work we consider a matrix contextual bandit framework where the true model parameter is a low-rank matrix, and propose a fully online procedure to simultaneously make sequential decision-making and conduct statistical inference. The low-rank structure of the model parameter and the adaptivity nature of the data collection process makes this difficult: standard low-rank estimators are not fully online and are biased, while existing inference approaches in bandit algorithms fail to account for the low-rankness and are also biased. To address these, we introduce a new online doubly-debiasing inference procedure to simultaneously handle both sources of bias. In theory, we establish the asymptotic normality of the proposed online doubly-debiased estimator and prove the validity of the constructed confidence interval. Our inference results are built upon a newly developed low-rank stochastic gradient descent estimator and its non-asymptotic convergence result, which is also of independent interest.
翻訳日:2022-12-23 14:18:47 公開日:2022-12-21
# MM811プロジェクト報告:衛星画像における雲の検出と除去

MM811 Project Report: Cloud Detection and Removal in Satellite Images ( http://arxiv.org/abs/2212.11369v1 )

ライセンス: Link先を確認
Dale Chen-Song, Erfan Khalaji, Vaishali Rani(参考訳) 衛星画像では、雲の存在が問題となり、地上情報の3分の2以上を雲が隠している。 この問題は、シームレスな監視を必要とするデータやその他のアプリケーションと通信するためのノイズのない環境での信頼性に関する多くの問題を引き起こす。 背景のピクセルをそのままにして画像から雲を取り除くことは、前述の問題に対処するのに役立ちます。 近年,クラウド除去の研究において,gan(generative adversarial network)が優れた性能を示す有望な結果を示すことにより,ディープラーニング手法が普及している。 本研究では,衛星画像からの雲除去に attentiongan を用いて対処し,従来のgan とオートエンコーダを用いて得られた結果を再現して比較する。 RICEデータセットを使用します。 このプロジェクトの結果は、クラウドフリーの衛星画像を必要とするアプリケーションの開発に利用できる。 さらに,本研究はさらなる研究改善に役立つ可能性がある。

For satellite images, the presence of clouds presents a problem as clouds obscure more than half to two-thirds of the ground information. This problem causes many issues for reliability in a noise-free environment to communicate data and other applications that need seamless monitoring. Removing the clouds from the images while keeping the background pixels intact can help address the mentioned issues. Recently, deep learning methods have become popular for researching cloud removal by demonstrating promising results, among which Generative Adversarial Networks (GAN) have shown considerably better performance. In this project, we aim to address cloud removal from satellite images using AttentionGAN and then compare our results by reproducing the results obtained using traditional GANs and auto-encoders. We use RICE dataset. The outcome of this project can be used to develop applications that require cloud-free satellite images. Moreover, our results could be helpful for making further research improvements.
翻訳日:2022-12-23 14:17:27 公開日:2022-12-21
# 多次元内視鏡画像における膀胱組織分類のための半教師付きGAN

Semi-supervised GAN for Bladder Tissue Classification in Multi-Domain Endoscopic Images ( http://arxiv.org/abs/2212.11375v1 )

ライセンス: Link先を確認
Jorge F. Lazo, Benoit Rosa, Michele Catellani, Matteo Fontana, Francesco A. Mistretta, Gennaro Musi, Ottavio de Cobelli, Michel de Mathelin and Elena De Momi(参考訳) 目的:膀胱腫瘍(TURBT)手術における膀胱組織の正確な視覚的分類は早期癌の診断と治療に不可欠である。 TURBTの介入中、病変検出にはホワイトライトイメージング(WLI)とナローバンドイメージング(NBI)技術が使用される。 それぞれの画像技術は多様な視覚情報を提供し、臨床医ががん病変を識別し分類することができる。 両方の画像技術を使用するコンピュータビジョン手法は、内視鏡的診断を改善することができる。 アノテーションが1つのドメイン(wliの場合)でのみ使用可能な場合に、組織分類の課題に対処し、内視鏡的画像は、nbiおよびwliドメインの両方のイメージに対して正確な等価性を持たない、非ペア付きデータセットに対応する。 方法: ラベル付きwliデータで学習した教師ネットワーク, 画像対画像変換を行うサイクルコンシステンシーgan, 多入力学習ネットワークの3つの主成分からなる, 半サプリズド生成逆ネットワーク(gan)ベースの手法を提案する。 提案するganが生成する合成画像の品質を確保するために,専門家の助けを借りて,詳細な定量的,質的分析を行う。 結論: 組織分類法で得られた平均分類精度, 精度およびリコールは, それぞれ 0.90, 0.88, 0.89 であり, 未標識領域 (nbi) で得られた測定値は 0.92, 0.64, 0.94 である。 生成された画像の品質は、専門家を欺くのに十分信頼できる。 意義:本研究は,多ドメインデータでアノテーションが制限されている場合,半教師付きGAN分類を用いて膀胱組織分類を改善する可能性を示す。

Objective: Accurate visual classification of bladder tissue during Trans-Urethral Resection of Bladder Tumor (TURBT) procedures is essential to improve early cancer diagnosis and treatment. During TURBT interventions, White Light Imaging (WLI) and Narrow Band Imaging (NBI) techniques are used for lesion detection. Each imaging technique provides diverse visual information that allows clinicians to identify and classify cancerous lesions. Computer vision methods that use both imaging techniques could improve endoscopic diagnosis. We address the challenge of tissue classification when annotations are available only in one domain, in our case WLI, and the endoscopic images correspond to an unpaired dataset, i.e. there is no exact equivalent for every image in both NBI and WLI domains. Method: We propose a semi-surprised Generative Adversarial Network (GAN)-based method composed of three main components: a teacher network trained on the labeled WLI data; a cycle-consistency GAN to perform unpaired image-to-image translation, and a multi-input student network. To ensure the quality of the synthetic images generated by the proposed GAN we perform a detailed quantitative, and qualitative analysis with the help of specialists. Conclusion: The overall average classification accuracy, precision, and recall obtained with the proposed method for tissue classification are 0.90, 0.88, and 0.89 respectively, while the same metrics obtained in the unlabeled domain (NBI) are 0.92, 0.64, and 0.94 respectively. The quality of the generated images is reliable enough to deceive specialists. Significance: This study shows the potential of using semi-supervised GAN-based classification to improve bladder tissue classification when annotations are limited in multi-domain data.
翻訳日:2022-12-23 14:17:10 公開日:2022-12-21
# ReVISE: 一般化音声強調のための視覚入力による自己改善音声合成

ReVISE: Self-Supervised Speech Resynthesis with Visual Input for Universal and Generalized Speech Enhancement ( http://arxiv.org/abs/2212.11377v1 )

ライセンス: Link先を確認
Wei-Ning Hsu, Tal Remez, Bowen Shi, Jacob Donley, Yossi Adi(参考訳) 視覚入力による音声品質向上に関する先行研究は、通常、それぞれの種類の聴覚歪み(例えば、分離、塗装、ビデオ音声合成)を別々に研究し、調整されたアルゴリズムを提示する。 本稿では,これらの課題を統一し,正確な参照クリーン信号の再構成ではなく,音声の特定の側面の改善に焦点をあてた一般化音声強調手法を提案する。 特に,視認性,品質,映像の同期性について述べる。 P-AVSR と擬似音声音声合成 (P-TTS) の2段階からなる音声-音声合成としてこの問題を提起した。 P-AVSRとP-TTSは、自己教師付き音声モデルから導出される離散単位によって接続される。 さらに,自己教師付き視聴覚モデルを用いてp-avsrを初期化する。 提案したモデルはReVISEと呼ばれる。 ReVISEは、Wildビデオ音声合成のための最初の高品質なモデルであり、単一のモデルで全てのLRS3音声視覚強調タスクにおいて優れたパフォーマンスを実現する。 実世界での適用性を示すために、ReVISEは、1.6時間のトレーニングデータしか持たない挑戦的な音響条件下で収集されたオーディオ視覚ベンチマークであるEasyComでも評価されている。 同様に、ReVISEはノイズを大幅に抑制し、品質を向上する。 プロジェクトページ: https://wnhsu.github.io/ReVISE

Prior works on improving speech quality with visual input typically study each type of auditory distortion separately (e.g., separation, inpainting, video-to-speech) and present tailored algorithms. This paper proposes to unify these subjects and study Generalized Speech Enhancement, where the goal is not to reconstruct the exact reference clean signal, but to focus on improving certain aspects of speech. In particular, this paper concerns intelligibility, quality, and video synchronization. We cast the problem as audio-visual speech resynthesis, which is composed of two steps: pseudo audio-visual speech recognition (P-AVSR) and pseudo text-to-speech synthesis (P-TTS). P-AVSR and P-TTS are connected by discrete units derived from a self-supervised speech model. Moreover, we utilize self-supervised audio-visual speech model to initialize P-AVSR. The proposed model is coined ReVISE. ReVISE is the first high-quality model for in-the-wild video-to-speech synthesis and achieves superior performance on all LRS3 audio-visual enhancement tasks with a single model. To demonstrates its applicability in the real world, ReVISE is also evaluated on EasyCom, an audio-visual benchmark collected under challenging acoustic conditions with only 1.6 hours of training data. Similarly, ReVISE greatly suppresses noise and improves quality. Project page: https://wnhsu.github.io/ReVISE.
翻訳日:2022-12-23 14:16:38 公開日:2022-12-21
# セマンティック・オーディオ・ビジュアル・ボディード・ナビゲーションのための知識駆動型シーン

Knowledge-driven Scene Priors for Semantic Audio-Visual Embodied Navigation ( http://arxiv.org/abs/2212.11345v1 )

ライセンス: Link先を確認
Gyan Tatiya, Jonathan Francis, Luca Bondi, Ingrid Navarro, Eric Nyberg, Jivko Sinapov, Jean Oh(参考訳) 未知のコンテキストへの一般化は、具体化されたナビゲーションエージェントにとって依然として課題である。 セマンティック・オーディオ・ビジュアル・ナビゲーション(SAVi)タスクの文脈では、一般化の概念は、見えない屋内の視覚シーンへの一般化と、聴覚のない音の物体への一般化の両方を含むべきである。 しかし、従来のSAViタスク定義では、真に新しい音質オブジェクトに対する評価条件は含まないため、既知のオブジェクトの未聴音クリップに対するエージェントの評価に代えて、オブジェクトや領域のセマンティクスに関するドメイン知識を組み込むための明示的なメカニズムは含まない。 これらの弱点は、モデルの学習経験を一般化する能力の開発と評価を制限する。 本稿では,視聴覚具体化ナビゲーションタスクにおける知識駆動シーンプリエントの利用について紹介する。我々は,オブジェクト-地域関係をエンコードする新しい知識グラフからの意味情報,デュアルグラフエンコーダネットワークからの空間知識,および一連の事前学習タスクからの背景知識を,それぞれ音声-視覚ナビゲーションのための強化学習フレームワークに統合する。 また,新しい音声ナビゲーションサブタスクを定義し,エージェントは未知の映像クリップとは対照的に,新たな音響オブジェクト上で評価される。 本研究では,SoundSpacesタスク下でのHabitat-Matterport3Dシミュレーション環境において,未確認領域や新しい音場オブジェクトへの一般化における強いベースラインの改善を示す。

Generalisation to unseen contexts remains a challenge for embodied navigation agents. In the context of semantic audio-visual navigation (SAVi) tasks, the notion of generalisation should include both generalising to unseen indoor visual scenes as well as generalising to unheard sounding objects. However, previous SAVi task definitions do not include evaluation conditions on truly novel sounding objects, resorting instead to evaluating agents on unheard sound clips of known objects; meanwhile, previous SAVi methods do not include explicit mechanisms for incorporating domain knowledge about object and region semantics. These weaknesses limit the development and assessment of models' abilities to generalise their learned experience. In this work, we introduce the use of knowledge-driven scene priors in the semantic audio-visual embodied navigation task: we combine semantic information from our novel knowledge graph that encodes object-region relations, spatial knowledge from dual Graph Encoder Networks, and background knowledge from a series of pre-training tasks -- all within a reinforcement learning framework for audio-visual navigation. We also define a new audio-visual navigation sub-task, where agents are evaluated on novel sounding objects, as opposed to unheard clips of known objects. We show improvements over strong baselines in generalisation to unseen regions and novel sounding objects, within the Habitat-Matterport3D simulation environment, under the SoundSpaces task.
翻訳日:2022-12-23 14:10:56 公開日:2022-12-21
# 最新のAIとディープラーニングの注釈付き歴史

Annotated History of Modern AI and Deep Learning ( http://arxiv.org/abs/2212.11279v1 )

ライセンス: Link先を確認
Juergen Schmidhuber(参考訳) 機械学習は信用割り当ての科学であり、行動の結果を予測し、将来のパフォーマンスを改善するのに役立つ観察のパターンを見つける。 信用の割り当ては、生活をナビゲートする個人だけでなく、過去の出来事に照らして現在を解釈する歴史家のような学術専門家にとっても、世界がどのように機能するかの人間の理解にも必要である。 ここでは、ニューラルネットワーク(NN)とディープラーニングが支配する現代の人工知能(AI)の歴史に焦点を当てます。 現代のAIの歴史は、伝統的なAIテキストブック、特にチェーンルール(1676年)、最初のNN(線形回帰、1800年頃)、そして最初に働く深層学習者(161965年-)など、今日のNNの数学的基盤以外のブレークスルーを強調している。 2022年の観点から、私はnns、ディープラーニング、ai、コンピュータサイエンス、数学全般の歴史において最も重要な重要な出来事のタイムラインを提供し、この分野の基礎を築いた人たちの功績を称えます。 このテキストには、私のAIブログの関連サイトへの多数のハイパーリンクが含まれている。 これは、私の以前のdeep learning survey (2015)を補完します。 そして最後に、宇宙が今よりも何倍も長くなるまで、ビッグバン以来の、より広い歴史的文脈で物事を展開します。

Machine learning is the science of credit assignment: finding patterns in observations that predict consequences of actions and help to improve future performance. Credit assignment is also required for human understanding of how the world works, not only for individuals navigating daily life, but also for academic professionals like historians who interpret the present in light of past events. Here I focus on the history of modern artificial intelligence (AI) which is dominated by artificial neural networks (NNs) and deep learning, both conceptually closer to the old field of cybernetics than to what's been called AI since 1956 (e.g., expert systems and logic programming). A modern history of AI will emphasize breakthroughs outside of the focus of traditional AI text books, in particular, mathematical foundations of today's NNs such as the chain rule (1676), the first NNs (linear regression, circa 1800), and the first working deep learners (1965-). From the perspective of 2022, I provide a timeline of the -- in hindsight -- most important relevant events in the history of NNs, deep learning, AI, computer science, and mathematics in general, crediting those who laid foundations of the field. The text contains numerous hyperlinks to relevant overview sites from my AI Blog. It supplements my previous deep learning survey (2015) which provides hundreds of additional references. Finally, to round it off, I'll put things in a broader historic context spanning the time since the Big Bang until when the universe will be many times older than it is now.
翻訳日:2022-12-23 14:10:29 公開日:2022-12-21
# 分子と結晶のハイパーパラメータ最適化、モデルトレーニング、解釈可能な推論のためのエンドツーエンドAIフレームワーク

End-to-end AI Framework for Hyperparameter Optimization, Model Training, and Interpretable Inference for Molecules and Crystals ( http://arxiv.org/abs/2212.11317v1 )

ライセンス: Link先を確認
Hyun Park, Ruijie Zhu, E. A. Huerta, Santanu Chaudhuri, Emad Tajkhorshid, Donny Cooper(参考訳) 我々は、CGCNN、PhysNet、SchNet、MPNN、MPNN-transformer、TorchMD-Netを含む最先端AIモデルを用いて、DeepHyperライブラリによるハイパーパラメータ最適化、トレーニングの高速化、AI推論を可能にするエンドツーエンドの計算フレームワークを導入する。 これらのAIモデルとベンチマークQM9、hMOF、MD17データセットを使用して、現代のコンピューティング環境におけるユーザ特定材料特性の予測を示し、統一されたスタンドアロンフレームワークによる小さな分子、結晶、金属有機フレームワークのモデリングのための翻訳的応用を示す。 我々は、このフレームワークをArgonne Leadership Computing FacilityのThetaGPUスーパーコンピュータとNational Center for Supercomputing ApplicationsのDeltaスーパーコンピュータにデプロイし、テストした。

We introduce an end-to-end computational framework that enables hyperparameter optimization with the DeepHyper library, accelerated training, and interpretable AI inference with a suite of state-of-the-art AI models, including CGCNN, PhysNet, SchNet, MPNN, MPNN-transformer, and TorchMD-Net. We use these AI models and the benchmark QM9, hMOF, and MD17 datasets to showcase the prediction of user-specified materials properties in modern computing environments, and to demonstrate translational applications for the modeling of small molecules, crystals and metal organic frameworks with a unified, stand-alone framework. We deployed and tested this framework in the ThetaGPU supercomputer at the Argonne Leadership Computing Facility, and the Delta supercomputer at the National Center for Supercomputing Applications to provide researchers with modern tools to conduct accelerated AI-driven discovery in leadership class computing environments.
翻訳日:2022-12-23 14:09:12 公開日:2022-12-21
# ドメイン適応による自動プログラム修復の改善

Improving Automated Program Repair with Domain Adaptation ( http://arxiv.org/abs/2212.11414v1 )

ライセンス: Link先を確認
Armin Zirak and Hadi Hemati(参考訳) 自動プログラム修復(APR)は、ソースコードのバグ/欠陥を修正するプロセスとして、自動化ツールによって定義される。 APRツールは最近、最先端のニューラルネットワーク処理(NLP)技術を活用することで、有望な結果を経験している。 TFixやCodeXGLUEといったAPRツールは、テキストからテキストへのトランスフォーマーとソフトウェア固有のテクニックを組み合わせることで、近年は代替手段よりも優れています。 しかしながら、ほとんどのAPR研究では、列車とテストセットは同じプロジェクトから選択される。 しかし実際には、APRモデルは、新しいプロジェクトや異なるプロジェクトに一般化できる。 そのため、新しいプロジェクトの特徴やバグがトレーニングセットと異なる場合(ドメインシフト)、高い有効性を持つAPRモデルを報告する潜在的な脅威がある。 本研究では,まず,プログラムの自動修復における領域シフト問題を定義し,測定する。 次に、対象とするプロジェクトに対してAPRモデルを適用可能なドメイン適応フレームワークを提案する。 そこで本研究では,19プロジェクトから611件のバグに対して,2つの最先端ドメイン適応ツール(tfixとcodexglue)と2つのaprモデルを用いて,3つのドメイン適応法,チューニングwithlightweightadapterlayers,カリキュラム学習を行った。 その結果,提案フレームワークはtfixの有効性を13.05%,codexglueを23.4%向上できることがわかった。 この研究のもう1つの貢献は、APRにおけるラベル付きデータの欠如に対処するデータ合成手法の提案である。 トランスフォーマーを利用してバグジェネレータモデルを作成します。 生成した合成データを用いて、TFix と CodeXGLUE をデータのないプロジェクトに適用し(ゼロショット学習)、その結果、TFix と CodeXGLUE がそれぞれ平均5.76%、24.42%向上した。

Automated Program Repair (APR) is defined as the process of fixing a bug/defect in the source code, by an automated tool. APR tools have recently experienced promising results by leveraging state-of-the-art Neural Language Processing (NLP) techniques. APR tools such as TFix and CodeXGLUE combine text-to-text transformers with software-specific techniques are outperforming alternatives, these days. However, in most APR studies the train and test sets are chosen from the same set of projects. In reality, however, APR models are meant to be generalizable to new and different projects. Therefore, there is a potential threat that reported APR models with high effectiveness perform poorly when the characteristics of the new project or its bugs are different than the training set's(Domain Shift). In this study, we first define and measure the domain shift problem in automated program repair. Then, we then propose a domain adaptation framework that can adapt an APR model for a given target project. We conduct an empirical study with three domain adaptation methods FullFineTuning, TuningWithLightWeightAdapterLayers, and CurriculumLearning using two state-of-the-art domain adaptation tools (TFix and CodeXGLUE) and two APR models on 611 bugs from 19 projects. The results show that our proposed framework can improve the effectiveness of TFix by 13.05% and CodeXGLUE by 23.4%. Another contribution of this study is the proposal of a data synthesis method to address the lack of labelled data in APR. We leverage transformers to create a bug generator model. We use the generated synthetic data to domain adapt TFix and CodeXGLUE on the projects with no data (Zero-shot learning), which results in an average improvement of 5.76% and 24.42% for TFix and CodeXGLUE, respectively.
翻訳日:2022-12-23 14:08:52 公開日:2022-12-21
# 自己教師型学習による深部展開型テンソルロバストPCA

Deep Unfolded Tensor Robust PCA with Self-supervised Learning ( http://arxiv.org/abs/2212.11346v1 )

ライセンス: Link先を確認
Harry Dong, Megna Shah, Sean Donegan, Yuejie Chi(参考訳) テンソルロバスト主成分分析(rpca)は、低位テンソルとそのばらばらな腐敗から分離することを目的としており、テンソル構造がより普及しているデータサイエンスと機械学習において極めて重要である。 既存のテンソルRPCAアルゴリズムは強力だが、そのパフォーマンスはチューニングが簡単ではない追加のハイパーパラメータの選択に敏感であるため、実際に使用するのは難しい。 本稿では,4つのハイパーパラメータのみを学習することで,深部展開を用いたテンソルRPCAの高速かつ簡易な自己教師モデルについて述べる。 その単純さにもかかわらず、我々のモデルは、監督された深い展開よりも競争力やパフォーマンスを保ちながら、基礎的な真理ラベルの必要性を排除している。 さらに,このモデルは極端なデータ不足のシナリオでも動作可能である。 我々はこれらの主張を合成データと実世界のタスクの混合で示し、教師ありの深い展開法とベイズ最適化のベースラインと比較した。

Tensor robust principal component analysis (RPCA), which seeks to separate a low-rank tensor from its sparse corruptions, has been crucial in data science and machine learning where tensor structures are becoming more prevalent. While powerful, existing tensor RPCA algorithms can be difficult to use in practice, as their performance can be sensitive to the choice of additional hyperparameters, which are not straightforward to tune. In this paper, we describe a fast and simple self-supervised model for tensor RPCA using deep unfolding by only learning four hyperparameters. Despite its simplicity, our model expunges the need for ground truth labels while maintaining competitive or even greater performance compared to supervised deep unfolding. Furthermore, our model is capable of operating in extreme data-starved scenarios. We demonstrate these claims on a mix of synthetic data and real-world tasks, comparing performance against previously studied supervised deep unfolding methods and Bayesian optimization baselines.
翻訳日:2022-12-23 14:00:15 公開日:2022-12-21
# dext: 検出器説明ツールキット

DExT: Detector Explanation Toolkit ( http://arxiv.org/abs/2212.11409v1 )

ライセンス: Link先を確認
Deepan Chakravarthi Padmanabhan and Matias Valdenegro-Toro(参考訳) 最先端の物体検出器は、非線形内部計算のためにブラックボックスとして扱われる。 検出器の性能が前例のない進歩にもかかわらず、その出力がどのように生成されるかを説明することができないことは、安全クリティカルなアプリケーションでの使用を制限する。 以前の研究は、境界ボックスと分類決定の両方の説明を作成できず、一般に様々な検出器に対して個別の説明を行う。 本稿では, ある勾配に基づく説明手法を用いて, 検出器決定の全体的説明を生成するための, 提案手法を実装したオープンソースのディテクタ説明ツールキット(DExT)を提案する。 画像中の複数の物体の説明をマージする多目的可視化手法と,それに対応する複数の物体を単一の画像にマージする手法を提案する。 定量的評価の結果, 単ショットマルチボックス検出器 (SSD) は, 説明方法にかかわらず, 他の検出器と比較して忠実に説明されている。 SmoothGrad with Guided Backpropagation (GBP)は、すべての検出器で選択された方法の中でより信頼できる説明を提供する。 dextは、境界ボックスと分類決定の両方を説明することによって、解釈可能性の観点から物体検出器を評価する動機づけになることを期待する。

State-of-the-art object detectors are treated as black boxes due to their highly non-linear internal computations. Even with unprecedented advancements in detector performance, the inability to explain how their outputs are generated limits their use in safety-critical applications. Previous work fails to produce explanations for both bounding box and classification decisions, and generally make individual explanations for various detectors. In this paper, we propose an open-source Detector Explanation Toolkit (DExT) which implements the proposed approach to generate a holistic explanation for all detector decisions using certain gradient-based explanation methods. We suggests various multi-object visualization methods to merge the explanations of multiple objects detected in an image as well as the corresponding detections in a single image. The quantitative evaluation show that the Single Shot MultiBox Detector (SSD) is more faithfully explained compared to other detectors regardless of the explanation methods. Both quantitative and human-centric evaluations identify that SmoothGrad with Guided Backpropagation (GBP) provides more trustworthy explanations among selected methods across all detectors. We expect that DExT will motivate practitioners to evaluate object detectors from the interpretability perspective by explaining both bounding box and classification decisions.
翻訳日:2022-12-23 13:58:47 公開日:2022-12-21
# コントラスト蒸留は、移動学習における自己超越的損失政策である

Contrastive Distillation Is a Sample-Efficient Self-Supervised Loss Policy for Transfer Learning ( http://arxiv.org/abs/2212.11353v1 )

ライセンス: Link先を確認
Chris Lengerich, Gabriel Synnaeve, Amy Zhang, Hugh Leather, Kurt Shuster, Fran\c{c}ois Charton, Charysse Redwood(参考訳) 従来のRLのアプローチでは、エピソジックな決定から決定ポリシーを直接学習する一方で、一般化に必要な構成表現のセマンティクスをゆっくりと暗黙的に学習する。 意思決定方針を同時に学習しながら、補助的な自己監督的損失を通じて表現を洗練させるアプローチが採用されているが、手動設計と文脈に依存しない自己監督的損失からの構成的表現(マルチビュー)の学習は、多くの非IIDサブスペースを含む実世界への適応が比較的遅い。 対照的に、教師付き言語モデルカスケードは様々な多様体に適応する柔軟性を示し、自律的なタスク転送に必要な自己学習のヒントを示している。 しかし,これまでは,マイトショット学習や微調整といった言語モデルの転送手法は,自己学習を用いた人間の監督や転送学習が必要とされてきた。 本稿では,重みからトークンまでのソースおよびターゲットタスクの相互情報が高い潜在変数を示す,コントラスト蒸留と呼ばれる自己監督型損失ポリシを提案する。 提案手法は,転送学習の一般的な手法に勝ることを示すとともに,オンライン転送の汎用性のために計算をトレードオフする有用な設計軸を提案する。 コントラスト蒸留はメモリからのサンプリングにより改善され、ランダムサンプリングよりもより効率的に負のサンプルをサンプリングする簡単なアルゴリズムが提案される。

Traditional approaches to RL have focused on learning decision policies directly from episodic decisions, while slowly and implicitly learning the semantics of compositional representations needed for generalization. While some approaches have been adopted to refine representations via auxiliary self-supervised losses while simultaneously learning decision policies, learning compositional representations from hand-designed and context-independent self-supervised losses (multi-view) still adapts relatively slowly to the real world, which contains many non-IID subspaces requiring rapid distribution shift in both time and spatial attention patterns at varying levels of abstraction. In contrast, supervised language model cascades have shown the flexibility to adapt to many diverse manifolds, and hints of self-learning needed for autonomous task transfer. However, to date, transfer methods for language models like few-shot learning and fine-tuning still require human supervision and transfer learning using self-learning methods has been underexplored. We propose a self-supervised loss policy called contrastive distillation which manifests latent variables with high mutual information with both source and target tasks from weights to tokens. We show how this outperforms common methods of transfer learning and suggests a useful design axis of trading off compute for generalizability for online transfer. Contrastive distillation is improved through sampling from memory and suggests a simple algorithm for more efficiently sampling negative examples for contrastive losses than random sampling.
翻訳日:2022-12-23 13:52:38 公開日:2022-12-21
# 逆機械学習アプリケーションのための突然変異に基づくテキスト生成

A Mutation-based Text Generation for Adversarial Machine Learning Applications ( http://arxiv.org/abs/2212.11808v1 )

ライセンス: Link先を確認
Jesus Guerrero, Gongbo Liang and Izzat Alsmadi(参考訳) 多くの自然言語関連アプリケーションは、人間または機械によって作成されたテキスト生成を含む。 多くのアプリケーションでは、マシンは人間をサポートするが、他のマシン(例えば、敵対的機械学習、ソーシャルボット、トロル)は人間を偽装しようとする。 そこで本研究では,変異に基づくテキスト生成手法の提案と評価を行った。 機械ベースの生成テキストとは異なり、突然変異ベースの生成テキストは入力として人間のテキストサンプルを必要とする。 突然変異演算子の例を示したが,本研究は,本アプリケーションの性質に基づく新たなテキストベースの突然変異演算子の提案など,多くの面で拡張可能である。

Many natural language related applications involve text generation, created by humans or machines. While in many of those applications machines support humans, yet in few others, (e.g. adversarial machine learning, social bots and trolls) machines try to impersonate humans. In this scope, we proposed and evaluated several mutation-based text generation approaches. Unlike machine-based generated text, mutation-based generated text needs human text samples as inputs. We showed examples of mutation operators but this work can be extended in many aspects such as proposing new text-based mutation operators based on the nature of the application.
翻訳日:2022-12-23 13:51:16 公開日:2022-12-21
# 低リソースタスクのためのKL正規化正規化フレームワーク

KL Regularized Normalization Framework for Low Resource Tasks ( http://arxiv.org/abs/2212.11275v1 )

ライセンス: Link先を確認
Neeraj Kumar, Ankur Narang and Brejesh Lall(参考訳) Bert、GPT、Wav2Vecのような大規模な事前学習モデルでは、さまざまな下流タスクに転送可能な学習表現が大きな可能性を示している。 資源や時間が限られているため、大量の教師付きデータを得ることは困難である。 これを踏まえて、微調整、線形探索、あるいは低リソース設定での迅速なチューニングを通じて、下流タスクに大規模な事前学習済みデータセットを採用する分野において、かなりの量の研究が行われている。 正規化技術は、深層ニューラルネットワークの一般化を加速し、改善するために不可欠であり、様々な応用に成功している。 多くの正規化技術が提案されているが、低リソース下流NLPおよび音声タスクにおける正規化の成功は限られている。 理由の1つは、正規化のパラメータを再スケーリングすることで表現性を捉えることができないことである。 そこで,kllbackleibler(kl)正規化正規化 (kl-norm) を提案する。これは正規化データをうまく動作させ,オーバーフィッティングを低減し,領域外分布をうまく一般化し,モデルパラメータやメモリオーバーヘッドが無視できるような,無関係なバイアスや特徴を取り除く。 複数の低リソースNLPおよび音声タスクに関する詳細な実験評価を行い、KL-Normの他の一般的な正規化および正規化技術と比較して優れた性能を示す。

Large pre-trained models, such as Bert, GPT, and Wav2Vec, have demonstrated great potential for learning representations that are transferable to a wide variety of downstream tasks . It is difficult to obtain a large quantity of supervised data due to the limited availability of resources and time. In light of this, a significant amount of research has been conducted in the area of adopting large pre-trained datasets for diverse downstream tasks via fine tuning, linear probing, or prompt tuning in low resource settings. Normalization techniques are essential for accelerating training and improving the generalization of deep neural networks and have been successfully used in a wide variety of applications. A lot of normalization techniques have been proposed but the success of normalization in low resource downstream NLP and speech tasks is limited. One of the reasons is the inability to capture expressiveness by rescaling parameters of normalization. We propose KullbackLeibler(KL) Regularized normalization (KL-Norm) which make the normalized data well behaved and helps in better generalization as it reduces over-fitting, generalises well on out of domain distributions and removes irrelevant biases and features with negligible increase in model parameters and memory overheads. Detailed experimental evaluation on multiple low resource NLP and speech tasks, demonstrates the superior performance of KL-Norm as compared to other popular normalization and regularization techniques.
翻訳日:2022-12-23 13:42:34 公開日:2022-12-21
# 言語モデルは次の予測で人間より優れている

Language models are better than humans at next-token prediction ( http://arxiv.org/abs/2212.11281v1 )

ライセンス: Link先を確認
Buck Shlegeris, Fabien Roger, Lawrence Chan, Euan McLean(参考訳) 現在の言語モデルは、質問応答やコードを書くといった自然言語タスクにおいて、サブヒューマン機能を持つと考えられている。 しかし、言語モデルはこれらのタスクでうまく機能するように訓練されておらず、トークン化されたテキストで以前のトークが与えられた次のトークンを正確に予測するように訓練されている。 次のトークン予測では、言語モデルが人間より優れているか悪いかは明らかではない。 この質問に答えるために、私たちは人間と言語モデルを直接比較するために、2つの異なる実験を行いました。 どちらの実験でも、次の予測では、人間はGPT3-Adaのような比較的小さな言語モデルよりも一貫して「emph{worse}」であることが分かる。

Current language models are considered to have sub-human capabilities at natural language tasks like question-answering or writing code. However, language models are not trained to perform well at these tasks, they are trained to accurately predict the next token given previous tokes in tokenized text. It is not clear whether language models are better or worse than humans at next token prediction. To try to answer this question, we performed two distinct experiments to directly compare humans and language models on this front: one measuring top-1 accuracy and the other measuring perplexity. In both experiments, we find humans to be consistently \emph{worse} than even relatively small language models like GPT3-Ada at next-token prediction.
翻訳日:2022-12-23 13:42:08 公開日:2022-12-21
# LLMは金融市場について何を知っているのか? Reddit Market Sentiment Analysis のケーススタディ

What do LLMs Know about Financial Markets? A Case Study on Reddit Market Sentiment Analysis ( http://arxiv.org/abs/2212.11311v1 )

ライセンス: Link先を確認
Xiang Deng, Vasilisa Bashlovkina, Feng Han, Simon Baumgartner, Michael Bendersky(参考訳) ソーシャルメディアコンテンツに対する市場の感情分析には、金融市場とソーシャルメディアのジャーゴンの両方の知識が必要である。 その結果、高品質なラベル付きデータの欠如は、従来の教師付き学習手法の仕方にある。 代わりに、大言語モデル(llm)を用いた半教師付き学習を用いてこの問題にアプローチする。 私たちのパイプラインは、llmを使ってreddit投稿の弱い金融感情ラベルを生成し、そのデータを使ってプロダクションで提供できる小さなモデルをトレーニングします。 この結果, LLM にチェイン・オブ・ソート(Chain-of-Thought)のサマリーを作成させ, いくつかの推理経路を強制することで, より安定かつ正確なラベルが生成され, 劣化損失を用いることで蒸留品質がさらに向上することが判明した。 少数のプロンプトだけで、最終モデルは既存の教師付きモデルと同等に実行される。 本モデルの実用性は倫理的考察によって制限されているが,本モデルの競争性能は,スキル集約的なアノテーションを必要とするタスクにLLMを使用することの大きな可能性を示している。

Market sentiment analysis on social media content requires knowledge of both financial markets and social media jargon, which makes it a challenging task for human raters. The resulting lack of high-quality labeled data stands in the way of conventional supervised learning methods. Instead, we approach this problem using semi-supervised learning with a large language model (LLM). Our pipeline generates weak financial sentiment labels for Reddit posts with an LLM and then uses that data to train a small model that can be served in production. We find that prompting the LLM to produce Chain-of-Thought summaries and forcing it through several reasoning paths helps generate more stable and accurate labels, while using a regression loss further improves distillation quality. With only a handful of prompts, the final model performs on par with existing supervised models. Though production applications of our model are limited by ethical considerations, the model's competitive performance points to the great potential of using LLMs for tasks that otherwise require skill-intensive annotation.
翻訳日:2022-12-23 13:41:54 公開日:2022-12-21
# システムサイズと線形にスケールするニューラル変分モンテカルロに向けて

Towards Neural Variational Monte Carlo That Scales Linearly with System Size ( http://arxiv.org/abs/2212.11296v1 )

ライセンス: Link先を確認
Or Sharir, Garnet Kin-Lic Chan and Anima Anandkumar(参考訳) 量子多体問題 (quantum many-body problem) は、科学における最も困難な問題の一つであり、例えば高温超伝導体のようなエキゾチックな量子現象を解明する中心である。 量子状態を表すニューラルネットワーク(NN)と変分モンテカルロ(VMC)アルゴリズムの組み合わせは、そのような問題を解決するための有望な方法であることが示されている。 しかし、このアプローチの実行時間はシミュレーション粒子の数と二乗的にスケールし、実際に使用可能なnnを、機械学習の用語ではマイナスサイズ(<10mパラメータ)に制限する。 +1Bパラメータの極端なNNによる多くのブレークスルーを考えると、この制約を解除することで、古典的コンピュータ上で正確にシミュレートできる量子システムの集合を、サイズと複雑さの両方で大幅に拡張することができる。 本稿では,ベクトル量子化技術を用いて,VMCアルゴリズムの局所エネルギー計算における冗長性を利用するNNアーキテクチャVector-Quantized Neural Quantum States (VQ-NQS)を提案する。 予備実験では,2次元ハイゼンベルクモデルの基底状態を様々なシステムサイズで再現するVQ-NQS能力を実証するとともに,局所エネルギー計算におけるFLOP数に対して約${\times}10$の大幅な削減を報告した。

Quantum many-body problems are some of the most challenging problems in science and are central to demystifying some exotic quantum phenomena, e.g., high-temperature superconductors. The combination of neural networks (NN) for representing quantum states, coupled with the Variational Monte Carlo (VMC) algorithm, has been shown to be a promising method for solving such problems. However, the run-time of this approach scales quadratically with the number of simulated particles, constraining the practically usable NN to - in machine learning terms - minuscule sizes (<10M parameters). Considering the many breakthroughs brought by extreme NN in the +1B parameters scale to other domains, lifting this constraint could significantly expand the set of quantum systems we can accurately simulate on classical computers, both in size and complexity. We propose a NN architecture called Vector-Quantized Neural Quantum States (VQ-NQS) that utilizes vector-quantization techniques to leverage redundancies in the local-energy calculations of the VMC algorithm - the source of the quadratic scaling. In our preliminary experiments, we demonstrate VQ-NQS ability to reproduce the ground state of the 2D Heisenberg model across various system sizes, while reporting a significant reduction of about ${\times}10$ in the number of FLOPs in the local-energy calculation.
翻訳日:2022-12-23 13:40:27 公開日:2022-12-21
# 動的コミュニケーショングラフを用いた個別分散マルチタスク学習

Personalized Decentralized Multi-Task Learning Over Dynamic Communication Graphs ( http://arxiv.org/abs/2212.11268v1 )

ライセンス: Link先を確認
Matin Mortaheb and Sennur Ulukus(参考訳) 分散学習とフェデレーション学習のアルゴリズムは、特にユーザが特定のタスクを学習したい場合、最大の課題のひとつとして、データの均一性に直面します。 パーソナライズされたヘッダーを共有ネットワーク(PF-MTL)に結合しても、分散アルゴリズムで全てのネットワークを集約すると、データの不均一性によりパフォーマンスが低下する。 提案手法では,タスク間の相関を自動的に計算し,コミュニケーショングラフを動的に調整して相互に有益なタスクを連結し,相互に負の影響を与えるタスクを分離する。 このアルゴリズムは学習性能を向上し、相関によらず全てのクライアントが相互に接続している場合と比較してより高速に収束する。 合成ガウスデータセットと大規模セレブ属性(CelebA)データセットについて実験を行った。 合成データを用いた実験は,提案手法が正負の相関関係を持つタスクを検出できることを示す。 さらに,CelebAを用いた実験の結果,提案手法は完全接続ネットワークよりもはるかに高速なトレーニング結果が得られることが示された。

Decentralized and federated learning algorithms face data heterogeneity as one of the biggest challenges, especially when users want to learn a specific task. Even when personalized headers are used concatenated to a shared network (PF-MTL), aggregating all the networks with a decentralized algorithm can result in performance degradation as a result of heterogeneity in the data. Our algorithm uses exchanged gradients to calculate the correlations among tasks automatically, and dynamically adjusts the communication graph to connect mutually beneficial tasks and isolate those that may negatively impact each other. This algorithm improves the learning performance and leads to faster convergence compared to the case where all clients are connected to each other regardless of their correlations. We conduct experiments on a synthetic Gaussian dataset and a large-scale celebrity attributes (CelebA) dataset. The experiment with the synthetic data illustrates that our proposed method is capable of detecting tasks that are positively and negatively correlated. Moreover, the results of the experiments with CelebA demonstrate that the proposed method may produce significantly faster training results than fully-connected networks.
翻訳日:2022-12-22 16:01:58 公開日:2022-12-21
# ディープラーニングによるsemantic communications to backdoor(trojan)攻撃の脆弱性

Vulnerabilities of Deep Learning-Driven Semantic Communications to Backdoor (Trojan) Attacks ( http://arxiv.org/abs/2212.11205v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu, Tugba Erpek, Sennur Ulukus, Aylin Yener(参考訳) 本稿では,バックドア攻撃に対するディープラーニングによるセマンティックコミュニケーションの脆弱性を明らかにする。 セマンティック通信は、送信機から受信機に情報を転送しながら、望ましい意味を伝えることを目的としている。 オートエンコーダの一部として2つのディープニューラルネットワーク(DNN)で表されるエンコーダとデコーダのペアを訓練し、限られたチャンネル使用数で小さなサイズの潜伏特性を伝達することにより、受信側の画像などの信号を再構成する。 一方、受信機における意味タスク分類器の別のdnnは、オートエンコーダと共同で訓練され、受信機に伝達される意味をチェックする。 DNNの複雑な決定空間により、意味的なコミュニケーションは敵の操作に影響を受けやすい。 バックドア(トロイの木馬)攻撃では、敵はトレーニングサンプルのごく一部にトリガーを追加し、ラベルをターゲットラベルに変更する。 画像の転送を考慮すると、トリガーを画像に追加するか、対応する送信または受信信号と等価にすることができる。 テスト時、敵は、意味コミュニケーションのエンコーダ(またはデコーダ)への入力として有毒なサンプルを提供することで、これらのトリガーを活性化する。 バックドア攻撃は、有毒な入力サンプルに転送された意味情報を標的の意味に効果的に変更することができる。 セマンティック通信の性能が信号対雑音比とチャネル使用数によって向上するにつれて、バックドア攻撃の成功も増加する。 また、トレーニングデータのトロイの木馬比の増加は攻撃をより成功させる。 その間、この攻撃が無毒な入力サンプルに与える影響は限定的のままである。 本稿では,バックドア攻撃がセマンティックコミュニケーションに深刻な脅威をもたらすことを示し,バックドア攻撃の有無で伝達情報の意味を保存するための新しい設計ガイドラインを提案する。

This paper highlights vulnerabilities of deep learning-driven semantic communications to backdoor (Trojan) attacks. Semantic communications aims to convey a desired meaning while transferring information from a transmitter to its receiver. An encoder-decoder pair that is represented by two deep neural networks (DNNs) as part of an autoencoder is trained to reconstruct signals such as images at the receiver by transmitting latent features of small size over a limited number of channel uses. In the meantime, another DNN of a semantic task classifier at the receiver is jointly trained with the autoencoder to check the meaning conveyed to the receiver. The complex decision space of the DNNs makes semantic communications susceptible to adversarial manipulations. In a backdoor (Trojan) attack, the adversary adds triggers to a small portion of training samples and changes the label to a target label. When the transfer of images is considered, the triggers can be added to the images or equivalently to the corresponding transmitted or received signals. In test time, the adversary activates these triggers by providing poisoned samples as input to the encoder (or decoder) of semantic communications. The backdoor attack can effectively change the semantic information transferred for the poisoned input samples to a target meaning. As the performance of semantic communications improves with the signal-to-noise ratio and the number of channel uses, the success of the backdoor attack increases as well. Also, increasing the Trojan ratio in training data makes the attack more successful. In the meantime, the effect of this attack on the unpoisoned input samples remains limited. Overall, this paper shows that the backdoor attack poses a serious threat to semantic communications and presents novel design guidelines to preserve the meaning of transferred information in the presence of backdoor attacks.
翻訳日:2022-12-22 16:01:28 公開日:2022-12-21
# 水圧破砕後のcbm坑井生成予測のための機械学習モデルの解釈可能性と因果的発見

Interpretability and causal discovery of the machine learning models to predict the production of CBM wells after hydraulic fracturing ( http://arxiv.org/abs/2212.10718v1 )

ライセンス: Link先を確認
Chao Min, Guoquan Wen, Liangjie Gou, Xiaogang Li, Zhaozhong Yang(参考訳) 機械学習のアプローチは油圧破砕後のCBM井戸の生産予測において広く研究されているが、実際には一般化能力の低下と解釈可能性の欠如のためにのみ用いられる。 本稿では,機械学習の結果を間接的に解釈する方法を見出すことを目的として,観測データから潜在因果性を発見するための新しい手法を提案する。 因果発見の理論に基づいて、因果グラフは明示的な入力、出力、処理、結合変数によって導出される。 次に、shapを用いて、機械学習モデルを間接的に解釈する生産能力に対する要因の影響を分析する。 提案手法は,因子の相関解析に基づいて,従来の機械学習ルーチンの制限を緩和する,要因と出力の非線型関係を捉えることができる。 CBMデータを用いた実験により, 生成物と地質・工学的要因との関係が実際の物理機構と一致していることが判明した。 一方、従来の手法と比較して、解釈可能な機械学習モデルは生産能力の予測性能が向上し、精度が平均20%向上する。

Machine learning approaches are widely studied in the production prediction of CBM wells after hydraulic fracturing, but merely used in practice due to the low generalization ability and the lack of interpretability. A novel methodology is proposed in this article to discover the latent causality from observed data, which is aimed at finding an indirect way to interpret the machine learning results. Based on the theory of causal discovery, a causal graph is derived with explicit input, output, treatment and confounding variables. Then, SHAP is employed to analyze the influence of the factors on the production capability, which indirectly interprets the machine learning models. The proposed method can capture the underlying nonlinear relationship between the factors and the output, which remedies the limitation of the traditional machine learning routines based on the correlation analysis of factors. The experiment on the data of CBM shows that the detected relationship between the production and the geological/engineering factors by the presented method, is coincident with the actual physical mechanism. Meanwhile, compared with traditional methods, the interpretable machine learning models have better performance in forecasting production capability, averaging 20% improvement in accuracy.
翻訳日:2022-12-22 15:59:29 公開日:2022-12-21
# PABAU:バイオメトリックAPI利用のプライバシ分析

PABAU: Privacy Analysis of Biometric API Usage ( http://arxiv.org/abs/2212.10861v1 )

ライセンス: Link先を確認
Feiyang Tang(参考訳) バイオメトリックデータのプライバシは、ビッグデータの時代、特にict分野において、多くの組織にとって大きな関心事になっている。 ほとんどのアプリは、共通のアプリケーションプログラミングインターフェース(API)にアクセスすることで生体認証を利用する。 行動に基づく分類は、ユーザのバイオメトリックデータの機密処理と密接に関連している可能性があるため、重要なバイオメトリックデータプライバシ評価の懸念が浮き彫りになる。 バイオメトリックapi利用のプライバシー分析であるpabauを提案する。 PABAUは、バイオメトリックAPIにおけるメソッドの意味的特徴を学び、それらを使用して、ソフトウェアにおけるバイオメトリックAPIの実装を、プライバシー関連の振る舞いに応じて検出し、分類する。 この技術は、アプリケーションにおける生体認証APIの本質的な振る舞いの迅速な理解と、データ保護影響評価(DPIA)の実施などの法的文書によるデータ保護担当者(DPO)への今後のサポートを提供することによって、組織内の技術と非技術個人間のコミュニケーションと背景知識ギャップを橋渡しする。

Biometric data privacy is becoming a major concern for many organizations in the age of big data, particularly in the ICT sector, because it may be easily exploited in apps. Most apps utilize biometrics by accessing common application programming interfaces (APIs); hence, we aim to categorize their usage. The categorization based on behavior may be closely correlated with the sensitive processing of a user's biometric data, hence highlighting crucial biometric data privacy assessment concerns. We propose PABAU, Privacy Analysis of Biometric API Usage. PABAU learns semantic features of methods in biometric APIs and uses them to detect and categorize the usage of biometric API implementation in the software according to their privacy-related behaviors. This technique bridges the communication and background knowledge gap between technical and non-technical individuals in organizations by providing an automated method for both parties to acquire a rapid understanding of the essential behaviors of biometric API in apps, as well as future support to data protection officers (DPO) with legal documentation, such as conducting a Data Protection Impact Assessment (DPIA).
翻訳日:2022-12-22 15:59:10 公開日:2022-12-21
# ニューラルネットワークのワーストケース違反の最小化

Minimizing Worst-Case Violations of Neural Networks ( http://arxiv.org/abs/2212.10930v1 )

ライセンス: Link先を確認
Rahul Nellikkath, Spyros Chatzivasileiadis(参考訳) 機械学習(ML)アルゴリズムは複雑な非線形関係の近似に非常に適している。 しかし、ほとんどのMLトレーニングプロセスは、平均的なパフォーマンスでMLツールを提供するように設計されているが、最悪の推定エラーに関する保証は提供していない。 電力システムのような安全に重要なシステムにとって、これは採用の大きな障壁となる。 これまでのところ、訓練されたMLアルゴリズムの最悪のケース違反は、アプローチによって決定される可能性がある。 我々の知る限りでは、良い平均性能と最低最悪のケース違反の両方を達成するために設計されたニューラルネットワークトレーニング手順を導入する最初の論文である。 最適潮流問題(OPF)を指針として,我々のアプローチ (i) トレーニング中に最悪のケース生成制約違反を低減し、差別化可能な最適化層として組み込むフレームワークを導入する。 (ii)ニューラルネットワークの逐次学習アーキテクチャにより,その高速化を図る。 本稿では, 39バスから162バスまで, AC-OPF と DC-OPF の2種類の試験システムを対象としたアーキテクチャを提案する。

Machine learning (ML) algorithms are remarkably good at approximating complex non-linear relationships. Most ML training processes, however, are designed to deliver ML tools with good average performance, but do not offer any guarantees about their worst-case estimation error. For safety-critical systems such as power systems, this places a major barrier for their adoption. So far, approaches could determine the worst-case violations of only trained ML algorithms. To the best of our knowledge, this is the first paper to introduce a neural network training procedure designed to achieve both a good average performance and minimum worst-case violations. Using the Optimal Power Flow (OPF) problem as a guiding application, our approach (i) introduces a framework that reduces the worst-case generation constraint violations during training, incorporating them as a differentiable optimization layer; and (ii) presents a neural network sequential learning architecture to significantly accelerate it. We demonstrate the proposed architecture on four different test systems ranging from 39 buses to 162 buses, for both AC-OPF and DC-OPF applications.
翻訳日:2022-12-22 15:58:49 公開日:2022-12-21
# 関係性--オンライン・ソーシャルネットワークにおける類似性尺度の観点から

The Ties that matter: From the perspective of Similarity Measure in Online Social Networks ( http://arxiv.org/abs/2212.10960v1 )

ライセンス: Link先を確認
Soumita Das, Anupam Biswas(参考訳) オンラインソーシャルネットワークは、拡散行動の分析、コミュニティの検出、リンク予測、レコメンダシステムなど、幅広いアプリケーションを持つ接続強度測定の重要性に着手している。 既存の接続強度尺度はいくつか存在するが、接続が隣人と共有している密度や方向性はそれほど注目されていない。 本稿では,コネクションの強度を導出するための基礎的支援を提供する非対称エッジ類似性尺度,近傍密度ベースエッジ類似性(ndes)を提案する。 NDESの時間複雑性は$O(nk^2)$である。 ソーシャルネットワークにおけるNDESのコミュニティ検出への応用を示す。 我々は,類似度に基づくコミュニティ検出手法を検討し,類似度尺度をndesに置き換えた。 NDESの性能を,コミュニティ検出の有効性の観点から評価し,広く利用されている3つの類似度指標と比較した。 実験の結果,NDESは精度と品質の両面で,比較的優れたコミュニティを検出できることがわかった。

Online Social Networks have embarked on the importance of connection strength measures which has a broad array of applications such as, analyzing diffusion behaviors, community detection, link predictions, recommender systems. Though there are some existing connection strength measures, the density that a connection shares with it's neighbors and the directionality aspect has not received much attention. In this paper, we have proposed an asymmetric edge similarity measure namely, Neighborhood Density-based Edge Similarity (NDES) which provides a fundamental support to derive the strength of connection. The time complexity of NDES is $O(nk^2)$. An application of NDES for community detection in social network is shown. We have considered a similarity based community detection technique and substituted its similarity measure with NDES. The performance of NDES is evaluated on several small real-world datasets in terms of the effectiveness in detecting communities and compared with three widely used similarity measures. Empirical results show NDES enables detecting comparatively better communities both in terms of accuracy and quality.
翻訳日:2022-12-22 15:58:34 公開日:2022-12-21
# SoK: プライバシ・ゲームはやめよう! 機械学習におけるデータ推論プライバシの統一処理

SoK: Let The Privacy Games Begin! A Unified Treatment of Data Inference Privacy in Machine Learning ( http://arxiv.org/abs/2212.10986v1 )

ライセンス: Link先を確認
Ahmed Salem, Giovanni Cherubin, David Evans, Boris K\"opf, Andrew Paverd, Anshuman Suri, Shruti Tople, Santiago Zanella-B\'eguelin(参考訳) 機械学習モデルを本番環境にデプロイすることで、敵はトレーニングデータに関する機密情報を推測することができる。 会員推定から復興攻撃まで、さまざまなタイプの推論リスクを分析した膨大な文献がある。 暗号のセキュリティ特性を研究するゲーム(確率論的実験)の成功にインスパイアされた著者の中には、同様のゲームベースのスタイルを用いて機械学習におけるプライバシ推論リスクを記述する者もいる。 しかしながら、敵対的な能力や目標はしばしば、あるプレゼンテーションから別のプレゼンテーションへと微妙に異なる方法で述べられているため、結果の関連や構成が困難になる。 本稿では,機械学習におけるプライバシ推論リスクに関する知識を体系化するゲームベースのフレームワークを提案する。

Deploying machine learning models in production may allow adversaries to infer sensitive information about training data. There is a vast literature analyzing different types of inference risks, ranging from membership inference to reconstruction attacks. Inspired by the success of games (i.e., probabilistic experiments) to study security properties in cryptography, some authors describe privacy inference risks in machine learning using a similar game-based style. However, adversary capabilities and goals are often stated in subtly different ways from one presentation to the other, which makes it hard to relate and compose results. In this paper, we present a game-based framework to systematize the body of knowledge on privacy inference risks in machine learning.
翻訳日:2022-12-22 15:58:19 公開日:2022-12-21
# グラフニューラルネットワークを用いた持続可能電力網の動的安定性解析に向けて

Towards dynamic stability analysis of sustainable power grids using graph neural networks ( http://arxiv.org/abs/2212.11130v1 )

ライセンス: Link先を確認
Christian Nauck, Michael Lindner, Konstantin Sch\"urholt, Frank Hellmann(参考訳) 気候変動を緩和するには、再生可能エネルギーのシェアを増やす必要がある。 再生可能エネルギーは、分散化、慣性低下、生産におけるボラティリティによる電力グリッドに新たな課題をもたらす。 再生可能エネルギーの高い持続可能電力網の運用には、動的安定性を分析する新しい方法が必要である。 合成電力グリッドの動的安定性のデータセットを新たに提供し、トポロジ情報のみから高非線形ターゲットを予測するのにグラフニューラルネットワーク(GNN)が驚くほど有効であることを示す。 実規模の電力グリッドにスケールする可能性を示すため、テキサス電力グリッドモデルによる予測の成功例を示す。

To mitigate climate change, the share of renewable needs to be increased. Renewable energies introduce new challenges to power grids due to decentralization, reduced inertia and volatility in production. The operation of sustainable power grids with a high penetration of renewable energies requires new methods to analyze the dynamic stability. We provide new datasets of dynamic stability of synthetic power grids and find that graph neural networks (GNNs) are surprisingly effective at predicting the highly non-linear target from topological information only. To illustrate the potential to scale to real-sized power grids, we demonstrate the successful prediction on a Texan power grid model.
翻訳日:2022-12-22 15:58:06 公開日:2022-12-21
# Transformer-GAN を用いた感情による音楽生成

Generating music with sentiment using Transformer-GANs ( http://arxiv.org/abs/2212.11134v1 )

ライセンス: Link先を確認
Pedro Neves, Jose Fornari, Jo\~ao Florindo(参考訳) 自動音楽生成の分野は、ディープラーニングの出現によって大きな進歩を遂げている。 しかし、これらの結果の多くは、ユーザと対話する能力がなく、意味のある実用的な方法で生成プロセスを導くことができない無条件モデルによって生み出されている。 さらに、より長い時間スケールでコヒーレントな音楽の合成は、「現実的」あるいは「人間的」に聞こえる局地的な側面を捉え続けることは依然として困難である。 これは、長いデータ列を扱うのに必要な膨大な計算量と、しばしば使用されるトレーニングスキームによって課される制限のためである。 本稿では,人間の感情から得られたデータから条件づけられたシンボリック音楽の生成モデルを提案する。 このモデルは、人間の感情状態を定量的に表現する原子価と刺激次元の異なる構成に対応するラベルで訓練されたトランスフォーマーGANである。 本研究では,効率の良い線形バージョンの注意と識別器を併用することで,これらの課題に対処し,生成した音楽の全体的な品質向上と条件付き信号の追従能力の向上を図る。

The field of Automatic Music Generation has seen significant progress thanks to the advent of Deep Learning. However, most of these results have been produced by unconditional models, which lack the ability to interact with their users, not allowing them to guide the generative process in meaningful and practical ways. Moreover, synthesizing music that remains coherent across longer timescales while still capturing the local aspects that make it sound ``realistic'' or ``human-like'' is still challenging. This is due to the large computational requirements needed to work with long sequences of data, and also to limitations imposed by the training schemes that are often employed. In this paper, we propose a generative model of symbolic music conditioned by data retrieved from human sentiment. The model is a Transformer-GAN trained with labels that correspond to different configurations of the valence and arousal dimensions that quantitatively represent human affective states. We try to tackle both of the problems above by employing an efficient linear version of Attention and using a Discriminator both as a tool to improve the overall quality of the generated music and its ability to follow the conditioning signals.
翻訳日:2022-12-22 15:57:57 公開日:2022-12-21
# 深層強化学習を用いたソフトウェア定義wanのロバスト経路選択

Robust Path Selection in Software-defined WANs using Deep Reinforcement Learning ( http://arxiv.org/abs/2212.11155v1 )

ライセンス: Link先を確認
Shahrooz Pouryousef, Lixin Gao and Don Towsley(参考訳) ネットワークが新しいトラフィックマトリックスを継続的に測定し、ネットワーク内のパスの集合を更新する効率的なネットワークトラフィックエンジニアリングプロセスの文脈では、いつ、どのパスを使用するべきかを迅速かつ効率的に特定する自動化プロセスが必要である。 残念なことに、線形プログラミングを用いた最適化手法の計算複雑性は、ネットワークのサイズが大きくなるにつれて著しく増加するため、各時間間隔でネットワーク更新プロセスの最適解を求める負担が高い。 本稿では,経路計算と経路更新のオーバーヘッドを考慮したネットワーク内の経路選択を行うデータ駆動アルゴリズムを,深層強化学習を用いて導出する。 提案手法では,過去のネットワーク動作に関する情報を活用して,複数時間間隔で使用する頑健な経路の集合を同定し,ルータのフォワード動作を頻繁に更新するオーバーヘッドを回避する。 実ネットワークトポロジにまたがる広範なシミュレーションにより,提案手法を他の交通工学ソリューションと比較した。 提案手法は,ECMPなどの従来のTE方式に比べてリンク利用率を40%削減できることを示した。 提案方式は,リンク利用を最小化し,経路更新のオーバーヘッドを考慮しない方式に比べ,リンク利用率(約25%)をやや高めている。

In the context of an efficient network traffic engineering process where the network continuously measures a new traffic matrix and updates the set of paths in the network, an automated process is required to quickly and efficiently identify when and what set of paths should be used. Unfortunately, the burden of finding the optimal solution for the network updating process in each given time interval is high since the computation complexity of optimization approaches using linear programming increases significantly as the size of the network increases. In this paper, we use deep reinforcement learning to derive a data-driven algorithm that does the path selection in the network considering the overhead of route computation and path updates. Our proposed scheme leverages information about past network behavior to identify a set of robust paths to be used for multiple future time intervals to avoid the overhead of updating the forwarding behavior of routers frequently. We compare the results of our approach to other traffic engineering solutions through extensive simulations across real network topologies. Our results demonstrate that our scheme fares well by a factor of 40% with respect to reducing link utilization compared to traditional TE schemes such as ECMP. Our scheme provides a slightly higher link utilization (around 25%) compared to schemes that only minimize link utilization and do not care about path updating overhead.
翻訳日:2022-12-22 15:57:36 公開日:2022-12-21
# 資源制約型uav群における軌道経路計画と分散推論のための深層強化学習

Deep Reinforcement Learning for Trajectory Path Planning and Distributed Inference in Resource-Constrained UAV Swarms ( http://arxiv.org/abs/2212.11201v1 )

ライセンス: Link先を確認
Marwan Dhuheir, Emna Baccour, Aiman Erbad, Sinan Sabeeh Al-Obaidi, Mounir Hamdi(参考訳) 無人航空機(UAV)の展開の柔軟性と操縦性は、山火事追跡や国境監視など、様々な用途で採用を拡大した。 多くの重要なアプリケーションでは、uavは画像やその他の感覚データをキャプチャし、そのデータをリモートサーバに送信して推論とデータ処理のタスクを行う。 しかし、このアプローチは、接続不安定性、帯域幅の制限、エンドツーエンドのレイテンシのため、リアルタイムアプリケーションでは必ずしも実用的ではない。 1つの有望な解決策は、推論要求を複数の部分(レイヤまたはセグメント)に分割することであり、各部分は利用可能なリソースに基づいて異なるUAVで実行される。 さらに、いくつかのアプリケーションは、UAVが特定の領域を横断してインシデントを捕捉することを要求しているため、共同推論プロセスのレイテンシを低減するために、特にその経路を計画することが重要になる。 特に、uavs軌道の計画では、伝送干渉を緩和しながら同じ近接にあるデバイスと通信することで、データ伝送遅延を低減できる。 本研究の目的は、計算負荷と推論要求のメモリ使用量によるリソース制約を尊重しつつ、uav swarmにおける分散協調推論要求とパス計画のためのモデルを設計することである。 このモデルは最適化問題として定式化されており、レイテンシを最小化することを目指している。 定式化問題はNPハードであるため、最適解を見つけることは極めて複雑であり、本研究では、深層強化学習を用いたオンラインアプリケーションに対するリアルタイムかつ動的解法を提案する。 広範なシミュレーションを行い,本モデルが競合モデルを上回ることを実証する最先端の研究と比較した。

The deployment flexibility and maneuverability of Unmanned Aerial Vehicles (UAVs) increased their adoption in various applications, such as wildfire tracking, border monitoring, etc. In many critical applications, UAVs capture images and other sensory data and then send the captured data to remote servers for inference and data processing tasks. However, this approach is not always practical in real-time applications due to the connection instability, limited bandwidth, and end-to-end latency. One promising solution is to divide the inference requests into multiple parts (layers or segments), with each part being executed in a different UAV based on the available resources. Furthermore, some applications require the UAVs to traverse certain areas and capture incidents; thus, planning their paths becomes critical particularly, to reduce the latency of making the collaborative inference process. Specifically, planning the UAVs trajectory can reduce the data transmission latency by communicating with devices in the same proximity while mitigating the transmission interference. This work aims to design a model for distributed collaborative inference requests and path planning in a UAV swarm while respecting the resource constraints due to the computational load and memory usage of the inference requests. The model is formulated as an optimization problem and aims to minimize latency. The formulated problem is NP-hard so finding the optimal solution is quite complex; thus, this paper introduces a real-time and dynamic solution for online applications using deep reinforcement learning. We conduct extensive simulations and compare our results to the-state-of-the-art studies demonstrating that our model outperforms the competing models.
翻訳日:2022-12-22 15:57:14 公開日:2022-12-21
# グラフニューラルネットワークにおけるオーバースムーシングの非漸近的解析

A Non-Asymptotic Analysis of Oversmoothing in Graph Neural Networks ( http://arxiv.org/abs/2212.10701v1 )

ライセンス: Link先を確認
Xinyi Wu, Zhengdao Chen, William Wang, Ali Jadbabaie(参考訳) より強力なグラフニューラルネットワーク(GNN)を構築する上での中心的な課題は、ネットワーク深度の増加が均質なノード表現につながり、分類性能が悪化するオーバースムーシング現象である。 従来の研究では,グラフ畳み込みの数が無限大になる傾向にある場合にのみ,過度なスムース化が必然的であることが示されているが,本論文では,非漸近解析により,現象の背後にあるメカニズムを正確に特徴づける。 具体的には、異なるクラスでノード表現を均質化する望ましくない混合効果と、同じクラスでノード表現を均質化する望ましい分母効果であるグラフ畳み込みを適用する際の2つの異なる効果を区別する。 CSBM(Contextual Stochastic Block Model)からサンプリングされたランダムグラフに対するこれらの2つの効果を定量化することにより、混合効果がデノナイジング効果を支配下に置くと過スムース化が起こり、この遷移に必要な層数は$O(\log N/\log (\log N))$である。 パーソナライズされたPPR(Personalized PageRank)が過度なスムージングに与える影響について検討する。 以上の結果から,PPRは深い層での過度なスムーシングを緩和するが,PPRアーキテクチャは依然として浅い深さで最高の性能を達成し,グラフの畳み込み手法により性能が向上することが示唆された。 最後に, 数値実験による理論的結果を支持し, さらに, 深部GNNモデルの最適化が困難であることから, 実際に観測された過密現象が悪化することが示唆された。

A central challenge of building more powerful Graph Neural Networks (GNNs) is the oversmoothing phenomenon, where increasing the network depth leads to homogeneous node representations and thus worse classification performance. While previous works have only demonstrated that oversmoothing is inevitable when the number of graph convolutions tends to infinity, in this paper, we precisely characterize the mechanism behind the phenomenon via a non-asymptotic analysis. Specifically, we distinguish between two different effects when applying graph convolutions -- an undesirable mixing effect that homogenizes node representations in different classes, and a desirable denoising effect that homogenizes node representations in the same class. By quantifying these two effects on random graphs sampled from the Contextual Stochastic Block Model (CSBM), we show that oversmoothing happens once the mixing effect starts to dominate the denoising effect, and the number of layers required for this transition is $O(\log N/\log (\log N))$ for sufficiently dense graphs with $N$ nodes. We also extend our analysis to study the effects of Personalized PageRank (PPR) on oversmoothing. Our results suggest that while PPR mitigates oversmoothing at deeper layers, PPR-based architectures still achieve their best performance at a shallow depth and are outperformed by the graph convolution approach on certain graphs. Finally, we support our theoretical results with numerical experiments, which further suggest that the oversmoothing phenomenon observed in practice may be exacerbated by the difficulty of optimizing deep GNN models.
翻訳日:2022-12-22 15:50:50 公開日:2022-12-21
# 収束強化学習に基づく多自由度連続量子系の制御

Control of Continuous Quantum Systems with Many Degrees of Freedom based on Convergent Reinforcement Learning ( http://arxiv.org/abs/2212.10705v1 )

ライセンス: Link先を確認
Zhikang Wang(参考訳) 実験量子技術の発展に伴い、制御可能な人工量子システムの実現により、量子制御が注目を集めている。 しかし、量子力学系は解析的に扱うのが難しいことが多いため、適切な制御プロトコルを探索するヒューリスティック戦略と数値アルゴリズムが採用され、深層学習、特に深層強化学習(RL)は制御問題に対する有望な一般的な候補解である。 量子制御問題に対するディープRLの応用はいくつかあるが、既存のRLアルゴリズムのほとんどは不安定性と不満足な再現性に悩まされており、大量の微調整と膨大な計算予算を必要とする。 不安定性の問題を解決するため,本論文では,q-learningの非収束問題について検討する。 そこで我々は,従来の深度Qネットワーク(DQN)アルゴリズムの代替として,収束深度Qネットワーク(C-DQN)アルゴリズムと呼ばれる新しい収束深度Q学習アルゴリズムを開発した。 C-DQNの収束性を証明し、Atari 2600ベンチマークに適用する。 DQNが失敗すると、C-DQNは依然としてうまく学習する。 そこで,このアルゴリズムを量子クォート振動子と捕捉量子剛体の測定フィードバック冷却問題に適用する。 C-DQN と D-DQN はともにシステムの冷却を学べるが、C-DQN はより安定して振る舞う傾向にあり、D-DQN が不安定な場合、C-DQN はより良い性能が得られることを示す。 DQNの性能はばらつきが大きく、一貫性が欠如しているため、複雑な制御問題の研究にはC-DQNの方がよい選択である。

With the development of experimental quantum technology, quantum control has attracted increasing attention due to the realization of controllable artificial quantum systems. However, because quantum-mechanical systems are often too difficult to analytically deal with, heuristic strategies and numerical algorithms which search for proper control protocols are adopted, and, deep learning, especially deep reinforcement learning (RL), is a promising generic candidate solution for the control problems. Although there have been a few successful applications of deep RL to quantum control problems, most of the existing RL algorithms suffer from instabilities and unsatisfactory reproducibility, and require a large amount of fine-tuning and a large computational budget, both of which limit their applicability. To resolve the issue of instabilities, in this dissertation, we investigate the non-convergence issue of Q-learning. Then, we investigate the weakness of existing convergent approaches that have been proposed, and we develop a new convergent Q-learning algorithm, which we call the convergent deep Q network (C-DQN) algorithm, as an alternative to the conventional deep Q network (DQN) algorithm. We prove the convergence of C-DQN and apply it to the Atari 2600 benchmark. We show that when DQN fail, C-DQN still learns successfully. Then, we apply the algorithm to the measurement-feedback cooling problems of a quantum quartic oscillator and a trapped quantum rigid body. We establish the physical models and analyse their properties, and we show that although both C-DQN and DQN can learn to cool the systems, C-DQN tends to behave more stably, and when DQN suffers from instabilities, C-DQN can achieve a better performance. As the performance of DQN can have a large variance and lack consistency, C-DQN can be a better choice for researches on complicated control problems.
翻訳日:2022-12-22 15:50:15 公開日:2022-12-21
# GraphIX:In silico XAI(説明可能な人工知能)によるバイオ医薬品ネットワークからの薬物再配置

GraphIX: Graph-based In silico XAI(explainable artificial intelligence) for drug repositioning from biopharmaceutical network ( http://arxiv.org/abs/2212.10788v1 )

ライセンス: Link先を確認
Atsuko Takagi, Mayumi Kamada, Eri Hamatani, Ryosuke Kojima, Yasushi Okuno(参考訳) 薬物再配置は、新薬開発にかかる時間とコストを削減できるため、非常に有望である。 薬物再配置は様々な研究開発プロセスを省略することができるが、生体分子に対する薬理学的効果を確認することは、新しい疾患への応用に不可欠である。 薬物再配置モデルにおける生体医学的説明性は、その後の詳細な研究において適切な洞察を補助することができる。 しかし, XAI法の有効性はまだ議論の的であり, 薬物再配置予測におけるXAIの有効性はいまだ不明である。 本研究では,生物学的ネットワークを用いた説明可能な薬物再配置フレームワークであるGraphIXを提案し,その説明可能性について定量的に評価する。 GraphIXはまず、既知の薬物の表示と知識グラフから、病気、薬物、タンパク質の3種類のノードで構成されるグラフニューラルネットワークを使用して、ネットワークの重みとノードの特徴を学習する。 学習後の特徴の分析により,事前にモデルに知られていないノードタイプが,グラフ構造に基づく学習プロセスによって区別されることが分かった。 学習した重量と特徴から、GraphIXは疾患と薬物の関連を予測し、予測された疾患と薬物の近傍に位置するノードの寄与値を計算する。 本研究は, モデルが寄与した隣接するタンパク質ノードが, 実際の薬理学的効果を理解する上で重要であると仮定した。 実世界データベースを用いたタンパク質ノードの寄与率の定量的評価により,graphixで示される高い寄与タンパク質は薬物作用のメカニズムとして妥当であることが示された。 graphixはエビデンスに基づく薬物発見のためのフレームワークで、ユーザーに新しい疾患と薬物の関連を提示し、大規模で複雑な知識ベースから薬理学的効果を理解するのに重要なタンパク質を同定する。

Drug repositioning holds great promise because it can reduce the time and cost of new drug development. While drug repositioning can omit various R&D processes, confirming pharmacological effects on biomolecules is essential for application to new diseases. Biomedical explainability in a drug repositioning model can support appropriate insights in subsequent in-depth studies. However, the validity of the XAI methodology is still under debate, and the effectiveness of XAI in drug repositioning prediction applications remains unclear. In this study, we propose GraphIX, an explainable drug repositioning framework using biological networks, and quantitatively evaluate its explainability. GraphIX first learns the network weights and node features using a graph neural network from known drug indication and knowledge graph that consists of three types of nodes (but not given node type information): disease, drug, and protein. Analysis of the post-learning features showed that node types that were not known to the model beforehand are distinguished through the learning process based on the graph structure. From the learned weights and features, GraphIX then predicts the disease-drug association and calculates the contribution values of the nodes located in the neighborhood of the predicted disease and drug. We hypothesized that the neighboring protein node to which the model gave a high contribution is important in understanding the actual pharmacological effects. Quantitative evaluation of the validity of protein nodes' contribution using a real-world database showed that the high contribution proteins shown by GraphIX are reasonable as a mechanism of drug action. GraphIX is a framework for evidence-based drug discovery that can present to users new disease-drug associations and identify the protein important for understanding its pharmacological effects from a large and complex knowledge base.
翻訳日:2022-12-22 15:49:41 公開日:2022-12-21
# 5g 長期・大規模移動交通予測

5G Long-Term and Large-Scale Mobile Traffic Forecasting ( http://arxiv.org/abs/2212.10869v1 )

ライセンス: Link先を確認
Ufuk Uyan, M. Tugberk Isyapar, Mahiye Uluyagmur Ozturk(参考訳) 基地局配置,ロードバランシング,ネットワーク計画のメカニズムを制御・管理するためには,大規模携帯電話ネットワークにおけるモバイルトラフィックの理解と予測が不可欠である。 本稿の目的は,都心部に設置した14,000以上の細胞から,交通パターンを抽出し,シミュレートすることである。 そこで我々は,まず細胞が関心点によって分類され,次に各領域における細胞の時間分布に基づいてクラスター化される方法を作成し,実装し,評価する。 提案モデルは,31週間以上の都市で収集された実世界の5Gモバイルトラフィックデータセットを用いてテストされている。 その結果,提案モデルが2週間前までのモバイルトラヒック予測に有効であった。 私たちのモデルは、ほとんどの関心領域でベースモデルよりも優れており、一般に、na\" アプローチと比較して予測誤差が最大15\%低減された。 本手法は,大規模セルラーネットワークにおける移動トラフィックパターンの予測に有効であることを示す。

It is crucial for the service provider to comprehend and forecast mobile traffic in large-scale cellular networks in order to govern and manage mechanisms for base station placement, load balancing, and network planning. The purpose of this article is to extract and simulate traffic patterns from more than 14,000 cells that have been installed in different metropolitan areas. To do this, we create, implement, and assess a method in which cells are first categorized by their point of interest and then clustered based on the temporal distribution of cells in each region. The proposed model has been tested using real-world 5G mobile traffic datasets collected over 31 weeks in various cities. We found that our proposed model performed well in predicting mobile traffic patterns up to 2 weeks in advance. Our model outperformed the base model in most areas of interest and generally achieved up to 15\% less prediction error compared to the na\"ive approach. This indicates that our approach is effective in predicting mobile traffic patterns in large-scale cellular networks.
翻訳日:2022-12-22 15:49:13 公開日:2022-12-21
# サイバーセキュリティにおける侵入検知システムのアンサンブル学習手法

Ensemble learning techniques for intrusion detection system in the context of cybersecurity ( http://arxiv.org/abs/2212.10913v1 )

ライセンス: Link先を確認
Andricson Abeline Moreira, Carlos A. C. Tojeiro, Carlos J. Reis, Gustavo Henrique Massaro, Igor Andrade Brito e Kelton A. P. da Costa(参考訳) 近年,侵入検知システム(IDS)技術で利用可能な資源の改善への関心が高まっている。 この意味では、サイバーセキュリティに関するいくつかの研究は、環境の侵入と情報誘拐がますます繰り返し、複雑化していることを示している。 コンピューティングリソースを使用する環境におけるオペレーションに関わるビジネスの臨界性は、情報の脆弱性を許さない。 サイバーセキュリティは、企業において欠かせないテクノロジーの宇宙の次元を捉えており、環境への侵入のリスクの防止は、セキュリティチームによって日々扱われている。 そこで本研究では,SVM(Support Vector Machine)とk-Nearest Neighbour(kNN)アルゴリズムによって支援され,DDoS攻撃検出の結果の最適化を目的とした,スタック方式を用いたアンサンブル学習手法の検討を行った。 このために、侵入検知システムの概念は、より良い結果を得るためにデータマイニングと機械学習オレンジツールを応用した。

Recently, there has been an interest in improving the resources available in Intrusion Detection System (IDS) techniques. In this sense, several studies related to cybersecurity show that the environment invasions and information kidnapping are increasingly recurrent and complex. The criticality of the business involving operations in an environment using computing resources does not allow the vulnerability of the information. Cybersecurity has taken on a dimension within the universe of indispensable technology in corporations, and the prevention of risks of invasions into the environment is dealt with daily by Security teams. Thus, the main objective of the study was to investigate the Ensemble Learning technique using the Stacking method, supported by the Support Vector Machine (SVM) and k-Nearest Neighbour (kNN) algorithms aiming at an optimization of the results for DDoS attack detection. For this, the Intrusion Detection System concept was used with the application of the Data Mining and Machine Learning Orange tool to obtain better results
翻訳日:2022-12-22 15:48:58 公開日:2022-12-21
# 強凸関数制約付き凸最適化のための効率的一階法

Efficient First-order Methods for Convex Optimization with Strongly Convex Function Constraints ( http://arxiv.org/abs/2212.11143v1 )

ライセンス: Link先を確認
Zhenwei Lin, Qi Deng(参考訳) 凸関数制約最適化は近年研究の関心を集めている。 厳密な凸関数制約を持つ特別凸問題に対して,99Ocal(1/\sqrt{\vep})$複雑性バウンダリを求め,最先端の1次メソッドに対する$\Ocal(1/{\vep})$結果を改善する,新たなアクセラレーションされた原始双対1次法を開発する。 我々は,ラグランジュ関数の強凸性を漸進的に推定する新しい手法を提案し,適応的なステップサイズ選択とより高速な収束性能を実現する。 さらに,高速化手法を繰り返し呼び出す再起動スキームにより,問題パラメータへの依存度の観点から複雑性がさらに改善可能であることを示す。 アプリケーションとして,分離可能な凸目標と強い凸損失制約を有する空間的制約付き最適化を考える。 高速収束を実現することに加え、再起動した手法は有限ステップで最適解の空間パターン(アクティブセット)を効果的に識別できることが示される。 我々の知る限りでは、これはスパーシリティを誘導する制約付き最適化のための最初のアクティブセット識別結果である。

Convex function constrained optimization has received growing research interests lately. For a special convex problem which has strongly convex function constraints, we develop a new accelerated primal-dual first-order method that obtains an $\Ocal(1/\sqrt{\vep})$ complexity bound, improving the $\Ocal(1/{\vep})$ result for the state-of-the-art first-order methods. The key ingredient to our development is some novel techniques to progressively estimate the strong convexity of the Lagrangian function, which enables adaptive step-size selection and faster convergence performance. In addition, we show that the complexity is further improvable in terms of the dependence on some problem parameter, via a restart scheme that calls the accelerated method repeatedly. As an application, we consider sparsity-inducing constrained optimization which has a separable convex objective and a strongly convex loss constraint. In addition to achieving fast convergence, we show that the restarted method can effectively identify the sparsity pattern (active-set) of the optimal solution in finite steps. To the best of our knowledge, this is the first active-set identification result for sparsity-inducing constrained optimization.
翻訳日:2022-12-22 15:48:41 公開日:2022-12-21
# 情報交換を超えて:情報拡散のためのネットワーク特性の展開

Beyond Information Exchange: An Approach to Deploy Network Properties for Information Diffusion ( http://arxiv.org/abs/2212.10805v1 )

ライセンス: Link先を確認
Soumita Das, Anupam Biswas, Ravi Kishore Devarapalli(参考訳) オンラインソーシャルネットワークにおける情報拡散は、ソーシャルネットワーク分析分野における新たな重要な問題であり、重要な研究の注意が必要である。 情報の効率的な拡散は、パンデミック予防、広告、マーケティングなど様々な状況において重要である。 これまでにいくつかの数学的モデルが開発されてきたが、以前の研究は情報拡散に対する近隣の影響の体系的な分析と探索に欠けていた。 本稿では,ネットワーク全体の情報伝達における共通近傍の役割を示す,情報拡散のための共通近傍戦略(cns)アルゴリズムを提案する。 CNSアルゴリズムの性能は,拡散速度と拡散アウトスプレッドの観点から実世界の複数のデータセットで評価し,広く利用されている情報拡散モデルと比較した。 CNSアルゴリズムは拡散速度と拡散アウトスプレッドの両方において,より良い情報拡散を可能にする。

Information diffusion in Online Social Networks is a new and crucial problem in social network analysis field and requires significant research attention. Efficient diffusion of information are of critical importance in diverse situations such as; pandemic prevention, advertising, marketing etc. Although several mathematical models have been developed till date, but previous works lacked systematic analysis and exploration of the influence of neighborhood for information diffusion. In this paper, we have proposed Common Neighborhood Strategy (CNS) algorithm for information diffusion that demonstrates the role of common neighborhood in information propagation throughout the network. The performance of CNS algorithm is evaluated on several real-world datasets in terms of diffusion speed and diffusion outspread and compared with several widely used information diffusion models. Empirical results show CNS algorithm enables better information diffusion both in terms of diffusion speed and diffusion outspread.
翻訳日:2022-12-22 15:48:17 公開日:2022-12-21
# コミュニティを見つけるより、コミュニティを数えるのは簡単か?

Is it easier to count communities than find them? ( http://arxiv.org/abs/2212.10872v1 )

ライセンス: Link先を確認
Cynthia Rush, Fiona Skerman, Alexander S. Wein and Dana Yang(参考訳) コミュニティ構造を持つランダムグラフモデルは文献で広く研究されている。 コミュニティ構造の検出と回復の両面で、統計学的および計算的相転移の興味深い展望が生まれている。 自然の未解決の疑問は、実際にコミュニティを見つけることが計算的に困難であると信じられている状況であっても、コミュニティ構造(例えば、コミュニティの数とサイズ)の特性を推測することは可能か? 答えはノーです。 特に,異なるコミュニティ構造を持つモデル間の仮説テスト問題を検討し,(低次多項式フレームワークにおいて)2つの選択肢間のテストはコミュニティを見つけるのと同じくらい困難であることを示す。 さらに,本手法は,2つの異なる'植物'分布間のテストにおいて,最初の計算下限を付与するが,以前の結果は,植木分布と'ヌル'分布間のテストについて検討している。

Random graph models with community structure have been studied extensively in the literature. For both the problems of detecting and recovering community structure, an interesting landscape of statistical and computational phase transitions has emerged. A natural unanswered question is: might it be possible to infer properties of the community structure (for instance, the number and sizes of communities) even in situations where actually finding those communities is believed to be computationally hard? We show the answer is no. In particular, we consider certain hypothesis testing problems between models with different community structures, and we show (in the low-degree polynomial framework) that testing between two options is as hard as finding the communities. In addition, our methods give the first computational lower bounds for testing between two different `planted' distributions, whereas previous results have considered testing between a planted distribution and an i.i.d. `null' distribution.
翻訳日:2022-12-22 15:48:04 公開日:2022-12-21
# 磁気共鳴フィンガープリントによる高忠実直接コントラスト合成

High-fidelity Direct Contrast Synthesis from Magnetic Resonance Fingerprinting ( http://arxiv.org/abs/2212.10817v1 )

ライセンス: Link先を確認
Ke Wang, Mariya Doneva, Jakob Meineke, Thomas Amthor, Ekin Karasan, Fei Tan, Jonathan I. Tamir, Stella X. Yu, and Michael Lustig(参考訳) MRF(MR Resonance Fingerprinting)は、T1、T2、B0、B1などの重要な組織やシステムパラメータを単一のスキャンから抽出できる効率的な定量的MRI技術である。 この性質は、コントラスト強調画像の振り返り合成にも魅力的である。 一般に、T1重み付き、T2重み付きなどのコントラスト強調画像は、スピン力学シミュレーション(BlochまたはExtended Phase Graphモデル)を通じてパラメータマップから直接合成することができる。 しかし、これらの手法は、マッピング、シーケンスモデリング、データ取得における不完全性により、しばしばアーティファクトを示す。 本稿では,mrfデータからコントラスト強調画像を直接合成する教師あり学習に基づく手法を提案する。 直接コントラスト合成法 (DCS) を実現するために, 条件付きGAN(Generative Adversarial Network) フレームワークをデプロイし, 生成元としてマルチブランチU-Netを提案する。 入力されたMRFデータを用いて、T1重み付き、T2重み付き、および流体減衰インバージョンリカバリ(FLAIR)画像を直接合成する。 In-vivo実験は、シミュレーションベースのコントラスト合成や従来のDCS法と比較して、視覚的にも定量的にも優れた画質を示す。 また,MRF再構成で一般的に見られるインフローおよびスパイラルオフ共鳴アーチファクトを緩和し,従来のスピンエコーによるコントラスト強調画像より忠実に表現できる場合も示す。

Magnetic Resonance Fingerprinting (MRF) is an efficient quantitative MRI technique that can extract important tissue and system parameters such as T1, T2, B0, and B1 from a single scan. This property also makes it attractive for retrospectively synthesizing contrast-weighted images. In general, contrast-weighted images like T1-weighted, T2-weighted, etc., can be synthesized directly from parameter maps through spin-dynamics simulation (i.e., Bloch or Extended Phase Graph models). However, these approaches often exhibit artifacts due to imperfections in the mapping, the sequence modeling, and the data acquisition. Here we propose a supervised learning-based method that directly synthesizes contrast-weighted images from the MRF data without going through the quantitative mapping and spin-dynamics simulation. To implement our direct contrast synthesis (DCS) method, we deploy a conditional Generative Adversarial Network (GAN) framework and propose a multi-branch U-Net as the generator. The input MRF data are used to directly synthesize T1-weighted, T2-weighted, and fluid-attenuated inversion recovery (FLAIR) images through supervised training on paired MRF and target spin echo-based contrast-weighted scans. In-vivo experiments demonstrate excellent image quality compared to simulation-based contrast synthesis and previous DCS methods, both visually as well as by quantitative metrics. We also demonstrate cases where our trained model is able to mitigate in-flow and spiral off-resonance artifacts that are typically seen in MRF reconstructions and thus more faithfully represent conventional spin echo-based contrast-weighted images.
翻訳日:2022-12-22 15:42:23 公開日:2022-12-21
# 画像からテキストへのプロンプト:凍結型大言語モデルによるゼロショットVQA

From Images to Textual Prompts: Zero-shot VQA with Frozen Large Language Models ( http://arxiv.org/abs/2212.10846v1 )

ライセンス: Link先を確認
Jiaxian Guo, Junnan Li, Dongxu Li, Anthony Meng Huat Tiong, Boyang Li, Dacheng Tao, Steven C.H. Hoi(参考訳) 大規模言語モデル(llm)は、新しい言語タスクに対する優れたゼロショット一般化を示している。 しかしながら、ゼロショット視覚質問応答(VQA)におけるLLMの有効利用は、主にLLMとVQAのタスク間のモダリティの切断とタスクの切断のため、依然として困難である。 視覚と言語データに対するエンドツーエンドのトレーニングは、切断を橋渡しするかもしれないが、柔軟で計算コストが高い。 この問題に対処するために,上述したモダリティとタスクの切断をブリッジ可能なプロンプトを提供するプラグイン・アンド・プレイモジュールである \emph{Img2Prompt} を提案する。 このようなプロンプトを提供するために,LLM非依存モデルを用いて,画像の内容や自己構築型質問応答ペアを記述可能なプロンプトを提供することにより,ゼロショットVQAタスクの実行を効果的に導くことができる。 Img2Promptは以下の利点を提供する: 1) VQAを実行するために様々なLLMで柔軟に動作する。 2) エンドツーエンドのトレーニングを必要とせずに、ゼロショットVQAタスクにLLMをデプロイするコストを大幅に削減する。 3) エンドツーエンドトレーニングに依存するメソッドと同等あるいは優れたパフォーマンスを実現する。 例えば、VQAv2 上で Flamingo~\cite{Deepmind:Flamingo2022} を 5.6 % 上回る。 挑戦的なA-OKVQAデータセットでは、我々の手法は、数ショットの手法よりも最大20%優れています。

Large language models (LLMs) have demonstrated excellent zero-shot generalization to new language tasks. However, effective utilization of LLMs for zero-shot visual question-answering (VQA) remains challenging, primarily due to the modality disconnection and task disconnection between LLM and VQA task. End-to-end training on vision and language data may bridge the disconnections, but is inflexible and computationally expensive. To address this issue, we propose \emph{Img2Prompt}, a plug-and-play module that provides the prompts that can bridge the aforementioned modality and task disconnections, so that LLMs can perform zero-shot VQA tasks without end-to-end training. In order to provide such prompts, we further employ LLM-agnostic models to provide prompts that can describe image content and self-constructed question-answer pairs, which can effectively guide LLM to perform zero-shot VQA tasks. Img2Prompt offers the following benefits: 1) It can flexibly work with various LLMs to perform VQA. 2)~Without the needing of end-to-end training, it significantly reduces the cost of deploying LLM for zero-shot VQA tasks. 3) It achieves comparable or better performance than methods relying on end-to-end training. For example, we outperform Flamingo~\cite{Deepmind:Flamingo2022} by 5.6\% on VQAv2. On the challenging A-OKVQA dataset, our method even outperforms few-shot methods by as much as 20\%.
翻訳日:2022-12-22 15:41:51 公開日:2022-12-21
# TMS-Net:ロバスト心臓画像分割のための実行時品質制御手法を組み合わせたセグメンテーションネットワーク

TMS-Net: A Segmentation Network Coupled With A Run-time Quality Control Method For Robust Cardiac Image Segmentation ( http://arxiv.org/abs/2212.10877v1 )

ライセンス: Link先を確認
Fatmatulzehra Uslu, Anil A. Bharath(参考訳) 近年, 心磁気共鳴イメージング(MRI)画像のセグメンテーションにおいて, ディープネットワークは顕著な性能を示した。 しかし、その成果は、堅牢性の問題から臨床医の信頼が低くなるため、医院で広く使われるようになるのが遅いことが証明されている。 セグメンテーションマスクの経時的品質予測は, 臨床医に予後不良を警告するのに有用である。 その重要性にもかかわらず、この問題に関する研究はほとんどない。 このギャップに対処するために,コサイン類似性によって測定されたマルチビューネットワークTMS-Netのデコーダ間の合意に基づく品質制御手法を提案する。 ネットワークは同じ3D画像から異なる軸に沿って3つのビュー入力を取る。 従来のマルチビューネットワークとは異なり、TMS-Netは単一エンコーダと3つのデコーダを備えており、STACOM 2013およびSTACOM 2018チャレンジデータセット上の左アトリウムのセグメンテーションに関する実験において、ノイズロバスト性、セグメンテーション性能、実行時の品質評価を改善する。 また,工学的な雑音とリッチ雑音で生成した雑音を利用して,低調波,高異方性,低画像設定問題をシミュレートすることで,セグメンテーションマスクを生成する手法を提案する。 STACOM 2018 では,AUC が 0.97 まで達する,低品質かつ高品質なセグメンテーションマスクの良好な分類が示されている。 我々は,tms-netとランタイム品質推定手法は,臨床医から自動画像解析ツールへの推力を高める可能性が高いと信じている。

Recently, deep networks have shown impressive performance for the segmentation of cardiac Magnetic Resonance Imaging (MRI) images. However, their achievement is proving slow to transition to widespread use in medical clinics because of robustness issues leading to low trust of clinicians to their results. Predicting run-time quality of segmentation masks can be useful to warn clinicians against poor results. Despite its importance, there are few studies on this problem. To address this gap, we propose a quality control method based on the agreement across decoders of a multi-view network, TMS-Net, measured by the cosine similarity. The network takes three view inputs resliced from the same 3D image along different axes. Different from previous multi-view networks, TMS-Net has a single encoder and three decoders, leading to better noise robustness, segmentation performance and run-time quality estimation in our experiments on the segmentation of the left atrium on STACOM 2013 and STACOM 2018 challenge datasets. We also present a way to generate poor segmentation masks by using noisy images generated with engineered noise and Rician noise to simulate undertraining, high anisotropy and poor imaging settings problems. Our run-time quality estimation method show a good classification of poor and good quality segmentation masks with an AUC reaching to 0.97 on STACOM 2018. We believe that TMS-Net and our run-time quality estimation method has a high potential to increase the thrust of clinicians to automatic image analysis tools.
翻訳日:2022-12-22 15:41:23 公開日:2022-12-21
# 物体検出に基づく電力線絶縁体の検査:低データ登録における初期故障検出

Object detection-based inspection of power line insulators: Incipient fault detection in the low data-regime ( http://arxiv.org/abs/2212.11017v1 )

ライセンス: Link先を確認
Laya Das, Mohammad Hossein Saadat, Blazhe Gjorgiev, Etienne Auger, Giovanni Sansavini(参考訳) ディープラーニングに基づく物体検出は、電力線中の故障絶縁体を検出するための強力なアプローチである。 これには、オブジェクト検出モデルをスクラッチからトレーニングするか、ベンチマークコンピュータビジョンデータセットで事前トレーニングされたモデルを微調整するかが含まれる。 このアプローチは多数の絶縁体画像とうまく機能するが、低いデータ構造では信頼性の低いモデルが得られる。 現在の文献では,比較的容易に検出できる絶縁体キャップの有無の検知に重点を置いており,フラッシュディスクや破損ディスクなどの微細な欠陥の検出は考慮されていない。 本稿では,空中画像からの絶縁体およびアセット検査のための3つの物体検出タスクを定式化し,ディスク内の初期故障に着目した。 健康で故障のある絶縁体を検出するためのロバストな特徴を学ぶために使用できる絶縁体画像の大規模な参照データセットをキュレートする。 本研究は、参照データセットの事前学習と、ターゲットデータセットの微調整により、このデータセットを低目標データ体制で使用する利点について検討する。 その結果, 物体検出モデルを用いて絶縁体中の欠陥を早期に検出し, 移動学習が物体検出モデルの種類に応じて付加価値を付加できることが示唆された。 我々は,低データレジスタの性能を左右する重要な要因を特定し,最新技術を改善するための潜在的なアプローチを概説する。

Deep learning-based object detection is a powerful approach for detecting faulty insulators in power lines. This involves training an object detection model from scratch, or fine tuning a model that is pre-trained on benchmark computer vision datasets. This approach works well with a large number of insulator images, but can result in unreliable models in the low data regime. The current literature mainly focuses on detecting the presence or absence of insulator caps, which is a relatively easy detection task, and does not consider detection of finer faults such as flashed and broken disks. In this article, we formulate three object detection tasks for insulator and asset inspection from aerial images, focusing on incipient faults in disks. We curate a large reference dataset of insulator images that can be used to learn robust features for detecting healthy and faulty insulators. We study the advantage of using this dataset in the low target data regime by pre-training on the reference dataset followed by fine-tuning on the target dataset. The results suggest that object detection models can be used to detect faults in insulators at a much incipient stage, and that transfer learning adds value depending on the type of object detection model. We identify key factors that dictate performance in the low data-regime and outline potential approaches to improve the state-of-the-art.
翻訳日:2022-12-22 15:40:55 公開日:2022-12-21
# 生レーダフレーム上でのオンライン物体検出のための繰り返しCNN

A recurrent CNN for online object detection on raw radar frames ( http://arxiv.org/abs/2212.11172v1 )

ライセンス: Link先を確認
Colin Decourt, Rufin VanRullen, Didier Salle and Thomas Oberlin(参考訳) 自動車用レーダーセンサーは、高度運転支援システム(ADAS)に貴重な情報を提供する。 レーダーは、天気や光条件に関わらず、物体と相対速度の距離を確実に推定することができる。 しかし、レーダーセンサーは解像度が低く、物体の形状がクラス内で大きく変化する。 時間情報(例えば複数のフレーム)の活用は、オブジェクトのダイナミクスをよりよく捉え、それゆえオブジェクトの形状の変化を捉えるのに役立つことが示されている。 ほとんどの時間的レーダー物体検出器は空間的および時間的情報を学ぶために3D畳み込みを使用する。 しかし、これらの手法はしばしば非因果的であり、リアルタイムアプリケーションには適さない。 本稿では,オンラインレーダオブジェクト検出のための新しいCNNアーキテクチャであるRECORDを紹介する。 本稿では,コンボリューションとConvLSTMを混合したエンドツーエンドのトレーニング可能なアーキテクチャを提案し,逐次フレーム間の時空間依存性を学習する。 我々のモデルは因果的であり、オブジェクトを検出するためにConvLSTMのメモリに符号化された過去の情報のみを必要とする。 本研究では,rod2021およびcarradaデータセット上で,異なるレーダ表現(レンジドップラ,レンジアングル)の物体や,最先端の最先端モデルの検出に,計算コストを低減しつつ,そのような手法の有効性を示す。 コードはもうすぐ入手できる。

Automotive radar sensors provide valuable information for advanced driving assistance systems (ADAS). Radars can reliably estimate the distance to an object and the relative velocity, regardless of weather and light conditions. However, radar sensors suffer from low resolution and huge intra-class variations in the shape of objects. Exploiting the time information (e.g., multiple frames) has been shown to help to capture better the dynamics of objects and, therefore, the variation in the shape of objects. Most temporal radar object detectors use 3D convolutions to learn spatial and temporal information. However, these methods are often non-causal and unsuitable for real-time applications. This work presents RECORD, a new recurrent CNN architecture for online radar object detection. We propose an end-to-end trainable architecture mixing convolutions and ConvLSTMs to learn spatio-temporal dependencies between successive frames. Our model is causal and requires only the past information encoded in the memory of the ConvLSTMs to detect objects. Our experiments show such a method's relevance for detecting objects in different radar representations (range-Doppler, range-angle) and outperform state-of-the-art models on the ROD2021 and CARRADA datasets while being less computationally expensive. The code will be available soon.
翻訳日:2022-12-22 15:40:34 公開日:2022-12-21
# 3Dハイライダ:テキスト記述による3D形状上の領域のローカライズ

3D Highlighter: Localizing Regions on 3D Shapes via Text Descriptions ( http://arxiv.org/abs/2212.11263v1 )

ライセンス: Link先を確認
Dale Decatur, Itai Lang, Rana Hanocka(参考訳) 本稿では,テキストを入力としてメッシュ上に意味領域をローカライズする3D Highlighterを提案する。 本システムの重要な特徴は「ドメイン外」ローカライズを解釈する能力である。 本システムでは,裸の3d動物モデルに衣服を付加するなど,不適切な概念を入力した3d形状にどこに配置するかを判断する能力を示す。 提案手法は,ニューラルネットワークを用いてテキスト記述を文脈化し,確率重み付けブレンドを用いて形状の対応する領域を色付けする。 私たちのニューラル最適化は、トレーニング済みのCLIPエンコーダによってガイドされ、3Dデータセットや3Dアノテーションの必要性を回避します。 このように3dハイライト装置は、非常に柔軟で汎用的で、無数の入力形状上に位置決めを生成できる。 私たちのコードはhttps://github.com/threedle/3dhighlighterで公開しています。

We present 3D Highlighter, a technique for localizing semantic regions on a mesh using text as input. A key feature of our system is the ability to interpret "out-of-domain" localizations. Our system demonstrates the ability to reason about where to place non-obviously related concepts on an input 3D shape, such as adding clothing to a bare 3D animal model. Our method contextualizes the text description using a neural field and colors the corresponding region of the shape using a probability-weighted blend. Our neural optimization is guided by a pre-trained CLIP encoder, which bypasses the need for any 3D datasets or 3D annotations. Thus, 3D Highlighter is highly flexible, general, and capable of producing localizations on a myriad of input shapes. Our code is publicly available at https://github.com/threedle/3DHighlighter.
翻訳日:2022-12-22 15:40:12 公開日:2022-12-21
# recap: 拡張音楽キャプションの検索

RECAP: Retrieval Augmented Music Captioner ( http://arxiv.org/abs/2212.10901v1 )

ライセンス: Link先を確認
Zihao He, Weituo Hao, Xuchen Song(参考訳) 音楽検索とレコメンデーションを提供するストリームメディアプラットフォームの普及に伴い、音声と歌詞を対話的に理解することで音楽の解釈が重要かつ困難な課題となっている。 しかし、以前の多くの作品は、音楽とキャプショントークンをマッピングするエンコーダ・デコーダ・アーキテクチャの個々のコンポーネントを洗練することに集中しており、音声と歌詞の対応の潜在的な使用を無視している。 本稿では,コントラスト学習による検索強化によるマルチモーダルアライメントを明示的に学習することを提案する。 音声と歌詞の対応を学習することで、モデルはより優れたモーダルな注意重みを学習し、高品質なキャプション語を生成する。 提案手法の利点を示す理論的および実証的な結果の両方を提供する。

With the prevalence of stream media platforms serving music search and recommendation, interpreting music by understanding audio and lyrics interactively has become an important and challenging task. However, many previous works focus on refining individual components of encoder-decoder architecture mapping music to caption tokens, ignoring the potential usage of audio and lyrics correspondence. In this paper, we propose to explicitly learn the multi-modal alignment with retrieval augmentation by contrastive learning. By learning audio-lyrics correspondence, the model is guided to learn better cross-modal attention weights, thus generating high-quality caption words. We provide both theoretical and empirical results that demonstrate the advantage of the proposed method.
翻訳日:2022-12-22 15:39:26 公開日:2022-12-21
# 視覚的注意による協調飛行制御-エアガード

Cooperative Flight Control Using Visual-Attention -- Air-Guardian ( http://arxiv.org/abs/2212.11084v1 )

ライセンス: Link先を確認
Lianhao Yin, Tsun-Hsuan Wang, Makram Chahine, Tim Seyde, Mathias Lechner, Ramin Hasani, Daniela Rus(参考訳) 飛行制御中の人間のパイロットと自律エージェントの協調は、並列自律を実現する。 並列自律システムは、困難な状況下での飛行操作の堅牢性と安全性を著しく向上させる保護体として機能する。 本稿では,人工パイロットエージェントと並列エンドツーエンドニューラルコントロールシステムとの協調を支援するエアガードの概念を提案する。 視覚ベースの防空システムは,注意プロファイルの認識の違いに基づいて,パイロットエージェントと制御システム間の並列的な自律性を実現するために,因果的連続的深層ニューラルネットワークモデルと協調層を組み合わせる。 注意プロファイルは、VisualBackPropアルゴリズムを通じてネットワークのサリエンシマップ(機能の重要性)を計算することによって得られる。 保護剤は、固定翼航空機模擬環境で強化学習により訓練される。 パイロットと保護エージェントの注意プロファイルが一致した場合、パイロットは制御決定を行う。 パイロットと保護者の注意マップが一致しない場合、航空護衛官は介入を行い、航空機の制御を引き継ぐ。 注意に基づく防空システムは、その飛行への関与レベルとパイロットの専門知識と注意の間のトレードオフをバランスさせることができる。 固定翼機と実際のドローンプラットフォームを用いた飛行シナリオのシミュレーションにおける手法の有効性を実証する。

The cooperation of a human pilot with an autonomous agent during flight control realizes parallel autonomy. A parallel-autonomous system acts as a guardian that significantly enhances the robustness and safety of flight operations in challenging circumstances. Here, we propose an air-guardian concept that facilitates cooperation between an artificial pilot agent and a parallel end-to-end neural control system. Our vision-based air-guardian system combines a causal continuous-depth neural network model with a cooperation layer to enable parallel autonomy between a pilot agent and a control system based on perceived differences in their attention profile. The attention profiles are obtained by computing the networks' saliency maps (feature importance) through the VisualBackProp algorithm. The guardian agent is trained via reinforcement learning in a fixed-wing aircraft simulated environment. When the attention profile of the pilot and guardian agents align, the pilot makes control decisions. If the attention map of the pilot and the guardian do not align, the air-guardian makes interventions and takes over the control of the aircraft. We show that our attention-based air-guardian system can balance the trade-off between its level of involvement in the flight and the pilot's expertise and attention. We demonstrate the effectivness of our methods in simulated flight scenarios with a fixed-wing aircraft and on a real drone platform.
翻訳日:2022-12-22 15:33:01 公開日:2022-12-21
# プロキシによる最適個別意思決定

Optimal Individualized Decision-Making with Proxies ( http://arxiv.org/abs/2212.09494v2 )

ライセンス: Link先を確認
Tao Shen, Yifan Cui(参考訳) 政策立案者が因果推論を引き合いに出し、観測データに基づいて決定を下す場合の一般的な懸念は、測定された共変量体が、すべての共変量体、すなわち標準的無根性の仮定が成り立たないことである。 最近提案された近位因果推論フレームワークは、プロキシ変数を利用して因果効果を特定し、意思決定を容易にすることができることを示している。 そこで本研究では, いわゆる結果誘導・治療誘導複合橋を基盤とした, 最適な個別化治療体制を提案する。 以上の結果から,この新しい最適治療体制の価値関数は文献上既存のものよりも優れていることが示された。 推定された体制の識別、優越性、過剰な価値境界を含む理論的保証が確立される。 さらに,提案手法を数値実験により実証し,実データに適用する。

A common concern when a policymaker draws causal inferences from and makes decisions based on observational data is that the measured covariates are insufficiently rich to account for all sources of confounding, i.e., the standard no confoundedness assumption fails to hold. The recently proposed proximal causal inference framework shows that proxy variables can be leveraged to identify causal effects and therefore facilitate decision-making. Building upon this line of work, we propose a novel optimal individualized treatment regime based on so-called outcome-inducing and treatment-inducing confounding bridges. We then show that the value function of this new optimal treatment regime is superior to that of existing ones in the literature. Theoretical guarantees, including identification, superiority, and excess value bound of the estimated regime, are established. Furthermore, we demonstrate the proposed optimal regime via numerical experiments and a real data application.
翻訳日:2022-12-22 15:32:33 公開日:2022-12-21
# ToL: リストベースの統一計算モデルのテンソル

ToL: A Tensor of List-Based Unified Computation Model ( http://arxiv.org/abs/2212.10740v1 )

ライセンス: Link先を確認
Hongxiao Li, Wanling Gao, Lei Wang, and Jianfeng Zhan(参考訳) 従来の計算モデルは、全ての計算を表現できる同等の能力を持つが、複雑なアルゴリズムをプログラミングするためのプリミティブ演算子を提供することができないか、新しく追加された計算を表現するための一般的な表現能力が欠如している。 本稿では,汎用的な表現能力を持つ統一計算モデルと,高レベルアルゴリズムをプログラミングするプリミティブ演算子の簡潔なセットを提案する。 本稿では,リストのテンソル(Tensor of List)を提案するとともに,ToLモデル(略してToL)と呼ぶ,リストのテンソル(Tensor of List)に基づく統一的な計算モデルを提案する。 ToLは有限合成による基本的な計算を表現できる5つの原子計算を導入し、厳密な形式証明で保証する。 ToLに基づいて、純粋関数型言語 -- ToLangを設計します。 tolangは複雑なビッグデータとaiアルゴリズムのプログラミングに使用できる、簡潔なプリミティブオペレータセットを提供する。 評価の結果,ToLは計算量-要素演算数 (EOPs) を厳密に定義し,小さな誤差範囲内でFLOPsと整合した,一般化された表現能力と内蔵性能指標を持つことがわかった。

Previous computation models either have equivalent abilities in representing all computations but fail to provide primitive operators for programming complex algorithms or lack generalized expression ability to represent newly-added computations. This article presents a unified computation model with generalized expression ability and a concise set of primitive operators for programming high-level algorithms. We propose a unified data abstraction -- Tensor of List, and offer a unified computation model based on Tensor of List, which we call the ToL model (in short, ToL). ToL introduces five atomic computations that can represent any elementary computation by finite composition, ensured with strict formal proof. Based on ToL, we design a pure-functional language -- ToLang. ToLang provides a concise set of primitive operators that can be used to program complex big data and AI algorithms. Our evaluations show ToL has generalized expression ability and a built-in performance indicator, born with a strictly defined computation metric -- elementary operation count (EOPs), consistent with FLOPs within a small error range.
翻訳日:2022-12-22 15:31:53 公開日:2022-12-21
# 4D ASR: CTC, Attention, Transducer, Mask-Predict Decoderの合同モデリング

4D ASR: Joint modeling of CTC, Attention, Transducer, and Mask-Predict decoders ( http://arxiv.org/abs/2212.10818v1 )

ライセンス: Link先を確認
Yui Sudo, Muhammad Shakeel, Brian Yan, Jiatong Shi, Shinji Watanabe(参考訳) エンドツーエンド(E2E)自動音声認識(ASR)のネットワークアーキテクチャは、コネクショニスト時間分類(CTC)、リカレントニューラルネットワークトランスデューサ(RNN-T)、注意機構、非自己回帰マスク予測モデルなど、いくつかのモデルに分類される。 これらのネットワークアーキテクチャのそれぞれに長所と短所があるため、典型的なユースケースはアプリケーション要件に応じてこれらの別々のモデルを切り替えることであり、結果としてすべてのモデルを維持するオーバーヘッドが増加する。 オーバヘッド問題を解決するために2つの補完モデルを統合するいくつかの方法が提案されているが、より多くのモデルを統合すると、これらの補完モデルからさらに恩恵を受け、単一のシステムでより広範なアプリケーションを実現する。 本稿では,CTC,アテンション,RNN-T,マスク予測の4デコーダ共同モデリング(4D)を提案する。 1) 4つのデコーダは、アプリケーションシナリオに応じて容易に切り替えられるように、共同でトレーニングされる。 2) 連立訓練はモデル正規化をもたらし, 相補的な特性によりモデルロバスト性を向上させる。 3) CTC, attention, RNN-Tを用いた新しいワンパス共同復号法により, 性能が向上する。 実験の結果,提案したモデルが一貫してWERを減少させることがわかった。

The network architecture of end-to-end (E2E) automatic speech recognition (ASR) can be classified into several models, including connectionist temporal classification (CTC), recurrent neural network transducer (RNN-T), attention mechanism, and non-autoregressive mask-predict models. Since each of these network architectures has pros and cons, a typical use case is to switch these separate models depending on the application requirement, resulting in the increased overhead of maintaining all models. Several methods for integrating two of these complementary models to mitigate the overhead issue have been proposed; however, if we integrate more models, we will further benefit from these complementary models and realize broader applications with a single system. This paper proposes four-decoder joint modeling (4D) of CTC, attention, RNN-T, and mask-predict, which has the following three advantages: 1) The four decoders are jointly trained so that they can be easily switched depending on the application scenarios. 2) Joint training may bring model regularization and improve the model robustness thanks to their complementary properties. 3) Novel one-pass joint decoding methods using CTC, attention, and RNN-T further improves the performance. The experimental results showed that the proposed model consistently reduced the WER.
翻訳日:2022-12-22 15:31:31 公開日:2022-12-21
# ニューラル画像圧縮用コンテンツ適応潜在子およびデコーダ

Content Adaptive Latents and Decoder for Neural Image Compression ( http://arxiv.org/abs/2212.10132v2 )

ライセンス: Link先を確認
Guanbo Pan, Guo Lu, Zhihao Hu, Dong Xu(参考訳) 近年、ニューラル画像圧縮(NIC)アルゴリズムは強力な符号化性能を示している。 しかし、そのほとんどは画像の内容に適応していない。 エンコーダ側のコンポーネントを更新することで、いくつかのコンテンツ適応手法が提案されているが、ラプタントとデコーダの両方の適応性はあまり利用されていない。 本研究では,ラテントとデコーダの両方におけるコンテンツ適応性を改善する新しいNICフレームワークを提案する。 具体的には, 遅延中の冗長性を除去するために, コンテンツ適応チャネルドロップ(cacd)法は, 遅延者の最適な品質レベルを空間的に自動的に選択し, 冗長チャネルをドロップする。 さらに,画像コンテンツの特徴情報を抽出し,デコーダ側の特徴を変換することにより,デコーダ側のコンテンツ適応性を向上させるためのコンテンツ適応機能変換(caft)手法を提案する。 実験により,エンコーダ側更新アルゴリズムを用いた提案手法が最先端性能を実現することを示す。

In recent years, neural image compression (NIC) algorithms have shown powerful coding performance. However, most of them are not adaptive to the image content. Although several content adaptive methods have been proposed by updating the encoder-side components, the adaptability of both latents and the decoder is not well exploited. In this work, we propose a new NIC framework that improves the content adaptability on both latents and the decoder. Specifically, to remove redundancy in the latents, our content adaptive channel dropping (CACD) method automatically selects the optimal quality levels for the latents spatially and drops the redundant channels. Additionally, we propose the content adaptive feature transformation (CAFT) method to improve decoder-side content adaptability by extracting the characteristic information of the image content, which is then used to transform the features in the decoder side. Experimental results demonstrate that our proposed methods with the encoder-side updating algorithm achieve the state-of-the-art performance.
翻訳日:2022-12-22 15:31:07 公開日:2022-12-21
# palettenerf:パレットを用いた神経放射野の外観編集

PaletteNeRF: Palette-based Appearance Editing of Neural Radiance Fields ( http://arxiv.org/abs/2212.10699v1 )

ライセンス: Link先を確認
Zhengfei Kuang, Fujun Luan, Sai Bi, Zhixin Shu, Gordon Wetzstein, Kalyan Sunkavalli(参考訳) 近年の神経放射場の発展により、複雑なシーンの高忠実度3次元再構成が実現された。 しかし、このような表現の外観が光リアリズムを維持しながらどのように効率的に編集できるかは未解明のままである。 本研究では,3次元色分解に基づくニューラルレイディアンスフィールド(NeRF)の光リアルな外観編集手法であるPaletteNeRFを提案する。 本研究では,各3次元点の出現を,シーン間で共有されるパレットベース(NeRF型関数群で定義される3次元セグメンテーション)の線形結合に分解する。 パレットベースのベースはビューに依存しないが、色残基(例えば、スペクトルシェーディング)をキャプチャするビュー依存関数も予測する。 トレーニング中,基本関数とカラーパレットを協調的に最適化し,分解の空間的コヒーレンスを促進するために新しい正規化器を導入する。 本手法では,カラーパレットを改良することにより,3Dシーンの外観を効率よく編集することができる。 また、セマンティック・アウェアな外観編集のためのセマンティック機能を圧縮したフレームワークを拡張しました。 本手法は,複雑な実世界のシーンの外観編集において,定量的かつ質的にベースライン手法よりも優れていることを示す。

Recent advances in neural radiance fields have enabled the high-fidelity 3D reconstruction of complex scenes for novel view synthesis. However, it remains underexplored how the appearance of such representations can be efficiently edited while maintaining photorealism. In this work, we present PaletteNeRF, a novel method for photorealistic appearance editing of neural radiance fields (NeRF) based on 3D color decomposition. Our method decomposes the appearance of each 3D point into a linear combination of palette-based bases (i.e., 3D segmentations defined by a group of NeRF-type functions) that are shared across the scene. While our palette-based bases are view-independent, we also predict a view-dependent function to capture the color residual (e.g., specular shading). During training, we jointly optimize the basis functions and the color palettes, and we also introduce novel regularizers to encourage the spatial coherence of the decomposition. Our method allows users to efficiently edit the appearance of the 3D scene by modifying the color palettes. We also extend our framework with compressed semantic features for semantic-aware appearance editing. We demonstrate that our technique is superior to baseline methods both quantitatively and qualitatively for appearance editing of complex real-world scenes.
翻訳日:2022-12-22 15:30:35 公開日:2022-12-21
# マルチモーダル頭頸部腫瘍分離のためのネットワークアーキテクチャの検討

Investigation of Network Architecture for Multimodal Head-and-Neck Tumor Segmentation ( http://arxiv.org/abs/2212.10724v1 )

ライセンス: Link先を確認
Ye Li, Junyu Chen, Se-in Jang, Kuang Gong, Quanzheng Li(参考訳) 最近の自然言語処理用トランスフォーマーとコンピュータビジョン用視覚トランスフォーマーの成功に触発されて、医療画像コミュニティの多くの研究者は、分類、セグメンテーション、推定といった様々な主要な医療タスクのためのトランスフォーマーベースのネットワークに集結した。 本研究では, マルチモーダルヘッド・アンド・腫瘍セグメンテーションのためのトランスフォーマーネットワークアーキテクチャを最近発表した2つのアーキテクチャを解析し, その性能をデファクト標準3DセグメンテーションネットワークであるnnU-Netと比較する。 その結果,大規模構造物が存在する場合や視野が大きい場合に,長距離依存関係のモデリングが有用である可能性が示唆された。 しかし、頭頸部腫瘍のような小さな構造では、畳み込みに基づくU-Netアーキテクチャは、特にトレーニングデータセットが小さく、計算資源が限られている場合、うまく機能しているように思われた。

Inspired by the recent success of Transformers for Natural Language Processing and vision Transformer for Computer Vision, many researchers in the medical imaging community have flocked to Transformer-based networks for various main stream medical tasks such as classification, segmentation, and estimation. In this study, we analyze, two recently published Transformer-based network architectures for the task of multimodal head-and-tumor segmentation and compare their performance to the de facto standard 3D segmentation network - the nnU-Net. Our results showed that modeling long-range dependencies may be helpful in cases where large structures are present and/or large field of view is needed. However, for small structures such as head-and-neck tumor, the convolution-based U-Net architecture seemed to perform well, especially when training dataset is small and computational resource is limited.
翻訳日:2022-12-22 15:30:15 公開日:2022-12-21
# 皮質-視床-皮質回路による音声-視覚音声分離モデル

An Audio-Visual Speech Separation Model Inspired by Cortico-Thalamo-Cortical Circuits ( http://arxiv.org/abs/2212.10744v1 )

ライセンス: Link先を確認
Kai Li, Fenghua Xie, Hang Chen, Kexin Yuan, Xiaolin Hu(参考訳) 視覚入力を含む視聴覚アプローチは、音声分離の最近の進歩の基礎を築いた。 しかし,聴覚と視覚の同時使用の最適化は依然として活発な研究分野である。 異なるモーダルの感覚処理機構が非強膜性知覚視床を通じて相互に調節される皮質-視床皮質回路に着想を得て,音声-視覚音声分離のための新しい皮質-視床皮質神経回路(CTCNet)を提案する。 まず、ctcnetは、聴覚および視覚皮質領域の機能の模倣により、分離された聴覚および視覚サブネットワークにおいて、ボトムアップ方式で階層的な聴覚および視覚表現を学習する。 そして、皮質領域と視床の間の多数の接続にインスパイアされ、モデルはトップダウン接続を介して視床サブネットワーク内の聴覚と視覚情報を融合する。 最後に、この融合した情報を聴覚及び視覚サブネットに送信し、上記の処理を何度も繰り返す。 3つの音声分離ベンチマークデータセットによる実験の結果、CTCNetはパラメータがかなり少ない既存のAVSS法よりも著しく優れていた。 これらの結果は、哺乳類の脳の解剖学的コネクトームを模倣することは、ディープニューラルネットワークの発展を促進する大きな可能性を示唆している。 プロジェクトリポジトリはhttps://github.com/JusperLee/CTCNet。

Audio-visual approaches involving visual inputs have laid the foundation for recent progress in speech separation. However, the optimization of the concurrent usage of auditory and visual inputs is still an active research area. Inspired by the cortico-thalamo-cortical circuit, in which the sensory processing mechanisms of different modalities modulate one another via the non-lemniscal sensory thalamus, we propose a novel cortico-thalamo-cortical neural network (CTCNet) for audio-visual speech separation (AVSS). First, the CTCNet learns hierarchical auditory and visual representations in a bottom-up manner in separate auditory and visual subnetworks, mimicking the functions of the auditory and visual cortical areas. Then, inspired by the large number of connections between cortical regions and the thalamus, the model fuses the auditory and visual information in a thalamic subnetwork through top-down connections. Finally, the model transmits this fused information back to the auditory and visual subnetworks, and the above process is repeated several times. The results of experiments on three speech separation benchmark datasets show that CTCNet remarkably outperforms existing AVSS methods with considerablely fewer parameters. These results suggest that mimicking the anatomical connectome of the mammalian brain has great potential for advancing the development of deep neural networks. Project repo is https://github.com/JusperLee/CTCNet.
翻訳日:2022-12-22 15:29:57 公開日:2022-12-21
# テキストから画像へ:ロバスト表現のための解釈可能なインターベンションを可能にする

Not Just Pretty Pictures: Text-to-Image Generators Enable Interpretable Interventions for Robust Representations ( http://arxiv.org/abs/2212.11237v1 )

ライセンス: Link先を確認
Jianhao Yuan, Francesco Pinto, Adam Davies, Aarushi Gupta, Philip Torr(参考訳) ニューラルイメージ分類器は、トレーニング分布に関して共変量シフトを示す入力に曝されると、厳しい性能劣化を経験することが知られている。 手作りの強化パイプラインの成功は、期待されるテストドメイン条件を近似するか、トレーニング環境特有の特徴を摂動させることを目標としている。 効果的なパイプラインの開発は一般的に面倒で、分類器のパフォーマンスに影響を及ぼす変換は理解や制御が難しい。 本稿では,近年のテキスト・トゥ・イメージ(T2I)ジェネレータによる自然言語プロンプトによる画像介入をシミュレートする能力を利用して,より堅牢なモデルをトレーニングし,従来の拡張手法よりも解釈可能で制御可能な代替手段を提供することを示す。 様々なプロンプト機構は、広く評価された領域一般化ベンチマークにおいて、最先端の性能を達成するのに十分な合成トレーニングデータを生成するのに有効であり、スプリアス機能に対する分類器の依存性を低減するのに有効である。 我々の研究は、T2I生成のさらなる進歩と、他の研究分野との緊密な統合が、より堅牢な機械学習システムの開発への大きな一歩であることを示唆している。

Neural image classifiers are known to undergo severe performance degradation when exposed to input that exhibits covariate-shift with respect to the training distribution. Successful hand-crafted augmentation pipelines aim at either approximating the expected test domain conditions or to perturb the features that are specific to the training environment. The development of effective pipelines is typically cumbersome, and produce transformations whose impact on the classifier performance are hard to understand and control. In this paper, we show that recent Text-to-Image (T2I) generators' ability to simulate image interventions via natural-language prompts can be leveraged to train more robust models, offering a more interpretable and controllable alternative to traditional augmentation methods. We find that a variety of prompting mechanisms are effective for producing synthetic training data sufficient to achieve state-of-the-art performance in widely-adopted domain-generalization benchmarks and reduce classifiers' dependency on spurious features. Our work suggests that further progress in T2I generation and a tighter integration with other research fields may represent a significant step towards the development of more robust machine learning systems.
翻訳日:2022-12-22 15:24:03 公開日:2022-12-21
# 深層理解のための学習言語モデルによる脳アライメントの改善

Training language models for deeper understanding improves brain alignment ( http://arxiv.org/abs/2212.10898v1 )

ライセンス: Link先を確認
Khai Loong Aw, Mariya Toneva(参考訳) 言語を深く理解するシステムの構築は、自然言語処理(NLP)の中心的な目標の1つである。 この目標に向けて、最近の研究は、長い文脈にまたがって統合することで最も重要な情報を抽出する必要がある物語データセット上で言語モデルを訓練し始めている。 しかしながら、これらのモデルがテキストのより深い理解を学んでいるか、あるいはモデルが単にタスクを完了させるためにヒューリスティックを学んでいるかは、まだ明らかな疑問である。 この研究は、複雑な言語(人間の脳)を真に理解する1つの言語処理システムに転換することで、これをさらに調査する。 より深い物語理解のための学習言語モデルにより、より豊かな表現が可能となり、人間の脳活動との整合性が向上したことを示す。 さらに,脳のアライメントの改善は,他の言論的特徴よりも文字名の方が大きく,これらのモデルが重要な物語要素を学習していることが示唆された。 これらの結果から,このようなトレーニングが言語理解の深化につながる可能性が示唆された。 これらの知見は、脳-NLPアライメントの背景にあるいくつかの重要な要因を明らかにすることによって認知神経科学と、言語モデリングを超えて長距離文脈の理解を改善することができることを強調してNLPの両方に影響を及ぼす。

Building systems that achieve a deeper understanding of language is one of the central goals of natural language processing (NLP). Towards this goal, recent works have begun to train language models on narrative datasets which require extracting the most critical information by integrating across long contexts. However, it is still an open question whether these models are learning a deeper understanding of the text, or if the models are simply learning a heuristic to complete the task. This work investigates this further by turning to the one language processing system that truly understands complex language: the human brain. We show that training language models for deeper narrative understanding results in richer representations that have improved alignment to human brain activity. We further find that the improvements in brain alignment are larger for character names than for other discourse features, which indicates that these models are learning important narrative elements. Taken together, these results suggest that this type of training can indeed lead to deeper language understanding. These findings have consequences both for cognitive neuroscience by revealing some of the significant factors behind brain-NLP alignment, and for NLP by highlighting that understanding of long-range context can be improved beyond language modeling.
翻訳日:2022-12-22 15:23:42 公開日:2022-12-21
# コンピュータは「ノー」と言う:共感的会話型aiの事例

Computer says "No": The Case Against Empathetic Conversational AI ( http://arxiv.org/abs/2212.10983v1 )

ライセンス: Link先を確認
Alba Curry, Amanda Cercas Curry(参考訳) 感情は人間の認知の不可欠な部分であり、世界に対する私たちの理解だけでなく、その中の行動も導く。 このように、感情を落ち着かせるか、燃やすかは一致しない。 会話型AIにおける最近の研究は、ユーザーに対して共感的に反応し、実際のベースなしで感情を検証することに集中している。 このAIが支援する感情的規制は、ユーザや社会にネガティブな結果をもたらす可能性がある。 我々はユーザーの感情にどう反応するかを慎重に検討する必要がある。

Emotions are an integral part of human cognition and they guide not only our understanding of the world but also our actions within it. As such, whether we soothe or flame an emotion is not inconsequential. Recent work in conversational AI has focused on responding empathetically to users, validating and soothing their emotions without a real basis. This AI-aided emotional regulation can have negative consequences for users and society, tending towards a one-noted happiness defined as only the absence of "negative" emotions. We argue that we must carefully consider whether and how to respond to users' emotions.
翻訳日:2022-12-22 15:23:20 公開日:2022-12-21
# 西欧諸語における句読点パターンの普遍的特徴と体系的特徴

Universal versus system-specific features of punctuation usage patterns in~major Western~languages ( http://arxiv.org/abs/2212.11182v1 )

ライセンス: Link先を確認
Tomasz Stanisz, Stanislaw Drozdz, Jaroslaw Kwapien(参考訳) 詩は銀であり、沈黙は黄金である」という有名な証明には、長い多国籍の歴史と複数の特定の意味がある。 文中では句読は実際にはその表現の1つと見なすことができる。 実際、効果的に話すことと書くことの長所は、しばしば決定的に、適切に配置された休憩を適用する能力である。 本研究は,7つの主要な西洋言語における世界的および代表的な文学文献のコーパスに基づいて,ほぼすべてのテキストにおける連続句読点間の間隔分布を,いわゆるハザード関数を用いて直感的に解釈できる離散weibull分布の2つのパラメータのみによって普遍的に特徴付けることができることを示した。 しかし、これらの2つのパラメータの値は言語固有の傾向があり、翻訳をナビゲートするように見える。 計算されたハザード関数の性質は、研究された言語のうち、英語が単語列を分割するために連続した句読点を置く必要性によって最小に制約されていることを示している。 これは、他の研究された言語と比較すると、英語はより柔軟であり、単語の長い連続を許容するという意味であることを示唆している。 スペインも同様の傾向を少ししか示さない。

The celebrated proverb that "speech is silver, silence is golden" has a long multinational history and multiple specific meanings. In written texts punctuation can in fact be considered one of its manifestations. Indeed, the virtue of effectively speaking and writing involves - often decisively - the capacity to apply the properly placed breaks. In the present study, based on a large corpus of world-famous and representative literary texts in seven major Western languages, it is shown that the distribution of intervals between consecutive punctuation marks in almost all texts can universally be characterised by only two parameters of the discrete Weibull distribution which can be given an intuitive interpretation in terms of the so-called hazard function. The values of these two parameters tend to be language-specific, however, and even appear to navigate translations. The properties of the computed hazard functions indicate that among the studied languages, English turns out to be the least constrained by the necessity to place a consecutive punctuation mark to partition a sequence of words. This may suggest that when compared to other studied languages, English is more flexible, in the sense of allowing longer uninterrupted sequences of words. Spanish reveals similar tendency to only a bit lesser extent.
翻訳日:2022-12-22 15:23:10 公開日:2022-12-21
# 科学データ圧縮のためのスケーラブルハイブリッド学習技術

Scalable Hybrid Learning Techniques for Scientific Data Compression ( http://arxiv.org/abs/2212.10733v1 )

ライセンス: Link先を確認
Tania Banerjee, Jong Choi, Jaemoon Lee, Qian Gong, Jieyang Chen, Scott Klasky, Anand Rangarajan, Sanjay Ranka(参考訳) 多くの科学アプリケーションは、大量のデータを保存し、科学的な発見のためにこのデータを後処理する必要がある。 一次データにエラーを制限する画像圧縮アルゴリズムやビデオ圧縮アルゴリズムとは異なり、科学者は派生した関心量(qois)を正確に保存する圧縮技術を必要とする。 本稿では,データ圧縮のためのエンドツーエンド,スケーラブルなgpuベースのパイプラインとして実装した,物理に変形した圧縮技術を提案する。 我々のハイブリッド圧縮技術は,機械学習技術と標準圧縮手法を組み合わせたものである。 具体的には、オートエンコーダと、生データエラーの保証を提供するエラーバウンド損失圧縮機と、QoIを最小限のエラー(一般に浮動小数点誤差より小さい)で保存するための制約満足後処理ステップを組み合わせる。 データ圧縮パイプラインの有効性は、大規模な核融合コードであるXGCによって生成された核融合シミュレーションデータを1日で数百テラバイトのデータを生成することで実証される。 我々のアプローチはADIOSフレームワーク内で動作し、データ生成に必要な計算リソースのわずか数パーセントしか必要とせず、150倍の圧縮率で結果が得られます。

Data compression is becoming critical for storing scientific data because many scientific applications need to store large amounts of data and post process this data for scientific discovery. Unlike image and video compression algorithms that limit errors to primary data, scientists require compression techniques that accurately preserve derived quantities of interest (QoIs). This paper presents a physics-informed compression technique implemented as an end-to-end, scalable, GPU-based pipeline for data compression that addresses this requirement. Our hybrid compression technique combines machine learning techniques and standard compression methods. Specifically, we combine an autoencoder, an error-bounded lossy compressor to provide guarantees on raw data error, and a constraint satisfaction post-processing step to preserve the QoIs within a minimal error (generally less than floating point error). The effectiveness of the data compression pipeline is demonstrated by compressing nuclear fusion simulation data generated by a large-scale fusion code, XGC, which produces hundreds of terabytes of data in a single day. Our approach works within the ADIOS framework and results in compression by a factor of more than 150 while requiring only a few percent of the computational resources necessary for generating the data, making the overall approach highly effective for practical scenarios.
翻訳日:2022-12-22 15:22:45 公開日:2022-12-21
# 文脈RLのハイパーパラメータは高次状態である

Hyperparameters in Contextual RL are Highly Situational ( http://arxiv.org/abs/2212.10876v1 )

ライセンス: Link先を確認
Theresa Eimer, Carolin Benjamins, Marius Lindauer(参考訳) 強化学習(Reinforcement Learning, RL)はゲームやシミュレーションで顕著な成果を上げているが, 実世界のRLの応用は環境条件やハイパーパラメータの変化による不安定さに悩まされている。 自動過度パラメータ最適化法(HPO)法で検出されるハイパーパラメータは、その問題だけでなく、状態が環境力学をどの程度うまく記述しているかにも依存していることを示すことで、この不安定性の範囲を初めて印象付ける。 具体的には、環境要因の変化を示す場合、文脈RLのエージェントは異なるハイパーパラメータを必要とすることを示す。 さらに、適切なハイパーパラメータの設定を見つけることは、両方の設定で等しく簡単ではなく、ハイパーパラメータがrlにおける学習と一般化にどのように影響を与えるかの研究の必要性をさらに強調する。

Although Reinforcement Learning (RL) has shown impressive results in games and simulation, real-world application of RL suffers from its instability under changing environment conditions and hyperparameters. We give a first impression of the extent of this instability by showing that the hyperparameters found by automatic hyperparameter optimization (HPO) methods are not only dependent on the problem at hand, but even on how well the state describes the environment dynamics. Specifically, we show that agents in contextual RL require different hyperparameters if they are shown how environmental factors change. In addition, finding adequate hyperparameter configurations is not equally easy for both settings, further highlighting the need for research into how hyperparameters influence learning and generalization in RL.
翻訳日:2022-12-22 15:22:23 公開日:2022-12-21
# 感覚のインターネット: セマンティックコミュニケーションとエッジインテリジェンスによる構築

The Internet of Senses: Building on Semantic Communications and Edge Intelligence ( http://arxiv.org/abs/2212.10748v1 )

ライセンス: Link先を確認
Roghayeh Joda, Medhat Elsayed, Hatem Abou-zeid, Ramy Atawia, Akram Bin Sediq, Gary Boudreau, Melike Erol-Kantarci, Lajos Hanzo(参考訳) インターネット・オブ・センセーズ(IoS)は、すべての人間の「受容者」に対する完全なテレプレゼンススタイルのコミュニケーションを約束しており、仮想環境と実環境の違いを曖昧にしている。 IoSと主要なネットワーク要件によって強化された魅力的なユースケースを強調します。 次に、新たなセマンティックコミュニケーションと人工知能(AI)/機械学習(ML)パラダイムと6G技術が、IoSユースケースの要件を満たす方法について詳しく述べる。 一方、意味のある重要な情報を抽出し、資源を効率的に活用し、IoS要求を満たすために受信側で事前情報を活用するために意味コミュニケーションを適用することができる。 一方、AI/MLは、IoSエッジノードやデバイスで生成される膨大な量のデータを利用し、インテリジェントエージェントを介してIoSのパフォーマンスを最適化することにより、フラガルネットワークリソース管理を容易にする。 しかしながら、エッジに展開されるインテリジェントエージェントは、お互いの決定と環境を完全に認識していないため、完全に観察可能な環境ではなく、部分的に運用されている。 そこで本稿では,IoS のユースケースに必須であるユーザ機器(UE)のスループットとエネルギー消費を改善するための部分観測可能なマルコフ決定プロセス (POMDP) のケーススタディを提案する。 最後に、IoS実装の課題とオープンな課題を概説し、セマンティックコミュニケーション、エッジインテリジェンス、およびIoSコンテキストにおける部分的可観測性に基づく学習を採用する。

The Internet of Senses (IoS) holds the promise of flawless telepresence-style communication for all human `receptors' and therefore blurs the difference of virtual and real environments. We commence by highlighting the compelling use cases empowered by the IoS and also the key network requirements. We then elaborate on how the emerging semantic communications and Artificial Intelligence (AI)/Machine Learning (ML) paradigms along with 6G technologies may satisfy the requirements of IoS use cases. On one hand, semantic communications can be applied for extracting meaningful and significant information and hence efficiently exploit the resources and for harnessing a priori information at the receiver to satisfy IoS requirements. On the other hand, AI/ML facilitates frugal network resource management by making use of the enormous amount of data generated in IoS edge nodes and devices, as well as by optimizing the IoS performance via intelligent agents. However, the intelligent agents deployed at the edge are not completely aware of each others' decisions and the environments of each other, hence they operate in a partially rather than fully observable environment. Therefore, we present a case study of Partially Observable Markov Decision Processes (POMDP) for improving the User Equipment (UE) throughput and energy consumption, as they are imperative for IoS use cases, using Reinforcement Learning for astutely activating and deactivating the component carriers in carrier aggregation. Finally, we outline the challenges and open issues of IoS implementations and employing semantic communications, edge intelligence as well as learning under partial observability in the IoS context.
翻訳日:2022-12-22 15:21:41 公開日:2022-12-21
# 大規模オンラインsnsにおける偽ニュース検出のためのユーザアウェアマルチリレーションのマイニング

Mining User-aware Multi-Relations for Fake News Detection in Large Scale Online Social Networks ( http://arxiv.org/abs/2212.10778v1 )

ライセンス: Link先を確認
Xing Su, Jian Yang, Jia Wu, Yuchen Zhang(参考訳) ユーザーがニュースの作成と伝播に関与することは、オンラインソーシャルネットワークにおける偽ニュース検出の重要な側面である。 直感的には、信頼できるユーザーは信頼できるニュースを共有しやすいが、信頼できないユーザーは信頼できないニュースを広める確率が高い。 本稿では,2層グラフ(すなわちニュース層とユーザ層)を構築し,ソーシャルネットワーク内の複数のニュースとユーザの関係を抽出し,偽ニュースを検出するための豊富な情報を得る。 両層グラフに基づいて,Us-DeFakeという偽ニュース検出モデルを提案する。 ニュース層におけるニュースの伝達機能とユーザ層におけるユーザのインタラクション機能を学ぶ。 グラフの層間を通じて、us-defakeは、信頼性情報を含むユーザ信号をニュース機能に融合させ、フェイクニュース検出のためのニュースのユーザ対応埋め込みを提供する。 トレーニングプロセスは、グラフサンプリング器によって得られた複数の二重層サブグラフに基づいて、大規模ソーシャルネットワーク上でUs-DeFakeをスケールする。 実世界のデータセットに関する広範な実験は、すべてのベースラインを上回るus-defakeの優位性と、インタラクション関係によって学習されたユーザの信頼性信号が、我々のモデルのパフォーマンスを著しく改善することを示している。

Users' involvement in creating and propagating news is a vital aspect of fake news detection in online social networks. Intuitively, credible users are more likely to share trustworthy news, while untrusted users have a higher probability of spreading untrustworthy news. In this paper, we construct a dual-layer graph (i.e., the news layer and the user layer) to extract multiple relations of news and users in social networks to derive rich information for detecting fake news. Based on the dual-layer graph, we propose a fake news detection model named Us-DeFake. It learns the propagation features of news in the news layer and the interaction features of users in the user layer. Through the inter-layer in the graph, Us-DeFake fuses the user signals that contain credibility information into the news features, to provide distinctive user-aware embeddings of news for fake news detection. The training process conducts on multiple dual-layer subgraphs obtained by a graph sampler to scale Us-DeFake in large scale social networks. Extensive experiments on real-world datasets illustrate the superiority of Us-DeFake which outperforms all baselines, and the users' credibility signals learned by interaction relation can notably improve the performance of our model.
翻訳日:2022-12-22 15:21:12 公開日:2022-12-21
# インセンサーとニューロモルフィックコンピューティングは、エネルギー効率の良いコンピュータビジョンに必要なすべてだ

In-Sensor & Neuromorphic Computing are all you need for Energy Efficient Computer Vision ( http://arxiv.org/abs/2212.10881v1 )

ライセンス: Link先を確認
Gourav Datta, Zeyu Liu, Md Abdullah-Al Kaiser, Souvik Kundu, Joe Mathai, Zihan Yin, Ajey P. Jacob, Akhilesh R. Jaiswal, Peter A. Beerel(参考訳) 高価な乗算累積(MAC)の代わりに蓄積量(AC)を高い活性化間隔で利用するため、ニューロモルフィックスパイキングニューラルネットワーク(SNN)は、いくつかのコンピュータビジョン(CV)アプリケーションのために従来のDNNに代わる有望な低消費電力の代替品として登場した。 しかし、既存のほとんどのSNNは、推論精度を許容する複数の時間ステップを必要とし、リアルタイムデプロイメントを妨げ、スパイク活性を増大させ、結果としてエネルギー消費を増大させる。 最近の研究は、時間ステップ数を大幅に削減するために、snnの第1層でアナログピクセル値を直接供給する直接符号化を提案している。 直接符号化された第1層MACのオーバーヘッドは深部SNNでは無視でき、CV処理はSNNでは効率がよいが、画像センサと下流処理の間のデータ転送は、かなりの帯域幅を要し、総エネルギーを支配する可能性がある。 そこで本研究では,画像認識タスクを対象としたSNNのための,センサ内ハードウェア・ソフトウェア協調設計フレームワークを提案する。 提案手法は,従来のCV処理に比べて12-96倍の帯域幅と総エネルギーを2.32倍に削減し,ImageNetの精度は3.8%削減した。

Due to the high activation sparsity and use of accumulates (AC) instead of expensive multiply-and-accumulates (MAC), neuromorphic spiking neural networks (SNNs) have emerged as a promising low-power alternative to traditional DNNs for several computer vision (CV) applications. However, most existing SNNs require multiple time steps for acceptable inference accuracy, hindering real-time deployment and increasing spiking activity and, consequently, energy consumption. Recent works proposed direct encoding that directly feeds the analog pixel values in the first layer of the SNN in order to significantly reduce the number of time steps. Although the overhead for the first layer MACs with direct encoding is negligible for deep SNNs and the CV processing is efficient using SNNs, the data transfer between the image sensors and the downstream processing costs significant bandwidth and may dominate the total energy. To mitigate this concern, we propose an in-sensor computing hardware-software co-design framework for SNNs targeting image recognition tasks. Our approach reduces the bandwidth between sensing and processing by 12-96x and the resulting total energy by 2.32x compared to traditional CV processing, with a 3.8% reduction in accuracy on ImageNet.
翻訳日:2022-12-22 15:15:18 公開日:2022-12-21
# 不確実な知識蒸留によるニューラルラジアンス場のインクリメンタル学習

Incremental Learning for Neural Radiance Field with Uncertainty-Filtered Knowledge Distillation ( http://arxiv.org/abs/2212.10950v1 )

ライセンス: Link先を確認
Mengqi Guo, Chen Li, Gim Hee Lee(参考訳) 最近のneural radiance field(nerf)表現は、新しい視点合成と3次元再構成のタスクで大きな成功を収めている。 しかし、前回のトレーニングデータを再考することなく、ストリーミングデータから継続的に学習する際、破滅的な忘れの問題に悩まされる。 この制限は、画像が順次入ってくるシナリオに既存のNeRFモデルを適用することを禁止している。 そこで本研究では,神経放射場表現における漸進的学習の課題について考察する。 そこで我々はまず,大惨事的忘れの問題を軽減するために,学生と教師のパイプラインを提案する。 具体的には、各段階の最後に生徒を教師として使用するプロセスを反復し、次の段階において教師に生徒の訓練を指導させる。 このようにして、学生ネットワークはストリーミングデータから新しい情報を学び、教師ネットワークから古い知識を同時に保持することができる。 教師ネットワークから得られる全ての情報は、古いデータでのみ訓練されているため役に立たないので、我々はさらに、有用な情報をフィルタリングするためのランダムな問い合わせ器と不確実性に基づくフィルタを導入する。 我々はNeRF-synthetic360とNeRF-real360データセットで実験を行い、PSNRではベースラインの7.3%と25.2%を大きく上回っている。 さらに,PSNRのベースラインを60.0%越える大規模カメラ対外データセットScanNetにも,我々のアプローチが適用可能であることを示す。

Recent neural radiance field (NeRF) representation has achieved great success in the tasks of novel view synthesis and 3D reconstruction. However, they suffer from the catastrophic forgetting problem when continuously learning from streaming data without revisiting the previous training data. This limitation prohibits the application of existing NeRF models to scenarios where images come in sequentially. In view of this, we explore the task of incremental learning for neural radiance field representation in this work. We first propose a student-teacher pipeline to mitigate the catastrophic forgetting problem. Specifically, we iterate the process of using the student as the teacher at the end of each incremental step and let the teacher guide the training of the student in the next step. In this way, the student network is able to learn new information from the streaming data and retain old knowledge from the teacher network simultaneously. Given that not all information from the teacher network is helpful since it is only trained with the old data, we further introduce a random inquirer and an uncertainty-based filter to filter useful information. We conduct experiments on the NeRF-synthetic360 and NeRF-real360 datasets, where our approach significantly outperforms the baselines by 7.3% and 25.2% in terms of PSNR. Furthermore, we also show that our approach can be applied to the large-scale camera facing-outwards dataset ScanNet, where we surpass the baseline by 60.0% in PSNR.
翻訳日:2022-12-22 15:14:52 公開日:2022-12-21
# TruFor: 信頼できる画像偽造検出とローカライゼーションのための全周手がかりを活用する

TruFor: Leveraging all-round clues for trustworthy image forgery detection and localization ( http://arxiv.org/abs/2212.10957v1 )

ライセンス: Link先を確認
Fabrizio Guillaro and Davide Cozzolino and Avneesh Sud and Nicholas Dufour and Luisa Verdoliva(参考訳) 本稿では,従来のチープフェイクから深層学習に基づくより最近の操作まで,多種多様な画像操作法に適用可能な法医学的枠組みであるtruforを提案する。 我々は、RGB画像と学習されたノイズ感度指紋を組み合わせたトランスフォーマーベースの融合アーキテクチャにより、高レベルのトレースと低レベルのトレースの両方を抽出する。 後者は、実際のデータのみを自己管理的にトレーニングすることで、カメラの内部および外部処理に関連するアーティファクトを埋め込むことを学ぶ。 ファジトリーは、各プリスタンイメージを特徴付ける期待される正規パターンから逸脱として検出される。 異常を探すことで、さまざまなローカル操作を堅牢に検出し、一般化を確実にすることができる。 画素レベルのローカライゼーションマップと全画像整合性スコアに加えて,本手法では,ローカライズ予測がエラーを起こしやすい領域をハイライトする信頼性マップを出力する。 これは、誤報を減らし、大規模な分析を可能にするために、法医学的な応用において特に重要である。 いくつかのデータセットに対する大規模な実験により、我々の手法は、安価なフェイクとディープフェイク操作の両方を確実に検出し、ローカライズすることができ、最先端の作業より優れていることが示されている。 コードはhttps://grip-unina.github.io/TruFor/で公開される。

In this paper we present TruFor, a forensic framework that can be applied to a large variety of image manipulation methods, from classic cheapfakes to more recent manipulations based on deep learning. We rely on the extraction of both high-level and low-level traces through a transformer-based fusion architecture that combines the RGB image and a learned noise-sensitive fingerprint. The latter learns to embed the artifacts related to the camera internal and external processing by training only on real data in a self-supervised manner. Forgeries are detected as deviations from the expected regular pattern that characterizes each pristine image. Looking for anomalies makes the approach able to robustly detect a variety of local manipulations, ensuring generalization. In addition to a pixel-level localization map and a whole-image integrity score, our approach outputs a reliability map that highlights areas where localization predictions may be error-prone. This is particularly important in forensic applications in order to reduce false alarms and allow for a large scale analysis. Extensive experiments on several datasets show that our method is able to reliably detect and localize both cheapfakes and deepfakes manipulations outperforming state-of-the-art works. Code will be publicly available at https://grip-unina.github.io/TruFor/
翻訳日:2022-12-22 15:14:30 公開日:2022-12-21
# 行動認識のための深部設定条件付き潜時表現

Deep set conditioned latent representations for action recognition ( http://arxiv.org/abs/2212.11030v1 )

ライセンス: Link先を確認
Akash Singh, Tom De Schepper, Kevin Mets, Peter Hellinckx, Jose Oramas, Steven Latre(参考訳) 近年,マルチレーベルのマルチクラス映像認識が注目されている。 時間的結合された原子の作用を推論することは知的種にとってありふれたことだが、標準的な人工ニューラルネットワーク(ann)は分類に苦慮している。 現実世界では、原子の作用はしばしば時間的に結合し、より複雑な複合作用を形成する。 課題は、様々な期間の複合作用を認識することにあるが、他の異なる複合作用や原子作用はバックグラウンドで起こる。 本稿では,リレーショナルネットワークの成功に基づいて,オブジェクトとアクションの意味論的概念を推論する手法を提案する。 我々は, ann の事前学習,関係帰納バイアス,非順序集合に基づく潜在表現の利点を実証的に示す。 本稿では,イベントやアクションを推論するために,状態の潜在表現と視覚的表現を用いる2ストリーム関係ネットワークであるdeep set conditioned i3d (sci3d)を提案する。 彼らは、ビデオの中でそれらすべてを識別するために、時間的に繋がるアクションについて推論することを学ぶ。 提案手法は,CATERデータセット上のI3D-NLベースラインよりも,原子行動認識における約1.49% mAP,複合行動認識における17.57% mAPの改善を実現する。

In recent years multi-label, multi-class video action recognition has gained significant popularity. While reasoning over temporally connected atomic actions is mundane for intelligent species, standard artificial neural networks (ANN) still struggle to classify them. In the real world, atomic actions often temporally connect to form more complex composite actions. The challenge lies in recognising composite action of varying durations while other distinct composite or atomic actions occur in the background. Drawing upon the success of relational networks, we propose methods that learn to reason over the semantic concept of objects and actions. We empirically show how ANNs benefit from pretraining, relational inductive biases and unordered set-based latent representations. In this paper we propose deep set conditioned I3D (SCI3D), a two stream relational network that employs latent representation of state and visual representation for reasoning over events and actions. They learn to reason about temporally connected actions in order to identify all of them in the video. The proposed method achieves an improvement of around 1.49% mAP in atomic action recognition and 17.57% mAP in composite action recognition, over a I3D-NL baseline, on the CATER dataset.
翻訳日:2022-12-22 15:14:06 公開日:2022-12-21
# Hi-LASSIE:スパース・イメージ・アンサンブルによる高密度人工形状と骨格発見

Hi-LASSIE: High-Fidelity Articulated Shape and Skeleton Discovery from Sparse Image Ensemble ( http://arxiv.org/abs/2212.11042v1 )

ライセンス: Link先を確認
Chun-Han Yao, Wei-Chih Hung, Yuanzhen Li, Michael Rubinstein, Ming-Hsuan Yang, Varun Jampani(参考訳) 3dスケルトン、形状、カメラの視点、部分の明瞭度を自動的に推定することは、厳密で困難な問題である。 従来の手法では、大規模な画像データセット、密接な時間対応、カメラポーズ、2dキーポイント、形状テンプレートなどの人間のアノテーションに依存する。 ユーザが定義した形状や骨格のテンプレートを使わずに,野生の20~30のオンライン画像のみを3Dで再現するHi-LASSIEを提案する。 我々はlassieの最近の作業に従い、同様の問題に取り組み、2つの大きな進歩を遂げている。 まず,手動でアノテートした3Dスケルトンに頼る代わりに,選択した基準画像からクラス固有のスケルトンを自動的に推定する。 第2に,すべての画像で学習されるクラス固有の優先度を維持しつつ,各インスタンスに適合する新たなインスタンス固有の最適化戦略により,形状復元を改善する。 Hi-LASSIEは最小限のユーザ入力を必要とせず,高品質な3D再構成を実現する。

Automatically estimating 3D skeleton, shape, camera viewpoints, and part articulation from sparse in-the-wild image ensembles is a severely under-constrained and challenging problem. Most prior methods rely on large-scale image datasets, dense temporal correspondence, or human annotations like camera pose, 2D keypoints, and shape templates. We propose Hi-LASSIE, which performs 3D articulated reconstruction from only 20-30 online images in the wild without any user-defined shape or skeleton templates. We follow the recent work of LASSIE that tackles a similar problem setting and make two significant advances. First, instead of relying on a manually annotated 3D skeleton, we automatically estimate a class-specific skeleton from the selected reference image. Second, we improve the shape reconstructions with novel instance-specific optimization strategies that allow reconstructions to faithful fit on each instance while preserving the class-specific priors learned across all images. Experiments on in-the-wild image ensembles show that Hi-LASSIE obtains higher quality state-of-the-art 3D reconstructions despite requiring minimum user input.
翻訳日:2022-12-22 15:13:31 公開日:2022-12-21
# 蒸留効率向上のための内容関係の探索

Exploring Content Relationships for Distilling Efficient GANs ( http://arxiv.org/abs/2212.11091v1 )

ライセンス: Link先を確認
Lizhou You, Mingbao Lin, Tie Hu, Fei Chao, Rongrong Ji(参考訳) 本稿では, 最先端デバイスにおいて, 過度にパラメータ化された生成逆数ネットワーク(GAN)に対処するためのコンテンツ関係蒸留(CRD)を提案する。 従来のインスタンスレベルの蒸留とは対照的に,教師出力の内容を,行/カラムストリップ(グローバル情報)やイメージパッチ(ローカル情報)などの細粒度にスライスし,ペアワイズ距離やトリプルトワイズ角度などのそれらの関係をモデル化し,その出力内容内でこれらの関係を捉えるように学生に促すことで,gan圧縮指向の新たな知識を設計する。 提案した内容レベルの蒸留をベースとして,オンライン教師識別器を配置し,教師生成器との共同訓練時の更新を継続し,学生生成器との共同訓練時の凍結を防止し,より良い対人訓練を行う。 我々は3つのベンチマークデータセットに対して広範な実験を行い、その結果、既存の手法と比較して最高の性能を得られる一方で、我々のCRDはGANにおいて最も複雑性の低い値に達することを示した。 例えば、CycleGANのMACを約40倍、パラメータを80倍に減らし、現状の51.92と比較して46.61 FIDを得る。 このプロジェクトのコードはhttps://github.com/thekernelz/crdで入手できる。

This paper proposes a content relationship distillation (CRD) to tackle the over-parameterized generative adversarial networks (GANs) for the serviceability in cutting-edge devices. In contrast to traditional instance-level distillation, we design a novel GAN compression oriented knowledge by slicing the contents of teacher outputs into multiple fine-grained granularities, such as row/column strips (global information) and image patches (local information), modeling the relationships among them, such as pairwise distance and triplet-wise angle, and encouraging the student to capture these relationships within its output contents. Built upon our proposed content-level distillation, we also deploy an online teacher discriminator, which keeps updating when co-trained with the teacher generator and keeps freezing when co-trained with the student generator for better adversarial training. We perform extensive experiments on three benchmark datasets, the results of which show that our CRD reaches the most complexity reduction on GANs while obtaining the best performance in comparison with existing methods. For example, we reduce MACs of CycleGAN by around 40x and parameters by over 80x, meanwhile, 46.61 FIDs are obtained compared with these of 51.92 for the current state-of-the-art. Code of this project is available at https://github.com/TheKernelZ/CRD.
翻訳日:2022-12-22 15:12:43 公開日:2022-12-21
# 視覚変換器の優れたトケナイザには何をもたらすのか?

What Makes for Good Tokenizers in Vision Transformer? ( http://arxiv.org/abs/2212.11115v1 )

ライセンス: Link先を確認
Shengju Qian, Yi Zhu, Wenbo Li, Mu Li, Jiaya Jia(参考訳) 最近、視覚タスクの爆発的な応用を目撃したトランスフォーマーのアーキテクチャは、広く普及している畳み込みパラダイムに逆らっている。 入力を複数のトークンに分割するトークン化プロセスに基づいて、トランスフォーマーは自己注意を用いてペア関係を抽出することができる。 トランスのスムーズなビルディングブロックであるにもかかわらず、優れたトークン化剤となるものはコンピュータビジョンではよく理解されていない。 本研究では,情報トレードオフの観点から,この未知の問題について検討する。 既存の構造的変更の統一と理解に加えて、私たちの導出は視覚トークン化器の設計戦略の改善につながります。 The proposed Modulation across Tokens (MoTo) includes a inter-token modeling capabilities through normalization。 さらに、正規化目的tokenpropを標準訓練体制で採用する。 様々なトランスフォーマーアーキテクチャに関する広範な実験を通じて,これら2つのプラグ・アンド・プレイ設計の性能向上と興味をそそる性質の両方を観察した。 これらの観察は、視覚変換器における一般的に省略されたトークン化器の設計の重要性をさらに示している。

The architecture of transformers, which recently witness booming applications in vision tasks, has pivoted against the widespread convolutional paradigm. Relying on the tokenization process that splits inputs into multiple tokens, transformers are capable of extracting their pairwise relationships using self-attention. While being the stemming building block of transformers, what makes for a good tokenizer has not been well understood in computer vision. In this work, we investigate this uncharted problem from an information trade-off perspective. In addition to unifying and understanding existing structural modifications, our derivation leads to better design strategies for vision tokenizers. The proposed Modulation across Tokens (MoTo) incorporates inter-token modeling capability through normalization. Furthermore, a regularization objective TokenProp is embraced in the standard training regime. Through extensive experiments on various transformer architectures, we observe both improved performance and intriguing properties of these two plug-and-play designs with negligible computational overhead. These observations further indicate the importance of the commonly-omitted designs of tokenizers in vision transformer.
翻訳日:2022-12-22 15:12:19 公開日:2022-12-21
# 異常検出のための連続学習手法

Continual Learning Approaches for Anomaly Detection ( http://arxiv.org/abs/2212.11192v1 )

ライセンス: Link先を確認
Davide Dalle Pezze, Eugenia Anello, Chiara Masiero, Gian Antonio Susto(参考訳) 異常検出は、多くの現実のアプリケーション、特に画像を扱う場合に発生する、関連する問題である。 しかし,継続的な学習環境において,この課題についてはほとんど研究されていない。 本研究では,SCALing is Enough(SCALing is Enough)と呼ばれる新しい手法を導入し,連続学習環境における異常検出のためのフレームワークで圧縮再生を行う。 提案手法は,我々の知識を最大限に活用し,連続学習環境で初めて研究するスーパーレゾリューションモデルを用いて,原画像のスケールと圧縮を行う。 SCALEは高いレベルの画像再構成品質を維持しながら高いレベルの圧縮を実現することができる。 他の異常検出手法と組み合わせることで、最適な結果が得られる。 提案手法を検証するために,画素ベースの異常を持つ画像の実世界データセットを用いて,連続学習の文脈における異常検出のための信頼性の高いベンチマークを提供し,この分野のさらなる発展の基盤となる。

Anomaly Detection is a relevant problem that arises in numerous real-world applications, especially when dealing with images. However, there has been little research for this task in the Continual Learning setting. In this work, we introduce a novel approach called SCALE (SCALing is Enough) to perform Compressed Replay in a framework for Anomaly Detection in Continual Learning setting. The proposed technique scales and compresses the original images using a Super Resolution model which, to the best of our knowledge, is studied for the first time in the Continual Learning setting. SCALE can achieve a high level of compression while maintaining a high level of image reconstruction quality. In conjunction with other Anomaly Detection approaches, it can achieve optimal results. To validate the proposed approach, we use a real-world dataset of images with pixel-based anomalies, with the scope to provide a reliable benchmark for Anomaly Detection in the context of Continual Learning, serving as a foundation for further advancements in the field.
翻訳日:2022-12-22 15:12:04 公開日:2022-12-21
# 半監督学習を用いた土地被覆・土地利用検知

Land Cover and Land Use Detection using Semi-Supervised Learning ( http://arxiv.org/abs/2212.11211v1 )

ライセンス: Link先を確認
Fahmida Tasnim Lisa, Md. Zarif Hossain, Sharmin Naj Mou, Shahriar Ivan, and Md. Hasanul Kabir (Islamic University of Technology, Gazipur, Bangladesh)(参考訳) 半教師付き学習(SSL)はリモートセンシングの分野で大きな進歩を遂げている。 SSLメソッド用の多数のラベル付きデータセットを見つけることは珍しく、手動でデータセットをラベル付けするのは高価で時間がかかる。 さらに、リモートセンシング衛星画像の正確な識別は、従来の画像よりも複雑である。 クラス不均衡データセットもまた一般的な現象であり、トレーニングされたモデルは多数派に偏っている。 これはSSLモデルのサブパーパフォーマンスにおいて重要な問題となる。 ラベルなしデータのラベル付けの問題に対処し,不均衡データセットによるモデルバイアス問題にも対処し,精度の向上を目指す。 これを実現するために、私たちは"人工"ラベルを作成し、適切な精度でモデルをトレーニングします。 分布アライメント手法を用いて,再サンプリングによって繰り返しクラスを再編成する。 我々は、eurosat、umm、whu-rs19など、様々なクラス不均衡衛星画像データセットを使用している。 ucmバランスデータセットでは,従来のmsmatch法とfixmatch法をそれぞれ1.21%,0.6%上回っている。 不均衡なEuroSATでは,MSMatchとFixMatchをそれぞれ1.08%,FixMatchを1%向上させた。 我々のアプローチはラベル付きデータの要求を大幅に減らし、代替手法を一貫して上回り、データセットのクラス不均衡に起因するモデルバイアスの問題を解決する。

Semi-supervised learning (SSL) has made significant strides in the field of remote sensing. Finding a large number of labeled datasets for SSL methods is uncommon, and manually labeling datasets is expensive and time-consuming. Furthermore, accurately identifying remote sensing satellite images is more complicated than it is for conventional images. Class-imbalanced datasets are another prevalent phenomenon, and models trained on these become biased towards the majority classes. This becomes a critical issue with an SSL model's subpar performance. We aim to address the issue of labeling unlabeled data and also solve the model bias problem due to imbalanced datasets while achieving better accuracy. To accomplish this, we create "artificial" labels and train a model to have reasonable accuracy. We iteratively redistribute the classes through resampling using a distribution alignment technique. We use a variety of class imbalanced satellite image datasets: EuroSAT, UCM, and WHU-RS19. On UCM balanced dataset, our method outperforms previous methods MSMatch and FixMatch by 1.21% and 0.6%, respectively. For imbalanced EuroSAT, our method outperforms MSMatch and FixMatch by 1.08% and 1%, respectively. Our approach significantly lessens the requirement for labeled data, consistently outperforms alternative approaches, and resolves the issue of model bias caused by class imbalance in datasets.
翻訳日:2022-12-22 15:11:50 公開日:2022-12-21
# housecat6d -- 現実的なシナリオで家庭用オブジェクトを使った大規模マルチモーダルカテゴリレベル6dオブジェクトポーズデータセット

HouseCat6D -- A Large-Scale Multi-Modal Category Level 6D Object Pose Dataset with Household Objects in Realistic Scenarios ( http://arxiv.org/abs/2212.10428v2 )

ライセンス: Link先を確認
HyunJun Jung, Shun-Cheng Wu, Patrick Ruhkamp, Hannah Schieber, Pengyuan Wang, Giulia Rizzoli, Hongcheng Zhao, Sven Damian Meier, Daniel Roth, Nassir Navab, Benjamin Busam(参考訳) 物体の6dポーズの推定は、3dコンピュータビジョンの主要な分野の1つである。 インスタンスレベルのポーズ推定による有望な結果から、研究トレンドはより実用的なアプリケーションシナリオのためのカテゴリレベルのポーズ推定に向かっている。 しかし、よく確立されたインスタンスレベルのポーズデータセットとは異なり、利用可能なカテゴリレベルのデータセットはアノテーションの品質やポーズ量に欠ける。 新しいカテゴリーレベルの6DポーズデータセットHouseCat6Dを提案する。 1)ポラリメトリックrgb+pと深さのマルチモーダリティ 2)2つのフォトメトリックに挑戦するカテゴリを含む10の家庭用オブジェクトカテゴリの高度に多様な194のオブジェクト。 3) エラー範囲がわずか1.35mmから1.74mmの高品質ポーズアノテーション 4)広範囲にわたる大規模場面41件。 5)全シーンのチェッカーボードフリー環境。 また,最先端のカテゴリレベルのポーズ推定ネットワークのベンチマーク結果も提供する。

Estimating the 6D pose of objects is one of the major fields in 3D computer vision. Since the promising outcomes from instance-level pose estimation, the research trends are heading towards category-level pose estimation for more practical application scenarios. However, unlike well-established instance-level pose datasets, available category-level datasets lack annotation quality and provided pose quantity. We propose the new category level 6D pose dataset HouseCat6D featuring 1) Multi-modality of Polarimetric RGB+P and Depth, 2) Highly diverse 194 objects of 10 household object categories including 2 photometrically challenging categories, 3) High-quality pose annotation with an error range of only 1.35 mm to 1.74 mm, 4) 41 large scale scenes with extensive viewpoint coverage, 5) Checkerboard-free environment throughout the entire scene. We also provide benchmark results of state-of-the-art category-level pose estimation networks.
翻訳日:2022-12-22 15:06:26 公開日:2022-12-21
# SLGTformer:手話認識のための注意に基づくアプローチ

SLGTformer: An Attention-Based Approach to Sign Language Recognition ( http://arxiv.org/abs/2212.10746v1 )

ライセンス: Link先を確認
Neil Song(参考訳) 手話は聴覚障がい者やミュート人のコミュニケーションの手段として好まれるが、どんな言語と同様、習得が困難であり、難聴者や話すことができない者にとって重要な障壁である。 人の正面の外観全体が特定の意味を指示し、伝達する。 しかし、この正面の外観は人体ポーズの時間的シーケンスとして定量化することができ、骨格キーポイントの時空間ダイナミクスの学習を通じて手話認識につながる。 手話グラフ時間変換器(slgtformer, sign language graph time transformer, slgtformer, slgtformer, slgtformer) を用いて,手話認識のための新しいアプローチを提案する。 SLGTformerは空間グラフと時間ウィンドウに分割して時空間ポーズシーケンスを分解する。 SLGTformerは、新しいLearnerable Graph Relative Positional Encodings(LGRPE)を利用して、人間の骨格のグラフ近傍コンテキストで空間的自己注意を導く。 時間次元をウィンドウ内およびウィンドウ間ダイナミクスとしてモデル化することにより,局所群時間的注意 (lta) と大域的サブサンプリング時間的注意 (gsta) の組み合わせとして時間的双対自己着 (ttsa) を導入する。 WLASLデータセットにおけるSLGTformerの有効性を実演し、キーポイントのモダリティに対するアンサンブルのないアプローチで最先端のパフォーマンスを実現する。

Sign language is the preferred method of communication of deaf or mute people, but similar to any language, it is difficult to learn and represents a significant barrier for those who are hard of hearing or unable to speak. A person's entire frontal appearance dictates and conveys specific meaning. However, this frontal appearance can be quantified as a temporal sequence of human body pose, leading to Sign Language Recognition through the learning of spatiotemporal dynamics of skeleton keypoints. I propose a novel, attention-based approach to Sign Language Recognition exclusively built upon decoupled graph and temporal self-attention: the Sign Language Graph Time Transformer (SLGTformer). SLGTformer first deconstructs spatiotemporal pose sequences separately into spatial graphs and temporal windows. SLGTformer then leverages novel Learnable Graph Relative Positional Encodings (LGRPE) to guide spatial self-attention with the graph neighborhood context of the human skeleton. By modeling the temporal dimension as intra- and inter-window dynamics, I introduce Temporal Twin Self-Attention (TTSA) as the combination of locally-grouped temporal attention (LTA) and global sub-sampled temporal attention (GSTA). I demonstrate the effectiveness of SLGTformer on the World-Level American Sign Language (WLASL) dataset, achieving state-of-the-art performance with an ensemble-free approach on the keypoint modality.
翻訳日:2022-12-22 15:05:05 公開日:2022-12-21
# ラベルノイズ学習のためのクラスプロトタイプベースクリーナー

Class Prototype-based Cleaner for Label Noise Learning ( http://arxiv.org/abs/2212.10766v1 )

ライセンス: Link先を確認
Jingjia Huang, Yuanqi Chen, Jiashi Feng, Xinglong Wu(参考訳) 半教師付き学習に基づく手法は、教師なしラベルクリーナーを学習してトレーニングサンプルをラベル付きデータセットに分割し、クリーンデータとラベルなしのノイズデータに分割するノイズラベル学習問題に対する現在のSOTAソリューションである。 通常、クリーナは、サンプル毎のトレーニング損失の分布に混合モデルを適用することによって得られる。 しかし、モデリング手順は \emph{class agnostic} であり、クリーンサンプルとノイズサンプルの損失分布は異なるクラスで同じであると仮定する。 残念なことに、実際には、このような仮定は常に異なるクラスの学習困難さのために保持されないため、最適なラベルノイズ分割基準が導かれる。 本研究では,この長く無視された問題を解明し,単純かつ効果的な解法である \textbf{c}lass \textbf{p}rototype-based label noise \textbf{c}leaner (\textbf{cpc})を提案する。 全てのクラスを等しく扱う以前の作品とは異なり、cpcは損失分布の不均一性を完全に考慮し、クリーンとノイズデータを分割するためにクラスアウェア変調を適用する。 CPCは、損失分布モデリングと特徴空間におけるクラス内整合性正規化を同時に利用することにより、クリーンおよびノイズラベルをよりよく識別することができる。 予測最大化(EM)フレームワークから,提案手法の有効性を理論的に正当化する。 CIFAR-10, CIFAR-100, Clothing1M および WebVision を用いて, 広範に実験を行った。 結果は、CPCがすべてのベンチマークで一貫してパフォーマンス改善をもたらすことを示している。 コードと事前トレーニングされたモデルは \url{https://github.com/hjjpku/cpc.git} でリリースされる。

Semi-supervised learning based methods are current SOTA solutions to the noisy-label learning problem, which rely on learning an unsupervised label cleaner first to divide the training samples into a labeled set for clean data and an unlabeled set for noise data. Typically, the cleaner is obtained via fitting a mixture model to the distribution of per-sample training losses. However, the modeling procedure is \emph{class agnostic} and assumes the loss distributions of clean and noise samples are the same across different classes. Unfortunately, in practice, such an assumption does not always hold due to the varying learning difficulty of different classes, thus leading to sub-optimal label noise partition criteria. In this work, we reveal this long-ignored problem and propose a simple yet effective solution, named \textbf{C}lass \textbf{P}rototype-based label noise \textbf{C}leaner (\textbf{CPC}). Unlike previous works treating all the classes equally, CPC fully considers loss distribution heterogeneity and applies class-aware modulation to partition the clean and noise data. CPC takes advantage of loss distribution modeling and intra-class consistency regularization in feature space simultaneously and thus can better distinguish clean and noise labels. We theoretically justify the effectiveness of our method by explaining it from the Expectation-Maximization (EM) framework. Extensive experiments are conducted on the noisy-label benchmarks CIFAR-10, CIFAR-100, Clothing1M and WebVision. The results show that CPC consistently brings about performance improvement across all benchmarks. Codes and pre-trained models will be released at \url{https://github.com/hjjpku/CPC.git}.
翻訳日:2022-12-22 15:04:39 公開日:2022-12-21
# 低照度画像とビデオの強化: 総合的な調査とその先

Low-Light Image and Video Enhancement: A Comprehensive Survey and Beyond ( http://arxiv.org/abs/2212.10772v1 )

ライセンス: Link先を確認
Shen Zheng, Yiling Ma, Jinqian Pan, Changjie Lu, Gaurav Gupta(参考訳) 本稿では,低光度画像と映像エンハンスメントの包括的調査を行う。 既存の手法では性能の低い混合/アンダー露画像から始める。 そこで本研究では,SICE_GradとSICE_Mixという2種類のSICEデータセットを提案する。 次に,低光度映像エンハンスメント(llie)の使用を割引する低光度映像データセットの欠如問題に対処するために,大規模で高解像度な映像データセットであるnight wenzhouを紹介する。 Night Wenzhouデータセットは、高速で動く空中シーンと、様々な照明と劣化を伴う街並みで構成されているため、難しい。 新たに提案したデータセットと現在のベンチマークデータセットを用いて,LLIEの代表的アプローチに対する広範囲な鍵技術解析と実験比較を行う。 最後に,未解決問題に対処し,LLIEコミュニティに向けた今後の研究課題を提案する。

This paper presents a comprehensive survey of low-light image and video enhancement. We begin with the challenging mixed over-/under-exposed images, which are under-performed by existing methods. To this end, we propose two variants of the SICE dataset named SICE_Grad and SICE_Mix. Next, we introduce Night Wenzhou, a large-scale, high-resolution video dataset, to address the issue of the lack of a low-light video dataset that discount the use of low-light image enhancement (LLIE) to videos. The Night Wenzhou dataset is challenging since it consists of fast-moving aerial scenes and streetscapes with varying illuminations and degradation. We conduct extensive key technique analysis and experimental comparisons for representative LLIE approaches using these newly proposed datasets and the current benchmark datasets. Finally, we address unresolved issues and propose future research topics for the LLIE community.
翻訳日:2022-12-22 15:04:06 公開日:2022-12-21
# K-way Disjoint Maskingを用いた一貫性正規化による単眼深度推定の半教師付き学習

Semi-Supervised Learning of Monocular Depth Estimation via Consistency Regularization with K-way Disjoint Masking ( http://arxiv.org/abs/2212.10806v1 )

ライセンス: Link先を確認
Jongbeom Baek, Gyeongnyeon Kim, Seonghoon Park, Honggyu An, Matteo Poggi, Seungryong Kim(参考訳) Semi-Supervised Learning (SSL)は、画像分類、オブジェクト検出、セマンティックセグメンテーションなど様々な分野で成功している。 特に、奥行き推定タスクでは、トレーニングデータのアノテートは非常に費用がかかり、時間を要するため、最近のsslレジームは魅力的なソリューションに思える。 本稿では,本論文で初めて,単眼深度推定ネットワークの半教師付き学習のための新しい枠組みを提案する。 そこで我々は,K-way disjoint masking と呼ばれる新しいデータ拡張手法を提案する。この手法により,モデルは摂動に頑健になるだけでなく,一貫した出力深度マップを生成することができる。 KITTIとNYU-Depth-v2データセットの実験は、パイプライン内の各コンポーネントの有効性、注釈付き画像の使用に対する堅牢性、そして、他の最先端の半教師付き単眼深度推定法よりも優れた結果を示している。 私たちのコードはhttps://github.com/KU-CVLAB/MaskingDepth.comで入手可能です。

Semi-Supervised Learning (SSL) has recently accomplished successful achievements in various fields such as image classification, object detection, and semantic segmentation, which typically require a lot of labour to construct ground-truth. Especially in the depth estimation task, annotating training data is very costly and time-consuming, and thus recent SSL regime seems an attractive solution. In this paper, for the first time, we introduce a novel framework for semi-supervised learning of monocular depth estimation networks, using consistency regularization to mitigate the reliance on large ground-truth depth data. We propose a novel data augmentation approach, called K-way disjoint masking, which allows the network for learning how to reconstruct invisible regions so that the model not only becomes robust to perturbations but also generates globally consistent output depth maps. Experiments on the KITTI and NYU-Depth-v2 datasets demonstrate the effectiveness of each component in our pipeline, robustness to the use of fewer and fewer annotated images, and superior results compared to other state-of-the-art, semi-supervised methods for monocular depth estimation. Our code is available at https://github.com/KU-CVLAB/MaskingDepth.
翻訳日:2022-12-22 15:03:52 公開日:2022-12-21
# プロキシバイオメトリックスのセキュリティとプライバシ保護

Secure and Privacy Preserving Proxy Biometrics Identities ( http://arxiv.org/abs/2212.10812v1 )

ライセンス: Link先を確認
Harkeerat Kaur, Rishabh Shukla, Isao Echizen and Pritee Khanna(参考訳) バイオメトリックベースのアプリケーションへの大規模な適応では、バイオメトリックスのセキュリティとプライバシが特に教師なしのオンラインモードでの運用において重要である。 この研究は、自然に見え、非可逆的で、取り消し可能で、プライバシーを保護できるプロキシ指紋と呼ばれる新しい人工指紋を生成する新しいアプローチを提案する。 これらのプロキシバイオメトリックスは、ユーザ固有のキーの助けを借りてのみ、オリジナルのものから生成される。 元の指紋を使う代わりに、プロキシテンプレートは同じ便利さでどこでも使うことができる。 写本は、異なるタイプのプロキシ指紋を生成できる興味深い方法と、それらを使用固有のキーと組み合わせて、妥協した場合の無効性とキャンセル性を提供する方法を示している。 提案手法を使用すると、Anguli指紋データベースに属するサンプルからプロキシデータセットが生成される。 マッチング実験はオリジナルより5倍大きい新しいセットで行われ、盗まれたキーの安全なキーシナリオにおいて、その性能は0 FARと0 FRRと同等であることが判明した。 再現性と多様性に関する他のパラメータも、保護性能のために分析される。

With large-scale adaption to biometric based applications, security and privacy of biometrics is utmost important especially when operating in unsupervised online mode. This work proposes a novel approach for generating new artificial fingerprints also called proxy fingerprints that are natural looking, non-invertible, revocable and privacy preserving. These proxy biometrics can be generated from original ones only with the help of a user-specific key. Instead of using the original fingerprint, these proxy templates can be used anywhere with same convenience. The manuscripts walks through an interesting way in which proxy fingerprints of different types can be generated and how they can be combined with use-specific keys to provide revocability and cancelability in case of compromise. Using the proposed approach a proxy dataset is generated from samples belonging to Anguli fingerprint database. Matching experiments were performed on the new set which is 5 times larger than the original, and it was found that their performance is at par with 0 FAR and 0 FRR in the stolen key, safe key scenarios. Other parameters on revocability and diversity are also analyzed for protection performance.
翻訳日:2022-12-22 15:03:30 公開日:2022-12-21
# MoQuad:ビデオコントラスト学習のための4重構造

MoQuad: Motion-focused Quadruple Construction for Video Contrastive Learning ( http://arxiv.org/abs/2212.10870v1 )

ライセンス: Link先を確認
Yuan Liu, Jiacheng Chen, Hao Wu(参考訳) 効果的な動作特徴の学習は、ビデオ表現学習の必須の追求である。 本稿では,ビデオコントラスト学習における動作特徴の学習を促進するための,シンプルで効果的なサンプル構築戦略を提案する。 提案手法はMoQuad (Mo- Focus Quadruple Construction) と呼ばれ, 正と負の両方のサンプルの出現と動きを巧みに妨害することにより, インスタンス識別を強化し, モデルが動き情報を利用するように, ビデオインスタンス毎に四重極を生成する。 動作特徴の学習や明示的な時間モデリングのための補助タスクを作成する最近のアプローチとは異なり、本手法はマルチタスク学習や余分なモデリングを必要とせず、シンプルでクリーンなコントラスト学習パラダイム(すなわちsimclr)を維持している。 さらに,初期MoQuad実験を解析し,2つの追加トレーニング戦略を設計する。 単にMoQuadをSimCLRに適用することで、ダウンストリームタスクにおいて、最先端のアートよりも優れたパフォーマンスが得られることを示す。 特に、UCF-101行動認識タスクでは、Kinetics-400のモデルを200エポックで事前訓練した後、93.7%の精度を達成する。

Learning effective motion features is an essential pursuit of video representation learning. This paper presents a simple yet effective sample construction strategy to boost the learning of motion features in video contrastive learning. The proposed method, dubbed Motion-focused Quadruple Construction (MoQuad), augments the instance discrimination by meticulously disturbing the appearance and motion of both the positive and negative samples to create a quadruple for each video instance, such that the model is encouraged to exploit motion information. Unlike recent approaches that create extra auxiliary tasks for learning motion features or apply explicit temporal modelling, our method keeps the simple and clean contrastive learning paradigm (i.e.,SimCLR) without multi-task learning or extra modelling. In addition, we design two extra training strategies by analyzing initial MoQuad experiments. By simply applying MoQuad to SimCLR, extensive experiments show that we achieve superior performance on downstream tasks compared to the state of the arts. Notably, on the UCF-101 action recognition task, we achieve 93.7% accuracy after pre-training the model on Kinetics-400 for only 200 epochs, surpassing various previous methods
翻訳日:2022-12-22 15:03:11 公開日:2022-12-21
# エンティティ選択のための間接参照表現の解決

Resolving Indirect Referring Expressions for Entity Selection ( http://arxiv.org/abs/2212.10933v1 )

ライセンス: Link先を確認
Mohammad Javad Hosseini, Filip Radlinski, Silvia Pareti, Annie Louis(参考訳) 言語モデリングの最近の進歩は、新しい会話システムを可能にした。 特に、そのようなシステムを使用する場合、特定の選択肢の中から選択することが望ましい場合が多い。 我々は、人々が自然表現を使って現実世界のエンティティを選択するとき、参照解決の問題を解決する。 例えば、"should we make a simnel cake or a pandan cake?"という選択をすると、非専門家からの自然な反応は間接的に "let's make the green one" となる。 参照分解能は自然表現ではほとんど研究されておらず、そのような言語がダイアログやレコメンデーション、検索システムにおいて自然性を改善する大きな可能性を強く理解している。 私たちは、エンティティペアと発話の新しいパブリックデータセットであるAltEntities(Alternative Entities)を作成し、曖昧な問題のためのモデルを開発します。 3つのドメインにまたがって42Kの間接的な参照表現を持ち、このタスクにいかに大きな言語モデルが適応できるかを初めて研究することができる。 現実的な設定では82%-87%の精度を実現しています。

Recent advances in language modeling have enabled new conversational systems. In particular, it is often desirable for people to make choices among specified options when using such systems. We address the problem of reference resolution, when people use natural expressions to choose between real world entities. For example, given the choice `Should we make a Simnel cake or a Pandan cake?' a natural response from a non-expert may be indirect: `let's make the green one'. Reference resolution has been little studied with natural expressions, thus robustly understanding such language has large potential for improving naturalness in dialog, recommendation, and search systems. We create AltEntities (Alternative Entities), a new public dataset of entity pairs and utterances, and develop models for the disambiguation problem. Consisting of 42K indirect referring expressions across three domains, it enables for the first time the study of how large language models can be adapted to this task. We find they achieve 82%-87% accuracy in realistic settings, which while reasonable also invites further advances.
翻訳日:2022-12-22 14:57:14 公開日:2022-12-21
# 大規模データ・ツー・テキストデータセットにおけるesportsデータ・ツー・コンメンタリー生成

Esports Data-to-commentary Generation on Large-scale Data-to-text Dataset ( http://arxiv.org/abs/2212.10935v1 )

ライセンス: Link先を確認
Zihan Wang and Naoki Yoshinaga(参考訳) ビデオゲームを使ったスポーツ競技であるesportsは、近年最も重要なスポーツイベントの1つとなっている。 esportsデータの量はこれまでになく増加しているが、これらのデータのごく一部だけが、視聴者が戯曲を検索し理解するためにテキストコメンタリーを伴っている。 そこで本研究では,構造化データからゲーム注釈を生成するタスクを導入し,この問題に対処する。 まず,一般的なエスポートゲームであるLeague of Legendsの構造化データと注釈を用いて,大規模なエスポートデータテキストデータセットを構築した。 本データセットでは,線形化やデータ分割を含むデータ前処理手法を考案し,その品質を向上する。 次に,いくつかのベースラインエンコーダデコーダモデルを導入し,ゲーム注釈を生成する階層モデルを提案する。 esportsのコメンテータの特徴を考慮して,出力の3つの側面を含む評価指標(正確性,流動性,戦略的深さ)をデザインする。 大規模エスポートデータセットの実験結果から階層モデルの利点が確認され,本課題のいくつかの課題が明らかになった。

Esports, a sports competition using video games, has become one of the most important sporting events in recent years. Although the amount of esports data is increasing than ever, only a small fraction of those data accompanies text commentaries for the audience to retrieve and understand the plays. Therefore, in this study, we introduce a task of generating game commentaries from structured data records to address the problem. We first build a large-scale esports data-to-text dataset using structured data and commentaries from a popular esports game, League of Legends. On this dataset, we devise several data preprocessing methods including linearization and data splitting to augment its quality. We then introduce several baseline encoder-decoder models and propose a hierarchical model to generate game commentaries. Considering the characteristics of esports commentaries, we design evaluation metrics including three aspects of the output: correctness, fluency, and strategic depth. Experimental results on our large-scale esports dataset confirmed the advantage of the hierarchical model, and the results revealed several challenges of this novel task.
翻訳日:2022-12-22 14:56:57 公開日:2022-12-21
# テキスト生成制御のための批評家誘導デコード

Critic-Guided Decoding for Controlled Text Generation ( http://arxiv.org/abs/2212.10938v1 )

ライセンス: Link先を確認
Minbeom Kim, Hwanhee Lee, Kang Min Yoo, Joonsuk Park, Hwaran Lee, Kyomin Jung(参考訳) 言語モデル(LM)を活用する上で、望ましくないコンテンツに対する言語生成のステアリングは長年の目標であった。 近年の研究では、高レベルの言語制御と品質を達成するための効果的なアプローチとして、強化学習と重み付け復号が実証されている。 本研究では,強化学習の強みと重み付き復号の強みを組み合わせた,制御言語生成(criticcontrol)のための新しい批判的復号法を提案する。 具体的には,不特定報酬モデルからLMステアリング評論家を訓練するためにアクタ批判フレームワークを採用する。 また,重み付き復号法と同様に,言語モデルをフリーズし,コールド・レビューを用いて出力トークン分布を操作し,トレーニング効率と安定性を向上させる。 提案手法は,トピック制御,感情制御,デトキソフィケーションという3つの制御型生成タスクにおいて,従来の手法よりもコヒーレントでよく制御されたテキストを生成する。 さらに、CriticControlはゼロショット設定で優れた一般化能力を示す。 人的評価研究も我々の発見を裏付けている。

Steering language generation towards objectives or away from undesired content has been a long-standing goal in utilizing language models (LM). Recent work has demonstrated reinforcement learning and weighted decoding as effective approaches to achieve a higher level of language control and quality with pros and cons. In this work, we propose a novel critic decoding method for controlled language generation (CriticControl) that combines the strengths of reinforcement learning and weighted decoding. Specifically, we adopt the actor-critic framework to train an LM-steering critic from non-differentiable reward models. And similar to weighted decoding, our method freezes the language model and manipulates the output token distribution using called critic, improving training efficiency and stability. Evaluation of our method on three controlled generation tasks, namely topic control, sentiment control, and detoxification, shows that our approach generates more coherent and well-controlled texts than previous methods. In addition, CriticControl demonstrates superior generalization ability in zero-shot settings. Human evaluation studies also corroborate our findings.
翻訳日:2022-12-22 14:56:38 公開日:2022-12-21
# 並列コンテキスト Windows が大規模言語モデルのインコンテキスト学習を改善

Parallel Context Windows Improve In-Context Learning of Large Language Models ( http://arxiv.org/abs/2212.10947v1 )

ライセンス: Link先を確認
Nir Ratner, Yoav Levine, Yonatan Belinkov, Ori Ram, Omri Abend, Ehud Karpas, Amnon Shashua, Kevin Leyton-Brown, Yoav Shoham(参考訳) 推論時に大量のテキストを処理する必要があるアプリケーションでは、Large Language Models (LLM) は、通常2048トークンである限られたコンテキストウィンドウによって障害を受ける。 コンテキスト学習(In-context learning)は、あるパラメータしきい値を超えるサイズでLLMの創発的な現象であり、コンテキストウィンドウに適合するトレーニング例のみを活用することができるため、重要な例である。 コンテキストウィンドウの制限に対処するための既存の取り組みには、長いテキストを処理するメモリフットプリントによってコンテキスト内学習が現れるサイズよりも小さくなる特殊なアーキテクチャのトレーニングが含まれる。 そこで本研究では,市販llmのコンテキストウインドウ制限を緩和する手法であるparallel context windows (pcw)を提案する。 このアプローチの鍵は、長いコンテキストをアーキテクチャ内に収まるチャンク(``windows'')に彫り込み、各ウィンドウにのみ適用される注意機構を制限し、ウィンドウ間の位置埋め込みを再利用することだ。 我々は7億5000万から1億7800億のパラメータを持つモデルを用いて、文脈内学習におけるpcwアプローチをテストし、様々な入出力空間を持つタスクの大幅な改善を示す。 本研究は,LLMを長いテキストシーケンスを必要とする他の設定に適用するための手法として,Parallel Context Windowsのさらなる研究を動機付けている。

For applications that require processing large amounts of text at inference time, Large Language Models (LLMs) are handicapped by their limited context windows, which are typically 2048 tokens. In-context learning, an emergent phenomenon in LLMs in sizes above a certain parameter threshold, constitutes one significant example because it can only leverage training examples that fit into the context window. Existing efforts to address the context window limitation involve training specialized architectures, which tend to be smaller than the sizes in which in-context learning manifests due to the memory footprint of processing long texts. We present Parallel Context Windows (PCW), a method that alleviates the context window restriction for any off-the-shelf LLM without further training. The key to the approach is to carve a long context into chunks (``windows'') that fit within the architecture, restrict the attention mechanism to apply only within each window, and re-use the positional embeddings among the windows. We test the PCW approach on in-context learning with models that range in size between 750 million and 178 billion parameters, and show substantial improvements for tasks with diverse input and output spaces. Our results motivate further investigation of Parallel Context Windows as a method for applying off-the-shelf LLMs in other settings that require long text sequences.
翻訳日:2022-12-22 14:56:22 公開日:2022-12-21
# GPT-2注意パターンからのエントロピーと距離に基づく予測器

Entropy- and Distance-Based Predictors From GPT-2 Attention Patterns Predict Reading Times Over and Above GPT-2 Surprisal ( http://arxiv.org/abs/2212.11185v1 )

ライセンス: Link先を確認
Byung-Doh Oh, William Schuler(参考訳) トランスフォーマーをベースとした大規模言語モデルは,自己認識機構を通じて先行トークンの表現を集約することにより,次の単語の予測を行うように訓練されている。 認知モデリングの分野では,最近このような注意パターンが,複数の対象に対して注意を向け,検索中の干渉や遅延を発生させるcueベース検索の過程を具現化していると解釈されている。 この枠組みの下で、この研究はまず、自己注意の拡散性を定量化するエントロピーベースの予測器と、時間経過を通して注意パターンの漸進的な変化を捉える距離ベースの予測器を定義する。 また,注意重み付けのインフォメーション性に疑問を呈する最近の研究に続いて,注意重み付けにベクトルノルムを組み込む別の方法も実験している。 gpt-2言語モデルから計算された予測器を用いた回帰実験により、これらの予測器はgpt-2サープリサルを含む厳密なベースライン上で保持された自己ペースの読み取りと視線追跡データにかなり適合することが示された。 さらに、距離ベースの予測器は一般的により高い予測力を示し、セルフペースの読み取り時間では標準偏差が6.59ms、視線時間では標準偏差が2.82ms、視線時間では1.05msである(平均偏差は3.81ms)。

Transformer-based large language models are trained to make predictions about the next word by aggregating representations of previous tokens through their self-attention mechanism. In the field of cognitive modeling, such attention patterns have recently been interpreted as embodying the process of cue-based retrieval, in which attention over multiple targets is taken to generate interference and latency during retrieval. Under this framework, this work first defines an entropy-based predictor that quantifies the diffuseness of self-attention, as well as distance-based predictors that capture the incremental change in attention patterns across timesteps. Moreover, following recent studies that question the informativeness of attention weights, we also experiment with alternative methods for incorporating vector norms into attention weights. Regression experiments using predictors calculated from the GPT-2 language model show that these predictors deliver a substantially better fit to held-out self-paced reading and eye-tracking data over a rigorous baseline including GPT-2 surprisal. Additionally, the distance-based predictors generally demonstrated higher predictive power, with effect sizes of up to 6.59 ms per standard deviation on self-paced reading times (compared to 2.82 ms for surprisal) and 1.05 ms per standard deviation on eye-gaze durations (compared to 3.81 ms for surprisal).
翻訳日:2022-12-22 14:55:56 公開日:2022-12-21
# 再生可能エネルギーにおける予測・最適化問題の比較と評価

Comparison and Evaluation of Methods for a Predict+Optimize Problem in Renewable Energy ( http://arxiv.org/abs/2212.10723v1 )

ライセンス: Link先を確認
Christoph Bergmeir, Frits de Nijs, Abishek Sriramulu, Mahdi Abolghasemi, Richard Bean, John Betts, Quang Bui, Nam Trong Dinh, Nils Einecke, Rasul Esmaeilbeigi, Scott Ferraro, Priya Galketiya, Evgenii Genov, Robert Glasgow, Rakshitha Godahewa, Yanfei Kang, Steffen Limmer, Luis Magdalena, Pablo Montero-Manso, Daniel Peralta, Yogesh Pipada Sunil Kumar, Alejandro Rosales-P\'erez, Julian Ruddick, Akylas Stratigakos, Peter Stuckey, Guido Tack, Isaac Triguero, Rui Yuan(参考訳) 予測と最適化の両方を含むアルゴリズムは、サプライチェーン(創発的最適化)、トラフィック、持続可能エネルギーシステムにおけるバッテリー/負荷/生産スケジューリングにおける炭素フリーエネルギー生成への移行など、多くの困難な現実の問題の解の中核にある。 通常、これらのシナリオでは、未知の将来の値に依存する最適化問題を解きたいので、予測する必要がある。 予測と最適化はそれ自体では難しい問題であるため、この分野では比較的少ない研究が行なわれている。 本稿では,2021年に開催された<IEEE-CIS Technical Challenge on Predict+Optimize for Renewable Energy Scheduling>の成果を紹介する。 そこで本研究では,コンペティションにおける7つの最高ランクのソリューションの比較と評価を行い,ベンチマーク問題を研究者に提供し,この分野の研究の促進と促進を目的として,このベンチマークの最先端技術を確立する。 このコンペティションでは、Monash Microgridのデータだけでなく、気象データやエネルギー市場データも使用した。 その後、再生可能エネルギーの生産と需要の予測と、エネルギーコストの低さにつながるアクティビティ(講義)とオンサイトバッテリーの最適なスケジュールの取得という、2つの大きな課題に焦点を当てた。 最も正確な予測は勾配木とランダム森林モデルで得られ、最適化は主に整数線形および二次計画法を用いて行われた。 勝算法は異なるシナリオを予測し,サンプル平均近似法を用いて全シナリオに最適化した。

Algorithms that involve both forecasting and optimization are at the core of solutions to many difficult real-world problems, such as in supply chains (inventory optimization), traffic, and in the transition towards carbon-free energy generation in battery/load/production scheduling in sustainable energy systems. Typically, in these scenarios we want to solve an optimization problem that depends on unknown future values, which therefore need to be forecast. As both forecasting and optimization are difficult problems in their own right, relatively few research has been done in this area. This paper presents the findings of the ``IEEE-CIS Technical Challenge on Predict+Optimize for Renewable Energy Scheduling," held in 2021. We present a comparison and evaluation of the seven highest-ranked solutions in the competition, to provide researchers with a benchmark problem and to establish the state of the art for this benchmark, with the aim to foster and facilitate research in this area. The competition used data from the Monash Microgrid, as well as weather data and energy market data. It then focused on two main challenges: forecasting renewable energy production and demand, and obtaining an optimal schedule for the activities (lectures) and on-site batteries that lead to the lowest cost of energy. The most accurate forecasts were obtained by gradient-boosted tree and random forest models, and optimization was mostly performed using mixed integer linear and quadratic programming. The winning method predicted different scenarios and optimized over all scenarios jointly using a sample average approximation method.
翻訳日:2022-12-22 14:55:28 公開日:2022-12-21
# 知識ベースからの事前知識を用いた構造データソースの自動意味モデリング

Automatic Semantic Modeling for Structural Data Source with the Prior Knowledge from Knowledge Base ( http://arxiv.org/abs/2212.10915v1 )

ライセンス: Link先を確認
Jiakang Xu, Wolfgang Mayer, HongYu Zhang, Keqing He, Zaiwen Feng(参考訳) セマンティックコンテンツをオンラインで共有するための重要なステップは、構造データソースをパブリックドメインオントロジーにマップすることだ。 この問題はリレーショナル・ト・オントロジーマッピング問題(Rel2Onto)と呼ばれる。 データのセマンティクスを手作業でモデル化するには、膨大な努力と専門知識が必要です。 したがって、データソースの意味を学習するための自動アプローチが望ましい。 既存の作業の多くは、ソース属性のセマンティックアノテーションを研究している。 しかし、重要なことではあるが、属性間の関係を自動的に推測する研究は非常に限られている。 本稿では,機械学習,グラフマッチング,修正頻繁なサブグラフマイニングを用いて構造化データソースを意味的にアノテートし,候補モデルを修正する新しい手法を提案する。 私たちの研究では、知識グラフが事前知識として使われています。 提案手法は,いくつかのセマンティックモデルしか知られていない難解な場合において,2つの最先端ソリューションよりも優れていることを示す。

A critical step in sharing semantic content online is to map the structural data source to a public domain ontology. This problem is denoted as the Relational-To-Ontology Mapping Problem (Rel2Onto). A huge effort and expertise are required for manually modeling the semantics of data. Therefore, an automatic approach for learning the semantics of a data source is desirable. Most of the existing work studies the semantic annotation of source attributes. However, although critical, the research for automatically inferring the relationships between attributes is very limited. In this paper, we propose a novel method for semantically annotating structured data sources using machine learning, graph matching and modified frequent subgraph mining to amend the candidate model. In our work, Knowledge graph is used as prior knowledge. Our evaluation shows that our approach outperforms two state-of-the-art solutions in tricky cases where only a few semantic models are known.
翻訳日:2022-12-22 14:55:02 公開日:2022-12-21
# 可変サイズ設計空間最適レイアウト問題に対する隠れ変数遺伝的アルゴリズムと航空宇宙車両への応用

Hidden-Variables Genetic Algorithm for Variable-Size Design Space Optimal Layout Problems with Application to Aerospace Vehicles ( http://arxiv.org/abs/2212.11011v1 )

ライセンス: Link先を確認
Juliette Gamot, Mathieu Balesdent, Arnault Tremolet, Romain Wuilbercq, Nouredine Melab, El-Ghazali Talbi(参考訳) 航空宇宙車両のような複雑なシステムの最適配置は、幾何的または機能的な制約の下で1つまたは複数の目的を最小化するために、所定の数のコンポーネントをコンテナに配置することである。 本稿では,設計過程における多数のアーキテクチャ選択とコンポーネント割り当てを考慮した可変サイズ設計空間 (VSDS) 問題として,この問題を拡張した定式化を提案する。 これらのシステムの代表的な例として、衛星モジュールのレイアウトを考慮すると、VSDSアスペクトは、最適化者がコンポーネントのいくつかの分割を選択しなければならないという事実を翻訳する。 例えば、1つの大きな燃料タンクと2つの小さなタンク、3つのさらに小さな燃料タンクを同じ量の燃料として配置することができる。 このnp-hard問題に対処するために,適応型隠れ変数機構によって拡張された遺伝的アルゴリズムを提案する。 後者は、提案するアルゴリズムの性能を説明するために、実世界の複雑さを表すトイケースと航空宇宙の応用ケースで示される。 提案手法を用いて得られた結果を報告し,解析した。

The optimal layout of a complex system such as aerospace vehicles consists in placing a given number of components in a container in order to minimize one or several objectives under some geometrical or functional constraints. This paper presents an extended formulation of this problem as a variable-size design space (VSDS) problem to take into account a large number of architectural choices and components allocation during the design process. As a representative example of such systems, considering the layout of a satellite module, the VSDS aspect translates the fact that the optimizer has to choose between several subdivisions of the components. For instance, one large tank of fuel might be placed as well as two smaller tanks or three even smaller tanks for the same amount of fuel. In order to tackle this NP-hard problem, a genetic algorithm enhanced by an adapted hidden-variables mechanism is proposed. This latter is illustrated on a toy case and an aerospace application case representative to real world complexity to illustrate the performance of the proposed algorithms. The results obtained using the proposed mechanism are reported and analyzed.
翻訳日:2022-12-22 14:54:52 公開日:2022-12-21
# 群衆スコア:大言語モデルAIボイタを裁判官として用いたジョークの評価方法

Crowd Score: A Method for the Evaluation of Jokes using Large Language Model AI Voters as Judges ( http://arxiv.org/abs/2212.11214v1 )

ライセンス: Link先を確認
Fabricio Goes, Zisen Zhou, Piotr Sawicki, Marek Grzes and Daniel G. Brown(参考訳) 本稿では,大規模言語モデル(LLM)をAI判断者として用い,ジョークの面白さを評価する新しい手法であるCrowd Scoreを提案する。 我々の方法は、LLMに異なる個人性を誘導し、AI審査員の投票を単一のスコアに集約してジョークを評価することである。 LLMを用いて、特定の投票に関する説明が妥当かどうかを監査手法を用いて検証する。 私たちは、アフィリエイト、セルフエンハンシング、アグレッシブ、セルフデファイティングの4つのAI有権者の群衆で、52のジョークで私たちの方法論をテストしました。 以上の結果から,投票結果がゼロショットよりも少ない結果が得られた。 パーソナリティ・インダクションは、攻撃的かつ自傷的有権者は、親和的で自傷的有権者よりも、攻撃的/自傷的ジョークのセットを面白いものにする傾向が顕著であることを示した。 観客スコアは人間の審査員と同じ傾向で、より高いスコアを人間の裁判官によって面白いと見なされるジョークに割り当てる。 われわれの方法論は、物語、詩、スローガンなどの他の創造的領域に適用できると考えている。 これは、CCコミュニティにおける異なる作業を比較するためのフレキシブルで正確な標準アプローチの採用に役立つと同時に、クリエイティブアーティファクトの評価への人間の参加を最小限にすることで、クリエイティブアーティファクトのプロトタイピングを加速し、クリエイティブアーティファクトの評価に人間を雇うコストを削減できる。

This paper presents the Crowd Score, a novel method to assess the funniness of jokes using large language models (LLMs) as AI judges. Our method relies on inducing different personalities into the LLM and aggregating the votes of the AI judges into a single score to rate jokes. We validate the votes using an auditing technique that checks if the explanation for a particular vote is reasonable using the LLM. We tested our methodology on 52 jokes in a crowd of four AI voters with different humour types: affiliative, self-enhancing, aggressive and self-defeating. Our results show that few-shot prompting leads to better results than zero-shot for the voting question. Personality induction showed that aggressive and self-defeating voters are significantly more inclined to find more jokes funny of a set of aggressive/self-defeating jokes than the affiliative and self-enhancing voters. The Crowd Score follows the same trend as human judges by assigning higher scores to jokes that are also considered funnier by human judges. We believe that our methodology could be applied to other creative domains such as story, poetry, slogans, etc. It could both help the adoption of a flexible and accurate standard approach to compare different work in the CC community under a common metric and by minimizing human participation in assessing creative artefacts, it could accelerate the prototyping of creative artefacts and reduce the cost of hiring human participants to rate creative artefacts.
翻訳日:2022-12-22 14:54:35 公開日:2022-12-21
# 合成及び自然なコードブックを用いた画像品質予測:比較結果

Image quality prediction using synthetic and natural codebooks: comparative results ( http://arxiv.org/abs/2212.10319v2 )

ライセンス: Link先を確認
Maxim Koroteev, Kirill Aistov, Valeriy Berezovskiy, Pavel Frolov(参考訳) 本研究では,画像の基本的な特性を表わすコーデクタのセットを構築することにより,画像/映像品質評価のためのモデルについて検討する。 コードブック構築手法を解析し,その修正を提案する。 また,推定時間短縮の観点から,このアルゴリズムについて検討した。 コードブックの構築には自然画像と合成画像の両方が使用され、コードブックに使用される合成画像のいくつかの分析が提供される。 コードブック構築のための合成画像を用いた場合,品質評価の結果は改善される可能性がある。 また,CPU上でのリアルタイム実行が,平均世論スコア(MOS)と十分に高い相関関係を持つアルゴリズムの体系を実証する。 様々なプーリング戦略は、ビットレートに対するメトリック感度の問題と同様に考慮される。

We investigate a model for image/video quality assessment based on building a set of codevectors representing in a sense some basic properties of images, similar to well-known CORNIA model. We analyze the codebook building method and propose some modifications for it. Also the algorithm is investigated from the point of inference time reduction. Both natural and synthetic images are used for building codebooks and some analysis of synthetic images used for codebooks is provided. It is demonstrated the results on quality assessment may be improves with the use if synthetic images for codebook construction. We also demonstrate regimes of the algorithm in which real time execution on CPU is possible for sufficiently high correlations with mean opinion score (MOS). Various pooling strategies are considered as well as the problem of metric sensitivity to bitrate.
翻訳日:2022-12-22 14:54:03 公開日:2022-12-21
# 非制御語彙露光は事前学習モデルにおける合成汎化の過大評価に繋がる

Uncontrolled Lexical Exposure Leads to Overestimation of Compositional Generalization in Pretrained Models ( http://arxiv.org/abs/2212.10769v1 )

ライセンス: Link先を確認
Najoung Kim, Tal Linzen, Paul Smolensky(参考訳) 人間の言語能力は、しばしば構成性とそれが可能にする一般化によって特徴づけられる -- 人間の学習者は既知の部分を構成することによって、新しい複雑な表現を創造し理解することができる。 いくつかのベンチマークでは、トレーニングとテストにまたがる分布制御を利用して、特定の語彙項目がトレーニング中に限られたコンテキストでのみ発生する構成一般化を計測している。 これらのベンチマークを用いた最近の研究は、事前学習モデルが優れた一般化性能を発揮することを示唆しているが、事前学習データへの露出は上記の分布制御を損なう可能性があると主張している。 我々はKim and Linzen(2020)のCOGSベンチマークを用いて,(1)文脈制御された語彙項目を新しい文字配列で置換する,(2)新しい埋め込みで表現された特別なトークンで置換する,という2つの改良された評価設定を検証した。 これらの設定はいずれもT5(Raffel et al., 2020)の一般化性能を低下させ, 前報では事前トレーニング中に非制御語彙曝露により過大評価されていることを示唆している。 新たな埋め込みでは性能劣化が極端であり、事前学習データの量によって劣化が増加し、逆スケーリングの興味深いケースが浮かび上がっている。

Human linguistic capacity is often characterized by compositionality and the generalization it enables -- human learners can produce and comprehend novel complex expressions by composing known parts. Several benchmarks exploit distributional control across training and test to gauge compositional generalization, where certain lexical items only occur in limited contexts during training. While recent work using these benchmarks suggests that pretrained models achieve impressive generalization performance, we argue that exposure to pretraining data may break the aforementioned distributional control. Using the COGS benchmark of Kim and Linzen (2020), we test two modified evaluation setups that control for this issue: (1) substituting context-controlled lexical items with novel character sequences, and (2) substituting them with special tokens represented by novel embeddings. We find that both of these setups lead to lower generalization performance in T5 (Raffel et al., 2020), suggesting that previously reported results have been overestimated due to uncontrolled lexical exposure during pretraining. The performance degradation is more extreme with novel embeddings, and the degradation increases with the amount of pretraining data, highlighting an interesting case of inverse scaling.
翻訳日:2022-12-22 14:48:24 公開日:2022-12-21
# ImPaKT: オープンスキーマ知識ベース構築のためのデータセット

ImPaKT: A Dataset for Open-Schema Knowledge Base Construction ( http://arxiv.org/abs/2212.10770v1 )

ライセンス: Link先を確認
Luke Vilnis, Zach Fisher, Bhargav Kanagal, Patrick Murray, Sumit Sanghai(参考訳) 大規模言語モデルはセマンティック構文解析の黄金時代を迎えている。 seq2seqパラダイムは、少ない量の微調整データしか与えないオープンスキーマと抽象属性と関係抽出を可能にする。 言語モデルの事前学習は、自然言語推論、含意の推論、自由テキストの含意において、同時に大きな進歩をもたらした。 これらの進歩は、ショッピングドメイン(製品購入ガイド)において、C4コーパスから約2500のテキストスニペットからなるオープンスキーマ情報抽出用データセットであるImPaKTの構築、抽出属性、タイプ、属性要約(慣用的テキストからの属性スキーマ発見)、複合属性と原子属性の多対一関係、含意関係の構築を動機付けます。 我々は、様々なドメインにわたる情報抽出および知識ベース構築のためのセマンティックパーサの微調整に有用であることを期待して、このデータをリリースする。 本研究では,オープンソースUL2言語モデルをデータセットのサブセットに微調整し,製品購入ガイドのコーパスから含意関係を抽出し,その結果の予測を人為的に評価することで,このアプローチの能力を評価する。

Large language models have ushered in a golden age of semantic parsing. The seq2seq paradigm allows for open-schema and abstractive attribute and relation extraction given only small amounts of finetuning data. Language model pretraining has simultaneously enabled great strides in natural language inference, reasoning about entailment and implication in free text. These advances motivate us to construct ImPaKT, a dataset for open-schema information extraction, consisting of around 2500 text snippets from the C4 corpus, in the shopping domain (product buying guides), professionally annotated with extracted attributes, types, attribute summaries (attribute schema discovery from idiosyncratic text), many-to-one relations between compound and atomic attributes, and implication relations. We release this data in hope that it will be useful in fine tuning semantic parsers for information extraction and knowledge base construction across a variety of domains. We evaluate the power of this approach by fine-tuning the open source UL2 language model on a subset of the dataset, extracting a set of implication relations from a corpus of product buying guides, and conducting human evaluations of the resulting predictions.
翻訳日:2022-12-22 14:48:01 公開日:2022-12-21
# multiinstruct:命令チューニングによるマルチモーダルゼロショット学習の改善

MultiInstruct: Improving Multi-Modal Zero-Shot Learning via Instruction Tuning ( http://arxiv.org/abs/2212.10773v1 )

ライセンス: Link先を確認
Zhiyang Xu, Ying Shen, Lifu Huang(参考訳) 命令によって指定されたタスクで事前訓練された言語モデルを微調整する新しい学習パラダイムであるインストラクションチューニングは、様々な自然言語処理タスクでゼロショット性能を約束している。 しかし、ビジョンやマルチモーダルタスクについては、まだ検討されていない。 本稿では,11のカテゴリをカバーする47の多様なマルチモーダルタスクからなる,最初のマルチモーダル命令チューニングベンチマークデータセットであるmultiinstructを紹介する。 各タスクは、既存のオープンソースデータセットから5,000のインスタンス(インプットアウトペア)と5つの専門家による命令で設計されている。 我々は,OFAをマルチモーダル・インストラクション・チューニングの基礎となる事前学習モデルとみなし,その性能を向上させるために,大規模なNatural Instructionsデータセットを活用するために複数のトランスファー学習戦略を検討する。 実験の結果,未認識のマルチモーダルタスクにおけるゼロショット性能が強く,テキストのみの命令からの転送学習の利点が示された。 また、モデルが様々な命令に対してどれほど敏感であるかを評価するために、感性という新しい評価指標も設計する。 本結果から,各タスクに対する多様なタスクや命令を微調整した後,モデルが様々な命令に敏感でないことが示唆された。

Instruction tuning, a new learning paradigm that fine-tunes pre-trained language models on tasks specified through instructions, has shown promising zero-shot performance on various natural language processing tasks. However, it's still not explored for vision and multimodal tasks. In this work, we introduce MultiInstruct, the first multimodal instruction tuning benchmark dataset that consists of 47 diverse multimodal tasks covering 11 broad categories. Each task is designed at least with 5,000 instances (input-out pairs) from existing open-source datasets and 5 expert-written instructions. We take OFA as the base pre-trained model for multimodal instruction tuning, and to improve its performance, we explore multiple transfer learning strategies to leverage the large-scale Natural Instructions dataset. Experimental results demonstrate its strong zero-shot performance on various unseen multimodal tasks and the benefit of transfer learning from text-only instructions. We also design a new evaluation metric: Sensitivity, to evaluate how sensitive the model is to the variety of instructions. Our results indicate that the model is less sensitive to the varying instructions after finetuning on a diverse set of tasks and instructions for each task.
翻訳日:2022-12-22 14:47:40 公開日:2022-12-21
# NLIは低リソースバイオメディカルリレーショナルリレーション抽出のための間接的プロビジョンを向上できるか?

Can NLI Provide Proper Indirect Supervision for Low-resource Biomedical Relation Extraction? ( http://arxiv.org/abs/2212.10784v1 )

ライセンス: Link先を確認
Jiashu Xu, Mingyu Derek Ma, Muhao Chen(参考訳) バイオメディカルリレーション抽出(re)における2つの重要な障害は、アノテーションの不足と、アノテーションカバレッジの低さによるラベルを明示的に定義せずにインスタンスが発生することである。 バイオメディカルREをマルチクラス分類タスクとして扱う既存のアプローチでは、低リソース環境での一般化が不十分な場合が多く、未知のケースを選択的に予測する能力はないが、それらのアプローチの適用性を妨げている。 バイオメディカルREを自然言語推論の定式化として間接的な監督によって変換するNBRを提案する。 関係を自然言語の仮説に変換することで、NBRは意味的な手がかりを利用してアノテーションの不足を軽減することができる。 nbrは、暗黙的に断続的なインスタンスを校正するランキングベースの損失を組み込むことで、より明確な決定境界を学習し、不確定なインスタンスを放棄するように指示される。 chemprot、ddi、gadの3つの広く使用されている生物医学的reベンチマークに関する広範囲な実験は、フルセットと低リソースの両領域におけるnbrの有効性を検証する。 分析の結果,NLI知識とバイオメディカル知識を組み合わせれば,バイオメディカルREが有効であることがわかった。

Two key obstacles in biomedical relation extraction (RE) are the scarcity of annotations and the prevalence of instances without explicitly pre-defined labels due to low annotation coverage. Existing approaches, which treat biomedical RE as a multi-class classification task, often result in poor generalization in low-resource settings and do not have the ability to make selective prediction on unknown cases but give a guess from seen relations, hindering the applicability of those approaches. We present NBR, which converts biomedical RE as natural language inference formulation through indirect supervision. By converting relations to natural language hypotheses, NBR is capable of exploiting semantic cues to alleviate annotation scarcity. By incorporating a ranking-based loss that implicitly calibrates abstinent instances, NBR learns a clearer decision boundary and is instructed to abstain on uncertain instances. Extensive experiments on three widely-used biomedical RE benchmarks, namely ChemProt, DDI and GAD, verify the effectiveness of NBR in both full-set and low-resource regimes. Our analysis demonstrates that indirect supervision benefits biomedical RE even when a domain gap exists, and combining NLI knowledge with biomedical knowledge leads to the best performance gains.
翻訳日:2022-12-22 14:47:19 公開日:2022-12-21
# 再建調査

Reconstruction Probing ( http://arxiv.org/abs/2212.10792v1 )

ライセンス: Link先を確認
Najoung Kim, Jatin Khilnani, Alex Warstadt, Abed Qaddoumi(参考訳) マスク付き言語モデル(MLM)における再構成確率に基づく文脈表現の新しい解析手法である再構成探索を提案する。 この方法は、完全に文脈化されている単一トークンの表現に条件付けされた場合、モデルの非文脈化語彙のみに条件付けされた場合、与えられたシーケンスにおけるトークンの再構成確率を比較することに依存する。 この比較は、再構成に対する文脈化の寄与の定量化として理解することができる - 再構成確率の違いは、文脈化によって引き起こされる単一トークンの表現的変化にのみ寄与する。 この分析を3つのMLMに適用し、文脈化は、線形および構文的距離で再構成されるトークンに近いトークンの再構成可能性を高めることを発見した。 さらに,この解析を文脈化表現のよりきめ細かい分解に拡張し,これらは入力層における静的および位置埋め込みに大きく寄与することがわかった。

We propose reconstruction probing, a new analysis method for contextualized representations based on reconstruction probabilities in masked language models (MLMs). This method relies on comparing the reconstruction probabilities of tokens in a given sequence when conditioned on the representation of a single token that has been fully contextualized and when conditioned on only the decontextualized lexical prior of the model. This comparison can be understood as quantifying the contribution of contextualization towards reconstruction -- the difference in the reconstruction probabilities can only be attributed to the representational change of the single token induced by contextualization. We apply this analysis to three MLMs and find that contextualization boosts reconstructability of tokens that are close to the token being reconstructed in terms of linear and syntactic distance. Furthermore, we extend our analysis to finer-grained decomposition of contextualized representations, and we find that these boosts are largely attributable to static and positional embeddings at the input layer.
翻訳日:2022-12-22 14:46:54 公開日:2022-12-21
# zerotop: 大きな言語モデルを用いたゼロショットタスク指向意味解析

ZEROTOP: Zero-Shot Task-Oriented Semantic Parsing using Large Language Models ( http://arxiv.org/abs/2212.10815v1 )

ライセンス: Link先を確認
Dheeraj Mekala, Jason Wolfe, Subhro Roy(参考訳) ゼロショットセマンティック解析における大規模言語モデル (LLM) の利用について検討する。 意味解析は自然言語の発話をタスク固有の意味表現にマッピングする。 言語モデルは一般に公開されているテキストとコードで訓練されており、ゼロショット設定でドメイン固有のパースタスクに直接一般化することは期待できない。 本研究では,ゼロショット型タスク指向構文解析手法であるZEROTOPを提案し,意味解析問題を抽象的・抽出的質問解答問題(QA)の集合に分解し,ゼロショット型回答読解問題へのLLMの活用を可能にする。 各発話に対して、トップレベルの意図とスロットのセットに対応する質問をLLMに促し、LLM世代を使用して目的の意味表現を構築する。 我々は,現在のLLMが未解決の質問を検出できず,その結果,欠落したスロットに対応する質問を処理できないことを観察した。 この問題に対処するため、我々は合成陰性サンプルを用いて公開QAデータセット上で言語モデルを微調整する。 実験結果から, MTOPデータセットの発話の約16%を, 注釈付きデータを必要とすることなく正確に解析できることがわかった。

We explore the use of large language models (LLMs) for zero-shot semantic parsing. Semantic parsing involves mapping natural language utterances to task-specific meaning representations. Language models are generally trained on the publicly available text and code and cannot be expected to directly generalize to domain-specific parsing tasks in a zero-shot setting. In this work, we propose ZEROTOP, a zero-shot task-oriented parsing method that decomposes a semantic parsing problem into a set of abstractive and extractive question-answering (QA) problems, enabling us to leverage the ability of LLMs to zero-shot answer reading comprehension questions. For each utterance, we prompt the LLM with questions corresponding to its top-level intent and a set of slots and use the LLM generations to construct the target meaning representation. We observe that current LLMs fail to detect unanswerable questions; and as a result, cannot handle questions corresponding to missing slots. To address this problem, we fine-tune a language model on public QA datasets using synthetic negative samples. Experimental results show that our QA-based decomposition paired with the fine-tuned LLM can correctly parse ~16% of utterances in the MTOP dataset without requiring any annotated data.
翻訳日:2022-12-22 14:46:38 公開日:2022-12-21
# 正しい文脈に順応する:コンテンツ制御可能な要約のためのプラグアンドプレイモジュール

Attend to the Right Context: A Plug-and-Play Module for Content-Controllable Summarization ( http://arxiv.org/abs/2212.10819v1 )

ライセンス: Link先を確認
Wen Xiao, Lesly Miculicich, Yang Liu, Pengcheng He, Giuseppe Carenini(参考訳) Content-Controllable Summarizationは、与えられた制御信号に焦点を当てた要約を生成する。 大規模学習コーパスの欠如により,コンテンツ制御可能な要約タスクに一般的な要約処理を適応させるプラグイン・アンド・プレイモジュールRelAttnを提案する。 RelAttnはまず、ソースドキュメントの関連コンテンツを特定し、次に、注意重みを直接操作することで、モデルに適切なコンテキストを対応させる。 さらに、教師なしオンライン適応パラメータ探索アルゴリズムを適用し、ゼロショット設定における制御の度合いを判定する一方、そのようなパラメータは少数ショット設定で学習する。 このモジュールを3つのバックボーン要約モデルに適用することにより,提案手法がすべての要約器を効果的に改善し,プレフィックスベースの手法と広範に使用されているプラグアンドプレイモデルをゼロショットと少数ショットの両方で上回ることを示す。 実のところ、より多くのコントロールが必要なシナリオでは、より多くのメリットが見られます。

Content-Controllable Summarization generates summaries focused on the given controlling signals. Due to the lack of large-scale training corpora for the task, we propose a plug-and-play module RelAttn to adapt any general summarizers to the content-controllable summarization task. RelAttn first identifies the relevant content in the source documents, and then makes the model attend to the right context by directly steering the attention weight. We further apply an unsupervised online adaptive parameter searching algorithm to determine the degree of control in the zero-shot setting, while such parameters are learned in the few-shot setting. By applying the module to three backbone summarization models, experiments show that our method effectively improves all the summarizers, and outperforms the prefix-based method and a widely used plug-and-play model in both zero- and few-shot settings. Tellingly, more benefit is observed in the scenarios when more control is needed.
翻訳日:2022-12-22 14:46:19 公開日:2022-12-21
# 連続コントラストファインタニングによる低リソース関係抽出

Continual Contrastive Finetuning Improves Low-Resource Relation Extraction ( http://arxiv.org/abs/2212.10823v1 )

ライセンス: Link先を確認
Wenxuan Zhou, Sheng Zhang, Tristan Naumann, Muhao Chen, Hoifung Poon(参考訳) モデルトレーニングのための構造的アノテーション付きコーパスに依存した関係抽出(RE)は、低リソースシナリオやドメインでは特に困難である。 近年の文献では、自己教師型学習による低リソースREに取り組み、REベースの目的による関係埋め込みの事前学習や、分類に基づく目的によるラベル付きデータへの微調整などが行われている。 しかし、このアプローチにおける重要な課題は目的のギャップであり、REモデルは事前訓練された表現における知識を完全に活用できない。 本稿では,このギャップを埋めることを目指して,コントラスト学習の一貫した目的を用いたREモデルの事前学習と微調整を提案する。 この種の表現学習パラダイムでは、ある関係は表現空間において容易に複数のクラスタを形成することができるため、一つの関係が複数のクラスタを形成して事前学習と整合する多中心コントラスト損失も提案する。 文書レベルのREデータセットであるBioREDとRe-DocREDの実験により,本手法の有効性が示された。 特に、1%のエンドタスクトレーニングデータを使用する場合、PLMベースのRE分類器をそれぞれ10.5%と5.8%で上回ります。

Relation extraction (RE), which has relied on structurally annotated corpora for model training, has been particularly challenging in low-resource scenarios and domains. Recent literature has tackled low-resource RE by self-supervised learning, where the solution involves pretraining the relation embedding by RE-based objective and finetuning on labeled data by classification-based objective. However, a critical challenge to this approach is the gap in objectives, which prevents the RE model from fully utilizing the knowledge in pretrained representations. In this paper, we aim at bridging the gap and propose to pretrain and finetune the RE model using consistent objectives of contrastive learning. Since in this kind of representation learning paradigm, one relation may easily form multiple clusters in the representation space, we further propose a multi-center contrastive loss that allows one relation to form multiple clusters to better align with pretraining. Experiments on two document-level RE datasets, BioRED and Re-DocRED, demonstrate the effectiveness of our method. Particularly, when using 1% end-task training data, our method outperforms PLM-based RE classifier by 10.5% and 5.8% on the two datasets, respectively.
翻訳日:2022-12-22 14:46:02 公開日:2022-12-21
# スーダン方言のエンドツーエンド自動音声認識モデル

End-to-End Automatic Speech Recognition model for the Sudanese Dialect ( http://arxiv.org/abs/2212.10826v1 )

ライセンス: Link先を確認
Ayman Mansour, Wafaa F. Mukhtar(参考訳) 自然音声インタフェースの設計は、人間と現代のデジタルライフ機器の相互作用を音声認識に主に依存している。 さらに音声認識によって、単言語話者間のギャップが狭まり、コミュニケーションの交換が容易になる。 しかし、この分野はいくつかの普遍言語とその方言に対する広範なサポートを欠いているが、日常会話のほとんどはそれらを用いて行われている。 本稿では,アラビア語方言の一つであるスーダン方言における音声認識モデルの設計の可能性について検討し,その複雑さは話者特有の歴史的・社会的条件の産物であることを示す。 この条件は方言の形式と内容の両方に反映されるため,本論文では,アノテートされたデータの欠如を克服する控えめなデータセットを構築するために,スーダン方言と代表的資源収集タスクの概要と前処理について述べる。 また、エンドツーエンド音声認識モデルを提案し、畳み込みニューラルネットワークを用いてモデルの設計を行った。 スーダン方言データセットは、将来この方言をターゲットとした自然言語処理研究を可能にするための一歩となる。 設計したモデルは、現在の認識タスクに関する洞察を提供し、平均的なラベルエラー率73.67%に達した。

Designing a natural voice interface rely mostly on Speech recognition for interaction between human and their modern digital life equipment. In addition, speech recognition narrows the gap between monolingual individuals to better exchange communication. However, the field lacks wide support for several universal languages and their dialects, while most of the daily conversations are carried out using them. This paper comes to inspect the viability of designing an Automatic Speech Recognition model for the Sudanese dialect, which is one of the Arabic Language dialects, and its complexity is a product of historical and social conditions unique to its speakers. This condition is reflected in both the form and content of the dialect, so this paper gives an overview of the Sudanese dialect and the tasks of collecting represented resources and pre-processing performed to construct a modest dataset to overcome the lack of annotated data. Also proposed end- to-end speech recognition model, the design of the model was formed using Convolution Neural Networks. The Sudanese dialect dataset would be a stepping stone to enable future Natural Language Processing research targeting the dialect. The designed model provided some insights into the current recognition task and reached an average Label Error Rate of 73.67%.
翻訳日:2022-12-22 14:45:38 公開日:2022-12-21
# 多言語BERTの言語間統語的相違:それはどのくらい良いのか、転送にどう影響するのか?

Cross-Linguistic Syntactic Difference in Multilingual BERT: How Good is It and How Does It Affect Transfer? ( http://arxiv.org/abs/2212.10879v1 )

ライセンス: Link先を確認
Ningyu Xu, Tao Gui, Ruotian Ma, Qi Zhang, Jingting Ye, Menghan Zhang, Xuanjing Huang(参考訳) マルチリンガルBERT (mBERT) は, 言語間シンタクティック能力に優れており, 効果的なゼロショット言語間シンタクティック知識の伝達を可能にする。 移行はいくつかの言語間でより成功しているが、この変化に何をもたらすのか、言語間の差異を十分に反映しているかはよく分かっていない。 本研究では,mBERTから引き起こされる文法的関係の分布を,24言語に類型的に異なる文脈で検討する。 異なる言語の分布間の距離は、言語形式学における構文的差異と非常に一致していることを示す。 このような違いはゼロショット転送性能において重要な役割を担い、言語間のモルフォシンタクティック特性の変化によって予測できる。 これらの結果は,mBERTが言語多様性に整合した方法で言語を適切にエンコードし,言語間移動のメカニズムに関する洞察を与えることを示唆している。

Multilingual BERT (mBERT) has demonstrated considerable cross-lingual syntactic ability, whereby it enables effective zero-shot cross-lingual transfer of syntactic knowledge. The transfer is more successful between some languages, but it is not well understood what leads to this variation and whether it fairly reflects difference between languages. In this work, we investigate the distributions of grammatical relations induced from mBERT in the context of 24 typologically different languages. We demonstrate that the distance between the distributions of different languages is highly consistent with the syntactic difference in terms of linguistic formalisms. Such difference learnt via self-supervision plays a crucial role in the zero-shot transfer performance and can be predicted by variation in morphosyntactic properties between languages. These results suggest that mBERT properly encodes languages in a way consistent with linguistic diversity and provide insights into the mechanism of cross-lingual transfer.
翻訳日:2022-12-22 14:45:20 公開日:2022-12-21
# テンプレート入力によるゼロショットトリプレット抽出

Zero-shot Triplet Extraction by Template Infilling ( http://arxiv.org/abs/2212.10708v1 )

ライセンス: Link先を確認
Bosung Kim, Hayate Iso, Nikita Bhutani, Estevam Hruschka, Ndapa Nakashole(参考訳) Triplet extractは、非構造化テキストでエンティティとその対応する関係を抽出することを目的としている。 既存の手法の多くは、高品質なトレーニングデータに基づいて抽出モデルを訓練しており、訓練中に観察されなかった関係を抽出できない。 モデルを認識不能な関係に一般化するには、通常、ノイズが多く信頼性の低い合成トレーニングデータの微調整が必要となる。 本稿では,事前訓練された言語モデル上でのテンプレート充足タスクへのトリプレット抽出の削減が,ゼロショット学習能力を備えたモデルと,言語モデルにおける暗黙的知識の活用を可能にすることを論じる。 これらの概念を具体化し,エンドツーエンド生成変換器に基づく新しいフレームワークであるzett (zero-shot triplet extraction by template infilling)を提案する。 我々の実験によると、データ拡張やパイプラインシステムなしでは、ZETTは従来の最先端モデルよりも25%少ないパラメータで性能を向上できる。 さらに、ZETTはエンティティの検出においてより堅牢であり、自動的に生成されたテンプレートを組み込むことができることを示す。

Triplet extraction aims to extract entities and their corresponding relations in unstructured text. Most existing methods train an extraction model on high-quality training data, and hence are incapable of extracting relations that were not observed during training. Generalizing the model to unseen relations typically requires fine-tuning on synthetic training data which is often noisy and unreliable. In this paper, we argue that reducing triplet extraction to a template filling task over a pre-trained language model can equip the model with zero-shot learning capabilities and enable it to leverage the implicit knowledge in the language model. Embodying these ideas, we propose a novel framework, ZETT (ZEro-shot Triplet extraction by Template infilling), that is based on end-to-end generative transformers. Our experiments show that without any data augmentation or pipeline systems, ZETT can outperform previous state-of-the-art models with 25% less parameters. We further show that ZETT is more robust in detecting entities and can be incorporated with automatically generated templates for relations.
翻訳日:2022-12-22 14:38:28 公開日:2022-12-21
# 異種ドメイン情報の関連抽出への統合:薬物と薬物の相互作用抽出を事例として

Integrating Heterogeneous Domain Information into Relation Extraction: A Case Study on Drug-Drug Interaction Extraction ( http://arxiv.org/abs/2212.10714v1 )

ライセンス: Link先を確認
Masaki Asada(参考訳) ディープニューラルネットワークの開発は、テキスト、グラフ構造、リレーショナルトリプル表現など、さまざまな領域での表現学習を改善した。 この発展は、従来のテキスト指向関係抽出を超えた新しい関係抽出への扉を開いた。 しかし、複数の異種ドメイン情報を同時に考慮することの有効性に関する研究はまだ検討中であり、もしモデルが異種情報を統合する利点を活用できれば、世界中の多くの問題に多大な貢献が期待できる。 本論文は,異種ドメイン情報を用いた関係抽出を実現するために,文献からの薬物・薬物相互作用(DDI)を事例として研究する。 まず、深層神経関係抽出モデルを作成し、その注意機構を分析する。 次に、薬物分子構造情報と薬物記述情報とを入力文情報とを結合させる方法を提案し、その関係抽出タスクに薬物分子構造と薬物記述を利用する効果を示す。 そして、この異種情報をさらに活用するために、複数の既存データベースからタンパク質エントリ、医療用語、経路などの薬物関連項目を収集し、知識グラフ(KG)形式での新しいデータセットを構築する。 構築されたデータセット上のリンク予測タスクを行い、異種ドメイン情報を含む薬物の埋め込み表現を得る。 最後に,入力文情報と異種KG情報を統合する手法を提案する。 提案手法は,広く利用されているデータセット上で学習・評価を行い,異種ドメイン情報の利用により,文献からの関係抽出性能が著しく向上することを示す。

The development of deep neural networks has improved representation learning in various domains, including textual, graph structural, and relational triple representations. This development opened the door to new relation extraction beyond the traditional text-oriented relation extraction. However, research on the effectiveness of considering multiple heterogeneous domain information simultaneously is still under exploration, and if a model can take an advantage of integrating heterogeneous information, it is expected to exhibit a significant contribution to many problems in the world. This thesis works on Drug-Drug Interactions (DDIs) from the literature as a case study and realizes relation extraction utilizing heterogeneous domain information. First, a deep neural relation extraction model is prepared and its attention mechanism is analyzed. Next, a method to combine the drug molecular structure information and drug description information to the input sentence information is proposed, and the effectiveness of utilizing drug molecular structures and drug descriptions for the relation extraction task is shown. Then, in order to further exploit the heterogeneous information, drug-related items, such as protein entries, medical terms and pathways are collected from multiple existing databases and a new data set in the form of a knowledge graph (KG) is constructed. A link prediction task on the constructed data set is conducted to obtain embedding representations of drugs that contain the heterogeneous domain information. Finally, a method that integrates the input sentence information and the heterogeneous KG information is proposed. The proposed model is trained and evaluated on a widely used data set, and as a result, it is shown that utilizing heterogeneous domain information significantly improves the performance of relation extraction from the literature.
翻訳日:2022-12-22 14:38:08 公開日:2022-12-21
# MoralDial: モラルディスカッションの構築によるモラル対話システムの訓練と評価のためのフレームワーク

MoralDial: A Framework to Train and Evaluate Moral Dialogue Systems via Constructing Moral Discussions ( http://arxiv.org/abs/2212.10720v1 )

ライセンス: Link先を確認
Hao Sun, Zhexin Zhang, Fei Mi, Yasheng Wang, Wei Liu, Jianwei Cui, Bin Wang, Qun Liu, Minlie Huang(参考訳) 対話システムにおける道徳性は近年研究において大きな注目を集めている。 モラル対話システムは、ユーザの信頼を得ることで、ユーザをつなげ、会話のエンゲージメントを高めることができる。 本稿では,道徳的対話システムの訓練と評価を行うためのフレームワークであるMoralDialを提案する。 本稿ではまず,モラルのコミュニケーション機構を探求し,モラルを4つのサブモジュールに分解する。 サブモジュールは道徳的対話システムを構築するためのロードマップを示す。 そこで我々は,シミュレーションされた特定のユーザと対話システムの間で,Thumbのルール(RoT)から道徳的議論を構築するという,シンプルで効果的な手法を設計する。 構築された議論は、対話交換における道徳観を表現し、説明し、修正することにより、会話モデルが自然に道徳をよく学習する。 さらに,本フレームワークにおける新しい評価手法を提案する。 モラルの多面性が特に考慮される議論において,対話反応と腐敗の関係を判断し,モラルの多面性を評価する。 自動的および手動的な実験により、我々のフレームワークは道徳的対話システムの訓練と評価を約束している。

Morality in dialogue systems has raised great attention in research recently. A moral dialogue system could better connect users and enhance conversation engagement by gaining users' trust. In this paper, we propose a framework, MoralDial to train and evaluate moral dialogue systems. In our framework, we first explore the communication mechanisms of morality and resolve expressed morality into four sub-modules. The sub-modules indicate the roadmap for building a moral dialogue system. Based on that, we design a simple yet effective method: constructing moral discussions from Rules of Thumb (RoTs) between simulated specific users and the dialogue system. The constructed discussion consists of expressing, explaining, and revising the moral views in dialogue exchanges, which makes conversational models learn morality well in a natural manner. Furthermore, we propose a novel evaluation method in the framework. We evaluate the multiple aspects of morality by judging the relation between dialogue responses and RoTs in discussions, where the multifaceted nature of morality is particularly considered. Automatic and manual experiments demonstrate that our framework is promising to train and evaluate moral dialogue systems.
翻訳日:2022-12-22 14:37:41 公開日:2022-12-21
# 自然言語生成データセットにおけるデータエラーの追跡と除去

Tracing and Removing Data Errors in Natural Language Generation Datasets ( http://arxiv.org/abs/2212.10722v1 )

ライセンス: Link先を確認
Faisal Ladhak, Esin Durmus, Tatsunori Hashimoto(参考訳) 最近の研究は、自然言語生成(nlg)タスクにおける幻覚と不適切なアウトプットの中心的な原因として、ノイズと誤記のデータを特定している。 したがって、これらの例を特定して取り除くことは、信頼性の高いNLGシステムを作成する上で重要な課題である。 本研究では,テキスト要約における忠実度エラーなど,望ましくない出力につながる低品質トレーニングインスタンスを識別・削除するフレームワークを提案する。 グラデーションに基づく影響測定などの既存の誤り追跡手法では,要約における忠実性誤りの検出には適さないことを示す。 我々は、望ましくない世代と人間の補正された出力を比較する新しいコントラストに基づく推定によって、既存のエラー追跡手法の欠点を克服した。 提案手法は,合成課題における平均0.91の精度を達成することができ,NYTデータセット上での幻覚評価において,幻覚の2倍の低減を実現することができる。

Recent work has identified noisy and misannotated data as a core cause of hallucinations and unfaithful outputs in Natural Language Generation (NLG) tasks. Consequently, identifying and removing these examples is a key open challenge in creating reliable NLG systems. In this work, we introduce a framework to identify and remove low-quality training instances that lead to undesirable outputs, such as faithfulness errors in text summarization. We show that existing approaches for error tracing, such as gradient-based influence measures, do not perform reliably for detecting faithfulness errors in summarization. We overcome the drawbacks of existing error tracing methods through a new, contrast-based estimate that compares undesired generations to human-corrected outputs. Our proposed method can achieve a mean average precision of 0.91 across synthetic tasks with known ground truth and can achieve a two-fold reduction in hallucinations on a real entity hallucination evaluation on the NYT dataset.
翻訳日:2022-12-22 14:37:25 公開日:2022-12-21
# PropSegmEnt: Proposition-Level Segmentation and Entailment Recognitionのための大規模コーパス

PropSegmEnt: A Large-Scale Corpus for Proposition-Level Segmentation and Entailment Recognition ( http://arxiv.org/abs/2212.10750v1 )

ライセンス: Link先を確認
Sihao Chen and Senaka Buthpitiya and Alex Fabrikant and Dan Roth and Tal Schuster(参考訳) 自然言語推論(NLI)のタスクは、あるテキストが別のテキストに関連付けられているかどうか、すなわちその意味の全体が他のテキストから推測できるかどうかを認識する必要がある。 現在のNLIデータセットとモデルでは、典型的には文レベルまたは段落レベルでテキストエンターメント関係が定義される。 しかし、単純な文でさえ、しばしば複数の命題、すなわち文によって伝えられる意味の別個の単位を含んでいる。 これらの命題は、与えられた前提の文脈で異なる真理値を持つことができるため、文中の各命題のテキスト的含意関係を個別に認識する必要があると論じる。 提案するPropSegmEntは35K以上の提案のコーパスであり, 専門家によるアノテートを行う。 このデータセット構造は,(1)文書中の文を命題の集合に分割する作業,(2)異なる局所的に整理された文書,すなわち同一の出来事や実体を記述する文書に関して,各命題の帰属関係を分類する作業に類似している。 セグメンテーションと包含タスクの強力なベースラインを確立します。 要約幻覚検出と文書レベルのNLIのケーススタディを通じて,NLIラベルの構成性を理解し説明するために,我々の概念的枠組みが有用であることを示す。

The widely studied task of Natural Language Inference (NLI) requires a system to recognize whether one piece of text is textually entailed by another, i.e. whether the entirety of its meaning can be inferred from the other. In current NLI datasets and models, textual entailment relations are typically defined on the sentence- or paragraph-level. However, even a simple sentence often contains multiple propositions, i.e. distinct units of meaning conveyed by the sentence. As these propositions can carry different truth values in the context of a given premise, we argue for the need to recognize the textual entailment relation of each proposition in a sentence individually. We propose PropSegmEnt, a corpus of over 35K propositions annotated by expert human raters. Our dataset structure resembles the tasks of (1) segmenting sentences within a document to the set of propositions, and (2) classifying the entailment relation of each proposition with respect to a different yet topically-aligned document, i.e. documents describing the same event or entity. We establish strong baselines for the segmentation and entailment tasks. Through case studies on summary hallucination detection and document-level NLI, we demonstrate that our conceptual framework is potentially useful for understanding and explaining the compositionality of NLI labels.
翻訳日:2022-12-22 14:37:10 公開日:2022-12-21
# CORRPUS: Codex-Bootstrapped Neurosymbolic Reasoning によるストーリー不整合の検出

CORRPUS: Detecting Story Inconsistencies via Codex-Bootstrapped Neurosymbolic Reasoning ( http://arxiv.org/abs/2212.10754v1 )

ライセンス: Link先を確認
Yijiang River Dong, Lara J. Martin, Chris Callison-Burch(参考訳) 物語の生成と理解は、すべてのNLG/NLUタスクと同様に、ニューロシンボリックな仕事が急増している。 研究者たちは、大きな言語モデル(LLM)には膨大な実用性があるが、ニューラルネットワークが持つ可能性のある欠陥を補うための象徴的な手段で拡張できることを認識している。 しかし、シンボリックな手法は、それらを作るのに必要な時間と専門知識の量に関して非常にコストがかかる。 本研究では,Codexのような最先端のCode-LLMを利用して,ストーリーの状態を追跡し,ストーリー理解を支援するシンボリックメソッドの利用をブートストラップする。 我々は,既存のストーリー理解タスク (bAbI Task 2 および Re^3) において,CoRRPUS システムと抽象的なプロンプトプロシージャが,手作業の最小化によって,現在最先端の構造化 LLM 技術に勝ることを示す。 我々は,これらのモデルが推論タスクを適切に実行するためのガイダンスを必要とするため,記号表現の重要性と,LLMの特殊的促進を強調できることを期待している。

Story generation and understanding -- as with all NLG/NLU tasks -- has seen a surge in neurosymbolic work. Researchers have recognized that, while large language models (LLMs) have tremendous utility, they can be augmented with symbolic means to be even better and to make up for any flaws that the neural networks might have. However, symbolic methods are extremely costly in terms of the amount of time and expertise needed to create them. In this work, we capitalize on state-of-the-art Code-LLMs, such as Codex, to bootstrap the use of symbolic methods for tracking the state of stories and aiding in story understanding. We show that our CoRRPUS system and abstracted prompting procedures can beat current state-of-the-art structured LLM techniques on pre-existing story understanding tasks (bAbI task 2 and Re^3) with minimal hand engineering. We hope that this work can help highlight the importance of symbolic representations and specialized prompting for LLMs as these models require some guidance for performing reasoning tasks properly.
翻訳日:2022-12-22 14:36:47 公開日:2022-12-21
# JASMINE:Few-Shot LearningのためのアラビアGPTモデル

JASMINE: Arabic GPT Models for Few-Shot Learning ( http://arxiv.org/abs/2212.10755v1 )

ライセンス: Link先を確認
El Moatez Billah Nagoudi, Muhammad Abdul-Mageed, AbdelRahim Elmadany, Alcides Alcoba Inciarte, Md Tawkat Islam Khondaker(参考訳) GPT(Task Agnostic Generative Pretraining)は、最近ゼロと少数ショットの学習に有望であることが証明された。 コミュニティは、GPT-3のような英語の自己回帰モデルの能力に関する知識を蓄積しているが、これらのモデルに関する奨学金は、鋭くアングロセントリックなままである。 その結果、コミュニティは現在、この種のモデル、その可能性、そして様々な設定、言語伝統、文化における社会的影響に対する理解に深刻なギャップがある。 4億ドル以上の人口を抱える多種多様な言語と言語品種のコレクションであるアラビア語のこの問題を軽減するため、我々は3億から13億のパラメーターからなる強力なアラビア語の自動回帰変換言語モデルのスイートであるJASMINEを紹介した。 我々は、アラビアの異なる品種やドメインから大量の多様なデータ(400GBのテキスト)で新しいモデルを事前訓練する。 我々は,JASMINEを内在的および外在的の両方で広範囲に評価し,広範囲なNLPタスクを対象としたゼロおよび少数ショット学習のための総合的ベンチマークを用いた。 また,これらのモデルにおける潜在的な社会的バイアス,有害性,毒性の調査に焦点をあてた,アラビア語自己回帰モデルの自動評価と人間評価のための新しいベンチマークを慎重に開発し,公開する。 興味のある研究者と実験するためのコードとともに、我々のモデルを責任を持ってリリースすることを目指している。

Task agnostic generative pretraining (GPT) has recently proved promising for zero- and few-shot learning, gradually diverting attention from the expensive supervised learning paradigm. Although the community is accumulating knowledge as to capabilities of English-language autoregressive models such as GPT-3 adopting this generative approach, scholarship about these models remains acutely Anglocentric. Consequently, the community currently has serious gaps in its understanding of this class of models, their potential, and their societal impacts in diverse settings, linguistic traditions, and cultures. To alleviate this issue for Arabic, a collection of diverse languages and language varieties with more than $400$ million population, we introduce JASMINE, a suite of powerful Arabic autoregressive Transformer language models ranging in size between 300 million-13 billion parameters. We pretrain our new models with large amounts of diverse data (400GB of text) from different Arabic varieties and domains. We evaluate JASMINE extensively in both intrinsic and extrinsic settings, using a comprehensive benchmark for zero- and few-shot learning across a wide range of NLP tasks. We also carefully develop and release a novel benchmark for both automated and human evaluation of Arabic autoregressive models focused at investigating potential social biases, harms, and toxicity in these models. We aim to responsibly release our models with interested researchers, along with code for experimenting with them
翻訳日:2022-12-22 14:36:27 公開日:2022-12-21
# ジェネレーションシーケンスラベリングにおけるビームサーチはどのようにスパンレベル信頼度推定を改善するか?

How Does Beam Search improve Span-Level Confidence Estimation in Generative Sequence Labeling? ( http://arxiv.org/abs/2212.10767v1 )

ライセンス: Link先を確認
Kazuma Hashimoto and Iftekhar Naim and Karthik Raman(参考訳) テキストからテキストへの生成モデルは、さまざまなシーケンスラベリングタスク(エンティティ抽出やダイアログスロットの充填など)のゴーツーソリューションになりつつある。 ほとんどの研究はラベル付けの精度に重点を置いているが、重要な実践的重要性を持つ重要な側面は、モデルの信頼性を理解することである。 より具体的には、ラベル付きスパン毎の予測においてモデルの信頼度を確実に評価する方法の原則的な理解が欠けている。 本稿では,生成配列ラベリングにおけるモデル信頼度の推定に関する実証的な知見を提供する。 最も注目すべきは、デコーダの出力確率を単純に使うだけでは、十分な信頼度推定を実現するのに最適ではないことである。 6つの異なるタスクの公開データセットを検証した結果,ビーム探索によるトップ$k$予測の統計量を活用する手法が,生成シーケンスラベリングモデルの予測の校正誤差を著しく低減することを示した。

Text-to-text generation models have increasingly become the go-to solution for a wide variety of sequence labeling tasks (e.g., entity extraction and dialog slot filling). While most research has focused on the labeling accuracy, a key aspect -- of vital practical importance -- has slipped through the cracks: understanding model confidence. More specifically, we lack a principled understanding of how to reliably gauge the confidence of a model in its predictions for each labeled span. This paper aims to provide some empirical insights on estimating model confidence for generative sequence labeling. Most notably, we find that simply using the decoder's output probabilities is not the best in realizing well-calibrated confidence estimates. As verified over six public datasets of different tasks, we show that our proposed approach -- which leverages statistics from top-$k$ predictions by a beam search -- significantly reduces calibration errors of the predictions of a generative sequence labeling model.
翻訳日:2022-12-22 14:36:02 公開日:2022-12-21
# 脳波復号のための深いリーマンネットワーク

Deep Riemannian Networks for EEG Decoding ( http://arxiv.org/abs/2212.10426v2 )

ライセンス: Link先を確認
Daniel Wilson, Robin Tibor Schirrmeister, Lukas Alexander Wilhelm Gemein, Tonio Ball(参考訳) 電子脳波(EEG)復号処理の最先端性能は、現在Deep-Learning または Riemannian-Geometry ベースの復号器を用いて達成されている。 近年,Deep Riemannian Networks (DRN) への関心が高まっている。 しかし、より広範なDRNをEEGに応用するには、さらなる洞察が必要である、というトピックは、まだたくさんある。 これにはネットワークサイズやエンドツーエンドの能力といったアーキテクチャ設計の問題や、モデルのトレーニングに関する質問が含まれる。 これらの要因がモデルのパフォーマンスにどのように影響するかは検討されていない。 さらに、これらのネットワーク内のデータがどのように変換され、それが従来の脳波デコードと相関するかは明らかではない。 本研究の目的は,脳波のDRNを多種多様なパラメーターで解析することで,これらのトピックの領域の基盤となることにある。 ネットワークは2つのパブリックEEGデータセットでテストされ、最先端のConvNetと比較された。 本稿では、エンド・ツー・エンドの脳波spdnet(ee(g)-spdnet)を提案し、この広範囲のエンド・ツー・エンドのdrmが、コンブネットよりも優れており、生理学的に妥当な周波数領域を用いていることを示す。 また、エンド・ツー・エンドの手法は、脳波の古典的アルファ、ベータ、ガンマ周波数帯域を対象とする従来の帯域通過フィルタよりも複雑なフィルタを学習し、チャネル固有のフィルタリング手法の恩恵を受けることを示す。 さらに、アーキテクチャ解析により、ネットワーク全体のリーマン固有情報が失われる可能性があるため、さらなる改善が図られた。 そこで本研究では,手作りのフィルタバンクを必要とせずに,生の脳波からタスク関連情報を推測するためのDRNの設計と訓練方法を示し,高性能な脳波復号のためのEE(G)-SPDNetなどのエンドツーエンドDRNの可能性を強調した。

State-of-the-art performance in electroencephalography (EEG) decoding tasks is currently often achieved with either Deep-Learning or Riemannian-Geometry-based decoders. Recently, there is growing interest in Deep Riemannian Networks (DRNs) possibly combining the advantages of both previous classes of methods. However, there are still a range of topics where additional insight is needed to pave the way for a more widespread application of DRNs in EEG. These include architecture design questions such as network size and end-to-end ability as well as model training questions. How these factors affect model performance has not been explored. Additionally, it is not clear how the data within these networks is transformed, and whether this would correlate with traditional EEG decoding. Our study aims to lay the groundwork in the area of these topics through the analysis of DRNs for EEG with a wide range of hyperparameters. Networks were tested on two public EEG datasets and compared with state-of-the-art ConvNets. Here we propose end-to-end EEG SPDNet (EE(G)-SPDNet), and we show that this wide, end-to-end DRN can outperform the ConvNets, and in doing so use physiologically plausible frequency regions. We also show that the end-to-end approach learns more complex filters than traditional band-pass filters targeting the classical alpha, beta, and gamma frequency bands of the EEG, and that performance can benefit from channel specific filtering approaches. Additionally, architectural analysis revealed areas for further improvement due to the possible loss of Riemannian specific information throughout the network. Our study thus shows how to design and train DRNs to infer task-related information from the raw EEG without the need of handcrafted filterbanks and highlights the potential of end-to-end DRNs such as EE(G)-SPDNet for high-performance EEG decoding.
翻訳日:2022-12-22 14:30:38 公開日:2022-12-21
# 対人攻撃がスパース回帰に及ぼす影響に関する理論的研究

A Theoretical Study of The Effects of Adversarial Attacks on Sparse Regression ( http://arxiv.org/abs/2212.11209v1 )

ライセンス: Link先を確認
Deepak Maurya, Jean Honorio(参考訳) 本稿では,逆向きに破損したデータのみをトレーニングに使用するという難しいシナリオの下で,$\ell_1$正規化線形回帰を解析する。 推定回帰パラメータベクトルが実際のパラメータに一致することを保証するため,本手法では本手法を用いて性能保証を行う。 本理論解析により,逆境が非関係な特徴,すなわち回帰パラメータベクトルの零係数に対応するもの,すなわち従属変数に影響を与えない特徴を破ることで,サンプル複雑性に影響を及ぼすことの逆直観的な結果を示す。 任意の可逆ロバストなアルゴリズムには限界があるため、理論解析により学習アルゴリズムと可逆アルゴリズムが互いに支配できるレジームを特定する。 このことは、これらの基本的な限界を分析し、パラメータ(相互不整合、共分散行列の最大値と最小値、逆摂動の予算など)がLASSOアルゴリズムの成功確率が高いか低いかという重要な科学的問題に対処するのに役立ちます。 また, 得られたサンプルの複雑性は回帰パラメータベクトルのサイズに対して対数的であり, この理論的主張は, 合成および実世界のデータセットに関する経験的分析によって検証される。

This paper analyzes $\ell_1$ regularized linear regression under the challenging scenario of having only adversarially corrupted data for training. We use the primal-dual witness paradigm to provide provable performance guarantees for the support of the estimated regression parameter vector to match the actual parameter. Our theoretical analysis shows the counter-intuitive result that an adversary can influence sample complexity by corrupting the irrelevant features, i.e., those corresponding to zero coefficients of the regression parameter vector, which, consequently, do not affect the dependent variable. As any adversarially robust algorithm has its limitations, our theoretical analysis identifies the regimes under which the learning algorithm and adversary can dominate over each other. It helps us to analyze these fundamental limits and address critical scientific questions of which parameters (like mutual incoherence, the maximum and minimum eigenvalue of the covariance matrix, and the budget of adversarial perturbation) play a role in the high or low probability of success of the LASSO algorithm. Also, the derived sample complexity is logarithmic with respect to the size of the regression parameter vector, and our theoretical claims are validated by empirical analysis on synthetic and real-world datasets.
翻訳日:2022-12-22 14:29:53 公開日:2022-12-21
# フォトリアリスティックビデオスタイル転送のためのColoristaNet

ColoristaNet for Photorealistic Video Style Transfer ( http://arxiv.org/abs/2212.09247v2 )

ライセンス: Link先を確認
Xiaowen Qiu, Ruize Xu, Boan He, Yingtao Zhang, Wenqiang Zhang, Weifeng Ge(参考訳) フォトリアリズムスタイル転送は、フォトリアリズムを維持しつつ、画像の芸術的スタイルを入力画像やビデオに転送することを目的としている。 本稿では,非現実的なスタイル化につながる既存アルゴリズムの要約統計マッチング方式について考察する。 一般的なグラム損失の回避を目的として,スタイル除去部とスタイル復元部を含む自己教師型スタイル転送フレームワークを提案する。 スタイル除去ネットワークは、元の画像スタイルを除去し、スタイル復元ネットワークは、監視された方法で画像スタイルを復元する。 一方、現在の機能変換手法における問題に対処するために、特徴変換をスタイルホワイトニングとレスタイライゼーションに分解する分離インスタンス正規化を提案する。 ColoristaNetではかなりうまく機能し、フォトリアリズムを維持しながら画像スタイルを効率的に転送できる。 時間的コヒーレンシを確保するために,光フロー法とconvlstmを組み込んでコンテキスト情報を埋め込む。 実験により、coloristanetは最先端のアルゴリズムと比較してより良いスタイライゼーション効果が得られることが示されている。

Photorealistic style transfer aims to transfer the artistic style of an image onto an input image or video while keeping photorealism. In this paper, we think it's the summary statistics matching scheme in existing algorithms that leads to unrealistic stylization. To avoid employing the popular Gram loss, we propose a self-supervised style transfer framework, which contains a style removal part and a style restoration part. The style removal network removes the original image styles, and the style restoration network recovers image styles in a supervised manner. Meanwhile, to address the problems in current feature transformation methods, we propose decoupled instance normalization to decompose feature transformation into style whitening and restylization. It works quite well in ColoristaNet and can transfer image styles efficiently while keeping photorealism. To ensure temporal coherency, we also incorporate optical flow methods and ConvLSTM to embed contextual information. Experiments demonstrates that ColoristaNet can achieve better stylization effects when compared with state-of-the-art algorithms.
翻訳日:2022-12-22 14:29:28 公開日:2022-12-21
# ADAS: クロスドメインな3Dセマンティックセマンティックセグメンテーションのためのシンプルなアクティブ&アダプティブベースライン

ADAS: A Simple Active-and-Adaptive Baseline for Cross-Domain 3D Semantic Segmentation ( http://arxiv.org/abs/2212.10390v2 )

ライセンス: Link先を確認
Ben Fei, Siyuan Huang, Jiakang Yuan, Botian Shi, Bo Zhang, Tao Chen, Min Dou, Yu Qiao(参考訳) 最先端の3dセマンティクスセグメンテーションモデルは、既定のパブリックベンチマークでトレーニングされるが、これらのよく訓練されたモデルを新しいドメインにデプロイする場合、それらはしばしば大きな課題に直面する。 本稿では,十分に訓練された3次元セグメンテーションモデルの弱いクロスドメイン一般化能力を高めるために,アクティブ・アンド・アダプティブセグメンテーション(adas)ベースラインを提案する。 具体的には、クロスドメイン適応ステージが始まる前に、ADASがアクティブサンプリング操作を行い、ソースドメインとターゲットドメインの両方から最大非形式サブセットを選択して効果的な適応を行い、3Dシナリオでの適応難度を低減する。 マルチモーダルな2D-3Dデータセットの出現により、ADASはクロスモーダルなアテンションベースの特徴融合モジュールを使用して、イメージ特徴とポイント特徴の代表的なペアを抽出し、より安全な適応のために双方向のイメージポイント特徴インタラクションを実現する。 実験により、ADASは以下の多くのクロスドメイン設定で有効であることが確認された。 1) 監視されていないドメイン適応(UDA)とは,対象ドメインからのすべてのサンプルがラベル付けされていないことを意味する。 2) 未表示領域適応 (UFDA) とは,少数の未表示サンプルが未表示対象領域で利用可能であることを意味する。 3) adasによって選択されたターゲットサンプルを手動で注釈付けするアクティブドメイン適応(ada)。 これらの結果から,ADASを自己学習法や市販のUDA工法と容易に結合することにより,ADASの精度向上が達成された。

State-of-the-art 3D semantic segmentation models are trained on the off-the-shelf public benchmarks, but they often face the major challenge when these well-trained models are deployed to a new domain. In this paper, we propose an Active-and-Adaptive Segmentation (ADAS) baseline to enhance the weak cross-domain generalization ability of a well-trained 3D segmentation model, and bridge the point distribution gap between domains. Specifically, before the cross-domain adaptation stage begins, ADAS performs an active sampling operation to select a maximally-informative subset from both source and target domains for effective adaptation, reducing the adaptation difficulty under 3D scenarios. Benefiting from the rise of multi-modal 2D-3D datasets, ADAS utilizes a cross-modal attention-based feature fusion module that can extract a representative pair of image features and point features to achieve a bi-directional image-point feature interaction for better safe adaptation. Experimentally, ADAS is verified to be effective in many cross-domain settings including: 1) Unsupervised Domain Adaptation (UDA), which means that all samples from target domain are unlabeled; 2) Unsupervised Few-shot Domain Adaptation (UFDA) which means that only a few unlabeled samples are available in the unlabeled target domain; 3) Active Domain Adaptation (ADA) which means that the selected target samples by ADAS are manually annotated. Their results demonstrate that ADAS achieves a significant accuracy gain by easily coupling ADAS with self-training methods or off-the-shelf UDA works.
翻訳日:2022-12-22 14:29:11 公開日:2022-12-21
# dcc:ソーシャルネットワークにおけるコミュニティ検出のためのカスケードベースアプローチ

DCC: A Cascade based Approach to Detect Communities in Social Networks ( http://arxiv.org/abs/2212.10937v1 )

ライセンス: Link先を確認
Soumita Das, Anupam Biswas, Akrati Saxena(参考訳) ソーシャルネットワークにおけるコミュニティ検出は、ネットワークに内在する最も類似したノードの発見とグループ化に関連している。 これらの類似ノードは、計算結合強度によって識別される。 強い結合は、連結ノード対によって共有されるより高い近接を示す。 この研究は、グラノヴェッターの主張によって、強い結びつきが密接なノードの中にあり、現実世界のネットワークにおけるコミュニティコアが密接な結びつきを持つという理論が示唆されている。 本稿では,新しい地域密集度に基づく地域密結合強度測定が地域密集度に与える影響を実証する手法である,dcc(dmph{disjoint community detection using cascades)を提案する。 ここで、情報伝達に続く経路を決定するためにネクタイ強度を利用する。 このアイデアは、カスケードのタプル情報をコミュニティのコアに集めて、結びつきの強さを増すことだ。 カスケード生成ステップを考えると,未割り当てノードにコミュニティラベルを割り当てる新たな優先メンバシップ手法が開発されている。 DCC$の有効性は、いくつかの実世界のデータセットとベースラインコミュニティ検出アルゴリズムの品質と精度に基づいて分析されている。

Community detection in Social Networks is associated with finding and grouping the most similar nodes inherent in the network. These similar nodes are identified by computing tie strength. Stronger ties indicates higher proximity shared by connected node pairs. This work is motivated by Granovetter's argument that suggests that strong ties lies within densely connected nodes and the theory that community cores in real-world networks are densely connected. In this paper, we have introduced a novel method called \emph{Disjoint Community detection using Cascades (DCC)} which demonstrates the effectiveness of a new local density based tie strength measure on detecting communities. Here, tie strength is utilized to decide the paths followed for propagating information. The idea is to crawl through the tuple information of cascades towards the community core guided by increasing tie strength. Considering the cascade generation step, a novel preferential membership method has been developed to assign community labels to unassigned nodes. The efficacy of $DCC$ has been analyzed based on quality and accuracy on several real-world datasets and baseline community detection algorithms.
翻訳日:2022-12-22 14:28:38 公開日:2022-12-21
# NextGワイヤレスネットワークにおける利己的なクライアントによるフェデレーション学習のためのフリーライダーゲーム

Free-Rider Games for Federated Learning with Selfish Clients in NextG Wireless Networks ( http://arxiv.org/abs/2212.11194v1 )

ライセンス: Link先を確認
Yalin E. Sagduyu(参考訳) 本稿では,フェデレートラーニング(FL)におけるゲーム理論フレームワークを提案するとともに,無線リンク上でFLを実行する場合のナッシュ均衡戦略を決定する。 nextg通信のスペクトルセンシングをサポートするために、flは、プライバシーを保ちながら無線信号分類器を訓練するために、限られたトレーニングデータセットと計算リソースを持つスペクトラムセンサというクライアントによって使用される。 FLでは、クライアントはフリーライディング(FLモデル更新)、すなわちFLモデルの更新には参加せず、FL参加の計算と送信コストが高く、コストを伴わずにグローバルモデル(他のクライアントが引き起こす)を受け取る。 しかし,このフリーライディング行動は,グローバルモデル学習への貢献の欠如により,世界的な精度を低下させる可能性がある。 このトレードオフは、各クライアントがグローバルモデル精度とFL参加コストの差として、そのユーティリティを個別に最大化する非協調ゲームにつながる。 ナッシュ均衡戦略は、相手の戦略が同じであることから、クライアントが一方的にその効用を増すことができないようなフリーライディング確率のために導出される。 FL参加コストとクライアント数によってフリーライド確率が増加し、すべてのクライアントのジョイント最適化に関してナッシュ均衡において重要な最適性ギャップが存在する。 クライアント数に応じて最適なギャップが増加し、最大ギャップがコストの関数として評価される。 これらの結果は,nextgネットワークにおけるflのレジリエンスに及ぼすフリーライドの影響を定量化し,fl参加のための運用モードを示す。

This paper presents a game theoretic framework for participation and free-riding in federated learning (FL), and determines the Nash equilibrium strategies when FL is executed over wireless links. To support spectrum sensing for NextG communications, FL is used by clients, namely spectrum sensors with limited training datasets and computation resources, to train a wireless signal classifier while preserving privacy. In FL, a client may be free-riding, i.e., it does not participate in FL model updates, if the computation and transmission cost for FL participation is high, and receives the global model (learned by other clients) without incurring a cost. However, the free-riding behavior may potentially decrease the global accuracy due to lack of contribution to global model learning. This tradeoff leads to a non-cooperative game where each client aims to individually maximize its utility as the difference between the global model accuracy and the cost of FL participation. The Nash equilibrium strategies are derived for free-riding probabilities such that no client can unilaterally increase its utility given the strategies of its opponents remain the same. The free-riding probability increases with the FL participation cost and the number of clients, and a significant optimality gap exists in Nash equilibrium with respect to the joint optimization for all clients. The optimality gap increases with the number of clients and the maximum gap is evaluated as a function of the cost. These results quantify the impact of free-riding on the resilience of FL in NextG networks and indicate operational modes for FL participation.
翻訳日:2022-12-22 14:28:12 公開日:2022-12-21
# 楕円体をガウス的ランダム点に適合させる近距離境界

A Nearly Tight Bound for Fitting an Ellipsoid to Gaussian Random Points ( http://arxiv.org/abs/2212.11221v1 )

ライセンス: Link先を確認
Daniel M. Kane and Ilias Diakonikolas(参考訳) 十分小さな普遍定数である$c>0$に対して、$c d^2/\log^4(d)$ 独立ガウス乱点のランダムな集合が、高い確率を持つ共通楕円体上にあることを証明している。 これは対数因子の中で~\cite{SaundersonCPW12} の予想をほぼ成立させる。 後者の予想は、ある統計問題に対する機械学習と2乗の和の上限との関係から、過去10年間にかなりの注目を集めてきた。

We prove that for $c>0$ a sufficiently small universal constant that a random set of $c d^2/\log^4(d)$ independent Gaussian random points in $\mathbb{R}^d$ lie on a common ellipsoid with high probability. This nearly establishes a conjecture of~\cite{SaundersonCPW12}, within logarithmic factors. The latter conjecture has attracted significant attention over the past decade, due to its connections to machine learning and sum-of-squares lower bounds for certain statistical problems.
翻訳日:2022-12-22 14:27:46 公開日:2022-12-21
# GPTはなぜインコンテキストを学習できるのか? メタオプティマイザとしてのグラディエントDescentの言語モデル

Why Can GPT Learn In-Context? Language Models Secretly Perform Gradient Descent as Meta-Optimizers ( http://arxiv.org/abs/2212.10559v2 )

ライセンス: Link先を確認
Damai Dai, Yutao Sun, Li Dong, Yaru Hao, Zhifang Sui, Furu Wei(参考訳) 大規模な事前訓練された言語モデルは、驚くべきインコンテキスト学習(ICL)能力を示している。 数組のインプットラベルペアで、追加のパラメータ更新なしで、見当たらないインプットのラベルを予測することができる。 パフォーマンスの大きな成功にもかかわらず、ICLの動作メカニズムは依然としてオープンな問題である。 ICLの動作をよりよく理解するために、メタ最適化として言語モデルを説明し、ICLを暗黙的な微調整の一種として理解する。 理論的には、トランスフォーマーの注意は勾配降下に基づく最適化の2つの形態を持つ。 GPTはまず、実例に従ってメタグラディエントを生成し、その後、これらのメタグラディエントを元のGPTに適用し、ICLモデルを構築する。 実験では,実作業に基づくICLと明示的な微調整の挙動を総合的に比較し,理解を支える実証的な証拠を提供する。 その結果、iclは予測レベル、表現レベル、注意行動レベルで明示的な微調整と同様に振る舞うことが判明した。 さらに,メタ最適化の理解に触発されて,運動量に基づく勾配降下アルゴリズムに類似した運動量に基づく注意をデザインする。 バニラアテンションよりも一貫して優れたパフォーマンスは、別の側面からの理解を再び支援し、さらに重要なこととして、将来のモデル設計に私たちの理解を利用する可能性を示しています。

Large pretrained language models have shown surprising In-Context Learning (ICL) ability. With a few demonstration input-label pairs, they can predict the label for an unseen input without additional parameter updates. Despite the great success in performance, the working mechanism of ICL still remains an open problem. In order to better understand how ICL works, this paper explains language models as meta-optimizers and understands ICL as a kind of implicit finetuning. Theoretically, we figure out that the Transformer attention has a dual form of gradient descent based optimization. On top of it, we understand ICL as follows: GPT first produces meta-gradients according to the demonstration examples, and then these meta-gradients are applied to the original GPT to build an ICL model. Experimentally, we comprehensively compare the behavior of ICL and explicit finetuning based on real tasks to provide empirical evidence that supports our understanding. The results prove that ICL behaves similarly to explicit finetuning at the prediction level, the representation level, and the attention behavior level. Further, inspired by our understanding of meta-optimization, we design a momentum-based attention by analogy with the momentum-based gradient descent algorithm. Its consistently better performance over vanilla attention supports our understanding again from another aspect, and more importantly, it shows the potential to utilize our understanding for future model designing.
翻訳日:2022-12-22 14:27:37 公開日:2022-12-21
# 問合せ木最適化による知識グラフ上の複雑な論理的クエリの解法

Answering Complex Logical Queries on Knowledge Graphs via Query Computation Tree Optimization ( http://arxiv.org/abs/2212.09567v2 )

ライセンス: Link先を確認
Yushi Bai, Xin Lv, Juanzi Li, Lei Hou(参考訳) 不完全な知識グラフ上で複雑な論理クエリに応答することは難しい課題であり、広く研究されている。 埋め込みベースのメソッドは複雑なクエリのトレーニングを必要とし、分散のクエリ構造にうまく一般化できない。 最近の作業では、このタスクをエンドツーエンドの最適化問題として捉えており、事前訓練されたリンク予測器のみを必要とする。 しかし、指数関数的に大きい組合せ探索空間のため、最適解は近似され、最終的な精度が制限される。 本研究では,最適解を効率的に見つけるためのqto(query computation tree optimization)を提案する。 QTOは、木のような計算グラフ、すなわちクエリ計算ツリーの前方への伝播によって最適な解を求める。 特に、QTOは、クエリ計算ツリーにエンコードされた独立性を利用して、最適化処理中にローカルな計算のみに関わる検索スペースを削減する。 3つのデータセットの実験から、QTOは複雑なクエリ応答における最先端のパフォーマンスを得ており、以前の最高の結果を平均22%上回っている。 さらにqtoは、クエリ内の各1ホップ原子の中間解を90%以上の精度で解釈することができる。

Answering complex logical queries on incomplete knowledge graphs is a challenging task, and has been widely studied. Embedding-based methods require training on complex queries, and cannot generalize well to out-of-distribution query structures. Recent work frames this task as an end-to-end optimization problem, and it only requires a pretrained link predictor. However, due to the exponentially large combinatorial search space, the optimal solution can only be approximated, limiting the final accuracy. In this work, we propose QTO (Query Computation Tree Optimization) that can efficiently find the exact optimal solution. QTO finds the optimal solution by a forward-backward propagation on the tree-like computation graph, i.e., query computation tree. In particular, QTO utilizes the independence encoded in the query computation tree to reduce the search space, where only local computations are involved during the optimization procedure. Experiments on 3 datasets show that QTO obtains state-of-the-art performance on complex query answering, outperforming previous best results by an average of 22%. Moreover, QTO can interpret the intermediate solutions for each of the one-hop atoms in the query with over 90% accuracy.
翻訳日:2022-12-22 14:20:50 公開日:2022-12-21
# berlin v2x: 複数の車両と無線アクセス技術による機械学習データセット

Berlin V2X: A Machine Learning Dataset from Multiple Vehicles and Radio Access Technologies ( http://arxiv.org/abs/2212.10343v2 )

ライセンス: Link先を確認
Rodrigo Hernang\'omez, Philipp Geuer, Alexandros Palaios, Daniel Sch\"aufele, Cara Watermann, Khawla Taleb-Bouhemadi, Mohammad Parvini, Anton Krause, Sanket Partani, Christian Vielhaus, Martin Kasparick, Daniel F. K\"ulzer, Friedrich Burmeister, S{\l}awomir Sta\'nczak, Gerhard Fettweis, Hans D. Schotten, Frank H. P. Fitzek(参考訳) 6g以降への無線通信の進化は、新しい機械学習(ml)ベースの機能に依存することが期待される。 これにより、無線ネットワークコンポーネントからの積極的な決定とアクションにより、QoS(Quality-of-Service)とユーザエクスペリエンスを維持できる。 また, 自動車と産業の通信分野における新たな利用事例が出現する。 特に、車両通信の分野では、車両間通信(V2X)方式は、そのような進歩の恩恵を強く受けるだろう。 そこで我々は,MLに基づく多種多様な研究を可能にするための詳細な測定キャンペーンを実施した。 得られたデータセットは、セルラー(2つの異なるオペレーターを持つ)とサイドリンク無線アクセス技術の両方のために、様々な都市環境にわたってGPSによるワイヤレス測定を提供する。 データセットはラベル付けされ、高解像度でサンプリングされる。 さらに,新たな研究者の参加を支援するために,必要な情報をすべて公開する。 我々は、MLが克服すべき課題と、MLが活用できる機能と、潜在的研究のヒントを示すデータの初期分析を提供する。

The evolution of wireless communications into 6G and beyond is expected to rely on new machine learning (ML)-based capabilities. These can enable proactive decisions and actions from wireless-network components to sustain quality-of-service (QoS) and user experience. Moreover, new use cases in the area of vehicular and industrial communications will emerge. Specifically in the area of vehicle communication, vehicle-to-everything (V2X) schemes will benefit strongly from such advances. With this in mind, we have conducted a detailed measurement campaign with the purpose of enabling a plethora of diverse ML-based studies. The resulting datasets offer GPS-located wireless measurements across diverse urban environments for both cellular (with two different operators) and sidelink radio access technologies, thus enabling a variety of different studies towards V2X. The datasets are labeled and sampled with a high time resolution. Furthermore, we make the data publicly available with all the necessary information to support the on-boarding of new researchers. We provide an initial analysis of the data showing some of the challenges that ML needs to overcome and the features that ML can leverage, as well as some hints at potential research studies.
翻訳日:2022-12-22 14:20:34 公開日:2022-12-21
# 隠れた毒: マシンアンラーニングでカモフラージュによる毒攻撃が可能に

Hidden Poison: Machine Unlearning Enables Camouflaged Poisoning Attacks ( http://arxiv.org/abs/2212.10717v1 )

ライセンス: Link先を確認
Jimmy Z. Di, Jack Douglas, Jayadev Acharya, Gautam Kamath, Ayush Sekhari(参考訳) モデル再トレーニングが誘発される可能性のあるマシンアンラーニングなどの設定で発生する,新たな攻撃ベクトルであるcamouflaged data poisoning attackを紹介する。 相手はまず、モデルの予測への影響を最小限に抑えるために、トレーニングデータセットに慎重にポイントを追加する。 敵はその後、導入されたポイントのサブセットを削除する要求をトリガーし、その時点で攻撃は解かれ、モデルの予測は負の影響を受ける。 特に、CIFAR-10、Imagenette、Imagewoofなどのデータセット上で、クリーンラベルのターゲットアタック(モデルに特定のテストポイントを誤分類させることが目的)について検討する。 この攻撃は、有毒なデータセットの効果を隠蔽するカモフラージュデータポイントを構築することで実現される。

We introduce camouflaged data poisoning attacks, a new attack vector that arises in the context of machine unlearning and other settings when model retraining may be induced. An adversary first adds a few carefully crafted points to the training dataset such that the impact on the model's predictions is minimal. The adversary subsequently triggers a request to remove a subset of the introduced points at which point the attack is unleashed and the model's predictions are negatively affected. In particular, we consider clean-label targeted attacks (in which the goal is to cause the model to misclassify a specific test point) on datasets including CIFAR-10, Imagenette, and Imagewoof. This attack is realized by constructing camouflage datapoints that mask the effect of a poisoned dataset.
翻訳日:2022-12-22 14:20:16 公開日:2022-12-21
# ディープニューラルネットワークにおける計算グラフの効率的なビジュアル化に向けて

Towards Efficient Visual Simplification of Computational Graphs in Deep Neural Networks ( http://arxiv.org/abs/2212.10774v1 )

ライセンス: Link先を確認
Rusheng Pan, Zhiyong Wang, Yating Wei, Han Gao, Gongchang Ou, Caleb Chen Cao, Jingli Xu, Tong Xu and Wei Chen(参考訳) ディープニューラルネットワーク(DNN)の計算グラフは、多くのテンソルと演算子からなる特定のデータフロー図(DFD)を表す。 計算グラフを視覚化するための既存のツールキットは、構造が複雑で大規模(例えばBERT [1])である場合には適用できない。 この問題に対処するため,我々は,周期除去法,モジュールベースのエッジプルーニングアルゴリズム,同型部分グラフスタックング戦略など,視覚的な単純化手法のスイートを活用することを提案する。 我々は,最大1万要素の計算グラフに適したインタラクティブな可視化システムを設計し,実装する。 実験結果と利用シナリオから,我々のツールは平均60%の要素を削減し,DNNモデルの認識・診断性能を向上させる。 私たちのコントリビューションは、オープンソースのDNNビジュアライゼーションツールキット、MindInsight [2]に統合されています。

A computational graph in a deep neural network (DNN) denotes a specific data flow diagram (DFD) composed of many tensors and operators. Existing toolkits for visualizing computational graphs are not applicable when the structure is highly complicated and large-scale (e.g., BERT [1]). To address this problem, we propose leveraging a suite of visual simplification techniques, including a cycle-removing method, a module-based edge-pruning algorithm, and an isomorphic subgraph stacking strategy. We design and implement an interactive visualization system that is suitable for computational graphs with up to 10 thousand elements. Experimental results and usage scenarios demonstrate that our tool reduces 60% elements on average and hence enhances the performance for recognizing and diagnosing DNN models. Our contributions are integrated into an open-source DNN visualization toolkit, namely, MindInsight [2].
翻訳日:2022-12-22 14:20:01 公開日:2022-12-21
# 時間変化CSIによる屋内プレゼンス検出のための半教師バイフォルド教師学習

Semi-Supervised Bifold Teacher-Student Learning for Indoor Presence Detection Under Time-Varying CSI ( http://arxiv.org/abs/2212.10802v1 )

ライセンス: Link先を確認
Li-Hsiang Shen, Kai-Jui Chen, An-Hung Hsiao, Kai-Ten Feng(参考訳) 近年,努力型教師あり学習(SL)とチャネル状態情報(CSI)に基づく屋内人間の存在検知に焦点を当てた研究が盛んに行われている。 これらの既存の研究は、検出精度を向上させるためにcsiの空間情報を採用している。 しかし、チャネルは、物体の動き、大気要因、機械の再起動など、実際の任意の環境変化に影響を受けやすいため、予測精度が低下する。 しかし、既存のSLベースの手法では、新しいモデルを時間を要するラベルで再訓練する必要がある。 したがって, モデル"ライフサイクル"を継続的に監視することで, 半教師付き学習(SSL)ベースのスキームを設計することが極めて重要となる。 本稿では,SSLとラベル付きデータセットを併用した存在検出システムのための2次学習(BTS)を提案する。 このネットワークは,ラベル付き・ラベルなしのCSIから空間的・時間的特徴を知的に学習することができる。 さらに、エントロピーと距離測定を利用した強化されたペナル化損失関数は、ドリフトされたデータ、すなわち、新しいデータセットの特徴が時間変化の影響を受け、元の分布と入れ替わる。 実験の結果,BTSシステムはラベルのないデータでモデルを再訓練した後,漸近的精度を維持できることがわかった。 さらに、ラベルのないBTSは、SLベースの手法と同様のパフォーマンスを達成しつつ、最大検出精度で既存のSSLベースのモデルより優れている。

In recent years, there have been abundant researches focused on indoor human presence detection based on laborious supervised learning (SL) and channel state information (CSI). These existing studies adopt spatial information of CSI to improve detection accuracy. However, channel is susceptible to arbitrary environmental changes in practice, such as the object movement, atmospheric factors and machine rebooting, which leads to degraded prediction accuracy. However, the existing SL-based methods require to re-train a new model with time-consuming labeling. Therefore, designing a semi-supervised learning (SSL) based scheme by continuously monitoring model "life-cycle" becomes compellingly imperative. In this paper, we propose bifold teacher-student (BTS) learning for presence detection system, which combines SSL by utilizing partial labeled and unlabeled dataset. The proposed primal-dual teacher-student network is capable of intelligently learning spatial and temporal features from labeled and unlabeled CSI. Additionally, the enhanced penalized loss function leveraging entropy and distance measure can distinguish the drifted data, i.e., features of new dataset are affected by time-varying effect and are alternated from the original distribution. The experimental results demonstrate that the proposed BTS system can sustain the asymptotic accuracy after retraining the model with unlabeled data. Moreover, label-free BTS outperforms the existing SSL-based models in terms of the highest detection accuracy, while achieving the similar performance of SL-based methods.
翻訳日:2022-12-22 14:19:47 公開日:2022-12-21
# 原子候補OWLクラスの公理のスコア予測

Predicting the Score of Atomic Candidate OWL Class Axioms ( http://arxiv.org/abs/2212.10841v1 )

ライセンス: Link先を確認
Ali Ballout (UCA, Laboratoire I3S - SPARKS, WIMMICS), Andrea G B Tettamanzi (Laboratoire I3S - SPARKS, UCA, WIMMICS), C\'elia da Costa Pereira (UCA, Laboratoire I3S - SPARKS)(参考訳) 候補公理スコアリング(英語: Candidate axiom score)とは、候補者公理の受理性を評価するタスクである。 候補公理を確実にスコア付けする能力は、自動スキーマやオントロジ誘導には必要だが、オントロジや知識グラフの検証にも有用である。 正確な公理スコアリングヒューリスティックは計算コストがかかることが多いため、レベルワイドな生成・テストアルゴリズムや進化的アルゴリズムのような反復的な検索手法で使用する場合には問題となる。 本稿では,候補クラスの公理の可能性を予測し,そのような状況において十分に迅速に利用できる推論の代用として予測モデルを開発するという課題に対処する。 この目的のために、オントロジーの仮定構造から取られた意味的類似性尺度を用いる。 本研究で提案するアプローチは,OWLクラスの公理候補の確率スコアを正確に学習し,OWLクラスの公理を多種多様な公理に対して適用可能であることを示す。

Candidate axiom scoring is the task of assessing the acceptability of a candidate axiom against the evidence provided by known facts or data. The ability to score candidate axioms reliably is required for automated schema or ontology induction, but it can also be valuable for ontology and/or knowledge graph validation. Accurate axiom scoring heuristics are often computationally expensive, which is an issue if you wish to use them in iterative search techniques like level-wise generate-and-test or evolutionary algorithms, which require scoring a large number of candidate axioms. We address the problem of developing a predictive model as a substitute for reasoning that predicts the possibility score of candidate class axioms and is quick enough to be employed in such situations. We use a semantic similarity measure taken from an ontology's subsumption structure for this purpose. We show that the approach provided in this work can accurately learn the possibility scores of candidate OWL class axioms and that it can do so for a variety of OWL class axioms.
翻訳日:2022-12-22 14:19:23 公開日:2022-12-21
# 温室効果ガス排出量: 解釈可能な機械学習による企業非報告排出量の推定

Greenhouse gases emissions: estimating corporate non-reported emissions using interpretable machine learning ( http://arxiv.org/abs/2212.10844v1 )

ライセンス: Link先を確認
Jeremi Assael (BNPP CIB GM Lab, MICS), Thibaut Heurtebize, Laurent Carlier (BNPP CIB GM Lab), Fran\c{c}ois Soup\'e(参考訳) 2022年現在、温室効果ガス(GHG)排出量の報告と監査は全企業に義務付けられておらず、測定と推定の方法論は統一されていない。 我々は、まだ報告していない企業のスコープ1とスコープ2のGHG排出量を推定する機械学習モデルを提案する。 当社のモデルは、透明でこのユースケースに完全に適合するように特別に設計されており、大企業の排出量を見積もることができる。 国別、または収益別で評価する際、サンプル外の世界的パフォーマンスと、サンプル外粗粒度のパフォーマンスが良い。 また、結果と他のプロバイダの結果を比較して、より正確に見積もることができます。 提案したShapley値を用いた説明可能性ツールにより,本モデルは完全に解釈可能となり,各企業毎のGHG排出量を,どの要因を分割して説明することができる。

As of 2022, greenhouse gases (GHG) emissions reporting and auditing are not yet compulsory for all companies and methodologies of measurement and estimation are not unified. We propose a machine learning-based model to estimate scope 1 and scope 2 GHG emissions of companies not reporting them yet. Our model, specifically designed to be transparent and completely adapted to this use case, is able to estimate emissions for a large universe of companies. It shows good out-of-sample global performances as well as good out-of-sample granular performances when evaluating it by sectors, by countries or by revenues buckets. We also compare our results to those of other providers and find our estimates to be more accurate. Thanks to the proposed explainability tools using Shapley values, our model is fully interpretable, the user being able to understand which factors split explain the GHG emissions for each particular company.
翻訳日:2022-12-22 14:19:04 公開日:2022-12-21
# 価値はあるのか? 時系列における教師なし異常検出のための6つの深層・古典的機械学習手法の実験的検討

Is it worth it? An experimental comparison of six deep- and classical machine learning methods for unsupervised anomaly detection in time series ( http://arxiv.org/abs/2212.11080v1 )

ライセンス: Link先を確認
Ferdinand Rewicki and Joachim Denzler and Julia Niebling(参考訳) 時系列データにおける異常の検出は、システム監視、医療、サイバーセキュリティなど、幅広いアプリケーションにおいて重要である。 利用可能な多くのメソッドは、特定のアプリケーションに対して適切なメソッドを選択するのを十分に難しくするが、異なるメソッドは異なる長所を持っている。 本研究では,教師なしの6つの異常検出法と異なる複雑度を比較して,次のような疑問に答える。 そして、それらのメソッドがカスタマイズされる特定の異常型はありますか? この比較は、最近の異常検出のためのベンチマークデータセットであるUCR異常アーカイブで行われている。 各メソッドに必要なハイパーパラメータをチューニングした後,データセットと異常型レベルで実験結果を分析して6つの手法を比較した。 さらに,各手法が異常に関する事前の知識を取り入れ,ポイントワイド特徴とシーケンスワイド特徴の違いを分析する能力についても検討する。 本研究では,従来の機械学習手法が,多種多様な異常型を対象としたディープラーニング手法と比較して,優れた性能を示すことを示す。

The detection of anomalies in time series data is crucial in a wide range of applications, such as system monitoring, health care or cyber security. While the vast number of available methods makes selecting the right method for a certain application hard enough, different methods have different strengths, e.g. regarding the type of anomalies they are able to find. In this work, we compare six unsupervised anomaly detection methods with different complexities to answer the questions: Are the more complex methods usually performing better? And are there specific anomaly types that those method are tailored to? The comparison is done on the UCR anomaly archive, a recent benchmark dataset for anomaly detection. We compare the six methods by analyzing the experimental results on a dataset- and anomaly type level after tuning the necessary hyperparameter for each method. Additionally we examine the ability of individual methods to incorporate prior knowledge about the anomalies and analyse the differences of point-wise and sequence wise features. We show with broad experiments, that the classical machine learning methods show a superior performance compared to the deep learning methods across a wide range of anomaly types.
翻訳日:2022-12-22 14:18:44 公開日:2022-12-21
# AIフェアネスアセスメントの標準化のための7層モデル

A Seven-Layer Model for Standardising AI Fairness Assessment ( http://arxiv.org/abs/2212.11207v1 )

ライセンス: Link先を確認
Avinash Agarwal, Harsh Agarwal(参考訳) 問題文: AIフェアネスルールとベンチマークの標準化は、AIフェアネスやその他の倫理的要件がコンテキスト、ユースケース、AIシステムのタイプなど、複数の要因に依存するため、難しい。 本稿では,AIシステムのライフサイクルのすべての段階において,開始から使用までのバイアスが発生しやすいこと,AIバイアスの緩和に十分な注意が必要であることを詳しく述べる。 あらゆる段階でAIフェアネスを扱うための標準化されたアプローチが必要です。 ギャップ分析: AIフェアネスはホットな研究トピックであるが、AIフェアネスの全体戦略は一般的に欠落している。 ほとんどの研究者は、AIモデル構築のいくつかの側面のみに焦点を当てている。 peer reviewでは、データセットのバイアス、公平度メトリクス、アルゴリズムバイアスに過度に注目している。 その過程で、AIの公平性に影響を与える他の側面は無視される。 我々は、AIフェアネスハンドリングを標準化するために、オープンシステムインターコネクション(OSI)モデルにインスパイアされた、新しい7層モデルという形で包括的なアプローチを提案する。 さまざまな側面の違いにもかかわらず、ほとんどのAIシステムは、同様のモデル構築段階を持っている。 提案されたモデルは、AIシステムのライフサイクルを7つの抽象化レイヤに分割する。 また,各レイヤに対するチェックリストを提供し,各レイヤの潜在的なバイアス源とその緩和方法について検討する。 この作業は、AIフェアネスルールとベンチマークパラメータの階層的標準化を促進する。

Problem statement: Standardisation of AI fairness rules and benchmarks is challenging because AI fairness and other ethical requirements depend on multiple factors such as context, use case, type of the AI system, and so on. In this paper, we elaborate that the AI system is prone to biases at every stage of its lifecycle, from inception to its usage, and that all stages require due attention for mitigating AI bias. We need a standardised approach to handle AI fairness at every stage. Gap analysis: While AI fairness is a hot research topic, a holistic strategy for AI fairness is generally missing. Most researchers focus only on a few facets of AI model-building. Peer review shows excessive focus on biases in the datasets, fairness metrics, and algorithmic bias. In the process, other aspects affecting AI fairness get ignored. The solution proposed: We propose a comprehensive approach in the form of a novel seven-layer model, inspired by the Open System Interconnection (OSI) model, to standardise AI fairness handling. Despite the differences in the various aspects, most AI systems have similar model-building stages. The proposed model splits the AI system lifecycle into seven abstraction layers, each corresponding to a well-defined AI model-building or usage stage. We also provide checklists for each layer and deliberate on potential sources of bias in each layer and their mitigation methodologies. This work will facilitate layer-wise standardisation of AI fairness rules and benchmarking parameters.
翻訳日:2022-12-22 14:18:13 公開日:2022-12-21
# LogAnMeta: メタラーニングを用いたログ異常検出

LogAnMeta: Log Anomaly Detection Using Meta Learning ( http://arxiv.org/abs/2212.10992v1 )

ライセンス: Link先を確認
Abhishek Sarkar, Tanmay Sen, Srimanta Kundu, Arijit Sarkar, Abdul Wazed(参考訳) 現代の通信システムは、複数のアプリケーション層やコンポーネントのパフォーマンスとシステムログによって監視される。 これらのログから異常なイベントを検出することは、セキュリティ侵害、リソースの過剰利用、クリティカル/フェイタルエラーなどを特定する上で重要だ。 現在の教師付きログ異常検出フレームワークは、トレーニングデータにほとんどあるいは見当たらないサンプルがない、新しいタイプの異常やシグネチャではパフォーマンスが低くなる傾向がある。 本研究では,サンプル数が少ないログイベント列から異常を検出するための,メタラーニングに基づくログ異常検出フレームワーク(loganmeta)を提案する。 LoganMetaは、エピソードな方法でハイブリッドな数ショット分類器を訓練する。 提案手法の有効性を実証する実験結果

Modern telecom systems are monitored with performance and system logs from multiple application layers and components. Detecting anomalous events from these logs is key to identify security breaches, resource over-utilization, critical/fatal errors, etc. Current supervised log anomaly detection frameworks tend to perform poorly on new types or signatures of anomalies with few or unseen samples in the training data. In this work, we propose a meta-learning-based log anomaly detection framework (LogAnMeta) for detecting anomalies from sequence of log events with few samples. LoganMeta train a hybrid few-shot classifier in an episodic manner. The experimental results demonstrate the efficacy of our proposed method
翻訳日:2022-12-22 14:12:13 公開日:2022-12-21
# NADBenchmarks - 自然災害に関連する機械学習タスクのためのベンチマークデータセットのコンパイル

NADBenchmarks -- a compilation of Benchmark Datasets for Machine Learning Tasks related to Natural Disasters ( http://arxiv.org/abs/2212.10735v1 )

ライセンス: Link先を確認
Adiba Mahbub Proma, Md Saiful Islam, Stela Ciko, Raiyan Abdul Baten, and Ehsan Hoque(参考訳) 気候変動は世界中の極端な気象現象や自然災害の強度、頻度、持続時間を増加させた。 自然災害に関するデータの増加は、この分野における機械学習(ML)の範囲を改善するが、進歩は比較的遅い。 ボトルネックのひとつは、ML研究者が標準メトリクスに対して進捗を定量化できるベンチマークデータセットの欠如である。 本論文の目的は,自然災害に関連するMLタスクのベンチマークデータセットの状態を調べ,災害管理サイクルに従って分類することである。 過去5年間に導入された既存のベンチマークデータセットのリストをコンパイルします。 我々は,研究者が自然災害のベンチマークデータセットを検索できるwebプラットフォームであるnadbenchmarksを提案する。 本稿では、研究者がmlモデルのトレーニングを行うためのベンチマークデータセットを見つけることを支援し、新しいベンチマークデータセットに貢献できるトピックの一般的な方向性を提供する。

Climate change has increased the intensity, frequency, and duration of extreme weather events and natural disasters across the world. While the increased data on natural disasters improves the scope of machine learning (ML) in this field, progress is relatively slow. One bottleneck is the lack of benchmark datasets that would allow ML researchers to quantify their progress against a standard metric. The objective of this short paper is to explore the state of benchmark datasets for ML tasks related to natural disasters, categorizing them according to the disaster management cycle. We compile a list of existing benchmark datasets introduced in the past five years. We propose a web platform - NADBenchmarks - where researchers can search for benchmark datasets for natural disasters, and we develop a preliminary version of such a platform using our compiled list. This paper is intended to aid researchers in finding benchmark datasets to train their ML models on, and provide general directions for topics where they can contribute new benchmark datasets.
翻訳日:2022-12-22 14:11:12 公開日:2022-12-21
# 深部物体検出のための能動学習における高速プロトタイピングと比較可能性

Towards Rapid Prototyping and Comparability in Active Learning for Deep Object Detection ( http://arxiv.org/abs/2212.10836v1 )

ライセンス: Link先を確認
Tobias Riedlinger, Marius Schubert, Karsten Kahl, Hanno Gottschalk and Matthias Rottmann(参考訳) ディープラーニングのパラダイムとしてのアクティブラーニングは、ラベル取得が困難で高価であるオブジェクト検出のような複雑な知覚タスクを含むアプリケーションにおいて特に重要である。 このような分野におけるアクティブラーニング手法の開発は、計算コストが高く、研究の進行を妨げる時間を要するため、手法間の比較可能性の欠如につながる。 本研究では,深層物体検出における能動的学習の迅速な開発と透過的評価のためのサンドボックス構成を提案する。 文献で見られるデータセットや検出アーキテクチャの一般的な構成を用いた実験により,サンドボックス環境において得られた結果が標準構成の結果を表していることが示された。 これにより、pascal vocと比較して最大14、bdd100kと比較した場合最大32の因子により、結果を得て学習行動を評価する合計計算時間を削減できる。 これにより、半日以内のデータ取得とラベリング戦略のテストと評価が可能になり、オブジェクト検出のアクティブラーニングの分野での透明性と開発速度に寄与する。

Active learning as a paradigm in deep learning is especially important in applications involving intricate perception tasks such as object detection where labels are difficult and expensive to acquire. Development of active learning methods in such fields is highly computationally expensive and time consuming which obstructs the progression of research and leads to a lack of comparability between methods. In this work, we propose and investigate a sandbox setup for rapid development and transparent evaluation of active learning in deep object detection. Our experiments with commonly used configurations of datasets and detection architectures found in the literature show that results obtained in our sandbox environment are representative of results on standard configurations. The total compute time to obtain results and assess the learning behavior can thereby be reduced by factors of up to 14 when comparing with Pascal VOC and up to 32 when comparing with BDD100k. This allows for testing and evaluating data acquisition and labeling strategies in under half a day and contributes to the transparency and development speed in the field of active learning for object detection.
翻訳日:2022-12-22 14:10:57 公開日:2022-12-21
# 医用画像異常検出のための2次元および3次元ネットワークの組込み

Joint Embedding of 2D and 3D Networks for Medical Image Anomaly Detection ( http://arxiv.org/abs/2212.10939v1 )

ライセンス: Link先を確認
Inha Kang, Jinah Park(参考訳) 医療画像における基礎的真理データを得るには,現場の専門家からの注釈を必要とするため困難である。 また、教師付き学習で訓練すると、ラベルに含まれるケースのみを検出する。 実際、私たちは医療画像を調べながら、名前付きケース以外の可能性についてもオープンにしたいと考えています。 その結果、正常な画像のみを用いて正常な特徴を学習することで異常を検出・局所化できる異常検出の必要性が出現した。 医用画像データを用いて、異常検出タスクのための自己教師付き学習の2次元または3次元ネットワークを設計できる。 人体の3次元構造を学習する3Dネットワークは, 3次元画像異常検出において優れた性能を示すが, メモリ問題のため, より深い層に積み重ねることはできない。 2Dネットワークは特徴検出に有利であるが、3Dコンテキスト情報がない。 本稿では,3次元ネットワークの強度と2次元ネットワークの強度をジョイント埋め込みにより組み合わせる手法を開発した。 また,ネットワークが効率的に学習できるように,自己教師付き学習のプリタスクを提案する。 提案手法は,soma法と比較して分類処理と分割処理の両方において優れた性能が得られることを示す。

Obtaining ground truth data in medical imaging has difficulties due to the fact that it requires a lot of annotating time from the experts in the field. Also, when trained with supervised learning, it detects only the cases included in the labels. In real practice, we want to also open to other possibilities than the named cases while examining the medical images. As a solution, the need for anomaly detection that can detect and localize abnormalities by learning the normal characteristics using only normal images is emerging. With medical image data, we can design either 2D or 3D networks of self-supervised learning for anomaly detection task. Although 3D networks, which learns 3D structures of the human body, show good performance in 3D medical image anomaly detection, they cannot be stacked in deeper layers due to memory problems. While 2D networks have advantage in feature detection, they lack 3D context information. In this paper, we develop a method for combining the strength of the 3D network and the strength of the 2D network through joint embedding. We also propose the pretask of self-supervised learning to make it possible for the networks to learn efficiently. Through the experiments, we show that the proposed method achieves better performance in both classification and segmentation tasks compared to the SoTA method.
翻訳日:2022-12-22 14:10:40 公開日:2022-12-21
# クロスドキュメント関係抽出のためのマルチホップエビデンス検索

Multi-hop Evidence Retrieval for Cross-document Relation Extraction ( http://arxiv.org/abs/2212.10786v1 )

ライセンス: Link先を確認
Keming Lu, I-Hung Hsu, Wenxuan Zhou, Mingyu Derek Ma and Muhao Chen(参考訳) 関係抽出(re)は、多くの関係が単に単一のドキュメントに記述されないため、クロスドキュメントシナリオに拡張されている。 このことは、クロスドキュメント関係の推論を支援するための効率的なオープンスペースエビデンス検索の課題と、オープンな文書群に散在するエンティティやエビデンスの上にマルチホップ推論の課題をもたらす。 これらの課題に対処するため,我々は,証拠経路マイニングに基づくマルチホップエビデンス検索手法であるmr.codを提案する。 複数種類のレトリバーを探索し,証拠検索がクロスドキュメントREの重要な部分であることを示す。 CodREDの実験では、Mr.Codによる証拠検索は、本質的にオープンセットのクロスドキュメントREを支持するクロスドキュメント証拠を効果的に取得している。 さらに、Mr.CoDは証拠検索を促進し、REのクローズドおよびオープンな設定の両方において効果的なマルチホップ推論によりエンドツーエンドのRE性能を向上することを示す。

Relation Extraction (RE) has been extended to cross-document scenarios because many relations are not simply described in a single document. This inevitably brings the challenge of efficient open-space evidence retrieval to support the inference of cross-document relations, along with the challenge of multi-hop reasoning on top of entities and evidence scattered in an open set of documents. To combat these challenges, we propose Mr.CoD, a multi-hop evidence retrieval method based on evidence path mining and ranking with adapted dense retrievers. We explore multiple variants of retrievers to show evidence retrieval is an essential part in cross-document RE. Experiments on CodRED show that evidence retrieval with Mr.Cod effectively acquires cross-document evidence that essentially supports open-setting cross-document RE. Additionally, we show that Mr.CoD facilitates evidence retrieval and boosts end-to-end RE performance with effective multi-hop reasoning in both closed and open settings of RE.
翻訳日:2022-12-22 14:10:00 公開日:2022-12-21
# 注意対応アニメ線図色化

Attention-Aware Anime Line Drawing Colorization ( http://arxiv.org/abs/2212.10988v1 )

ライセンス: Link先を確認
Yu Cao, Hao Tian, P.Y. Mok(参考訳) 近年,アニメ産業に多大な利益をもたらすため,アニメ線画の自動カラー化が注目されている。 ユーザヒントベースのメソッドはライン描画カラー化の主流のアプローチであり、参照ベースのメソッドはより直感的なアプローチを提供する。 それにもかかわらず、参照ベースの手法は、参照画像と線画の特徴集約を改善することができるが、色調や意味対応の観点からは、色付け結果は魅力的ではない。 本稿では,特徴抽出とキー領域知覚のためのエンコーダの能力を向上させるために,チャネル方向および空間方向の畳み込みアテンションモジュールを用い,クロス・アテンションと自己アテンションを備えたストップグレードアテンションモジュールを用いて,クロスドメインの長距離依存性問題に取り組む,アニメ線描画用アテンションベースモデルを提案する。 広範な実験により,本手法は他の sota 法よりも精度の高い線構造と意味色情報に優れることを示した。

Automatic colorization of anime line drawing has attracted much attention in recent years since it can substantially benefit the animation industry. User-hint based methods are the mainstream approach for line drawing colorization, while reference-based methods offer a more intuitive approach. Nevertheless, although reference-based methods can improve feature aggregation of the reference image and the line drawing, the colorization results are not compelling in terms of color consistency or semantic correspondence. In this paper, we introduce an attention-based model for anime line drawing colorization, in which a channel-wise and spatial-wise Convolutional Attention module is used to improve the ability of the encoder for feature extraction and key area perception, and a Stop-Gradient Attention module with cross-attention and self-attention is used to tackle the cross-domain long-range dependency problem. Extensive experiments show that our method outperforms other SOTA methods, with more accurate line structure and semantic color information.
翻訳日:2022-12-22 14:09:25 公開日:2022-12-21
# ソーシャルネットワークにおけるコミュニティ検出問題に対する自然影響最適化アルゴリズムの直接比較分析

Direct Comparative Analysis of Nature-inspired Optimization Algorithms on Community Detection Problem in Social Networks ( http://arxiv.org/abs/2212.10797v1 )

ライセンス: Link先を確認
Soumita Das, Bijita Singha, Alberto Tonda, and Anupam Biswas(参考訳) 自然にインスパイアされた最適化アルゴリズム(nioas)は、現在ではソーシャルネットワークにおけるコミュニティ検出に人気がある。 ソーシャルネットワークにおけるコミュニティ検出問題は、コミュニティ内のコネクションを最大化するか、コミュニティ間のコネクションを最小化する最適化問題として扱われる。 NIOAを適用するには、どちらの目的も検討する。 NIOAsは主に戦略においてランダム性を利用するため、特定のアプリケーションのパフォーマンスを分析する必要がある。 本稿では,NIOAをコミュニティ検出問題として分析する。 直接比較法は、NIOAsのペア比較を行うために従う。 性能はプラサトゥール行列に基づいて設計された5つのスコアと平均アイソラビリティで測定される。 NIOAsが生み出すコミュニティの質を分析するために,3つの現実世界のソーシャルネットワークと4つのNIOAが検討されている。

Nature-inspired optimization Algorithms (NIOAs) are nowadays a popular choice for community detection in social networks. Community detection problem in social network is treated as optimization problem, where the objective is to either maximize the connection within the community or minimize connections between the communities. To apply NIOAs, either of the two, or both objectives are explored. Since NIOAs mostly exploit randomness in their strategies, it is necessary to analyze their performance for specific applications. In this paper, NIOAs are analyzed on the community detection problem. A direct comparison approach is followed to perform pairwise comparison of NIOAs. The performance is measured in terms of five scores designed based on prasatul matrix and also with average isolability. Three widely used real-world social networks and four NIOAs are considered for analyzing the quality of communities generated by NIOAs.
翻訳日:2022-12-22 14:02:57 公開日:2022-12-21
# 隣接状態に基づくRL探査

Neighboring state-based RL Exploration ( http://arxiv.org/abs/2212.10712v1 )

ライセンス: Link先を確認
Jeffery Cheng, Kevin Li, Justin Lin, Pedro Pachuca(参考訳) 強化学習は意思決定プロセスをモデル化する強力なツールである。 しかし、これは多くのタスクにおいてオープンな課題である探索・探索のトレードオフに依存している。 本研究では, 初期エージェントとして, 近隣の州の境界領域から派生した行動を考えると, 探索時の行動が改善する可能性があるという直感から, 近隣の州を基盤としたモデルフリー探索について検討する。 本研究では,近傍の州を対象に探索行動を選択する2つのアルゴリズムを提案し,その1つの手法である${\rho}$-exploreが,離散環境でのDouble DQNベースラインを,Eval Reward Returnで49 %上回っていることを示す。

Reinforcement Learning is a powerful tool to model decision-making processes. However, it relies on an exploration-exploitation trade-off that remains an open challenge for many tasks. In this work, we study neighboring state-based, model-free exploration led by the intuition that, for an early-stage agent, considering actions derived from a bounded region of nearby states may lead to better actions when exploring. We propose two algorithms that choose exploratory actions based on a survey of nearby states, and find that one of our methods, ${\rho}$-explore, consistently outperforms the Double DQN baseline in an discrete environment by 49\% in terms of Eval Reward Return.
翻訳日:2022-12-22 14:02:30 公開日:2022-12-21
# 反復深度探索によるゲインスケジューリングによるリワードボーナス

Reward Bonuses with Gain Scheduling Inspired by Iterative Deepening Search ( http://arxiv.org/abs/2212.10765v1 )

ライセンス: Link先を確認
Taisuke Kobayashi(参考訳) 本稿では,強化学習探索を効率的に行うために,タスク指向報酬関数に固有ボーナスを追加する新しい手法を提案する。 これまで様々なボーナスが設計されてきたが、グラフ理論における深さ優先および幅優先探索アルゴリズムと類似している。 そこで本論文はまず,それぞれに2つのボーナスを設計する。 次に、2つの探索アルゴリズムの利点を継承することが知られている反復的深化探索にインスパイアされた設計ボーナスにヒューリスティックゲインスケジューリングを適用する。 提案手法では, エージェントが未知の状態を徐々に探索することによって, より深い状態の最適解に効率的に到達できることが期待されている。 豪華な報酬を伴う3つの移動課題とスパースな報酬を伴う3つの簡単なタスクにおいて,2種類のボーナスが相補的に異なるタスクの性能向上に寄与することが示されている。 さらに、これらを利得スケジューリングと組み合わせることで、すべてのタスクを高いパフォーマンスで達成することができる。

This paper introduces a novel method of adding intrinsic bonuses to task-oriented reward function in order to efficiently facilitate reinforcement learning search. While various bonuses have been designed to date, they are analogous to the depth-first and breadth-first search algorithms in graph theory. This paper, therefore, first designs two bonuses for each of them. Then, a heuristic gain scheduling is applied to the designed bonuses, inspired by the iterative deepening search, which is known to inherit the advantages of the two search algorithms. The proposed method is expected to allow agent to efficiently reach the best solution in deeper states by gradually exploring unknown states. In three locomotion tasks with dense rewards and three simple tasks with sparse rewards, it is shown that the two types of bonuses contribute to the performance improvement of the different tasks complementarily. In addition, by combining them with the proposed gain scheduling, all tasks can be accomplished with high performance.
翻訳日:2022-12-22 14:02:10 公開日:2022-12-21
# 効率的かつ解釈可能な多クラス条件生成のための階層分岐拡散モデル

Hierarchically branched diffusion models for efficient and interpretable multi-class conditional generation ( http://arxiv.org/abs/2212.10777v1 )

ライセンス: Link先を確認
Alex M. Tseng, Tommaso Biancalani, Max Shen, Gabriele Scalia(参考訳) 拡散モデルは、ラベルのコンディショニング生成を含む、一見任意に複雑なデータ分布からリアルなオブジェクトを生成するための最先端のパフォーマンスを達成することで、正当な人気を得た。 しかし残念なことに、反復的な性質により、サンプリングプロセス中に非常に計算効率が低下する。 多クラス条件生成問題に対して、クラス間の固有の関係に応じて階層的に分岐する拡散モデルの、構造的にユニークな新しいフレームワークを提案する。 本研究では、分岐拡散モデルが複数のクラスから効率的にサンプルを生成する上で大きな改善をもたらすことを示す。 また,連続学習環境における新しいクラスへの拡張の容易さや,これらの生成モデルに対する洞察を提供するユニークな解釈可能性など,分岐拡散モデルの他の利点も紹介する。 分岐拡散モデルは従来の線形モデルに代わるパラダイムであり、効率的な生成、オンライン学習、科学的発見に拡散モデルを使う方法に大きな影響を与える可能性がある。

Diffusion models have achieved justifiable popularity by attaining state-of-the-art performance in generating realistic objects from seemingly arbitrarily complex data distributions, including when conditioning generation on labels. Unfortunately, however, their iterative nature renders them very computationally inefficient during the sampling process. For the multi-class conditional generation problem, we propose a novel, structurally unique framework of diffusion models which are hierarchically branched according to the inherent relationships between classes. In this work, we demonstrate that branched diffusion models offer major improvements in efficiently generating samples from multiple classes. We also showcase several other advantages of branched diffusion models, including ease of extension to novel classes in a continual-learning setting, and a unique interpretability that offers insight into these generative models. Branched diffusion models represent an alternative paradigm to their traditional linear counterparts, and can have large impacts in how we use diffusion models for efficient generation, online learning, and scientific discovery.
翻訳日:2022-12-22 14:01:41 公開日:2022-12-21
# 残り半分:グラフ畳み込みニューラルネットワークの多様化による集約フィルタの強化

Complete the Missing Half: Augmenting Aggregation Filtering with Diversification for Graph Convolutional Neural Networks ( http://arxiv.org/abs/2212.10822v1 )

ライセンス: Link先を確認
Sitao Luan, Mingde Zhao, Chenqing Hua, Xiao-Wen Chang, Doina Precup(参考訳) 現在のグラフニューラルネットワーク(gnns)のコアオペレーションは、グラフラプラシアンまたはメッセージパッシングによって有効となる集約であり、ノードの近傍情報をフィルタリングする。 様々なタスクに有効であるが,本論文では,ノード表現を強制的に強制することで,ノードのアイデンティティが徐々に失われ,識別不能になるため,すべてのGNNモデルが特定のデータセット上で学習する上で問題となる可能性があることを示す。 したがって、それらの双対、すなわち、ノードをより区別し、アイデンティティを保存する多様化演算子で集約操作を増強する。 このような拡張は、アグリゲーションを2チャネルのフィルタリングプロセスに置き換え、理論上、ノード表現を豊かにするのに役立つ。 実際に提案した2チャネルフィルタは,スペクトル法や空間法(メッセージパッシング)など,多様なトレーニング戦略を持つ既存のGNN手法に容易に適用することができる。 実験では,モデルの望ましい特性と,9ノード分類タスクのベースライン上での性能向上について検討した。

The core operation of current Graph Neural Networks (GNNs) is the aggregation enabled by the graph Laplacian or message passing, which filters the neighborhood information of nodes. Though effective for various tasks, in this paper, we show that they are potentially a problematic factor underlying all GNN models for learning on certain datasets, as they force the node representations similar, making the nodes gradually lose their identity and become indistinguishable. Hence, we augment the aggregation operations with their dual, i.e. diversification operators that make the node more distinct and preserve the identity. Such augmentation replaces the aggregation with a two-channel filtering process that, in theory, is beneficial for enriching the node representations. In practice, the proposed two-channel filters can be easily patched on existing GNN methods with diverse training strategies, including spectral and spatial (message passing) methods. In the experiments, we observe desired characteristics of the models and significant performance boost upon the baselines on 9 node classification tasks.
翻訳日:2022-12-22 14:01:18 公開日:2022-12-21
# vcnet:現実的な反事実生成のための自己説明モデル

VCNet: A self-explaining model for realistic counterfactual generation ( http://arxiv.org/abs/2212.10847v1 )

ライセンス: Link先を確認
Victor Guyomard, Fran\c{c}oise Fessant, Thomas Guyet (BEAGLE), Tassadit Bouadi (LACODAM, UR1), Alexandre Termier (LACODAM, UR1)(参考訳) 事実的説明は、機械学習の決定を局所的に説明するための一般的な方法のクラスである。 ある例では、これらの手法は、機械学習モデルによってなされる予測された決定を変更する特徴値の最小の変更を見つけることを目的としている。 反事実的説明の課題の1つは、現実的な反事実の効率的な生成である。 この課題に対処するために、回帰や分類タスクのために共同で訓練された予測器と対実生成器を組み合わせたVCNet-Variational Counter Net-aモデルアーキテクチャを提案する。 VCNetは、予測を生成できると同時に、別の最小化問題を解決する必要なしに、反実的な説明を生成することができる。 我々の貢献は、予測されたクラスの分布に近い反事実の生成である。 これは、予測子の出力に条件付き変分オートエンコーダを結合学習方式で学習することによる。 表形式のデータセットおよびいくつかの解釈可能性指標に関する実証的評価を示す。 その結果は最先端の手法と競合する。

Counterfactual explanation is a common class of methods to make local explanations of machine learning decisions. For a given instance, these methods aim to find the smallest modification of feature values that changes the predicted decision made by a machine learning model. One of the challenges of counterfactual explanation is the efficient generation of realistic counterfactuals. To address this challenge, we propose VCNet-Variational Counter Net-a model architecture that combines a predictor and a counterfactual generator that are jointly trained, for regression or classification tasks. VCNet is able to both generate predictions, and to generate counterfactual explanations without having to solve another minimisation problem. Our contribution is the generation of counterfactuals that are close to the distribution of the predicted class. This is done by learning a variational autoencoder conditionally to the output of the predictor in a join-training fashion. We present an empirical evaluation on tabular datasets and across several interpretability metrics. The results are competitive with the state-of-the-art method.
翻訳日:2022-12-22 14:00:59 公開日:2022-12-21
# 累積草生長の時間分解

Temporal Disaggregation of the Cumulative Grass Growth ( http://arxiv.org/abs/2212.10865v1 )

ライセンス: Link先を確認
Thomas Guyet (BEAGLE), Laurent Spillemaecker (ENSAI), Simon Malinowski (LinkMedia, UR1), Anne-Isabelle Graux (PEGASE)(参考訳) 1年にわたる草の成長に関する情報は、牧草地や納屋で干し草や草のサイレージで動物を養うためにこの資源をシミュレートするいくつかのモデルにとって不可欠である。 残念ながら、この情報はめったに入手できない。 この課題は、通常の日々の気候データ(降雨、放射線など)と、年間を通じて累積的な成長という2つの情報から草の成長を再構築することである。 年間を通じて成長曲線を歪めることが知られている季節的な気候現象の影響を捉えなければならない。 本稿では,累積成長を時系列に分解する問題として,この課題を定式化する。 そこで本研究では,気候情報を用いた時系列予測と,過去の段階からの草の生育に適用する。 草地プロセスベースモデルから生成されたデータベースを用いて,提案手法のいくつかの代替案を提案し,比較した。 その結果,累積成長情報を用いずに時系列を正確に再構築できることが示唆された。

Information on the grass growth over a year is essential for some models simulating the use of this resource to feed animals on pasture or at barn with hay or grass silage. Unfortunately, this information is rarely available. The challenge is to reconstruct grass growth from two sources of information: usual daily climate data (rainfall, radiation, etc.) and cumulative growth over the year. We have to be able to capture the effect of seasonal climatic events which are known to distort the growth curve within the year. In this paper, we formulate this challenge as a problem of disaggregating the cumulative growth into a time series. To address this problem, our method applies time series forecasting using climate information and grass growth from previous time steps. Several alternatives of the method are proposed and compared experimentally using a database generated from a grassland process-based model. The results show that our method can accurately reconstruct the time series, independently of the use of the cumulative growth information.
翻訳日:2022-12-22 14:00:44 公開日:2022-12-21
# 社会工学的生産スケジューリングのための強化学習を用いたメメティックアルゴリズム

A Memetic Algorithm with Reinforcement Learning for Sociotechnical Production Scheduling ( http://arxiv.org/abs/2212.10936v1 )

ライセンス: Link先を確認
Felix Grumbach, Nour Eldin Alaa Badr, Pascal Reusch and Sebastian Trojahn(参考訳) 本稿では,drc-fjssp (drc-fjssp) を用いた二元資源制約型フレキシブルジョブショップスケジューリング問題を解くための深層強化学習(drl)手法を提案する。 近年、DRL技術の研究が盛んに行われているが、現実的で柔軟で人間中心のショップフロアは検討されていない。 サービス水準の高い中規模企業でよく見られるように、製造・発注指向の不連続製造の文脈で研究ギャップが特定できる。 この領域の実践的な産業プロジェクトから、フレキシブルマシン、ヒューマンワーカーと能力、セットアップと処理、材料到着時間、材料請求書製造(BOM)の並列タスク、シーケンス依存のセットアップ時間および(一部)自動化タスクの複雑なジョブパスを記述するための要件を認識します。 一方、DRC-FJSSPの文脈におけるメタヒューリスティックスの研究は集中的に行われている。 しかし、社会工学的な生産プロセスや組み立てプロセスに適用可能な、適度で汎用的なスケジューリング方法が欠如している。 本稿では,先述の実用要件によって誘導される拡張DRC-FJSSPを最初に定式化する。 次に,並列計算によるマルチクリータ最適化のためのハイブリッドフレームワークを提案する。 実世界のデータを用いた数値実験により,本フレームワークが効率的にかつ確実なスケジュールを生成することを確認した。 ランダムな操作の代わりにDRLを使用すると、より良い結果が得られ、従来のアプローチより優れている。

The following article presents a memetic algorithm with applying deep reinforcement learning (DRL) for solving practically oriented dual resource constrained flexible job shop scheduling problems (DRC-FJSSP). In recent years, there has been extensive research on DRL techniques, but without considering realistic, flexible and human-centered shopfloors. A research gap can be identified in the context of make-to-order oriented discontinuous manufacturing as it is often represented in medium-size companies with high service levels. From practical industry projects in this domain, we recognize requirements to depict flexible machines, human workers and capabilities, setup and processing operations, material arrival times, complex job paths with parallel tasks for bill of material (BOM) manufacturing, sequence-depended setup times and (partially) automated tasks. On the other hand, intensive research has been done on metaheuristics in the context of DRC-FJSSP. However, there is a lack of suitable and generic scheduling methods that can be holistically applied in sociotechnical production and assembly processes. In this paper, we first formulate an extended DRC-FJSSP induced by the practical requirements mentioned. Then we present our proposed hybrid framework with parallel computing for multicriteria optimization. Through numerical experiments with real-world data, we confirm that the framework generates feasible schedules efficiently and reliably. Utilizing DRL instead of random operations leads to better results and outperforms traditional approaches.
翻訳日:2022-12-22 14:00:28 公開日:2022-12-21
# 2048年ゲームにおける強化学習について

On Reinforcement Learning for the Game of 2048 ( http://arxiv.org/abs/2212.11087v1 )

ライセンス: Link先を確認
Hung Guei(参考訳) 2048はシングルプレイヤーの確率パズルゲームである。 この興味深く中毒的なゲームは世界中で人気があり、ゲームプレイングプログラムを開発する研究者を惹きつけている。 その単純さと複雑さのため、2048は機械学習手法の有効性を評価するための興味深く挑戦的なプラットフォームになっている。 この論文は2048年の強化学習とコンピュータゲームアルゴリズムに関する包括的な研究を行っている。 まず、この論文は2048年の探索を促進するために楽観的初期化を用いて学習の質を大幅に向上させる楽観的時間差学習を提案する。 さらに,この手法に基づき,全学習系プログラム,すなわち625377点の平均スコアと32768タイル到達率72%において,最高性能を達成する2048年の最新プログラムを開発した。 第2に、この論文は、n-tuple ネットワークアンサンブル学習、モンテカルロ木探索、深層強化学習など、2048年に関連するいくつかの技術を調査している。 これらの技術は、現在の最先端プログラムの性能をさらに向上させることを約束している。 最後に本論文では,授業設計の提案と授業経験の要約を通じて,2048年に関する教育的応用について論じる。 提案したコース設計では,2048種類のゲームを初心者が強化学習やコンピュータゲームアルゴリズムを学ぶための教材として使用する。 このコースは大学院生にうまく適用され、学生からのフィードバックで受講している。

2048 is a single-player stochastic puzzle game. This intriguing and addictive game has been popular worldwide and has attracted researchers to develop game-playing programs. Due to its simplicity and complexity, 2048 has become an interesting and challenging platform for evaluating the effectiveness of machine learning methods. This dissertation conducts comprehensive research on reinforcement learning and computer game algorithms for 2048. First, this dissertation proposes optimistic temporal difference learning, which significantly improves the quality of learning by employing optimistic initialization to encourage exploration for 2048. Furthermore, based on this approach, a state-of-the-art program for 2048 is developed, which achieves the highest performance among all learning-based programs, namely an average score of 625377 points and a rate of 72% for reaching 32768-tiles. Second, this dissertation investigates several techniques related to 2048, including the n-tuple network ensemble learning, Monte Carlo tree search, and deep reinforcement learning. These techniques are promising for further improving the performance of the current state-of-the-art program. Finally, this dissertation discusses pedagogical applications related to 2048 by proposing course designs and summarizing the teaching experience. The proposed course designs use 2048-like games as materials for beginners to learn reinforcement learning and computer game algorithms. The courses have been successfully applied to graduate-level students and received well by student feedback.
翻訳日:2022-12-22 14:00:04 公開日:2022-12-21
# 対話型質問応答における入力介入による言語モデルの意味的忠実度の分析

Analyzing Semantic Faithfulness of Language Models via Input Intervention on Conversational Question Answering ( http://arxiv.org/abs/2212.10696v1 )

ライセンス: Link先を確認
Akshay Chaturvedi, Swarnadeep Bhar, Soumadeep Saha, Utpal Garain, Nicholas Asher(参考訳) トランスフォーマーベースの言語モデルは、いくつかのNLPタスクに非常に効果的であることが示されている。 本稿では,BERT,RoBERTa,XLNetの3つのトランスフォーマーモデルについて,大小両バージョンで検討し,テキストの意味的内容に関して,それらの表現がいかに忠実であるかを考察する。 質問応答におけるモデルの推論において,テキストの意味的内容が因果的に決定されるべき意味的忠実性の概念を定式化する。 次に,2つの新しい意味的介入(欠失介入と否定的介入)を行った後,あるストーリーに関する質問に答えるモデルの振る舞いを観察して,この概念を検証した。 標準質問応答タスクにおいてトランスフォーマーモデルは高い性能を発揮するが、多くのケース(削除介入の約50%、否定介入の精度の約20%)でこれらの介入を行うと意味的に忠実でないことが示される。 そこで我々は,削除介入に対する望ましくない効果(50%から6%)を軽減できる介入ベースのトレーニングレジームを提案する。 モデルの内部動作を分析し,削除介入に対する介入ベーストレーニングの有効性をよりよく理解する。 しかし,本トレーニングは,否定的介入に対処できない,あるいはテキストの述語句構造を捉えるなど,意味的不信感の他の側面を弱めるものではない。 また,2つの介入を処理し,述語句構造を捉えるために,インストラクションGPTをプロンプトとしてテストした。 InstructGPTモデルは述語句構造タスクにおいて非常に高い性能を達成するが、削除や否定の介入に適切に対応できない。

Transformer-based language models have been shown to be highly effective for several NLP tasks. In this paper, we consider three transformer models, BERT, RoBERTa, and XLNet, in both small and large version, and investigate how faithful their representations are with respect to the semantic content of texts. We formalize a notion of semantic faithfulness, in which the semantic content of a text should causally figure in a model's inferences in question answering. We then test this notion by observing a model's behavior on answering questions about a story after performing two novel semantic interventions -- deletion intervention and negation intervention. While transformer models achieve high performance on standard question answering tasks, we show that they fail to be semantically faithful once we perform these interventions for a significant number of cases (~50% for deletion intervention, and ~20% drop in accuracy for negation intervention). We then propose an intervention-based training regime that can mitigate the undesirable effects for deletion intervention by a significant margin (from ~50% to ~6%). We analyze the inner-workings of the models to better understand the effectiveness of intervention-based training for deletion intervention. But we show that this training does not attenuate other aspects of semantic unfaithfulness such as the models' inability to deal with negation intervention or to capture the predicate-argument structure of texts. We also test InstructGPT, via prompting, for its ability to handle the two interventions and to capture predicate-argument structure. While InstructGPT models do achieve very high performance on predicate-argument structure task, they fail to respond adequately to our deletion and negation interventions.
翻訳日:2022-12-22 13:53:53 公開日:2022-12-21
# 文選択のための対話を伴う一般化付加モデルを用いた抽出テキスト要約

Extractive Text Summarization Using Generalized Additive Models with Interactions for Sentence Selection ( http://arxiv.org/abs/2212.10707v1 )

ライセンス: Link先を確認
Vin\'icius Camargo da Silva, Jo\~ao Paulo Papa, Kelton Augusto Pontara da Costa(参考訳) 自動テキスト要約(ATS)は、テキストデータの成長に関連しているが、公共の大規模データセットの普及に伴い、最近の機械学習アプローチでは、顕著な結果をもたらすにもかかわらず、通常は解釈が難しいモデルに焦点が当てられている。 この研究は、解釈可能な学習に基づくテキスト要約の課題と、ATS分野の現在の状態を進化させる上で重要となる可能性があることを踏まえ、言語的特徴と二項分類に基づく抽出的要約問題への2つの近代的な一般化付加モデル(説明可能なブースティングマシンとGAMI-Net)の適用について検討する。

Automatic Text Summarization (ATS) is becoming relevant with the growth of textual data; however, with the popularization of public large-scale datasets, some recent machine learning approaches have focused on dense models and architectures that, despite producing notable results, usually turn out in models difficult to interpret. Given the challenge behind interpretable learning-based text summarization and the importance it may have for evolving the current state of the ATS field, this work studies the application of two modern Generalized Additive Models with interactions, namely Explainable Boosting Machine and GAMI-Net, to the extractive summarization problem based on linguistic features and binary classification.
翻訳日:2022-12-22 13:53:25 公開日:2022-12-21
# コントラスト学習を超えて:多言語検索のための変分生成モデル

Beyond Contrastive Learning: A Variational Generative Model for Multilingual Retrieval ( http://arxiv.org/abs/2212.10726v1 )

ライセンス: Link先を確認
John Wieting, Jonathan H. Clark, William W. Cohen, Graham Neubig, and Taylor Berg-Kirkpatrick(参考訳) コントラスト学習は意味的に整合した文の検索に成功しているが、しばしば大きなバッチサイズや注意深いエンジニアリングが必要となる。 本稿では,文対の検索や採点に使用できる多言語テキスト埋め込み学習のための生成モデルを提案する。 提案モデルは,n$言語における並列データに基づいて動作し,この多言語環境でのソース分離を効率的に促進し,文体的あるいは言語固有の変動から翻訳間で共有される意味情報を分離する。 本稿では,多言語テキスト埋め込み学習におけるコントラストと世代ベースアプローチの大規模比較を行い,これらのアプローチが人気を博したにもかかわらず,我々の知識の最良の部分では実現されていない比較を行った。 本稿では,この手法を意味的類似性,バイテキストマイニング,言語間質問検索を含む一連のタスクで評価する。 全体として、我々の変分多言語ソース分離変換器(VMSST)モデルは、これらのタスクに対して強いコントラストと生成的ベースラインの両方を上回ります。

Contrastive learning has been successfully used for retrieval of semantically aligned sentences, but it often requires large batch sizes or careful engineering to work well. In this paper, we instead propose a generative model for learning multilingual text embeddings which can be used to retrieve or score sentence pairs. Our model operates on parallel data in $N$ languages and, through an approximation we introduce, efficiently encourages source separation in this multilingual setting, separating semantic information that is shared between translations from stylistic or language-specific variation. We show careful large-scale comparisons between contrastive and generation-based approaches for learning multilingual text embeddings, a comparison that has not been done to the best of our knowledge despite the popularity of these approaches. We evaluate this method on a suite of tasks including semantic similarity, bitext mining, and cross-lingual question retrieval -- the last of which we introduce in this paper. Overall, our Variational Multilingual Source-Separation Transformer (VMSST) model outperforms both a strong contrastive and generative baseline on these tasks.
翻訳日:2022-12-22 13:52:52 公開日:2022-12-21
# Prompt-Augmented Linear Probing: 少数のインテクスト学習者の限界を越えるスケーリング

Prompt-Augmented Linear Probing: Scaling Beyond The Limit of Few-shot In-Context Learners ( http://arxiv.org/abs/2212.10873v1 )

ライセンス: Link先を確認
Hyunsoo Cho, Hyuhng Joon Kim, Junyeob Kim, Sang-Woo Lee, Sang-goo Lee, Kang Min Yoo, Taeuk Kim(参考訳) In-context Learning (ICL) を通じて、大規模言語モデルは、追加のモデル微調整なしで効果的な数ショット学習者となる。 しかし、ICLの性能は、基礎となる言語モデル固有の入力長制約によって制限されるため、利用可能なトレーニングサンプルの数に匹敵しない。 一方、言語モデルもまた強力な特徴抽出器であり、ブラックボックス方式で利用でき、事前抽出された入力表現の上に軽量な識別器を訓練する線形探索パラダイムを可能にすることが多くの研究で明らかにされている。 本稿では,両世界の最善を生かす線形プローブと icl のハイブリッドである promp-augmented linear probing (palp) を提案する。 PALPは線形探索のスケーラビリティと言語モデルを強制することで、入力をより知覚可能な形式に調整することでより意味のある表現を導き出す能力を継承する。 各種データセットの詳細な調査を通じて、PALPは、データ・ハングリーシナリオにおけるICL間のギャップを閉じる入力表現と、トレーニングオーバーヘッドの少ないデータ・バウンダントシナリオでの微調整を著しく強化し、ブラックボックスシナリオにおいてPALPが強力な代替手段となる可能性を検証した。

Through in-context learning (ICL), large-scale language models are effective few-shot learners without additional model fine-tuning. However, the ICL performance does not scale well with the number of available training samples as it is limited by the inherent input length constraint of the underlying language model. Meanwhile, many studies have revealed that language models are also powerful feature extractors, allowing them to be utilized in a black-box manner and enabling the linear probing paradigm, where lightweight discriminators are trained on top of the pre-extracted input representations. This paper proposes prompt-augmented linear probing (PALP), a hybrid of linear probing and ICL, which leverages the best of both worlds. PALP inherits the scalability of linear probing and the capability of enforcing language models to derive more meaningful representations via tailoring input into a more conceivable form. Throughout in-depth investigations on various datasets, we verified that PALP significantly enhances the input representations closing the gap between ICL in the data-hungry scenario and fine-tuning in the data-abundant scenario with little training overhead, potentially making PALP a strong alternative in a black-box scenario.
翻訳日:2022-12-22 13:52:32 公開日:2022-12-21
# 追加の逆関係制約による学習による物語関係埋め込みの改善

Improving Narrative Relationship Embeddings by Training with Additional Inverse-Relationship Constraints ( http://arxiv.org/abs/2212.11234v1 )

ライセンス: Link先を確認
Mikolaj Figurski(参考訳) 本研究では,物語の意味空間を減らし,これらの関係がリフレクション操作の下にあるという仮定を提案し,評価する。 この仮定を分析し,そのアプローチをベースライン・オブ・ザ・アートモデルと比較し,ダウンストリームクラスタリングタスクの有効性を人間生成ラベルとシミュレートするユニークな評価を行った。 我々のモデルでは,Silhouetteスコアが-.084,ベースラインが-.227を上回り,クラスタが生成されるが,モデルがタスクに非常に異なるアプローチをとっており,非常に異なる例でうまく機能することが判明した。 我々の仮定は特定の種類のデータに対して有用であり、幅広いタスクで評価されるべきである。

We consider the problem of embedding character-entity relationships from the reduced semantic space of narratives, proposing and evaluating the assumption that these relationships hold under a reflection operation. We analyze this assumption and compare the approach to a baseline state-of-the-art model with a unique evaluation that simulates efficacy on a downstream clustering task with human-created labels. Although our model creates clusters that achieve Silhouette scores of -.084, outperforming the baseline -.227, our analysis reveals that the models approach the task much differently and perform well on very different examples. We conclude that our assumption might be useful for specific types of data and should be evaluated on a wider range of tasks.
翻訳日:2022-12-22 13:52:10 公開日:2022-12-21
# 超低一様精度量子化のためのネットワーク自動適応

Automatic Network Adaptation for Ultra-Low Uniform-Precision Quantization ( http://arxiv.org/abs/2212.10878v1 )

ライセンス: Link先を確認
Seongmin Park, Beomseok Kwon, Jieun Lim, Kyuyoung Sim, Taeho Kim and Jungwook Choi(参考訳) 一様精度ニューラルネットワーク量子化は、高い計算能力のために密集した演算ユニットを単純化するため、人気を集めている。 しかし、層間における量子化誤差の影響に対する不均質な感度を無視し、結果として準最適推論精度をもたらす。 本研究は,超低精度量子化による精度劣化を軽減するために,ニューラルネットワーク構造を調整するニューラルチャネル拡張と呼ばれるニューラルアーキテクチャ探索を提案する。 提案手法は,ハードウェア制約(フロップ,パラムなど)を満たしながら,量子化センシティブ層のチャネルを選択的に拡張する。 CIFAR10 と ImageNet の2ビット量子化精度を向上させるために,提案手法がいくつかの人気ネットワークチャネルに適用可能であることを示す。 特に,2ビット ResNet50 のTop-1/Top-5 の精度は FLOP が小さく,パラメータサイズも小さい。

Uniform-precision neural network quantization has gained popularity since it simplifies densely packed arithmetic unit for high computing capability. However, it ignores heterogeneous sensitivity to the impact of quantization errors across the layers, resulting in sub-optimal inference accuracy. This work proposes a novel neural architecture search called neural channel expansion that adjusts the network structure to alleviate accuracy degradation from ultra-low uniform-precision quantization. The proposed method selectively expands channels for the quantization sensitive layers while satisfying hardware constraints (e.g., FLOPs, PARAMs). Based on in-depth analysis and experiments, we demonstrate that the proposed method can adapt several popular networks channels to achieve superior 2-bit quantization accuracy on CIFAR10 and ImageNet. In particular, we achieve the best-to-date Top-1/Top-5 accuracy for 2-bit ResNet50 with smaller FLOPs and the parameter size.
翻訳日:2022-12-22 13:51:18 公開日:2022-12-21
# 相対ロバスト性のための残留ネットワークの再考:建築的展望

Revisiting Residual Networks for Adversarial Robustness: An Architectural Perspective ( http://arxiv.org/abs/2212.11005v1 )

ライセンス: Link先を確認
Shihua Huang, Zhichao Lu, Kalyanmoy Deb, Vishnu Naresh Boddeti(参考訳) 畳み込みニューラルネットワークの対向的ロバスト性を改善する取り組みは、主により効果的な対向的トレーニング手法の開発に重点を置いている。 対照的に、反対の強靭性における建築要素(トポロジー、深さ、幅など)の役割を分析することにはほとんど注意が払われなかった。 本稿では,このギャップを解消し,建築設計が対向ロバスト性に与える影響に関する総合的研究を行う。 我々は、残差ネットワークに注目し、アーキテクチャ設計を、ネットワークの各ブロックの深さや幅など、ネットワークのスケーリングレベルだけでなく、トポロジー、カーネルサイズ、アクティベーション、正規化といったブロックレベルで検討する。 いずれの場合も、まず体系的なアブレーション実験を通じて洞察を得る。 次に,ロバストresblockと呼ばれる頑健な残留ブロックと,ロバストスケーリングと呼ばれる複合スケーリングルールを設計し,所望のフロップ数で深さと幅を分散する。 最後に、RobustResBlockとRobustScalingを組み合わせて、モデル能力の幅広い範囲にまたがる、対角的に堅牢な残留ネットワークRobustResNetsのポートフォリオを提示する。 複数のデータセットにわたる実験的な検証と敵攻撃により、RobostResNetsは標準のWRNと既存のロバストアーキテクチャの両方を一貫して上回り、最新技術であるAutoAttackの堅牢な精度は61.1%、外部データは63.7%、パラメータは2.99ドルである。 コードは \url{ https://github.com/zhichao-lu/robust-residual-network} で利用可能である。

Efforts to improve the adversarial robustness of convolutional neural networks have primarily focused on developing more effective adversarial training methods. In contrast, little attention was devoted to analyzing the role of architectural elements (such as topology, depth, and width) on adversarial robustness. This paper seeks to bridge this gap and present a holistic study on the impact of architectural design on adversarial robustness. We focus on residual networks and consider architecture design at the block level, i.e., topology, kernel size, activation, and normalization, as well as at the network scaling level, i.e., depth and width of each block in the network. In both cases, we first derive insights through systematic ablative experiments. Then we design a robust residual block, dubbed RobustResBlock, and a compound scaling rule, dubbed RobustScaling, to distribute depth and width at the desired FLOP count. Finally, we combine RobustResBlock and RobustScaling and present a portfolio of adversarially robust residual networks, RobustResNets, spanning a broad spectrum of model capacities. Experimental validation across multiple datasets and adversarial attacks demonstrate that RobustResNets consistently outperform both the standard WRNs and other existing robust architectures, achieving state-of-the-art AutoAttack robust accuracy of 61.1% without additional data and 63.7% with 500K external data while being $2\times$ more compact in terms of parameters. Code is available at \url{ https://github.com/zhichao-lu/robust-residual-network}
翻訳日:2022-12-22 13:45:32 公開日:2022-12-21
# 画像と映像の類似性を考慮した自己監督学習

Similarity Contrastive Estimation for Image and Video Soft Contrastive Self-Supervised Learning ( http://arxiv.org/abs/2212.11187v1 )

ライセンス: Link先を確認
Julien Denize, Jaonary Rabarisoa, Astrid Orcesi, Romain H\'erault(参考訳) コントラスト表現学習は、画像やビデオに対する効果的な自己教師型学習手法であることが証明されている。 最も成功したアプローチはノイズコントラスト推定(NCE)に基づいており、ノイズと見なされる他のインスタンスと対比すべき正の値としてインスタンスの異なるビューを使用する。 しかしながら、データセット内のいくつかのインスタンスは、同じディストリビューションから引き出され、基礎となるセマンティック情報を共有する。 優れたデータ表現は、すべての負をノイズとして考えることで、対照的な学習が害するインスタンス、または意味的類似性と相違性の関係を含むべきである。 本稿では,類似度コントラスト推定(sce)と呼ばれるインスタンス間の意味的類似性を用いたコントラスト学習の新しい定式化を提案する。 私たちのトレーニングの対象はソフトコントラストで、ポジティブに近づき、学習した類似性に基づいて負のインスタンスをプッシュまたはプルするために連続的な分布を見積もります。 我々は画像表現学習と映像表現学習の両方に経験的アプローチを適用した。 我々は,SCEが事前学習するエポックを少なく抑えるために,ImageNet線形評価プロトコル上で技術状況と競合し,複数の下流画像タスクに一般化することを示す。 また,SCEが映像表現を事前学習するための最先端結果に到達し,学習した表現が映像下流タスクに一般化可能であることを示す。

Contrastive representation learning has proven to be an effective self-supervised learning method for images and videos. Most successful approaches are based on Noise Contrastive Estimation (NCE) and use different views of an instance as positives that should be contrasted with other instances, called negatives, that are considered as noise. However, several instances in a dataset are drawn from the same distribution and share underlying semantic information. A good data representation should contain relations between the instances, or semantic similarity and dissimilarity, that contrastive learning harms by considering all negatives as noise. To circumvent this issue, we propose a novel formulation of contrastive learning using semantic similarity between instances called Similarity Contrastive Estimation (SCE). Our training objective is a soft contrastive one that brings the positives closer and estimates a continuous distribution to push or pull negative instances based on their learned similarities. We validate empirically our approach on both image and video representation learning. We show that SCE performs competitively with the state of the art on the ImageNet linear evaluation protocol for fewer pretraining epochs and that it generalizes to several downstream image tasks. We also show that SCE reaches state-of-the-art results for pretraining video representation and that the learned representation can generalize to video downstream tasks.
翻訳日:2022-12-22 13:45:00 公開日:2022-12-21
# 会話型AIのための音声言語理解 : 最近の進歩と今後の方向性

Spoken Language Understanding for Conversational AI: Recent Advances and Future Direction ( http://arxiv.org/abs/2212.10728v1 )

ライセンス: Link先を確認
Soyeon Caren Han, Siqu Long, Henry Weld, Josiah Poon(参考訳) 人間がウェブとオンラインの自然言語を使って機械と通信するとき、人間の意図や会話の意味的文脈をどのように理解することができるのか? これは機械が賢明な答えを構築したり、人間にとって有用なアクションを実行できるようにするため、重要なAIタスクである。 意味は文レベルで表現され、その識別は意図検出(intent detection)と呼ばれ、単語レベルではスロット充填(slot fill)と呼ばれるラベル付けタスクである。 この二重レベル共同作業は、自然言語とディープラーニングネットワーク設計に関する革新的な思考を必要とし、その結果、多くのアプローチとモデルが提案され、適用されてきた。 本チュートリアルでは,共同タスクのセットアップと,ディープラーニング技術を用いた音声言語理解/自然言語理解(slu/nlu)の導入について述べる。 この分野で使用されるデータセット、実験、メトリクスを取り上げます。 機械は最新のNLPおよびDeep Learning技術を使用して、リカレントおよびアテンションベースのトランスフォーマーネットワークや事前学習されたモデル(例えばBERT)など、共同作業に対処する方法について説明する。 次に、タスクの2つのレベル、意図分類とスロットフィリングの相互作用を可能とし、パフォーマンスを明示的に向上するネットワークを詳細に検討する。 このモデルのためにpythonノートブックのコードデモを行い、参加者はこのnluでコーディングデモタスクを見る機会を得て、彼らの理解を深めます。

When a human communicates with a machine using natural language on the web and online, how can it understand the human's intention and semantic context of their talk? This is an important AI task as it enables the machine to construct a sensible answer or perform a useful action for the human. Meaning is represented at the sentence level, identification of which is known as intent detection, and at the word level, a labelling task called slot filling. This dual-level joint task requires innovative thinking about natural language and deep learning network design, and as a result, many approaches and models have been proposed and applied. This tutorial will discuss how the joint task is set up and introduce Spoken Language Understanding/Natural Language Understanding (SLU/NLU) with Deep Learning techniques. We will cover the datasets, experiments and metrics used in the field. We will describe how the machine uses the latest NLP and Deep Learning techniques to address the joint task, including recurrent and attention-based Transformer networks and pre-trained models (e.g. BERT). We will then look in detail at a network that allows the two levels of the task, intent classification and slot filling, to interact to boost performance explicitly. We will do a code demonstration of a Python notebook for this model and attendees will have an opportunity to watch coding demo tasks on this joint NLU to further their understanding.
翻訳日:2022-12-22 13:44:23 公開日:2022-12-21
# ORCA:アラビア語理解のためのベンチマーク

ORCA: A Challenging Benchmark for Arabic Language Understanding ( http://arxiv.org/abs/2212.10758v1 )

ライセンス: Link先を確認
AbdelRahim Elmadany, El Moatez Billah Nagoudi, Muhammad Abdul-Mageed(参考訳) すべてのNLPにおいて重要な役割を担っているため、事前訓練された言語モデルを評価するためにいくつかのベンチマークが提案されている。 これらの努力にもかかわらず、アラビア語の評価のための様々な性質の公開ベンチマークは現存していない。 これにより、アラビア語と多言語の両方の言語モデルの進歩を測定することが困難になる。 この課題は、アラビア語を対象とするベンチマークは、アラビア語が単一の言語ではなく、言語や品種の集合であるという事実を考慮する必要があるという事実によって複雑化している。 本研究では,アラビア語理解評価のためのベンチマークであるORCAを紹介する。 ORCAは、7つのNLUタスククラスタにわたる60の異なるデータセットを活用する、さまざまなアラビアの多様性と幅広いアラビア理解タスクをカバーするために、慎重に構築されている。 アラビア語NLUの現在の進歩を測定するため、ORCAを用いて18の多言語モデルとアラビア語モデルを比較した。 また、将来の研究を促進するために、統一された単数評価基準(ORCAスコア)を備えた公開リーダーボードも提供する。

Due to their crucial role in all NLP, several benchmarks have been proposed to evaluate pretrained language models. In spite of these efforts, no public benchmark of diverse nature currently exists for evaluation of Arabic. This makes it challenging to measure progress for both Arabic and multilingual language models. This challenge is compounded by the fact that any benchmark targeting Arabic needs to take into account the fact that Arabic is not a single language but rather a collection of languages and varieties. In this work, we introduce ORCA, a publicly available benchmark for Arabic language understanding evaluation. ORCA is carefully constructed to cover diverse Arabic varieties and a wide range of challenging Arabic understanding tasks exploiting 60 different datasets across seven NLU task clusters. To measure current progress in Arabic NLU, we use ORCA to offer a comprehensive comparison between 18 multilingual and Arabic language models. We also provide a public leaderboard with a unified single-number evaluation metric (ORCA score) to facilitate future research.
翻訳日:2022-12-22 13:43:59 公開日:2022-12-21
# SERENGETI:アフリカにおける多言語言語モデル

SERENGETI: Massively Multilingual Language Models for Africa ( http://arxiv.org/abs/2212.10785v1 )

ライセンス: Link先を確認
Ife Adebara, AbdelRahim Elmadany, Muhammad Abdul-Mageed, Alcides Alcoba Inciarte(参考訳) 多言語言語モデル(MLM)は、事前訓練中に有益で一般化可能な言語情報を取得し、タスク固有の微調整の技術を進歩させた。 これまでのところ、2000言語のうち28言語しか既存の言語モデルに含まれていない。 我々は、アフリカの517の言語と言語を対象とする大規模多言語モデルであるserengetiの開発によって、この制限を改善する。 我々は20のデータセットにまたがる8つの自然言語理解タスクについて新しいモデルを評価し、アフリカ諸言語をカバーする4つのmlmと比較した。 SERENGETIは8タスクにわたって11のデータセットで他のモデルより優れ、平均F-1は82.27である。 また,モデルの性能に対する誤差解析を行い,ゼロショット設定下でモデルを適用する場合の相互理解性の影響を示す。 私たちは研究用のモデルを公開します。

Multilingual language models (MLMs) acquire valuable, generalizable linguistic information during pretraining and have advanced the state of the art on task-specific finetuning. So far, only ~ 28 out of ~2,000 African languages are covered in existing language models. We ameliorate this limitation by developing SERENGETI, a set of massively multilingual language model that covers 517 African languages and language varieties. We evaluate our novel models on eight natural language understanding tasks across 20 datasets, comparing to four MLMs that each cover any number of African languages. SERENGETI outperforms other models on 11 datasets across the eights tasks and achieves 82.27 average F-1. We also perform error analysis on our models' performance and show the influence of mutual intelligibility when the models are applied under zero-shot settings. We will publicly release our models for research.
翻訳日:2022-12-22 13:43:46 公開日:2022-12-21
# opinesum: 抽象的意見要約のための自己学習

OpineSum: Entailment-based self-training for abstractive opinion summarization ( http://arxiv.org/abs/2212.10791v1 )

ライセンス: Link先を確認
Annie Louis and Joshua Maynez(参考訳) 典型的な製品や場所はしばしば数百のレビューがあり、これらのテキストの要約は重要で困難な問題である。 ニュースなどのドメインにおける抽象要約の最近の進歩は、人文要約と組み合わせた数十万のニュース記事で訓練された教師システムによって推進されている。 しかし意見文では、このような大規模なデータセットはめったに利用できない。 教師なしの方法、自己学習、数発の学習アプローチはそのギャップを埋める。 本稿では,抽象的意見要約のための新しい自己学習手法であるopinesumを提案する。 このアプローチの要約は、テキスト・エンターテイメントの新たな応用を用いて構築され、項目に対する様々なレビューの意見のコンセンサスを捉えている。 この方法は、銀標準の要約を大規模に取得し、教師なしおよび少数ショットの抽象要約システムの両方を訓練するために使用できる。 OpineSumは、両方の設定で最先端のパフォーマンスを達成する。

A typical product or place often has hundreds of reviews, and summarization of these texts is an important and challenging problem. Recent progress on abstractive summarization in domains such as news has been driven by supervised systems trained on hundreds of thousands of news articles paired with human-written summaries. However for opinion texts, such large scale datasets are rarely available. Unsupervised methods, self-training, and few-shot learning approaches bridge that gap. In this work, we present a novel self-training approach, OpineSum, for abstractive opinion summarization. The summaries in this approach are built using a novel application of textual entailment and capture the consensus of opinions across the various reviews for an item. This method can be used to obtain silver-standard summaries on a large scale and train both unsupervised and few-shot abstractive summarization systems. OpineSum achieves state-of-the-art performance in both settings.
翻訳日:2022-12-22 13:43:31 公開日:2022-12-21
# 教師なし文要約のための強化学習による複数長要約の生成

Generating Multiple-Length Summaries via Reinforcement Learning for Unsupervised Sentence Summarization ( http://arxiv.org/abs/2212.10843v1 )

ライセンス: Link先を確認
Dongmin Hyun, Xiting Wang, Chanyoung Park, Xing Xie, Hwanjo Yu(参考訳) 文要約は、テキストの中核的な内容を維持しながら与えられたテキストを短縮する。 人書きの要約なしでテキストを要約するための教師なしのアプローチが研究されている。 しかし、最近の教師なしモデルは抽出型であり、テキストから単語を取り除き、抽象的な要約よりも柔軟性が低い。 そこで本研究では, 基礎構造を含まない強化学習に基づく抽象モデルを提案する。 我々は,マルコフ決定過程に基づく教師なし要約を要約品質を表す報酬として定式化する。 要約の質をさらに高めるために,与えられたテキストの長さの異なる複数の要約を生成しながら,要約を相互に強化する多義学習機構を開発した。 実験結果から,提案モデルは抽象的モデルと抽出的モデルの両方で大幅に優れるが,入力テキストに含まれない新しい単語を頻繁に生成することがわかった。

Sentence summarization shortens given texts while maintaining core contents of the texts. Unsupervised approaches have been studied to summarize texts without human-written summaries. However, recent unsupervised models are extractive, which remove words from texts and thus they are less flexible than abstractive summarization. In this work, we devise an abstractive model based on reinforcement learning without ground-truth summaries. We formulate the unsupervised summarization based on the Markov decision process with rewards representing the summary quality. To further enhance the summary quality, we develop a multi-summary learning mechanism that generates multiple summaries with varying lengths for a given text, while making the summaries mutually enhance each other. Experimental results show that the proposed model substantially outperforms both abstractive and extractive models, yet frequently generating new words not contained in input texts.
翻訳日:2022-12-22 13:43:19 公開日:2022-12-21
# 帰納的推論としての言語モデル

Language Models as Inductive Reasoners ( http://arxiv.org/abs/2212.10923v1 )

ライセンス: Link先を確認
Zonglin Yang, Li Dong, Xinya Du, Hao Cheng, Erik Cambria, Xiaodong Liu, Jianfeng Gao, Furu Wei(参考訳) 帰納的推論は人間の知性の中核的な要素である。 コンピュータ科学における帰納的推論の研究において、論理言語は知識(事実と規則、具体的には規則)の表現として使用される。 しかし、論理言語は、自然言語のような生の入力を扱う障害、誤ったラベルされたデータに対する感度、あいまいな入力を扱う能力の欠如といった帰納的推論の体系的な問題を引き起こす可能性がある。 そこで本研究では,自然言語の事実から自然言語ルールを誘導する新たなタスクを提案し,そのタスクのための1.2kのルールファクトペアを含むデータセットDEERを作成し,ルールと事実を自然言語で記述する。 また、このタスクの評価のために、新しい自動メトリクスを提案し、分析する。 DEERでは、自然言語を論理言語ではなく知識の表現として使用し、事前学習した言語モデルを'理性'として使用する、帰納的推論の現代的なアプローチについて検討する。 さらに,事前学習された言語モデルが自然言語の事実から自然言語ルールをいかに引き起こすかを,最初に総合的に分析する。 また,本課題に対する哲学文献からの洞察を引き出す新たな枠組みを提案する。

Inductive reasoning is a core component of human intelligence. In the past research of inductive reasoning within computer science, logic language is used as representations of knowledge (facts and rules, more specifically). However, logic language can cause systematic problems for inductive reasoning such as disability of handling raw input such as natural language, sensitiveness to mislabeled data, and incapacity to handle ambiguous input. To this end, we propose a new task, which is to induce natural language rules from natural language facts, and create a dataset termed DEER containing 1.2k rule-fact pairs for the task, where rules and facts are written in natural language. New automatic metrics are also proposed and analysed for the evaluation of this task. With DEER, we investigate a modern approach for inductive reasoning where we use natural language as representation for knowledge instead of logic language and use pretrained language models as ''reasoners''. Moreover, we provide the first and comprehensive analysis of how well pretrained language models can induce natural language rules from natural language facts. We also propose a new framework drawing insights from philosophy literature for this task, which we show in the experiment section that surpasses baselines in both automatic and human evaluations.
翻訳日:2022-12-22 13:43:06 公開日:2022-12-21
# Pixel, Image, 言語のための一般化デコーディング

Generalized Decoding for Pixel, Image, and Language ( http://arxiv.org/abs/2212.11270v1 )

ライセンス: Link先を確認
Xueyan Zou, Zi-Yi Dou, Jianwei Yang, Zhe Gan, Linjie Li, Chunyuan Li, Xiyang Dai, Harkirat Behl, Jianfeng Wang, Lu Yuan, Nanyun Peng, Lijuan Wang, Yong Jae Lee, Jianfeng Gao(参考訳) 画素レベルのセグメンテーションと言語トークンをシームレスに予測できる一般化デコードモデルであるX-Decoderを提案する。 X-Decodertは入力として2種類のクエリを取ります。 (i)ジェネリックな非セマンティッククエリ (ii)テキスト入力から誘導される意味的クエリは、異なるピクセルレベルとトークンレベルの出力を同じ意味空間でデコードする。 このような斬新な設計により、X-Decoderは、あらゆる種類のイメージセグメンテーションと様々な視覚言語(VL)タスクをサポートする統一された方法を提供する最初の作品である。 さらに,異なる粒度でのタスク間のシームレスなインタラクションを可能にし,擬似ラベルを使わずに,共通かつリッチなピクセルレベルの視覚理解空間を学習することで相互にメリットをもたらす。 少数のセグメンテーションデータと数百万のイメージテキストペアの混合セットを事前トレーニングした後、X-Decoderはゼロショットと微調整の両方の設定で、幅広い下流タスクに強い転送性を示す。 特に、(1)オープン語彙のセグメンテーションと8つのデータセットに対する参照セグメンテーションの最先端結果、(2)セグメンテーションとVLタスクに関する他のジェネラリストやスペシャリストモデルに対するより良いあるいは競争力のある微調整性能、(3)効率的な微調整と新規タスク合成(例えば、キャプションと画像編集)のための柔軟性を実現する。 コード、デモ、ビデオ、可視化はhttps://x-decoder-vl.github.ioで利用可能である。

We present X-Decoder, a generalized decoding model that can predict pixel-level segmentation and language tokens seamlessly. X-Decodert takes as input two types of queries: (i) generic non-semantic queries and (ii) semantic queries induced from text inputs, to decode different pixel-level and token-level outputs in the same semantic space. With such a novel design, X-Decoder is the first work that provides a unified way to support all types of image segmentation and a variety of vision-language (VL) tasks. Further, our design enables seamless interactions across tasks at different granularities and brings mutual benefits by learning a common and rich pixel-level visual-semantic understanding space, without any pseudo-labeling. After pretraining on a mixed set of a limited amount of segmentation data and millions of image-text pairs, X-Decoder exhibits strong transferability to a wide range of downstream tasks in both zero-shot and finetuning settings. Notably, it achieves (1) state-of-the-art results on open-vocabulary segmentation and referring segmentation on eight datasets; (2) better or competitive finetuned performance to other generalist and specialist models on segmentation and VL tasks; and (3) flexibility for efficient finetuning and novel task composition (e.g., referring captioning and image editing). Code, demo, video, and visualization are available at https://x-decoder-vl.github.io.
翻訳日:2022-12-22 13:42:45 公開日:2022-12-21
# spt: マルチタスク学習のためのセミパラメトリックプロンプトチューニング

SPT: Semi-Parametric Prompt Tuning for Multitask Prompted Learning ( http://arxiv.org/abs/2212.10929v1 )

ライセンス: Link先を確認
M Saiful Bari, Aston Zhang, Shuai Zheng, Xingjian Shi, Yi Zhu, Shafiq Joty, Mu Li(参考訳) 事前学習された大規模言語モデルは、人間が書いたプロンプトを自然に補間することができる。 マルチタスクによる学習は、さまざまなタスクセットを一度に一般化し、より効果的な下流の微調整の可能性を高める。 同じバッチで効率的なマルチタスク推論を実現するため、プロンプトチューニングのようなパラメータ効率の良い微調整法が提案されている。 しかし、既存のプロンプトチューニング手法は一般化を欠く可能性がある。 マルチタスク学習のための半パラメトリックプロンプトチューニング手法であるSPTを提案する。 SPTの新たなコンポーネントは、個別のプロンプトに基づいてメモリプロンプトが検索されるメモリバンクである。 大規模な実験など (i)SPTを用いた全言語モデルを8つの異なる領域から31のタスクで微調整し、5つのNLPタスクカテゴリで9つのホールトアウトデータセットのゼロショット一般化を評価する。 2) GLUEデータセット上でSPTを事前学習し,SuperGLUEデータセット上での微調整を評価し,SPTの有効性を実証した。

Pre-trained large language models can efficiently interpolate human-written prompts in a natural way. Multitask prompted learning can help generalization through a diverse set of tasks at once, thus enhancing the potential for more effective downstream fine-tuning. To perform efficient multitask-inference in the same batch, parameter-efficient fine-tuning methods such as prompt tuning have been proposed. However, the existing prompt tuning methods may lack generalization. We propose SPT, a semi-parametric prompt tuning method for multitask prompted learning. The novel component of SPT is a memory bank from where memory prompts are retrieved based on discrete prompts. Extensive experiments, such as (i) fine-tuning a full language model with SPT on 31 different tasks from 8 different domains and evaluating zero-shot generalization on 9 heldout datasets under 5 NLP task categories and (ii) pretraining SPT on the GLUE datasets and evaluating fine-tuning on the SuperGLUE datasets, demonstrate effectiveness of SPT.
翻訳日:2022-12-22 13:36:58 公開日:2022-12-21
# テキスト検索と編集のためのマルチモーダル分子構造テキストモデル

Multi-modal Molecule Structure-text Model for Text-based Retrieval and Editing ( http://arxiv.org/abs/2212.10789v1 )

ライセンス: Link先を確認
Shengchao Liu, Weili Nie, Chengpeng Wang, Jiarui Lu, Zhuoran Qiao, Ling Liu, Jian Tang, Chaowei Xiao, Anima Anandkumar(参考訳) 薬物発見における人工知能の採用が増加している。 しかし、既存の作品は機械学習を使って分子の化学構造を主に利用するが、化学で得られる膨大な知識を無視している。 テキスト知識を取り入れることで,新しい薬物設計目標の実現,テキストに基づく指示への適応,複雑な生物活動の予測が可能になる。 本稿では,分子の化学構造とテキスト記述をコントラスト的学習戦略で学習することにより,マルチモーダル分子構造テキストモデルcstmを提案する。 moleculestmをトレーニングするために、これまでで最大のマルチモーダルデータセット、すなわち280k以上の化学構造テキストペアを持つpubchemstmを構築した。 MoleculeSTMの有効性と有用性を示すために、構造テキスト検索や分子編集を含むテキスト命令に基づく2つの難易度ゼロショットタスクを設計する。 MoleculeSTMには、オープン語彙と自然言語による構成性という2つの主要な性質がある。 実験において、分子STMは様々なベンチマークで新しい生化学的概念を創出する最先端の一般化能力を得る。

There is increasing adoption of artificial intelligence in drug discovery. However, existing works use machine learning to mainly utilize the chemical structures of molecules yet ignore the vast textual knowledge available in chemistry. Incorporating textual knowledge enables us to realize new drug design objectives, adapt to text-based instructions, and predict complex biological activities. We present a multi-modal molecule structure-text model, MoleculeSTM, by jointly learning molecule's chemical structures and textual descriptions via a contrastive learning strategy. To train MoleculeSTM, we construct the largest multi-modal dataset to date, namely PubChemSTM, with over 280K chemical structure-text pairs. To demonstrate the effectiveness and utility of MoleculeSTM, we design two challenging zero-shot tasks based on text instructions, including structure-text retrieval and molecule editing. MoleculeSTM possesses two main properties: open vocabulary and compositionality via natural language. In experiments, MoleculeSTM obtains the state-of-the-art generalization ability to novel biochemical concepts across various benchmarks.
翻訳日:2022-12-22 13:36:19 公開日:2022-12-21
# カニ:選択バイアスの存在下で証明可能な公正な予測モデルを学ぶ

Crab: Learning Certifiably Fair Predictive Models in the Presence of Selection Bias ( http://arxiv.org/abs/2212.10839v1 )

ライセンス: Link先を確認
Jiongli Zhu, Nazanin Sabri, Sainyam Galhotra, Babak Salimi(参考訳) 最近の研究の爆発は、公正な予測モデルを構築するための方法やツールの開発に焦点を当てている。 しかし、この研究の大部分は、トレーニングとテストデータがモデルが展開されるターゲット人口の代表である、という仮定に依存している。 しかしながら、実世界のトレーニングデータは選択バイアスに苦しむことが多く、データの収集とラベル付け、歴史的差別、個人バイアスなど、多くの理由からターゲット人口の代表ではない。 本稿では,バイアスデータに基づいてトレーニングされた予測モデルの妥当性を検証し,保証する新しいフレームワークを提案する。 不完全で一貫性のないデータベース上での問い合わせ応答から着想を得て,対象集団の集計情報に対する回答の一貫性範囲近似問題(cra)を提示し,定式化する。 本研究では,データ収集過程,偏りのあるデータ,補助データソースに関する背景知識を活用し,利用可能な情報と整合する対象集団に対する問合せの回答範囲を計算することを目的とする。 次に,このような集約クエリのCRAを用いて,トレーニング中にその集団に関する外部情報が得られなくても,対象個体群に対して確実に公平な予測モデルを構築する手法を開発した。 本手法を実データ上で評価し,最先端技術の改善を実証する。 以上より,本手法による公平性の強制は,公平なだけでなく,対象人口においてより正確な予測モデルにつながる可能性が示唆された。

A recent explosion of research focuses on developing methods and tools for building fair predictive models. However, most of this work relies on the assumption that the training and testing data are representative of the target population on which the model will be deployed. However, real-world training data often suffer from selection bias and are not representative of the target population for many reasons, including the cost and feasibility of collecting and labeling data, historical discrimination, and individual biases. In this paper, we introduce a new framework for certifying and ensuring the fairness of predictive models trained on biased data. We take inspiration from query answering over incomplete and inconsistent databases to present and formalize the problem of consistent range approximation (CRA) of answers to queries about aggregate information for the target population. We aim to leverage background knowledge about the data collection process, biased data, and limited or no auxiliary data sources to compute a range of answers for aggregate queries over the target population that are consistent with available information. We then develop methods that use CRA of such aggregate queries to build predictive models that are certifiably fair on the target population even when no external information about that population is available during training. We evaluate our methods on real data and demonstrate improvements over state of the art. Significantly, we show that enforcing fairness using our methods can lead to predictive models that are not only fair, but more accurate on the target population.
翻訳日:2022-12-22 13:35:49 公開日:2022-12-21
# 概念とプロキシによる潜在部分群シフトへの適応

Adapting to Latent Subgroup Shifts via Concepts and Proxies ( http://arxiv.org/abs/2212.11254v1 )

ライセンス: Link先を確認
Ibrahim Alabdulmohsin, Nicole Chiou, Alexander D'Amour, Arthur Gretton, Sanmi Koyejo, Matt J. Kusner, Stephen R. Pfohl, Olawale Salaudeen, Jessica Schrouff, Katherine Tsai(参考訳) 我々は、潜在サブグループの分布の変化により、ソースドメインがターゲットドメインと異なる場合、教師なし領域適応の問題に対処する。 この部分群が観測された全てのデータを分離する場合、共変量シフトやラベルシフトの仮定は適用されない。 最適なターゲット予測器は、ソースドメインでのみ利用可能な概念とプロキシ変数と、ターゲットからラベルなしのデータによって非パラメトリックに識別できることを示す。 識別結果は構築的であり、即座にターゲットの最適予測器を推定するアルゴリズムを提案する。 連続観測のために,本アルゴリズムが実用的でない場合,データ生成プロセスに固有の潜在変数モデルを提案する。 シフトサイズが変化するにつれて, アプローチの劣化が見られ, 共変量およびラベルシフトの調整に優れることを確認した。

We address the problem of unsupervised domain adaptation when the source domain differs from the target domain because of a shift in the distribution of a latent subgroup. When this subgroup confounds all observed data, neither covariate shift nor label shift assumptions apply. We show that the optimal target predictor can be non-parametrically identified with the help of concept and proxy variables available only in the source domain, and unlabeled data from the target. The identification results are constructive, immediately suggesting an algorithm for estimating the optimal predictor in the target. For continuous observations, when this algorithm becomes impractical, we propose a latent variable model specific to the data generation process at hand. We show how the approach degrades as the size of the shift changes, and verify that it outperforms both covariate and label shift adjustment.
翻訳日:2022-12-22 13:35:25 公開日:2022-12-21
# 変調マスクを用いた生涯強化学習

Lifelong Reinforcement Learning with Modulating Masks ( http://arxiv.org/abs/2212.11110v1 )

ライセンス: Link先を確認
Eseoghene Ben-Iwhiwhu, Saptarshi Nath, Praveen K. Pilly, Soheil Kolouri, Andrea Soltoggio(参考訳) 生涯学習は、生物学的学習と同様、生涯を通じて継続的に漸進的に学習するAIシステムを作成することを目的としている。 これまでの試みでは、破滅的な忘れ、タスク間の干渉、過去の知識を活用できないといった問題に直面してきた。 多くの研究は複数の入力分布(典型的には分類において)の学習に重点を置いているが、生涯強化学習(LRL)は状態分布や遷移分布の変動や報酬関数にも対処しなければならない。 分類のために最近開発された変調マスクは、このような大きなタスクのバリエーションを扱うのに特に適しています。 本稿では,変調マスクを深部LRL,特にPPOおよびIMPALAエージェントに適応させた。 離散RLタスクと連続RLタスクのLRLベースラインとの比較は、競合性能を示している。 我々はさらに,新しいタスクを学習するときの既往の知識を活用するために,以前に学習したマスクを線形に組み合わせて使用する方法についても検討した。 その結果, マスクを用いたRLは, 生涯学習, より複雑なタスクを学習するための知識構成, 効率的かつ迅速な学習のための知識再利用への有望なアプローチであることが示唆された。

Lifelong learning aims to create AI systems that continuously and incrementally learn during a lifetime, similar to biological learning. Attempts so far have met problems, including catastrophic forgetting, interference among tasks, and the inability to exploit previous knowledge. While considerable research has focused on learning multiple input distributions, typically in classification, lifelong reinforcement learning (LRL) must also deal with variations in the state and transition distributions, and in the reward functions. Modulating masks, recently developed for classification, are particularly suitable to deal with such a large spectrum of task variations. In this paper, we adapted modulating masks to work with deep LRL, specifically PPO and IMPALA agents. The comparison with LRL baselines in both discrete and continuous RL tasks shows competitive performance. We further investigated the use of a linear combination of previously learned masks to exploit previous knowledge when learning new tasks: not only is learning faster, the algorithm solves tasks that we could not otherwise solve from scratch due to extremely sparse rewards. The results suggest that RL with modulating masks is a promising approach to lifelong learning, to the composition of knowledge to learn increasingly complex tasks, and to knowledge reuse for efficient and faster learning.
翻訳日:2022-12-22 13:35:12 公開日:2022-12-21
# 混合データ拡張に関する調査研究:分類学,方法,応用,説明可能性

A Survey of Mix-based Data Augmentation: Taxonomy, Methods, Applications, and Explainability ( http://arxiv.org/abs/2212.10888v1 )

ライセンス: Link先を確認
Chengtai Cao, Fan Zhou, Yurou Dai, and Jianping Wang(参考訳) データ拡張(DA)は、現代の機械学習やディープニューラルネットワークでは不可欠である。 daの基本的な考え方は、既存のデータのわずかに乱れたバージョンを追加したり、新しいデータを合成することでモデルの一般化を改善するために、新しいトレーニングデータを構築することである。 本稿では、MixDA(Mix-based Data Augmentation)の小さな部分集合を概説し、複数のサンプルを混合して新しいサンプルを生成する。 単一サンプル操作やドメイン知識を必要とする従来のDAアプローチとは異なり、MixDAはより幅広い新しいデータを作成する上で一般的であり、コミュニティで注目を集めている。 データミックスの階層的ビューに従って、mixdaをmixupベース、cutmixベース、ハイブリッドアプローチに分類する新しい分類法の提案から始めます。 様々なMixDAテクニックは、よりきめ細かい方法で包括的にレビューされる。 一般化により、MixDAは様々なアプリケーションに浸透し、この研究で完全にレビューされている。 また,mixdaがモデル性能,一般化,キャリブレーションといった異なる側面から機能する理由を,mixdaの特性に基づいたモデル動作を解説しながら検証した。 最後に,現在のmixda研究における批判的知見と根本的な課題を再定義し,今後の研究の方向性について概説する。 特定の領域におけるdaアプローチ(画像や自然言語処理など)を要約したり、mixda研究の一部のみをレビューしたりする以前の関連著作とは異なり、mixdaの分類学、方法論、応用、説明可能性に関して体系的な調査を行ったのは初めてです。 この作業は、MixDAテクニックとアプリケーションレビューのロードマップとして機能し、このエキサイティングな領域に関心のある研究者に有望な方向性を提供する。

Data augmentation (DA) is indispensable in modern machine learning and deep neural networks. The basic idea of DA is to construct new training data to improve the model's generalization by adding slightly disturbed versions of existing data or synthesizing new data. In this work, we review a small but essential subset of DA -- Mix-based Data Augmentation (MixDA) that generates novel samples by mixing multiple examples. Unlike conventional DA approaches based on a single-sample operation or requiring domain knowledge, MixDA is more general in creating a broad spectrum of new data and has received increasing attention in the community. We begin with proposing a new taxonomy classifying MixDA into, Mixup-based, Cutmix-based, and hybrid approaches according to a hierarchical view of the data mix. Various MixDA techniques are then comprehensively reviewed in a more fine-grained way. Owing to its generalization, MixDA has penetrated a variety of applications which are also completely reviewed in this work. We also examine why MixDA works from different aspects of improving model performance, generalization, and calibration while explaining the model behavior based on the properties of MixDA. Finally, we recapitulate the critical findings and fundamental challenges of current MixDA studies, and outline the potential directions for future works. Different from previous related works that summarize the DA approaches in a specific domain (e.g., images or natural language processing) or only review a part of MixDA studies, we are the first to provide a systematical survey of MixDA in terms of its taxonomy, methodology, applications, and explainability. This work can serve as a roadmap to MixDA techniques and application reviews while providing promising directions for researchers interested in this exciting area.
翻訳日:2022-12-22 13:34:26 公開日:2022-12-21
# UnICLAM:Unified and Interpretable Medical Vision Question Answeringのための逆マスキングを用いたコントラスト表現学習

UnICLAM:Contrastive Representation Learning with Adversarial Masking for Unified and Interpretable Medical Vision Question Answering ( http://arxiv.org/abs/2212.10729v1 )

ライセンス: Link先を確認
Chenlu Zhan, Peng Peng, Hongsen Wang, Tao Chen, Hongwei Wang(参考訳) medical visual question answering (medical-vqa) は、放射線画像に関する臨床質問に答えることを目的としており、医師の意思決定を支援する。 しかしながら、現在のメディカル-VQAモデルは、視覚とテクスチャエンコーダを2つの別々の空間に配置することで、間接的なセマンティックアライメントをもたらす。 本稿では,コントラスト表現学習と逆マスキングを併用した統一的で解釈可能な医療vqaモデルuniclamを提案する。 具体的には,アライメントされた画像テキスト表現を学習するために,まず,ソフトパラメータの漸進的共有戦略を用いて,統一されたデュアルストリーム事前学習構造を確立する。 技術的に、提案手法は視覚とテクスチャエンコーダが同じ空間に近づくことの制約を学習し、レイヤーの数が増えるにつれて徐々にゆるめられる。 さらに,セマンティックな表現を把握するために,視覚とテキストの対照的な表現学習に統一された逆マスキングデータ拡張戦略を拡張し,一般的なランダムマスクの無意味性を緩和する。 具体的には、エンコーダトレーニングは、元の特徴とマスキング特徴との間の距離を最小化するが、逆マスキングモデルは、逆の学習を継続し、逆に距離を最大化する。 さらに, 統合的な対向マスキング戦略を直感的に探究し, 優れた性能と効率性により, 潜在的アンテホック解釈性が向上した。 VQA-RADとSLAKEの公開ベンチマークの実験結果は、UnICLAMが既存の11の最先端の医療VQAモデルより優れていることを示している。 さらに, 心不全の診断におけるUnICLAMの有用性についても検討し, 臨床診断におけるUnICLAMの適応性能が良好であることが確認された。

Medical Visual Question Answering (Medical-VQA) aims to answer clinical questions regarding radiology images, assisting doctors with decision-making options. Nevertheless, current Medical-VQA models learn cross-modal representations through residing vision and texture encoders in dual separate spaces, which lead to indirect semantic alignment. In this paper, we propose UnICLAM, a Unified and Interpretable Medical-VQA model through Contrastive Representation Learning with Adversarial Masking. Specifically, to learn an aligned image-text representation, we first establish a unified dual-stream pre-training structure with the gradually soft-parameter sharing strategy. Technically, the proposed strategy learns a constraint for the vision and texture encoders to be close in a same space, which is gradually loosened as the higher number of layers. Moreover, for grasping the semantic representation, we extend the unified Adversarial Masking data augmentation strategy to the contrastive representation learning of vision and text in a unified manner, alleviating the meaningless of the commonly used random mask. Concretely, while the encoder training minimizes the distance between the original feature and the masking feature, the adversarial masking model keeps adversarial learning to conversely maximize the distance. Furthermore, we also intuitively take a further exploration of the unified adversarial masking strategy, which improves the potential ante-hoc interpretability with remarkable performance and efficiency. Experimental results on VQA-RAD and SLAKE public benchmarks demonstrate that UnICLAM outperforms the existing 11 state-of-the-art Medical-VQA models. More importantly, we make an additional discussion about the performance of UnICLAM in diagnosing heart failure, verifying that UnICLAM exhibits superior few-shot adaption performance in practical disease diagnosis.
翻訳日:2022-12-22 13:33:57 公開日:2022-12-21
# Web-Scraped Multimodal Data Exhibit Sexual Objectification Bias を用いたコントラスト言語ビジョンAIモデル

Contrastive Language-Vision AI Models Pretrained on Web-Scraped Multimodal Data Exhibit Sexual Objectification Bias ( http://arxiv.org/abs/2212.11261v1 )

ライセンス: Link先を確認
Robert Wolfe, Yiwei Yang, Bill Howe, Aylin Caliskan(参考訳) ウェブスクレイプで訓練された9つの言語ビジョンaiモデルと、比較言語イメージ前訓練(clip)の目的とが、心理学者が研究したバイアスの証拠として評価される: 人間の特性が無視され、その人が身体または身体の一部の集まりとして扱われるときに起こる、男女の性的対象化。 最初の実験では、性的対象化・感情データベース(Sexual jectification and EMotion Database)からの女性の標準化画像を使用し、心理学における先行研究と相まって、人間の特性は、対象女性のイメージとは無関係であることが判明した。 埋め込み関連試験 (EAT) は怒り (d >.8) と悲しみ (d >.5) の両方に有意な影響を及ぼす。 自動画像キャプション装置(antarctic captions)は、完全に服を着た女性の画像よりも、部分的に服を着た女性の画像の50%未満の感情を示す単語を含む。 第3の実験では、女性専門家(科学者、医師、役員)のイメージは、男性専門家のイメージと比較して性的な説明に結びついていることが判明した。 第4の実験では、"a [age] old girl"のプロンプトは、VQGAN-CLIPの最大73%(年齢17歳)、安定拡散の最大40%(年齢14歳と18歳)で性的なイメージを生成する(NSFW分類器によって決定される)。 この証拠は、自動的に収集されたウェブスクラップで訓練された言語ビジョンAIモデルが、下流のアプリケーションに伝播する性的対象化のバイアスを学ぶことを示している。

Nine language-vision AI models trained on web scrapes with the Contrastive Language-Image Pretraining (CLIP) objective are evaluated for evidence of a bias studied by psychologists: the sexual objectification of girls and women, which occurs when a person's human characteristics are disregarded and the person is treated as a body or a collection of body parts. A first experiment uses standardized images of women from the Sexual OBjectification and EMotion Database, and finds that, commensurate with prior research in psychology, human characteristics are disassociated from images of objectified women: the model's recognition of emotional state is mediated by whether the subject is fully or partially clothed. Embedding association tests (EATs) return significant effect sizes for both anger (d >.8) and sadness (d >.5). A second experiment measures the effect in a representative application: an automatic image captioner (Antarctic Captions) includes words denoting emotion less than 50% as often for images of partially clothed women than for images of fully clothed women. A third experiment finds that images of female professionals (scientists, doctors, executives) are likely to be associated with sexual descriptions relative to images of male professionals. A fourth experiment shows that a prompt of "a [age] year old girl" generates sexualized images (as determined by an NSFW classifier) up to 73% of the time for VQGAN-CLIP (age 17), and up to 40% of the time for Stable Diffusion (ages 14 and 18); the corresponding rate for boys never surpasses 9%. The evidence indicates that language-vision AI models trained on automatically collected web scrapes learn biases of sexual objectification, which propagate to downstream applications.
翻訳日:2022-12-22 13:25:20 公開日:2022-12-21
# ランキングのためのリストレベルドメイン不変表現の学習

Learning List-Level Domain-Invariant Representations for Ranking ( http://arxiv.org/abs/2212.10764v1 )

ライセンス: Link先を確認
Ruicheng Xian, Honglei Zhuang, Zhen Qin, Hamed Zamani, Jing Lu, Ji Ma, Kai Hui, Han Zhao, Xuanhui Wang, Michael Bendersky(参考訳) ドメイン適応は、(データリッチ)ソースドメインで訓練されたモデルによって得られた知識を(低リソース)ターゲットドメインに転送することを目的としています。 分類や回帰の問題について広く研究されているが、データやメトリクスがリスト構造を持つランキング問題に適用する方法はよく分かっていない。 理論的には、MRRやNDCGのようなリストワイドな指標の下でのランク付けのために、ドメイン適応の一般化を確立する。 この境界は、リストレベルのドメイン不変な特徴表現を学習することで適応する方法を示唆しており、その利点は、通路の再ランキングを含む現実世界のランキングタスクにおいて教師なしのドメイン適応実験によって実証的に示される。 鍵となるメッセージは、ドメイン適応では、リストレベルでの不変表現の学習がランキング問題への適応に最も有効であることを示すように、その表現はメトリックが計算されるのと同じレベルで分析されるべきであるということである。

Domain adaptation aims to transfer the knowledge acquired by models trained on (data-rich) source domains to (low-resource) target domains, for which a popular method is invariant representation learning. While they have been studied extensively for classification and regression problems, how they apply to ranking problems, where the data and metrics have a list structure, is not well understood. Theoretically, we establish a domain adaptation generalization bound for ranking under listwise metrics such as MRR and NDCG. The bound suggests an adaptation method via learning list-level domain-invariant feature representations, whose benefits are empirically demonstrated by unsupervised domain adaptation experiments on real-world ranking tasks, including passage reranking. A key message is that for domain adaptation, the representations should be analyzed at the same level at which the metric is computed, as we show that learning invariant representations at the list level is most effective for adaptation on ranking problems.
翻訳日:2022-12-22 13:24:42 公開日:2022-12-21