このサイトではarxivの論文のうち、30ページ以下でCreative Commonsライセンス(CC 0, CC BY, CC BY-SA)の論文を日本語訳しています。 本文がCCでない論文、長すぎる論文はメタデータのみを翻訳しています。(arxivのメタデータは CC 0です。) 翻訳文のライセンスはCC BY-SA 4.0です。 翻訳にはFugu-Machine Translatorを利用しています。

本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。

公開日が20230211となっている論文です。

PDF登録状況(公開日: 20230211)

TitleAuthorsAbstract論文公表日・翻訳日
# 量子チャネル符号化におけるワンショットトリプルソーストレードオフ

One-Shot Triple-Resource Trade-Off in Quantum Channel Coding ( http://arxiv.org/abs/2004.12593v2 )

ライセンス: Link先を確認
Eyuri Wakakuwa, Yoshifumi Nakata(参考訳) ノイズ量子チャネルを介して、古典的および量子的メッセージが同時に通信されるタスクを分析し、限られた量の共有絡み合いを補助する。 我々は、スムーズな条件エントロピーとエラー許容度で表されるワンショット容量領域の直接および逆境界を導出する。 この証明はランダム化部分分離定理(英語版)(randomized partial decoupling theorem)に基づいている。 2つの境界は無限に多くの無記憶チャネルの使用の漸近極限に一致し、ヒューとワイルドによって得られた以前の結果と一致する。 様々なコミュニケーションタスクの直接および逆境界は、ワンショットシナリオと漸近シナリオの両方において、概要として得られる。

We analyze a task in which classical and quantum messages are simultaneously communicated via a noisy quantum channel, assisted with a limited amount of shared entanglement. We derive direct and converse bounds for the one-shot capacity region, represented by the smooth conditional entropies and the error tolerance. The proof is based on the randomized partial decoupling theorem, which is a generalization of the decoupling theorem. The two bounds match in the asymptotic limit of infinitely many uses of a memoryless channel and coincide with the previous result obtained by Hsieh and Wilde. Direct and converse bounds for various communication tasks are obtained as corollaries, both for the one-shot and asymptotic scenarios.
翻訳日:2023-05-22 00:28:40 公開日:2023-02-11
# 量子漸近位相が量子同期のシグネチャを明らかにする

Quantum asymptotic phase reveals signatures of quantum synchronization ( http://arxiv.org/abs/2006.00760v2 )

ライセンス: Link先を確認
Yuzuru Kato and Hiroya Nakao(参考訳) 近年,量子非線形発振器の同期化が注目されている。 量子振動力学を特徴付けるため,我々は最近,古典非線形振動子(加藤・中尾2022カオス32063133)の同期解析において重要な量である漸近相の量子力学的定義を提案した。 本研究では、この理論をさらに拡張し、異なる基本周波数に付随する量子非線形発振器の随伴リウヴィル超作用素を用いて複数の漸近位相を導入する。 強量子状態においてkerr効果を持つ量子ファンデルpol発振器を解析し,いくつかの基本周波数を有することを示す。 関連する量子漸近位相の項で秩序パラメータとパワースペクトルを導入することにより、強い量子状態でのみ観測される明示的な量子シグネチャであるハーモニック駆動によるシステムの位相ロックが、単純な極限サイクルではなくトーラス上での同期として解釈できることを明らかにする。

Synchronization of quantum nonlinear oscillators has attracted much attention recently. To characterize the quantum oscillatory dynamics, we recently proposed a fully quantum-mechanical definition of the asymptotic phase, which is a key quantity in the synchronization analysis of classical nonlinear oscillators (Kato and Nakao 2022 Chaos 32 063133). In this work, we further extend this theory and introduce multiple asymptotic phases using the eigenoperators of the adjoint Liouville superoperator of the quantum nonlinear oscillator associated with different fundamental frequencies. We analyze a quantum van der Pol oscillator with Kerr effect in the strong quantum regime and show that the system has several different fundamental frequencies. By introducing order parameters and power spectra in terms of the associated quantum asymptotic phases, we reveal that phase locking of the system with a harmonic drive at several different frequencies, an explicit quantum signature observed only in the strong quantum regime, can be interpreted as synchronization on a torus rather than a simple limit cycle.
翻訳日:2023-05-17 11:38:45 公開日:2023-02-11
# 超伝導量子ビットのリサイクルによる時間領域線形クラスター状態の生成

Generating time-domain linear cluster state by recycling superconducting qubits ( http://arxiv.org/abs/2105.08609v2 )

ライセンス: Link先を確認
Shotaro Shirai, Yu Zhou, Keiichi Sakata, Hiroto Mukai, Jaw-Shen Tsai(参考訳) 高絡み合い状態の一種であるクラスター状態は、量子情報処理に不可欠な資源である。 ここでは、2つのトランスモン量子ビットからなる超伝導量子回路を用いた時間領域線形クラスター状態(t-lcs)の生成を実証した。 物理量子ビットをリサイクルすることにより、4つの物理量子ビットに相当するt-LCSを59%の忠実度で量子状態トモグラフィーにより検証した。 さらに, 絡み合った証人の期待値を調べることで, t-LCSの真の生成を確認した。 実演した t-LCS 生成プロトコルにより,物理量子ビットの効率的な利用が可能となり,大規模量子回路の資源効率が向上する可能性がある。

Cluster states, a type of highly entangled state, are essential resources for quantum information processing. Here we demonstrated the generation of a time-domain linear cluster state (t-LCS) using a superconducting quantum circuit consisting of only two transmon qubits. By recycling the physical qubits, the t-LCS equivalent up to four physical qubits was validated by quantum state tomography with fidelity of 59%. We further confirmed the true generation of t-LCS by examining the expectation value of an entanglement witness. Our demonstrated protocol of t-LCS generation allows efficient use of physical qubits which could lead to resource-efficient execution of quantum circuits on large scale.
翻訳日:2023-03-30 19:49:24 公開日:2023-02-11
# $l_{1}$ Norm of Coherence を用いた3量子状態の検出と分類

Detection and Classification of Three-qubit States Using $l_{1}$ Norm of Coherence ( http://arxiv.org/abs/2106.09072v2 )

ライセンス: Link先を確認
Anu Kumari, Satyabrata Adhikari(参考訳) 絡み合いは純粋に量子力学現象であり、古典的なアナログを持たない。 一方、コヒーレンスは古典光学や量子力学においてよく知られた現象である。 近年の研究では、量子コヒーレンスが量子情報理論の有用な資源として機能することが示されている。 ここでは3量子状態の絡み合い性の検出と分類に量子コヒーレンスを用いる。 さらに,任意の3量子ビット状態が一般のビセパブル状態を検出するのに必要な条件に違反する場合,与えられた3量子状態はビセパブル状態とはならないことを示した。 3量子系の状態のカテゴリは3つしかないので、プローブの下の状態が分離可能でも双分離可能でもないことを検知すれば、与えられた3量子状態が真の絡み合った状態であると確実に結論付けることができる。 私たちはいくつかの例で結果を示しました。

Entanglement is a purely quantum mechanical phenomenon and thus it has no classical analog. On the other hand, coherence is a well-known phenomenon in classical optics and in quantum mechanics. Recent research shows that quantum coherence may act as a useful resource in quantum information theory. We will employ here quantum coherence to detect and classify the entanglement property of three-qubit states. Moreover, we have shown that if any three-qubit state violates another necessary condition for the detection of a general biseparable state then the given three-qubit state cannot be a biseparable state. Since there are only three categories of states for the three-qubit system so if we detect that the state under probe is neither a separable nor a biseparable state then we can definitely conclude that the given three-qubit state is a genuine entangled state. We have illustrated our results with a few examples.
翻訳日:2023-03-26 13:00:19 公開日:2023-02-11
# グラフニューラルネットワークにおける目立たないバックドア攻撃

Unnoticeable Backdoor Attacks on Graph Neural Networks ( http://arxiv.org/abs/2303.01263v1 )

ライセンス: Link先を確認
Enyan Dai, Minhua Lin, Xiang Zhang, and Suhang Wang(参考訳) グラフニューラルネットワーク(GNN)は,ノード分類やグラフ分類など,さまざまなタスクにおいて有望な結果を達成している。 近年の研究では、GNNは敵の攻撃に弱いことが判明している。 しかし、グラフに対する効果的なバックドア攻撃はまだ未解決の問題である。 特に、バックドアアタックは、トレーニンググラフ内の一連のノードにトリガーとターゲットクラスラベルをアタッチすることで、グラフを毒する。 有毒グラフでトレーニングされたバックドアのGNNは、一度トリガーが付いたクラスに対してテストノードを予測するために誤解される。 グラフバックドア攻撃の初期的な取り組みはいくつかあるが、我々の実証分析によると、効果的なバックドア攻撃には大規模な攻撃予算が必要であり、インジェクショントリガーは容易に検出および切断可能である。 そこで本稿では,攻撃予算が制限されたグラフバックドア攻撃の新たな問題について検討する。 攻撃予算を十分に活用するために,トリガやターゲットクラスラベルを注入するノードを意図的に選択することを提案する。 適応トリガ発生器を配置して、注意しにくい効果的なトリガを得る。 各種防衛戦略に対する実世界のデータセットの大規模な実験により,提案手法の有効性が実証された。

Graph Neural Networks (GNNs) have achieved promising results in various tasks such as node classification and graph classification. Recent studies find that GNNs are vulnerable to adversarial attacks. However, effective backdoor attacks on graphs are still an open problem. In particular, backdoor attack poisons the graph by attaching triggers and the target class label to a set of nodes in the training graph. The backdoored GNNs trained on the poisoned graph will then be misled to predict test nodes to target class once attached with triggers. Though there are some initial efforts in graph backdoor attacks, our empirical analysis shows that they may require a large attack budget for effective backdoor attacks and the injected triggers can be easily detected and pruned. Therefore, in this paper, we study a novel problem of unnoticeable graph backdoor attacks with limited attack budget. To fully utilize the attack budget, we propose to deliberately select the nodes to inject triggers and target class labels in the poisoning phase. An adaptive trigger generator is deployed to obtain effective triggers that are difficult to be noticed. Extensive experiments on real-world datasets against various defense strategies demonstrate the effectiveness of our proposed method in conducting effective unnoticeable backdoor attacks.
翻訳日:2023-03-05 05:36:04 公開日:2023-02-11
# フロッケによる長距離多体系の局在

Floquet-induced localization in long-range many-body systems ( http://arxiv.org/abs/2201.03716v2 )

ライセンス: Link先を確認
Rozhin Yousefjani, Sougato Bose, Abolfazl Bayat(参考訳) 長距離相互作用系における多体局在の運命は完全には解決されていない。 例えば、エルゴディックと多体ローカライズド政権の相境界はいまだ議論が続いている。 ここでは、ランダムな局所回転の正規動作によって実現される時空間障害により、クリーンな長距離相互作用システムにおいて多体局在を誘導できるフロケダイナミクスを用いる。 位相図は2種類の一様および非一様長距離カップリングについて決定されている。 我々のFloquetメカニズムは、従来の静的障害法よりも、位相境界を押して局所化位相に有利な位置化力を示す。 さらに, 総合的な長期シミュレーションは, 静的解析に基づく結果に対して強い支持を与える。

The fate of many-body localization in long-range interacting systems is not fully settled. For instance, the phase boundary between ergodic and many-body localized regimes is still under debate. Here, we use Floquet dynamics which can induce many-body localization in a clean long-range interacting system through spatiotemporal disorder, which are realized by regular operation of random local rotations. The phase diagram has been determined for two types of uniform and nonuniform long-range couplings. Our Floquet mechanism shows more localizing power than conventional static disorder methods as it pushes the phase boundary in favor of the localized phase. Moreover, our comprehensive long-time simulations provide strong support for obtained results based on static analysis.
翻訳日:2023-03-01 13:08:24 公開日:2023-02-11
# 心を見よ - 視覚的創造による心理状態の解釈

See Your Heart: Psychological states Interpretation through Visual Creations ( http://arxiv.org/abs/2302.10276v1 )

ライセンス: Link先を確認
Likun Yang, Xiaokun Feng, Xiaotang Chen, Shiyu Zhang, Kaiqi Huang(参考訳) 精神分析学では、視覚的な創造を通して精神状態の解釈を生成することは重大な要求に直面している。 コンピュータビジョン,感情・感情分類,情緒的キャプションの分野での既存研究の2つの課題は,心理的解釈の必要性をほとんど満たさない。 心理分析の要求を満たすために、挑戦的なタスクである \textbf{v}isual \textbf{e}motion \textbf{i}nterpretation \textbf{t}ask (veit)を導入する。 VEITは、視覚的な創造を通して創造者の心理的状態を合理的に解釈することを要求する。 このタスクをサポートするために、心理学理論が支持し、専門家が注釈付けしたSpyIn(\textbf{S}and\textbf{p}la\textbf{y} \textbf{In}terpretation Dataset)と呼ばれるマルチモーダルデータセットを提案する。 データセット分析は、SpyInがVEITをサポートするだけでなく、他のキャプションデータセットよりも難しいことも示している。 SpyInをベースとした複数の画像キャプション手法の実験を行い、SpyIn上でSOTA結果を得る視覚・セマンティック複合モデルを提案する。 その結果,VEITはシーングラフ情報と心理的知識を必要とする課題であることがわかった。 われわれの研究は、視覚的な創造物を通して人間の内なる世界を分析し、説明するAIの約束も示している。

In psychoanalysis, generating interpretations to one's psychological state through visual creations is facing significant demands. The two main tasks of existing studies in the field of computer vision, sentiment/emotion classification and affective captioning, can hardly satisfy the requirement of psychological interpreting. To meet the demands for psychoanalysis, we introduce a challenging task, \textbf{V}isual \textbf{E}motion \textbf{I}nterpretation \textbf{T}ask (VEIT). VEIT requires AI to generate reasonable interpretations of creator's psychological state through visual creations. To support the task, we present a multimodal dataset termed SpyIn (\textbf{S}and\textbf{p}la\textbf{y} \textbf{In}terpretation Dataset), which is psychological theory supported and professional annotated. Dataset analysis illustrates that SpyIn is not only able to support VEIT, but also more challenging compared with other captioning datasets. Building on SpyIn, we conduct experiments of several image captioning method, and propose a visual-semantic combined model which obtains a SOTA result on SpyIn. The results indicate that VEIT is a more challenging task requiring scene graph information and psychological knowledge. Our work also show a promise for AI to analyze and explain inner world of humanity through visual creations.
翻訳日:2023-02-26 14:25:41 公開日:2023-02-11
# 階層的時空間アテンションネットワークによるトラジェクティブ・ユーザ・リンク

Trajectory-User Linking via Hierarchical Spatio-Temporal Attention Networks ( http://arxiv.org/abs/2302.10903v1 )

ライセンス: Link先を確認
Wei Chen, Chao Huang, Yanwei Yu, Yongguo Jiang, Junyu Dong(参考訳) 軌道-ユーザリンク(tul)は、複雑なモビリティパターンを探索することで、異なる軌道をユーザにリンクすることで、人間のモビリティモデリングに不可欠である。 既存の研究は主に、トラジェクトリにおける時間的依存関係を符号化するリカレントニューラルネットワークフレームワークに依存しており、TUL予測のための空間的時間的グローバルコンテキストの取得に不足している。 このギャップを埋めるために、この研究はAttnTULと呼ばれる新しい階層的時空間神経ネットワークを示し、TULの局所軌道遷移パターンとグローバル空間依存性を共同で符号化する。 特に、最初のモデルコンポーネントは、ローカルおよびグローバルコンテキストを保存し、地理的領域とユーザの軌跡の表現パラダイムを強化するために、グラフニューラルアーキテクチャの上に構築されています。 さらに、時間的アテンション機構とグローバル弾性アテンショナルエンコーダを統合して、軌道内および軌道間依存関係を同時に符号化する階層的なアテンションネットワークを設計する。 AttnTUL法は,様々なトラジェクトリデータセット上での最先端のベースラインよりも優れていることを示す。 我々のモデルのソースコードは \url{https://anonymous.4open.science/r/Attn_TUL} で入手できる。

Trajectory-User Linking (TUL) is crucial for human mobility modeling by linking different trajectories to users with the exploration of complex mobility patterns. Existing works mainly rely on the recurrent neural framework to encode the temporal dependencies in trajectories, have fall short in capturing spatial-temporal global context for TUL prediction. To fill this gap, this work presents a new hierarchical spatio-temporal attention neural network, called AttnTUL, to jointly encode the local trajectory transitional patterns and global spatial dependencies for TUL. Specifically, our first model component is built over the graph neural architecture to preserve the local and global context and enhance the representation paradigm of geographical regions and user trajectories. Additionally, a hierarchically structured attention network is designed to simultaneously encode the intra-trajectory and inter-trajectory dependencies, with the integration of the temporal attention mechanism and global elastic attentional encoder. Extensive experiments demonstrate the superiority of our AttnTUL method as compared to state-of-the-art baselines on various trajectory datasets. The source code of our model is available at \url{https://anonymous.4open.science/r/Attn_TUL}.
翻訳日:2023-02-26 13:41:19 公開日:2023-02-11
# 最適ニューロン活性化関数を持つ単一ニューラルネットワークと非線形パラメータ最適化のない結合表現

Orders-of-coupling representation with a single neural network with optimal neuron activation functions and without nonlinear parameter optimization ( http://arxiv.org/abs/2302.12013v1 )

ライセンス: Link先を確認
Sergei Manzhos and Manabu Ihara(参考訳) 元の座標の部分集合に依存する低次元関数を持つ多変数函数の表現(カップリングの順序の異なる)は量子力学やその他の応用、特に積分が必要な場合は有用である。 このような表現は機械学習の手法で便利に構築することができ、以前はニューラルネットワーク(例えば、Phys. Comm. 180 (2009) 2002)とガウスのプロセス回帰(例えば、Mach. Learn. Sci. Technol. 3 (2022) 01LT02)を用いて、そのような表現の低次元項を構築する方法が提案されていた。 本稿では,一階加法ガウス過程回帰 [arxiv:2301.05567] で計算した最適なニューロン活性化関数を持つニューラルネットワークを用いて,結合順序表現のニューラルネットワークモデルを構築し,非線形パラメータ最適化を回避できることを示す。 例として分子ポテンシャルエネルギー面の表現がある。

Representations of multivariate functions with low-dimensional functions that depend on subsets of original coordinates (corresponding of different orders of coupling) are useful in quantum dynamics and other applications, especially where integration is needed. Such representations can be conveniently built with machine learning methods, and previously, methods building the lower-dimensional terms of such representations with neural networks [e.g. Comput. Phys. Comm. 180 (2009) 2002] and Gaussian process regressions [e.g. Mach. Learn. Sci. Technol. 3 (2022) 01LT02] were proposed. Here, we show that neural network models of orders-of-coupling representations can be easily built by using a recently proposed neural network with optimal neuron activation functions computed with a first-order additive Gaussian process regression [arXiv:2301.05567] and avoiding non-linear parameter optimization. Examples are given of representations of molecular potential energy surfaces.
翻訳日:2023-02-26 13:13:20 公開日:2023-02-11
# 製税ソフトの変成試験とデバッグ

Metamorphic Testing and Debugging of Tax Preparation Software ( http://arxiv.org/abs/2205.04998v2 )

ライセンス: Link先を確認
Saeid Tizpaz-Niari, Verya Monjezi, Morgan Wagner, Shiva Darian, Krystia Reed, Ashutosh Trivedi(参考訳) 本稿では,米国税制ソフトウェアシステムの信頼性向上のためのデータ駆動型枠組みを提案する。 このようなソフトウェアがユーザに与える影響を考えると、納税準備ソフトウェアのコンプライアンスと信頼性を確保することが最重要事項である。 税制準備システムのためのデバッグ支援を開発する上で重要な障壁は、明示的な仕様の不有効性と、オラクルを得るのが困難である。 我々は,米国税法が先例の法的ドクトリンに準拠していることから,個人納税者に対する税準備ソフトウェアの結果に関する仕様を,類似すると考えられる個人と比較して見なければならないと仮定する。 したがって、これらの仕様は、同様の入力を必要とするソフトウェアのプロパティとして自然に利用可能である。 メタモルフィックテストパラダイムにインスパイアされたこれらの関係は、メタモルフィック関係を二重化する。 法学・税務の専門家らと共同で,米国内国歳入庁(IRS)の出版物であるパブリケーション596(Earned Income Tax Credit),スケジュール8812(Qualifying Children/ other Dependents),フォーム8863(Education Credits),フォーム8863(Education Credits)の一連の挑戦的財産について,メタモルフィック関係を解明した。 本研究は,オープンソース税関作成ソフトウェアに焦点をあて,メタモルフィック関係に導かれる税関作成ソフトの正しさを体系的に検証するランダム化テストケース生成戦略を開発する。 我々は、このテストケース生成をさらに支援し、容易に解釈できる決定木モデルを用いて、不審なインスタンスにおけるソフトウェアの振る舞いを視覚的に説明する。 当社のツールでは,コーナーケースにおける不正行為(税率リターンがゼロに近い場合の信頼性の低い動作)から,ソフトウェア更新版における可視性条件の欠如など,さまざまな重大なバグが発見された。

This paper presents a data-driven framework to improve the trustworthiness of US tax preparation software systems. Given the legal implications of bugs in such software on its users, ensuring compliance and trustworthiness of tax preparation software is of paramount importance. The key barriers in developing debugging aids for tax preparation systems are the unavailability of explicit specifications and the difficulty of obtaining oracles. We posit that, since the US tax law adheres to the legal doctrine of precedent, the specifications about the outcome of tax preparation software for an individual taxpayer must be viewed in comparison with individuals that are deemed similar. Consequently, these specifications are naturally available as properties on the software requiring similar inputs provide similar outputs. Inspired by the metamorphic testing paradigm, we dub these relations metamorphic relations. In collaboration with legal and tax experts, we explicated metamorphic relations for a set of challenging properties from various US Internal Revenue Services (IRS) publications including Publication 596 (Earned Income Tax Credit), Schedule 8812 (Qualifying Children/Other Dependents), and Form 8863 (Education Credits). We focus on an open-source tax preparation software for our case study and develop a randomized test-case generation strategy to systematically validate the correctness of tax preparation software guided by metamorphic relations. We further aid this test-case generation by visually explaining the behavior of software on suspicious instances using easy to-interpret decision-tree models. Our tool uncovered several accountability bugs with varying severity ranging from non-robust behavior in corner-cases (unreliable behavior when tax returns are close to zero) to missing eligibility conditions in the updated versions of software.
翻訳日:2023-02-19 16:48:55 公開日:2023-02-11
# BIOVIT Simulator を用いた高運動性症候群患者の注意改善

Improvement of attention in subjects diagnosed with hyperkinetic syndrome using BIOVIT Simulator ( http://arxiv.org/abs/2302.05562v1 )

ライセンス: Link先を確認
Dr. Cesar R Salas-Guerra(参考訳) 本研究の目的は,バイオテクノロジー仮想没入シミュレータ(biovit)を用いた動的知覚刺激に基づく一連の課題と規則を通じて脳の執行機能を刺激することであり,高運動性症候群と診断された患者の注意レベルを維持・高めるための有用性を評価することである。 経年的傾向をモデルとした定量的手法を用いて,バイオビットシミュレータを用いて露光とカムの関係について検討した。 脳の電気活動と注意レベルをグラフィカルに記録し,脳活動の探索分析を行った。 データはn = 18の77,566個の観察結果から成っている。 その結果,biovitシミュレータは77.8%向上し,注目度は77.8%向上した。 さらに,8歳から12歳までの被験者の注意レベルにVR没入技術が大きな影響を及ぼすという仮説が実証された。 この証拠は、バイオビットシミュレータが脆弱な集団で学習手法を開発するための代替手段であることを示している。 実施コストの低さと学術的応用の多様性により、途上国の学校は注意欠陥や多動性障害を持つ数千人の児童を苦しめるこの問題を解決できる可能性がある。

This study aimed to stimulate the brain's executive function through a series of tasks and rules based on dynamic perceptual stimuli using the Biotechnology Virtual Immersion Simulator (BIOVIT) and thus evaluate its usefulness to maintain and increase attention levels in subjects diagnosed with hyperkinetic syndrome. With a quantitative methodology framed in a longitudinal trend design, the cause of the exposure-outcome relationships was studied using the BIOVIT simulator. Exploratory analysis of oscillatory brain activity was measured using a graphical recording of brain electrical activity and attention levels. Data consisted of 77,566 observations from n = 18 separately studied participants. The findings established that the BIOVIT simulator maintained and increased the attention levels of the participants by 77.8%. Furthermore, the hypothesis was tested that virtual reality immersion technologies significantly affect attention levels in participants aged 8 to 12. The evidence shows that the BIOVIT simulator is an alternative to developing learning methodologies in vulnerable populations. The low implementation costs and the diversity of academic applications may allow schools in developing countries to solve this problem that afflicts thousands of children with attention deficit and hyperactivity disorder.
翻訳日:2023-02-19 14:07:08 公開日:2023-02-11
# 逐次戦略的スクリーニング

Sequential Strategic Screening ( http://arxiv.org/abs/2301.13397v2 )

ライセンス: Link先を確認
Lee Cohen, Saeed Sharifi-Malvajerdi, Kevin Stangl, Ali Vakilian, Juba Ziani(参考訳) 複数の分類器を用いたスクリーニングプロセスにおける戦略行動の研究を開始する。 我々は,各個人がすべての分類器を同時に満たさなければならない接続的設定と,成功する個人が一度に1つの分類器を満足しなければならない順序的設定の2つの対照的な設定に焦点を当てる。 言い換えれば,戦略分類とスクリーニングプロセスの組み合わせについて紹介する。 逐次スクリーニングパイプラインは,各テストの逐次順序付けを,すべてのテストが同時に満たされることなく,分類器間のジグザグに活用できる,新しい,驚くべき動作を示す。 各分類器の正の領域の交点から遠い場合でも、限定的な操作予算を用いて、個人が正の成果を得ることができることを示す。 最後に,このような操作に頑健な逐次的スクリーニングプロセスの設計を目標とする学習者について考察し,自然目標を最適化する学習者の構成について述べる。

We initiate the study of strategic behavior in screening processes with multiple classifiers. We focus on two contrasting settings: a conjunctive setting in which an individual must satisfy all classifiers simultaneously, and a sequential setting in which an individual to succeed must satisfy classifiers one at a time. In other words, we introduce the combination of strategic classification with screening processes. We show that sequential screening pipelines exhibit new and surprising behavior where individuals can exploit the sequential ordering of the tests to zig-zag between classifiers without having to simultaneously satisfy all of them. We demonstrate an individual can obtain a positive outcome using a limited manipulation budget even when far from the intersection of the positive regions of every classifier. Finally, we consider a learner whose goal is to design a sequential screening process that is robust to such manipulations, and provide a construction for the learner that optimizes a natural objective.
翻訳日:2023-02-19 13:58:07 公開日:2023-02-11
# カウンターファクトのフェアネスは基本的にデモグラフィーのパーティ

Counterfactual Fairness Is Basically Demographic Parity ( http://arxiv.org/abs/2208.03843v3 )

ライセンス: Link先を確認
Lucas Rosenblatt and R. Teal Witter(参考訳) 公正な意思決定は、倫理的に機械学習アルゴリズムを社会的に実装する上で重要である。 本論では, 反ファクトフェアネスの著名な定義について考察する [Kusner et al., NeurIPS, 2017]。 まず, 対実的公正性を満たすアルゴリズムが, はるかに単純な公正性制約である人口統計学的公平性を満たすことを示す。 同様に、人口密度を満たす全てのアルゴリズムは、反ファクトフェアネスを満たすために自明に修正可能であることを示す。 その結果, 対人的公平性は, 対人的公平性と基本的に同等であり, 対人的公平性に対する取り組みが増大する上で重要な意味を持つことがわかった。 次に,提案手法を実証的に検証し,既存の3つの正当性評価アルゴリズムを3つの単純なベンチマークに対して解析した。 2つの単純なベンチマークアルゴリズムが,既存の3つのアルゴリズム – 公平性,正確性,効率 – を,複数のデータセットで上回っていることが分かりました。 我々の分析は、保護グループ内の個人の秩序を維持するという、具体的な公正性の目標を定式化することにつながる。 保護されたグループ内の個人の注文に関する透明性は、公正なアルゴリズムをより信頼できるものにします。 設計上は2つの単純なベンチマークアルゴリズムがこの目標を満たすが、既存の正当性に対するアルゴリズムは満たさない。

Making fair decisions is crucial to ethically implementing machine learning algorithms in social settings. In this work, we consider the celebrated definition of counterfactual fairness [Kusner et al., NeurIPS, 2017]. We begin by showing that an algorithm which satisfies counterfactual fairness also satisfies demographic parity, a far simpler fairness constraint. Similarly, we show that all algorithms satisfying demographic parity can be trivially modified to satisfy counterfactual fairness. Together, our results indicate that counterfactual fairness is basically equivalent to demographic parity, which has important implications for the growing body of work on counterfactual fairness. We then validate our theoretical findings empirically, analyzing three existing algorithms for counterfactual fairness against three simple benchmarks. We find that two simple benchmark algorithms outperform all three existing algorithms -- in terms of fairness, accuracy, and efficiency -- on several data sets. Our analysis leads us to formalize a concrete fairness goal: to preserve the order of individuals within protected groups. We believe transparency around the ordering of individuals within protected groups makes fair algorithms more trustworthy. By design, the two simple benchmark algorithms satisfy this goal while the existing algorithms for counterfactual fairness do not.
翻訳日:2023-02-19 10:22:33 公開日:2023-02-11
# 実例を用いたプログレッシブ近傍近似によるテキスト分類法の説明

Explaining text classifiers through progressive neighborhood approximation with realistic samples ( http://arxiv.org/abs/2302.07733v1 )

ライセンス: Link先を確認
Yi Cai, Arthur Zimek, Eirini Ntoutsi, Gerhard Wunder(参考訳) 地域説明手法における地区建設の重要性は既に文献で強調されている。 また、生成モデルを採用することで、テキストなどの高次元データの近所品質を改善する試みもいくつか行われている。 ジェネレータはより現実的なサンプルを生成するが、既存の解における直感的なサンプリングアプローチは潜在空間を過小評価する。 この問題を解決するために,本研究では,テキスト分類器の局所的モデルに依存しない説明に焦点を当てた2段階補間をランドマークとして用い,記述された決定の近傍を洗練する漸進的近似手法を提案する。 生成モデルで満たすべき2つの特性, 再構成能力, 局所性保存特性を明示的に定義し, 局所的説明法におけるジェネレータの選択を導出する。 さらに, 生成モデルの不透明性に着目し, 生成元に基づく解の代替として, 確率ベース版を用いた進行的近傍近似を実装した別の手法を提案する。 両手法による説明結果は,現実的な地区から恩恵を受ける単語レベルと事例レベルの説明からなる。 実験を通じて,提案手法の有効性を質的に定量的に検証した。

The importance of neighborhood construction in local explanation methods has been already highlighted in the literature. And several attempts have been made to improve neighborhood quality for high-dimensional data, for example, texts, by adopting generative models. Although the generators produce more realistic samples, the intuitive sampling approaches in the existing solutions leave the latent space underexplored. To overcome this problem, our work, focusing on local model-agnostic explanations for text classifiers, proposes a progressive approximation approach that refines the neighborhood of a to-be-explained decision with a careful two-stage interpolation using counterfactuals as landmarks. We explicitly specify the two properties that should be satisfied by generative models, the reconstruction ability and the locality-preserving property, to guide the selection of generators for local explanation methods. Moreover, noticing the opacity of generative models during the study, we propose another method that implements progressive neighborhood approximation with probability-based editions as an alternative to the generator-based solution. The explanation results from both methods consist of word-level and instance-level explanations benefiting from the realistic neighborhood. Through exhaustive experiments, we qualitatively and quantitatively demonstrate the effectiveness of the two proposed methods.
翻訳日:2023-02-16 14:40:59 公開日:2023-02-11
# ChatGPTは人間のアノテーションより優れているか? 突発的ヘイトスピーチにおけるChatGPTの可能性と限界

Is ChatGPT better than Human Annotators? Potential and Limitations of ChatGPT in Explaining Implicit Hate Speech ( http://arxiv.org/abs/2302.07736v1 )

ライセンス: Link先を確認
Fan Huang, Haewoon Kwak, Jisun An(参考訳) 最近の研究は、多くのオンラインヘイトスピーチが暗黙的であることを警告している。 その微妙な性質から、そのような憎しみのある言葉の検出の可否は難しい問題であった。 本研究では,ChatGPTが暗黙的な憎しみのある音声検出のための自然言語説明(NLE)に利用できるかどうかを検討する。 そこで我々は,ChatGPT生成NLEを簡潔に活用するプロンプトを設計し,人為的NLEと比較して,その品質評価を行う。 暗黙的ヘイトフル音声研究におけるChatGPTの可能性と限界について論じる。

Recent studies have alarmed that many online hate speeches are implicit. With its subtle nature, the explainability of the detection of such hateful speech has been a challenging problem. In this work, we examine whether ChatGPT can be used for providing natural language explanations (NLEs) for implicit hateful speech detection. We design our prompt to elicit concise ChatGPT-generated NLEs and conduct user studies to evaluate their qualities by comparison with human-generated NLEs. We discuss the potential and limitations of ChatGPT in the context of implicit hateful speech research.
翻訳日:2023-02-16 14:28:50 公開日:2023-02-11
# ダイアグラムからのヴェルナー状態

Werner states from diagrams ( http://arxiv.org/abs/2302.05572v1 )

ライセンス: Link先を確認
David W. Lyons, Cristina Mullican, Adam Rilatt, Jack D. Putnam(参考訳) 我々は、すべての量子ビット上で同時に作用する任意の単一量子ユニタリの作用の下で不変であるような状態として定義されるマルチキュービットワーナー状態に関する2つの結果を示す。 ヴェルナー状態の絡み合いの性質を特徴づけたいという欲求により、純粋状態のヒルベルト空間上のヴェルナー不変エルミート作用素の実線型ベクトル空間の基底を構築する。 初期の研究で構築された「多角形図」状態の研究を継続し、図を絡み合い特性に結びつけることを目的として、一重項を一般化する多角形状態の族を考察し、それらの2量子ビット還元密度行列が分離可能であることを示す。

We present two results on multiqubit Werner states, defined to be those states that are invariant under the action of any given single-qubit unitary that acts simultaneously on all the qubits. Motivated by the desire to characterize entanglement properties of Werner states, we construct a basis for the real linear vector space of Werner invariant Hermitian operators on the Hilbert space of pure states; it follows that any mixed Werner state can be written as a mixture of these basis operators with unique coefficients. Continuing a study of "polygon diagram" Werner states constructed in earlier work, with a goal to connect diagrams to entanglement properties, we consider a family of multiqubit states that generalize the singlet, and show that their 2-qubit reduced density matrices are separable.
翻訳日:2023-02-14 19:58:51 公開日:2023-02-11
# MSDC:デュアルCNNモデルに基づく非侵入負荷モニタリングにおけるマルチステート電力消費の爆発

MSDC: Exploiting Multi-State Power Consumption in Non-intrusive Load Monitoring based on A Dual-CNN Model ( http://arxiv.org/abs/2302.05565v1 )

ライセンス: Link先を確認
Jialing He, Jiamou Liu, Zijian Zhang, Yang Chen, Yiwei Liu, Bakh Khoussainov, and Liehuang Zhu(参考訳) 非侵入負荷監視(NILM)は、集積電気利用信号を家電固有の電力消費に分解することを目的としており、ブラインドソース分離タスクの古典的な例である。 近年のディープラーニング技術の進歩を生かして,新しいニューラルNILMモデルであるMulti-State Dual CNN(MSDC)を設計する。 以前のモデルとは異なり、MSDCはアプライアンスの複数の状態と状態遷移に関する情報を明示的に抽出し、アプライアンスの信号の予測を制御する。 より具体的には、状態分布を出力するCNNと、各状態のパワーを予測するCNNという、二重CNNアーキテクチャを採用しています。 条件付きランダムフィールド(CRF)を用いて状態遷移をキャプチャする新しい手法が発明された。 REDDとUK-DALEの2つの実世界のデータセットによる実験により、我々のモデルは高度な一般化能力を持ちながら最先端モデルよりも優れており、6%~10%のMAEゲインと33%~51%のSAEゲインを達成した。

Non-intrusive load monitoring (NILM) aims to decompose aggregated electrical usage signal into appliance-specific power consumption and it amounts to a classical example of blind source separation tasks. Leveraging recent progress on deep learning techniques, we design a new neural NILM model Multi-State Dual CNN (MSDC). Different from previous models, MSDC explicitly extracts information about the appliance's multiple states and state transitions, which in turn regulates the prediction of signals for appliances. More specifically, we employ a dual-CNN architecture: one CNN for outputting state distributions and the other for predicting the power of each state. A new technique is invented that utilizes conditional random fields (CRF) to capture state transitions. Experiments on two real-world datasets REDD and UK-DALE demonstrate that our model significantly outperform state-of-the-art models while having good generalization capacity, achieving 6%-10% MAE gain and 33%-51% SAE gain to unseen appliances.
翻訳日:2023-02-14 19:58:35 公開日:2023-02-11
# 階層的最適化に基づく学習

Hierarchical Optimization-Derived Learning ( http://arxiv.org/abs/2302.05587v1 )

ライセンス: Link先を確認
Risheng Liu, Xuan Liu, Shangzhi Zeng, Jin Zhang, and Yixuan Zhang(参考訳) 近年,深層モデルの伝播を定式化するために最適化手法を活用することで,多様な学習課題と視覚課題に対処する,いわゆるODLアプローチが提案されている。 実用性能は比較的満足しているが,既存のODL手法には根本的問題がある。 特に、現在のodl法は、モデル構築と学習を2つの異なるフェーズとして考える傾向があるため、基礎となる結合と依存関係を定式化できない。 本研究では,まず階層型odl(hodl)という新しいフレームワークを構築し,最適化モデル構築の固有挙動とそれに対応する学習プロセスを同時に検討する。 そして、近似品質と定常解析の両方の観点から、これらの2つのサブタスクの合同収束を厳密に証明する。 私たちの知る限りでは、これは2つのodlコンポーネント、すなわち最適化と学習に対する最初の理論的保証です。 我々は,既存の ODL 手法で適切に対処されていない学習課題に HODL を適用することで,フレームワークの柔軟性をさらに実証する。 最後に、様々なアプリケーションシナリオにおけるHODLの理論的特性と実用性を検証するために、視覚やその他の学習タスクにおける合成データと実アプリケーションの両方について広範な実験を行った。

In recent years, by utilizing optimization techniques to formulate the propagation of deep model, a variety of so-called Optimization-Derived Learning (ODL) approaches have been proposed to address diverse learning and vision tasks. Although having achieved relatively satisfying practical performance, there still exist fundamental issues in existing ODL methods. In particular, current ODL methods tend to consider model construction and learning as two separate phases, and thus fail to formulate their underlying coupling and depending relationship. In this work, we first establish a new framework, named Hierarchical ODL (HODL), to simultaneously investigate the intrinsic behaviors of optimization-derived model construction and its corresponding learning process. Then we rigorously prove the joint convergence of these two sub-tasks, from the perspectives of both approximation quality and stationary analysis. To our best knowledge, this is the first theoretical guarantee for these two coupled ODL components: optimization and learning. We further demonstrate the flexibility of our framework by applying HODL to challenging learning tasks, which have not been properly addressed by existing ODL methods. Finally, we conduct extensive experiments on both synthetic data and real applications in vision and other learning tasks to verify the theoretical properties and practical performance of HODL in various application scenarios.
翻訳日:2023-02-14 19:48:09 公開日:2023-02-11
# クープマン作用素から見た量子非線形発振器の漸近位相の定義

A definition of the asymptotic phase for quantum nonlinear oscillators from the Koopman operator viewpoint ( http://arxiv.org/abs/2302.05584v1 )

ライセンス: Link先を確認
Yuzuru Kato, Hiroya Nakao(参考訳) クープマン作用素理論の観点から量子非線形発振器の漸近位相の定義を提案する。 漸近相は古典的極限サイクル振動子の解析の基本的な量であるが、量子非線形振動子では明確に定義されていない。 本研究では,基本発振周波数に付随するリウヴィル作用素の固有演算子を用いて,量子発振系の漸近位相を定義する。 カー効果を用いた量子ファンデルポル発振器を例として、提案した漸近位相が半古典的および強い量子状態において等時相値を適切に得ることを示す。

We propose a definition of the asymptotic phase for quantum nonlinear oscillators from the viewpoint of the Koopman operator theory. The asymptotic phase is a fundamental quantity for the analysis of classical limit-cycle oscillators, but it has not been defined explicitly for quantum nonlinear oscillators. In this study, we define the asymptotic phase for quantum oscillatory systems by using the eigenoperator of the backward Liouville operator associated with the fundamental oscillation frequency. By using the quantum van der Pol oscillator with Kerr effect as an example, we illustrate that the proposed asymptotic phase appropriately yields isochronous phase values in both semiclassical and strong quantum regimes.
翻訳日:2023-02-14 19:47:48 公開日:2023-02-11
# メタ強化学習タスクの大規模パラメトリック化空間

A large parametrized space of meta-reinforcement learning tasks ( http://arxiv.org/abs/2302.05583v1 )

ライセンス: Link先を確認
Thomas Miconi(参考訳) 任意の刺激を伴うメタ強化学習(meta-RL)タスクのパラメータ化空間について述べる。 パラメータ化により、任意の数の新しいメタ学習タスクをランダムに生成できる。 このパラメトリゼーションによってカバーされるメタRLタスクの空間は、バンディットタスク、ハーロータスク、T迷路、ドー2ステップタスクなど、よく知られたメタRLタスクを含む。 単純な拡張により、検索スポットやキードアタスクのような2次元トポロジ空間に基づくタスクをキャプチャできる。 ランダムに生成されたメタRLタスクについて記述し、乱発生による潜在的な問題について議論する。

We describe a parametrized space for simple meta-reinforcement-learning (meta-RL) tasks with arbitrary stimuli. The parametrization allows us to randomly generate an arbitrary number of novel simple meta-learning tasks. The space of meta-RL tasks covered by this parametrization includes many well-known meta-RL tasks, such as bandit tasks, the Harlow task, T-mazes, the Daw two-step task and others. Simple extensions allow it to capture tasks based on two-dimensional topological spaces, such as find-the-spot or key-door tasks. We describe a number of randomly generated meta-RL tasks and discuss potential issues arising from random generation.
翻訳日:2023-02-14 19:47:36 公開日:2023-02-11
# ASDF:自動音声認識システムのための差分テストフレームワーク

ASDF: A Differential Testing Framework for Automatic Speech Recognition Systems ( http://arxiv.org/abs/2302.05582v1 )

ライセンス: Link先を確認
Daniel Hao Xian Yuen, Andrew Yong Chen Pang, Zhou Yang, Chun Yong Chong, Mei Kuan Lim, David Lo(参考訳) 近年,様々な領域で自動音声認識(ASR)技術が広く採用されている。 したがって、asrシステムの品質の評価と向上は非常に重要である。 本稿では,ASRシステムをテストするための自動音声認識微分テストフレームワークASDFを提案する。 ASDFは既存のASRテストツールであるCrossASR++を拡張し、テキストコーパスからテストケースを合成する。 しかし、CrossASR++はテキストコーパスを効率的に利用できず、失敗したテストケースがASRシステムを改善する方法について限られた情報を提供している。 これらの制限に対処するため,本ツールは,(1)生成したテストケース数を増加させ,asrシステム内のエラーをより発見するためのテキスト変換モジュール,(2)asrシステムがエラーを発生させる音素を識別する音素解析モジュールという,2つの新機能を組み込んだ。 ASDFは、失敗したテストケースのテキストに様々なテキスト変換(例えば、変更時制)を適用することで、より高品質なテストケースを生成する。 これにより、ASDFは小さなテキストコーパスを使用して、CrossASR++ではできないような、多数のオーディオテストケースを生成することができる。 さらに、ASDFは複数の視点からASRシステムの性能を評価するためにより多くのメトリクスを実装している。 ASDFは、ASRシステムが誤って書き起こされがちな音素を特定するために、特定されたテストケースの音声解析を行い、開発者がASRシステムを改善するのに有用な情報を提供する。 このツールのデモビデオは、https://www.youtube.com/watch? v=DzVwfc3h9A。 実装はhttps://github.com/danielyuenhx/asdf-differential-testingで利用可能である。

Recent years have witnessed wider adoption of Automated Speech Recognition (ASR) techniques in various domains. Consequently, evaluating and enhancing the quality of ASR systems is of great importance. This paper proposes ASDF, an Automated Speech Recognition Differential Testing Framework for testing ASR systems. ASDF extends an existing ASR testing tool, the CrossASR++, which synthesizes test cases from a text corpus. However, CrossASR++ fails to make use of the text corpus efficiently and provides limited information on how the failed test cases can improve ASR systems. To address these limitations, our tool incorporates two novel features: (1) a text transformation module to boost the number of generated test cases and uncover more errors in ASR systems and (2) a phonetic analysis module to identify on which phonemes the ASR system tend to produce errors. ASDF generates more high-quality test cases by applying various text transformation methods (e.g., change tense) to the texts in failed test cases. By doing so, ASDF can utilize a small text corpus to generate a large number of audio test cases, something which CrossASR++ is not capable of. In addition, ASDF implements more metrics to evaluate the performance of ASR systems from multiple perspectives. ASDF performs phonetic analysis on the identified failed test cases to identify the phonemes that ASR systems tend to transcribe incorrectly, providing useful information for developers to improve ASR systems. The demonstration video of our tool is made online at https://www.youtube.com/watch?v=DzVwfc3h9As. The implementation is available at https://github.com/danielyuenhx/asdf-differential-testing.
翻訳日:2023-02-14 19:47:25 公開日:2023-02-11
# 異なる形式のキュービット間の変換

Converting between qubits of different forms ( http://arxiv.org/abs/2302.05581v1 )

ライセンス: Link先を確認
Hyunseok Jeong(参考訳) 異なる形式の量子ビット間の量子ビット符号化変換器を実験的に実証し、光量子コンピューティングと通信のための効率的なネットワークへの道を開く。

A quantum bit encoding converter between qubits of different forms is experimentally demonstrated, paving the way to efficient networks for optical quantum computing and communication.
翻訳日:2023-02-14 19:46:59 公開日:2023-02-11
# 動的デカップリング配列による欠陥核スピン系の真の全方向絡み合いの生成

Generation of genuine all-way entanglement in defect-nuclear spin systems through dynamical decoupling sequences ( http://arxiv.org/abs/2302.05580v1 )

ライセンス: Link先を確認
Evangelia Takou, Edwin Barnes, Sophia E. Economou(参考訳) マルチパーティの絡み合った状態は、検知、量子エラー補正、暗号に不可欠な資源である。 固体中の色中心は、動的デカップリング配列を通じて光学活性電子スピンと絡み合うことができる核スピンメモリが利用可能なため、量子ネットワークの先駆的なプラットフォームの一つである。 これらの系で電子核の絡み合った状態を作り出すことは、常にオンの超微細な相互作用が望ましくないスピン浴からターゲットのダイナミクスを完全に分離することを禁止しているため、難しい課題である。 この突発的なクロストークは絡み合いの発生を延長することで緩和できるが、ゲート持続時間はコヒーレンス時間を超える。 ここでは、最低クロストークで最大$m=10$ qubitsの高品質ghz$_m$ライクな状態を作成する方法を示す。 我々は、進化演算子の$m$-way絡み合いパワーを導入し、真の全方向相関を検証できる。 我々は,GHZ$_M$-like状態がM$-way相関で飽和するコヒーレンス時間内に,シーケンシャルあるいはシングルショットエンタングリング操作を用いて生成する方法を示す。 最後に、電子と核の混合状態の絡み合いを研究し、全てのスペクトレーター核スピンから生じる相関を捉える非一元的なm$-way 絡み合い力を開発した。

Multipartite entangled states are an essential resource for sensing, quantum error correction, and cryptography. Color centers in solids are one of the leading platforms for quantum networking due to the availability of a nuclear spin memory that can be entangled with the optically active electronic spin through dynamical decoupling sequences. Creating electron-nuclear entangled states in these systems is a difficult task as the always-on hyperfine interactions prohibit complete isolation of the target dynamics from the unwanted spin bath. While this emergent cross-talk can be alleviated by prolonging the entanglement generation, the gate durations quickly exceed coherence times. Here we show how to prepare high-quality GHZ$_M$-like states of up to $M=10$ qubits, with minimal cross-talk. We introduce the $M$-way entangling power of an evolution operator, which allows us to verify genuine all-way correlations. We show how to use sequential or single-shot entangling operations to prepare GHZ$_M$-like states within the coherence times that saturate bounds on $M$-way correlations. Finally, we study the entanglement of mixed electron-nuclear states and develop a non-unitary $M$-way entangling power which additionally captures correlations arising from all spectator nuclear spins.
翻訳日:2023-02-14 19:46:56 公開日:2023-02-11
# 検索拡張大言語モデルにおける属性と周波数トレードオフの特徴付け

Characterizing Attribution and Fluency Tradeoffs for Retrieval-Augmented Large Language Models ( http://arxiv.org/abs/2302.05578v1 )

ライセンス: Link先を確認
Renat Aksitov, Chung-Ching Chang, David Reitter, Siamak Shakeri, Yunhsuan Sung(参考訳) 近年の進歩にもかかわらず、生成型大規模言語モデルにおける意味幻覚の予防は困難である。 これに対する一般的な解決策の1つは、LLMを検索システムで拡張し、生成した出力が検索された情報に起因することを確かめることである。 この新たな制約が加わったことを考えると、アウトプットの全体的な品質が、例えばフルーエンシ(fluency)に関して影響を受けると期待できる。 言語モデルのスケーリングは有効か? 本稿では,LLMにおけるフラレンシと帰属の関係について検討し,知識重大なダイアログ設定における証拠を抽出した。 提案実験は,人間の嗜好に合わせた一連の自動測定値を用いて実施した。 これらは、様々なパラメータのllmと供給されたコンテキストの下で生成される、大きな世代の集合を評価するために使用された。 より大規模なモデルでは,流布度と帰属度の両方が向上する傾向にあり,(特に)トップk検索とトップ1検索では帰属率が向上するが,流布度は低下することを示した。 次に,大型モデルとのギャップを縮小し,その欠点を回避しつつ,トップk検索のメリットを保ちながら,より小型モデルを可能にする手法を提案する。

Despite recent progress, it has been difficult to prevent semantic hallucinations in generative Large Language Models. One common solution to this is augmenting LLMs with a retrieval system and making sure that the generated output is attributable to the retrieved information. Given this new added constraint, it is plausible to expect that the overall quality of the output will be affected, for example, in terms of fluency. Can scaling language models help? Here we examine the relationship between fluency and attribution in LLMs prompted with retrieved evidence in knowledge-heavy dialog settings. Our experiments were implemented with a set of auto-metrics that are aligned with human preferences. They were used to evaluate a large set of generations, produced under varying parameters of LLMs and supplied context. We show that larger models tend to do much better in both fluency and attribution, and that (naively) using top-k retrieval versus top-1 retrieval improves attribution but hurts fluency. We next propose a recipe that could allow smaller models to both close the gap with larger models and preserve the benefits of top-k retrieval while avoiding its drawbacks.
翻訳日:2023-02-14 19:46:31 公開日:2023-02-11
# 顔画像の検索を減らす:新しい挑戦

Sketch Less Face Image Retrieval: A New Challenge ( http://arxiv.org/abs/2302.05576v1 )

ライセンス: Link先を確認
Dawei Dai, Yutang Li, Liang Wang, Shiyu Fu, Shuyin Xia, Guoyin Wang(参考訳) 特定のシナリオでは、人物を特定するために顔のスケッチが使われた。 しかし、完全な顔のスケッチを描くには、しばしばスキルと時間を要するため、その実践に広く適用できなくなる。 本研究では,各ストロークで検索を行い,可能な限り少ないストロークで部分的スケッチを用いて対象の顔写真を取得することを目的とした,sketch less face image retrieval (slfir) という新しいタスクを提案する(図1参照)。 まず,スケッチのデータを描画プロセスで生成する手法を考案し,そのデータセットをオープンし,第2に,(1)完全スケッチとその対象顔写真間で共有される埋め込み空間を学習するために,トリプレットネットワークを用いたslfirのベースラインとして2段階の手法を提案し,(2)スケッチのエピソードをシーケンスとして,不完全顔スケッチの表現を最適化するlstmモジュールを設計した。 実験によると、新しいフレームワークは部分的またはプール描画のスケッチを使って検索を完了できる。

In some specific scenarios, face sketch was used to identify a person. However, drawing a complete face sketch often needs skills and takes time, which hinder its widespread applicability in the practice. In this study, we proposed a new task named sketch less face image retrieval (SLFIR), in which the retrieval was carried out at each stroke and aim to retrieve the target face photo using a partial sketch with as few strokes as possible (see Fig.1). Firstly, we developed a method to generate the data of sketch with drawing process, and opened such dataset; Secondly, we proposed a two-stage method as the baseline for SLFIR that (1) A triplet network, was first adopt to learn the joint embedding space shared between the complete sketch and its target face photo; (2) Regarding the sketch drawing episode as a sequence, we designed a LSTM module to optimize the representation of the incomplete face sketch. Experiments indicate that the new framework can finish the retrieval using a partial or pool drawing sketch.
翻訳日:2023-02-14 19:46:11 公開日:2023-02-11
# NapSS: ナラティブ・プロンプティングと文一致要約によるパラグラフレベルの医用テキストの簡易化

NapSS: Paragraph-level Medical Text Simplification via Narrative Prompting and Sentence-matching Summarization ( http://arxiv.org/abs/2302.05574v1 )

ライセンス: Link先を確認
Junru Lu, Jiazheng Li, Byron C. Wallace, Yulan He, Gabriele Pergola(参考訳) 医用ジャーゴンを含む専門医向けの書物であるため、一般の人には医学文献へのアクセスは困難である。 自動テキスト単純化手法はこの問題に対処する潜在的手段を提供する。 そこで本研究では,NapSSと呼ばれる2段階の要約・簡略化戦略を提案する。 本手法では,まず原文と簡易要約文の文マッチングにより参照要約を生成する。 これらの要約は抽出要約者(extractive summaryr)を訓練するために使われ、最も関連するコンテンツを学習して単純化される。 そして,簡略化されたテキストの物語的一貫性を確保するために,原文の構文解析から得られたキーフレーズを組み合わせた補助的な物語的プロンプトを合成する。 本モデルは,英語医療コーパスのSeq2seqベースラインよりも有意に向上し,語彙的類似性において3%~4%の絶対的改善が得られ,ベースラインと組み合わせた場合のSARIスコアがさらに1.1%向上した。 また,既存の評価手法の欠点を強調し,語彙的・高レベルのセマンティックな類似性を考慮に入れた新しい指標を導入する。 実験セットのランダムサンプル上で行った人間評価は,提案手法の有効性をさらに確立する。 コードとモデルはここでリリースされている。

Accessing medical literature is difficult for laypeople as the content is written for specialists and contains medical jargon. Automated text simplification methods offer a potential means to address this issue. In this work, we propose a summarize-then-simplify two-stage strategy, which we call NapSS, identifying the relevant content to simplify while ensuring that the original narrative flow is preserved. In this approach, we first generate reference summaries via sentence matching between the original and the simplified abstracts. These summaries are then used to train an extractive summarizer, learning the most relevant content to be simplified. Then, to ensure the narrative consistency of the simplified text, we synthesize auxiliary narrative prompts combining key phrases derived from the syntactical analyses of the original text. Our model achieves results significantly better than the seq2seq baseline on an English medical corpus, yielding 3%~4% absolute improvements in terms of lexical similarity, and providing a further 1.1% improvement of SARI score when combined with the baseline. We also highlight shortcomings of existing evaluation methods, and introduce new metrics that take into account both lexical and high-level semantic similarity. A human evaluation conducted on a random sample of the test set further establishes the effectiveness of the proposed approach. Codes and models are released here: https://github.com/LuJunru/NapSS.
翻訳日:2023-02-14 19:45:50 公開日:2023-02-11
# 拡散による単一rgb画像からの3次元カラー形状再構成

3D Colored Shape Reconstruction from a Single RGB Image through Diffusion ( http://arxiv.org/abs/2302.05573v1 )

ライセンス: Link先を確認
Bo Li, Xiaolin Wei, Fengwei Chen, Bin Liu(参考訳) 拡散モデルを用いた1枚のRGB画像から新しい3次元色再現法を提案する。 拡散モデルは高品質な3d形状生成のための大きな発展可能性を示している。 しかし、拡散モデルに基づく既存の作品の多くは幾何学的形状生成のみに焦点を当てており、単一の画像から3次元再構成を達成できない。 本研究では,新しい条件拡散モデルを用いて,単一のrgb画像から3次元カラー形状を再構成する手法を提案する。 拡散モデルの逆過程は,3つのモジュール,形状予測モジュール,色予測モジュール,NeRFライクなレンダリングモジュールから構成される。 形状予測モジュールでは、参照RGB画像をまず高レベルな形状特徴に符号化し、その後、拡散モデルにおける逆幾何ノイズを予測する条件として形状特徴を利用する。 そして、形状予測モジュールで更新された各3D点の色を色予測モジュールで予測する。 最後に、nerfライクなレンダリングモジュールは、前2つのモジュールが予測した有色点雲を2d画像空間にレンダリングするように設計され、参照画像のみにトレーニング条件を導く。 著者らが知る限り,提案手法は,単一のrgb画像からの3次元カラー形状再構成のための最初の拡散モデルである。 実験により, 色付き3次元形状復元における競合性能が向上し, 色予測モジュールが3次元幾何点雲の再現性向上に有効であることを示す。

We propose a novel 3d colored shape reconstruction method from a single RGB image through diffusion model. Diffusion models have shown great development potentials for high-quality 3D shape generation. However, most existing work based on diffusion models only focus on geometric shape generation, they cannot either accomplish 3D reconstruction from a single image, or produce 3D geometric shape with color information. In this work, we propose to reconstruct a 3D colored shape from a single RGB image through a novel conditional diffusion model. The reverse process of the proposed diffusion model is consisted of three modules, shape prediction module, color prediction module and NeRF-like rendering module. In shape prediction module, the reference RGB image is first encoded into a high-level shape feature and then the shape feature is utilized as a condition to predict the reverse geometric noise in diffusion model. Then the color of each 3D point updated in shape prediction module is predicted by color prediction module. Finally, a NeRF-like rendering module is designed to render the colored point cloud predicted by the former two modules to 2D image space to guide the training conditioned only on a reference image. As far as the authors know, the proposed method is the first diffusion model for 3D colored shape reconstruction from a single RGB image. Experimental results demonstrate that the proposed method achieves competitive performance on colored 3D shape reconstruction, and the ablation study validates the positive role of the color prediction module in improving the reconstruction quality of 3D geometric point cloud.
翻訳日:2023-02-14 19:45:27 公開日:2023-02-11
# ソーシャルメディア投稿からの感情検出

Emotion Detection From Social Media Posts ( http://arxiv.org/abs/2302.05610v1 )

ライセンス: Link先を確認
Md Mahbubur Rahman, Shaila Shova(参考訳) ここ数年、ソーシャルメディアは個人的見解、感情、さらにはビジネスや政治的提案、レコメンデーション、広告などを表現するメディアへと発展してきた。 本稿では、twitterなどのソーシャルメディア投稿から得られたテキストデータから感情を識別する話題について述べる。 Support Vector Machines (SVM)、Naive Bayes、Decision Trees、Random Forestといった従来の機械学習技術に加えて、LSTM、CNN、GRU、BiLSTM、BiGRUといったディープニューラルネットワークモデルを使用して、これらのツイートを4つの感情カテゴリ(Fear、Anger、Joy、Sadness)に分類しました。 さらに,BiLSTMとBiGRUアンサンブルモデルを構築した。 評価結果は、ディープニューラルネットワークモデル(具体的にはBiGRU)が、従来の機械学習モデルと比較して、87.53パーセントの精度で最も有望な結果をもたらすことを示している。 アンサンブルモデルはさらに良くなる(87.66%)が、違いは重要ではない。 この結果は、感情的な変動を視覚化する意思決定ツールの開発に役立つだろう。

Over the last few years, social media has evolved into a medium for expressing personal views, emotions, and even business and political proposals, recommendations, and advertisements. We address the topic of identifying emotions from text data obtained from social media posts like Twitter in this research. We have deployed different traditional machine learning techniques such as Support Vector Machines (SVM), Naive Bayes, Decision Trees, and Random Forest, as well as deep neural network models such as LSTM, CNN, GRU, BiLSTM, BiGRU to classify these tweets into four emotion categories (Fear, Anger, Joy, and Sadness). Furthermore, we have constructed a BiLSTM and BiGRU ensemble model. The evaluation result shows that the deep neural network models(BiGRU, to be specific) produce the most promising results compared to traditional machine learning models, with an 87.53 % accuracy rate. The ensemble model performs even better (87.66 %), albeit the difference is not significant. This result will aid in the development of a decision-making tool that visualizes emotional fluctuations.
翻訳日:2023-02-14 19:39:19 公開日:2023-02-11
# 原子キャビティ系におけるコヒーレント完全吸収に基づくマルチチャネル全光スイッチング

Multi-channel all-optical switching based on coherent perfect absorption in atom-cavity system ( http://arxiv.org/abs/2302.05609v1 )

ライセンス: Link先を確認
Liyong Wang and Yifu Zhu(参考訳) 空洞量子力学(CQED)系における線形および非線形状態におけるブロードバンドコヒーレント完全吸収(CPA)に基づく高効率・ブロードバンド・マルチチャネル全光スイッチング方式を提案する。 光キャビティの両端から結合された2つの信号場は、集合的な強い結合条件下で2つの別々の原子遷移を同時に励起し、3つの偏光子固有状態を生成する。 CPA基準を満たすと、複数のチャネルの出力フィールド強度がゼロとなる。 しかし、破壊的な量子干渉は多極子励起に調整された自由空間弱制御レーザーによって引き起こされる。 その結果、制御磁場が偏光子共鳴をオン/オフすると、CQEDシステムは完全光吸収器/反射器として機能する。 特に, 非線形励振方式において広帯域全光スイッチを実現するために提案手法を用いることができる。 提案手法は、全光ルーティング、全光通信ネットワーク、および様々な量子論理要素を構築するのに有用である。

We propose a high-efficiency, broadband, multi-channel all-optical switching scheme based on broadband coherent perfect absorption (CPA) in linear and nonlinear regimes in cavity quantum electrodynamics (CQED) system. Two signal fields coupled from two ends of an optical cavity excite two separate atomic transitions simultaneously under the collective strong coupling condition and produce three polariton eigenstates which can be tuned freely by varying system parameters. The output field intensities of multiple channels are zero when the CPA criterion is satisfied. However, destructive quantum interference can be induced by a free-space weak control laser tuned to the multi-polariton excitations. As a consequence, the CQED system acts as a perfect light absorber/reflector as the control field is turned on/off the polariton resonances. In particular, the proposed scheme may be used to realize broadband multi-throw all-optical switching in the nonlinear excitation regime. The proposed scheme is useful for constructing all-optical routing, all-optical communication networks and various quantum logic elements.
翻訳日:2023-02-14 19:38:53 公開日:2023-02-11
# ロバスト・ディープ・マルチモーダル解析を可能にする微分外乱検出

Differentiable Outlier Detection Enable Robust Deep Multimodal Analysis ( http://arxiv.org/abs/2302.05608v1 )

ライセンス: Link先を確認
Zhu Wang, Sourav Medya, Sathya N. Ravi(参考訳) 深層ネットワークモデルは、トレーニング中や見えないデータに対する推論をしながら、純粋にインダクティブであることが多い。 したがって、そのようなモデルが予測に使用される場合、集団レベルでオブジェクト(あるいは概念)の間に存在する意味的情報や暗黙の依存関係を捉えられないことがよく知られている。 さらに、ドメインや事前のモーダル知識がバックプロパゲーションフレンドリーな方法でどのように特定できるか、特に大規模でノイズの多い環境では明らかになっていない。 本研究では,明示的な知識グラフを取り入れたエンドツーエンドのビジョンと言語モデルを提案する。 また,暗黙的ネットワーク演算子を用いた対話型アウト・オブ・ディストリビューション(OOD)層も導入する。 レイヤは外部の知識ベースによってもたらされるノイズをフィルタリングするために使用される。 実際には、視覚的質問応答、視覚的推論、異なるデータセットでの画像テキスト検索など、複数の視覚および言語下流タスクにモデルを適用する。 実験の結果, 実験結果と同等に動作するが, サンプルや訓練時間を著しく減らしたモデルの設計が可能であることが示唆された。

Often, deep network models are purely inductive during training and while performing inference on unseen data. Thus, when such models are used for predictions, it is well known that they often fail to capture the semantic information and implicit dependencies that exist among objects (or concepts) on a population level. Moreover, it is still unclear how domain or prior modal knowledge can be specified in a backpropagation friendly manner, especially in large-scale and noisy settings. In this work, we propose an end-to-end vision and language model incorporating explicit knowledge graphs. We also introduce an interactive out-of-distribution (OOD) layer using implicit network operator. The layer is used to filter noise that is brought by external knowledge base. In practice, we apply our model on several vision and language downstream tasks including visual question answering, visual reasoning, and image-text retrieval on different datasets. Our experiments show that it is possible to design models that perform similarly to state-of-art results but with significantly fewer samples and training time.
翻訳日:2023-02-14 19:38:36 公開日:2023-02-11
# 深層学習手法を用いたプログラミングコンテストにおける参加者のパフォーマンス予測

Predicting Participants' Performance in Programming Contests using Deep Learning Techniques ( http://arxiv.org/abs/2302.05602v1 )

ライセンス: Link先を確認
Md Mahbubur Rahman, Badhan Chandra Das, Al Amin Biswas, Md. Musfique Anwar(参考訳) 近年は、技術製品の普及とインターネットへのアクセスの容易化により、テクノロジー愛好家が日々増えている。 同様に、この急速な開発に携わる人々の数は大幅に増加している。 コンピュータプログラマーは、テクノロジーに精通した人々の大部分から成り立っている。 codeforcesはオンラインプログラミングとコンテストのホスティングプラットフォームで、世界中の多くのプログラマが使っている。 プログラミング問題を実践し、プログラミングコンテストに参加するための最も標準化されたプラットフォームの一つと見なされている。 本研究では,今後の競技における特定の競技者のパフォーマンスを予測し,その競技後の評価を,競技者の実践と過去の競技者のパフォーマンスに基づいて予測する枠組みを提案する。

In recent days, the number of technology enthusiasts is increasing day by day with the prevalence of technological products and easy access to the internet. Similarly, the amount of people working behind this rapid development is rising tremendously. Computer programmers consist of a large portion of those tech-savvy people. Codeforces, an online programming and contest hosting platform used by many competitive programmers worldwide. It is regarded as one of the most standardized platforms for practicing programming problems and participate in programming contests. In this research, we propose a framework that predicts the performance of any particular contestant in the upcoming competitions as well as predicts the rating after that contest based on their practice and the performance of their previous contests.
翻訳日:2023-02-14 19:38:20 公開日:2023-02-11
# スパーシティの観点からの深層ニューラルネットワークのプルーニング

Pruning Deep Neural Networks from a Sparsity Perspective ( http://arxiv.org/abs/2302.05601v1 )

ライセンス: Link先を確認
Enmao Diao, Ganghua Wang, Jiawei Zhan, Yuhong Yang, Jie Ding, Vahid Tarokh(参考訳) 近年,計算処理やメモリ制約のある小型デバイスへのaiの迅速な展開を実現するため,ディープネットワークプルーニングが注目されている。 プルーニングは、しばしば、同等のテスト性能を維持しながら、ディープネットワークの冗長な重み、ニューロン、層を落とすことで達成される。 多くの深い刈り込みアルゴリズムが印象的な成功で提案されている。 しかし、既存のアプローチでは、各プルーニングイテレーション中にサブネットワークの圧縮可能性を推定する定量的な尺度が欠けており、従ってモデルが過小評価されることもある。 本研究では,ディープニューラルネットワークの潜在的圧縮性を測定するpqインデックス(pqi)を提案し,これを用いてsparsity-informed adaptive pruning(sap)アルゴリズムを開発した。 我々の広範な実験は、一般的な刈り込み手順において、PQIは大きなモデルが効果的に正規化されているときに最初に減少し、圧縮性が不適合の始まりに対応するような限界に達すると増加するという仮説を裏付ける。 その後、モデルが崩壊し、モデルの性能が著しく低下し始めると、PQIは再び低下する。 また,ハイパーパラメータを適切に選択した適応プルーニングアルゴリズムは,圧縮効率とロバスト性の観点から,宝くじによるプルーニング法のような反復プルーニングアルゴリズムよりも優れていることを示す。

In recent years, deep network pruning has attracted significant attention in order to enable the rapid deployment of AI into small devices with computation and memory constraints. Pruning is often achieved by dropping redundant weights, neurons, or layers of a deep network while attempting to retain a comparable test performance. Many deep pruning algorithms have been proposed with impressive empirical success. However, existing approaches lack a quantifiable measure to estimate the compressibility of a sub-network during each pruning iteration and thus may under-prune or over-prune the model. In this work, we propose PQ Index (PQI) to measure the potential compressibility of deep neural networks and use this to develop a Sparsity-informed Adaptive Pruning (SAP) algorithm. Our extensive experiments corroborate the hypothesis that for a generic pruning procedure, PQI decreases first when a large model is being effectively regularized and then increases when its compressibility reaches a limit that appears to correspond to the beginning of underfitting. Subsequently, PQI decreases again when the model collapse and significant deterioration in the performance of the model start to occur. Additionally, our experiments demonstrate that the proposed adaptive pruning algorithm with proper choice of hyper-parameters is superior to the iterative pruning algorithms such as the lottery ticket-based pruning methods, in terms of both compression efficiency and robustness.
翻訳日:2023-02-14 19:38:11 公開日:2023-02-11
# フェデレーション・スプリット学習におけるコミュニケーションと記憶

Communication and Storage Efficient Federated Split Learning ( http://arxiv.org/abs/2302.05599v1 )

ライセンス: Link先を確認
Yujia Mu, Cong Shen(参考訳) フェデレートラーニング(FL)は、一般的な分散機械学習(ML)パラダイムであるが、通信コストとエッジデバイス計算能力によって制限されることが多い。 Federated Split Learning (FSL) はFLの並列モデルトレーニングの原則を維持しており、サーバとクライアント間でMLモデルを分割することで、デバイス計算の必要を減らしている。 しかし、FSLは、各グローバルラウンドでクライアントとサーバ間のスマッシュなデータと勾配を送信するため、通信オーバーヘッドが非常に高い。 さらに、サーバはクライアント毎に別々のモデルを保持しなければならないため、クライアント数と線形に増加する重要な計算とストレージ要件が生まれます。 本稿では,サーバ上に単一モデルのみを保持しながらクライアントモデルをローカルに更新する補助ネットワークを用いた,通信とストレージの効率的なフェデレーション・スプリット・ラーニング(cse-fsl)戦略を提案することにより,サーバからの勾配の通信を回避し,サーバリソース要件を大幅に削減する。 クライアントから選択したエポックにスマッシュデータを送れば通信コストはさらに削減される。 非凸損失関数に対する収束を保証するCSE-FSLの厳密な理論的解析を提供する。 CSE-FSLは,複数の実世界のFLタスクを用いて,最先端の収束とモデル精度を達成しつつ,既存のFSL技術よりも通信効率が大幅に低下することを示した。

Federated learning (FL) is a popular distributed machine learning (ML) paradigm, but is often limited by significant communication costs and edge device computation capabilities. Federated Split Learning (FSL) preserves the parallel model training principle of FL, with a reduced device computation requirement thanks to splitting the ML model between the server and clients. However, FSL still incurs very high communication overhead due to transmitting the smashed data and gradients between the clients and the server in each global round. Furthermore, the server has to maintain separate models for every client, resulting in a significant computation and storage requirement that grows linearly with the number of clients. This paper tries to solve these two issues by proposing a communication and storage efficient federated and split learning (CSE-FSL) strategy, which utilizes an auxiliary network to locally update the client models while keeping only a single model at the server, hence avoiding the communication of gradients from the server and greatly reducing the server resource requirement. Communication cost is further reduced by only sending the smashed data in selected epochs from the clients. We provide a rigorous theoretical analysis of CSE-FSL that guarantees its convergence for non-convex loss functions. Extensive experimental results demonstrate that CSE-FSL has a significant communication reduction over existing FSL techniques while achieving state-of-the-art convergence and model accuracy, using several real-world FL tasks.
翻訳日:2023-02-14 19:37:44 公開日:2023-02-11
# グラフ注意ネットワークを用いたマルチクラス脳腫瘍分離

Multi-class Brain Tumor Segmentation using Graph Attention Network ( http://arxiv.org/abs/2302.05598v1 )

ライセンス: Link先を確認
Dhrumil Patel, Dhruv Patel, Rudra Saxena, Thangarajah Akilan(参考訳) MRIによる脳腫瘍のセグメンテーションは放射線診断において重要な役割を担っている。 手動アプローチの実際的な課題を克服するために,腫瘍の自動分割アルゴリズムの構築が求められている。 本研究は,mriとグラフニューラルネットワーク(gnns)の進歩を活かし,効率的な脳腫瘍集積モデルを提案する。 このモデルは、ボリュームMRIを領域隣接グラフ(RAG)として表現し、GNNの変種であるグラフアテンションネットワーク(GAT)を通して腫瘍の種類を特定することを学ぶ。 2つのベンチマークデータセットで行ったアブレーション解析は,提案手法が先行解に比べて競争結果を生み出すことを証明した。 平均ダイススコアは0.91、0.86、0.79、平均ハウゼンドルフ距離は5.91、6.08、9.52mmで、腫瘍全体、コア腫瘍全体、BraTS2021検証データセット上での腫瘍セグメンテーションを強化する。 平均して、これらのパフォーマンスは、gnnベースのベースラインモデルと比較して、diceスコアとhd95評価指標でそれぞれ6\%以上と50%以上である。

Brain tumor segmentation from magnetic resonance imaging (MRI) plays an important role in diagnostic radiology. To overcome the practical issues in manual approaches, there is a huge demand for building automatic tumor segmentation algorithms. This work introduces an efficient brain tumor summation model by exploiting the advancement in MRI and graph neural networks (GNNs). The model represents the volumetric MRI as a region adjacency graph (RAG) and learns to identify the type of tumors through a graph attention network (GAT) -- a variant of GNNs. The ablation analysis conducted on two benchmark datasets proves that the proposed model can produce competitive results compared to the leading-edge solutions. It achieves mean dice scores of 0.91, 0.86, 0.79, and mean Hausdorff distances in the 95th percentile (HD95) of 5.91, 6.08, and 9.52 mm, respectively, for whole tumor, core tumor, and enhancing tumor segmentation on BraTS2021 validation dataset. On average, these performances are >6\% and >50%, compared to a GNN-based baseline model, respectively, on dice score and HD95 evaluation metrics.
翻訳日:2023-02-14 19:37:14 公開日:2023-02-11
# MatKB:多結晶材料合成プロセスのセマンティック検索

MatKB: Semantic Search for Polycrystalline Materials Synthesis Procedures ( http://arxiv.org/abs/2302.05597v1 )

ライセンス: Link先を確認
Xianjun Yang, Stephen Wilson, Linda Petzold(参考訳) 本稿では,自然言語処理(NLP)技術を用いた知識抽出と検索のための新しい手法を提案する。 我々の目標は、多結晶材料分野の何百万もの研究論文から構造化された知識を自動的に抽出し、より広いコミュニティに容易にアクセスできるようにすることです。 提案手法は、エンティティ認識や文書分類などのNLP技術を利用して、関連情報を抽出し、950万冊の出版物から広範な知識基盤を構築する。 得られた知識ベースは検索エンジンに統合され、ユーザーはGoogleのような従来の検索エンジンよりも精度の高い特定の材料、プロパティ、実験に関する情報を検索できる。 我々は、物質科学者が望ましい実験手順を素早く見つけ、相違点を比較し、新しい実験をデザインすることさえできることを期待している。 私たちのwebサイトはもうすぐgithub \footnote{https://github.com/xianjun-yang/pcmsp.git}で入手できる。

In this paper, we present a novel approach to knowledge extraction and retrieval using Natural Language Processing (NLP) techniques for material science. Our goal is to automatically mine structured knowledge from millions of research articles in the field of polycrystalline materials and make it easily accessible to the broader community. The proposed method leverages NLP techniques such as entity recognition and document classification to extract relevant information and build an extensive knowledge base, from a collection of 9.5 Million publications. The resulting knowledge base is integrated into a search engine, which enables users to search for information about specific materials, properties, and experiments with greater precision than traditional search engines like Google. We hope our results can enable material scientists quickly locate desired experimental procedures, compare their differences, and even inspire them to design new experiments. Our website will be available at Github \footnote{https://github.com/Xianjun-Yang/PcMSP.git} soon.
翻訳日:2023-02-14 19:36:51 公開日:2023-02-11
# ReMIX:マルチエージェント強化学習におけるモノトニック値関数係数のレギュレット最小化

ReMIX: Regret Minimization for Monotonic Value Function Factorization in Multiagent Reinforcement Learning ( http://arxiv.org/abs/2302.05593v1 )

ライセンス: Link先を確認
Yongsheng Mei, Hanhan Zhou, Tian Lan(参考訳) 価値関数分解法は,集中型トレーニングと分散実行パラダイムの下で,協調型マルチエージェント強化学習の主流となっている。 エージェントのユーティリティの単調混合関数を用いて、最適な共同動作値関数を分解することにより、分散意思決定のための共同動作選択と局所動作選択の一貫性を確保する。 それでも、単調混合関数の使用は表現的制限も引き起こす。 単調関数類への非制限混合関数の最適射影を求めることは、まだ未解決の問題である。 そこで本研究では,異なる状態作用値の投影重みに対する後悔の最小化として,値関数分解の最適投影問題を定式化したリミックスを提案する。 このような最適化問題はラグランジアン乗算法を用いて緩和して解くことができ、近接形式の最適射影重みが得られる。 結果の政策後悔を最小化することにより、最適と制限された単調混合関数の間のギャップを狭め、改良された単調値関数分解が得られる。 Predator-Prey と StarCraft Multiagent Challenge の環境実験の結果,本手法の有効性が示され,非単調な値関数を用いた環境処理能力の向上が示された。

Value function factorization methods have become a dominant approach for cooperative multiagent reinforcement learning under a centralized training and decentralized execution paradigm. By factorizing the optimal joint action-value function using a monotonic mixing function of agents' utilities, these algorithms ensure the consistency between joint and local action selections for decentralized decision-making. Nevertheless, the use of monotonic mixing functions also induces representational limitations. Finding the optimal projection of an unrestricted mixing function onto monotonic function classes is still an open problem. To this end, we propose ReMIX, formulating this optimal projection problem for value function factorization as a regret minimization over the projection weights of different state-action values. Such an optimization problem can be relaxed and solved using the Lagrangian multiplier method to obtain the close-form optimal projection weights. By minimizing the resulting policy regret, we can narrow the gap between the optimal and the restricted monotonic mixing functions, thus obtaining an improved monotonic value function factorization. Our experimental results on Predator-Prey and StarCraft Multiagent Challenge environments demonstrate the effectiveness of our method, indicating the better capabilities of handling environments with non-monotonic value functions.
翻訳日:2023-02-14 19:36:38 公開日:2023-02-11
# グラフバンドル上の信号処理のためのウィンドウフーリエ解析

Windowed Fourier Analysis for Signal Processing on Graph Bundles ( http://arxiv.org/abs/2302.05592v1 )

ライセンス: Link先を確認
T. Mitchell Roddenberry, Santiago Segarra(参考訳) 我々は,製品構造において「twist」を可能にする製品グラフの一般化である,グラフバンドル上で支持される信号を表現するタスクを考える。 グラフバンドルの局所化された積構造を利用することで、グラフ上の信号を持ち上げるのに、ベースグラフ上のユニティの適切な分割を用いて、プロダクトファクタライゼーションが容易に適用できる空間を構築できることを実証する。 この手順の局所性に動機づけられ、グラフバンドルの成分の信号空間の基底を同じ方法で持ち上げることができ、全グラフの信号空間の基礎となることを実証する。 合成グラフ上のこの構成を、立体化学における共形多様体のエネルギー景観の解析とともに示す。

We consider the task of representing signals supported on graph bundles, which are generalizations of product graphs that allow for "twists" in the product structure. Leveraging the localized product structure of a graph bundle, we demonstrate how a suitable partition of unity over the base graph can be used to lift the signal on the graph into a space where a product factorization can be readily applied. Motivated by the locality of this procedure, we demonstrate that bases for the signal spaces of the components of the graph bundle can be lifted in the same way, yielding a basis for the signal space of the total graph. We demonstrate this construction on synthetic graphs, as well as with an analysis of the energy landscape of conformational manifolds in stereochemistry.
翻訳日:2023-02-14 19:36:19 公開日:2023-02-11
# スペクトルグラフニューラルネットワークに関する一検討

A Survey on Spectral Graph Neural Networks ( http://arxiv.org/abs/2302.05631v1 )

ライセンス: Link先を確認
Deyu Bo, Xiao Wang, Yang Liu, Yuan Fang, Yawen Li, Chuan Shi(参考訳) グラフニューラルネットワーク(GNN)は、研究コミュニティからかなりの注目を集めている。 GNNは通常、空間的およびスペクトル的手法に大別される。 スペクトルGNNはグラフ信号処理とグラフ表現学習において重要な役割を担っているが、既存の研究は空間的アプローチに偏りがあり、スペクトルGNNに関する包括的なレビューは今のところない。 本稿では,モデル,理論,応用を含むスペクトルGNNの最近の展開を要約する。 具体的には、まず、空間GNNとスペクトルGNNの関連性について議論し、スペクトルGNNがグローバル情報を捕捉し、表現性や解釈性が向上することを示す。 次に, 既存のスペクトルGNNを, 使用するスペクトル情報, \ie, eigenvalues, eigenvectorsに基づいて分類する。 さらに,スペクトルgnnの主要な理論結果と応用を概観し,スペクトルgnnを定量的に評価する実験を行った。 最後に,今後の方向性で論文をまとめる。

Graph neural networks (GNNs) have attracted considerable attention from the research community. It is well established that GNNs are usually roughly divided into spatial and spectral methods. Despite that spectral GNNs play an important role in both graph signal processing and graph representation learning, existing studies are biased toward spatial approaches, and there is no comprehensive review on spectral GNNs so far. In this paper, we summarize the recent development of spectral GNNs, including model, theory, and application. Specifically, we first discuss the connection between spatial GNNs and spectral GNNs, which shows that spectral GNNs can capture global information and have better expressiveness and interpretability. Next, we categorize existing spectral GNNs according to the spectrum information they use, \ie, eigenvalues or eigenvectors. In addition, we review major theoretical results and applications of spectral GNNs, followed by a quantitative experiment to benchmark some popular spectral GNNs. Finally, we conclude the paper with some future directions.
翻訳日:2023-02-14 19:30:58 公開日:2023-02-11
# CILP: クラウドコンピューティング環境における動的リソース供給のための共シミュレーションに基づく模倣学習

CILP: Co-simulation based Imitation Learner for Dynamic Resource Provisioning in Cloud Computing Environments ( http://arxiv.org/abs/2302.05630v1 )

ライセンス: Link先を確認
Shreshth Tuli and Giuliano Casale and Nicholas R. Jennings(参考訳) intelligent virtual machine (vm) プロビジョニングは、クラウドコンピューティング環境におけるコストとリソース効率のよい計算の中心である。 VMのブートストラッピングに時間を要するため、レイテンシクリティカルなタスクの重要な課題は、VMを積極的にプロビジョニングするための将来のワークロード要求を予測することだ。 しかし、既存のAIベースのソリューション \blue{tend to not holistically consider} は、オーバーヘッドのプロビジョニング、異種VMコスト、およびクラウドシステムのQoS(Quality of Service)といった重要な側面をすべて考慮している。 そこで本研究では,vmのプロビジョニング問題を予測と最適化の2つのサブ問題として定式化した新しい手法であるcilpを提案する。 CILPは、ニューラルネットワークを代理モデルとして活用して、QoSスコアを計算するインフラストラクチャのディジタルツインを共用して、将来のワークロード要求を予測する。 ニューラルネットワークを拡張して、最適なVMプロビジョニングプランを動的に決定する模倣学習者として機能する。 トランスベースニューラルモデルはトレーニングと推論のオーバーヘッドを削減する一方で,新たな2相意思決定ループでは,情報提供決定が容易になる。 重要な点は,リソース利用,デプロイメントコスト,プロビジョニングオーバヘッドといった事前作業の制限に対処し,模倣学習フレームワークのプロビジョニング決定を知らせることです。 3つの公開ベンチマークによる実験によると、CILPはリソース利用率を最大22%、QoSスコアを14%、実行コストを44%向上させる。

Intelligent Virtual Machine (VM) provisioning is central to cost and resource efficient computation in cloud computing environments. As bootstrapping VMs is time-consuming, a key challenge for latency-critical tasks is to predict future workload demands to provision VMs proactively. However, existing AI-based solutions \blue{tend to not holistically consider} all crucial aspects such as provisioning overheads, heterogeneous VM costs and Quality of Service (QoS) of the cloud system. To address this, we propose a novel method, called CILP, that formulates the VM provisioning problem as two sub-problems of prediction and optimization, where the provisioning plan is optimized based on predicted workload demands. CILP leverages a neural network as a surrogate model to predict future workload demands with a co-simulated digital-twin of the infrastructure to compute QoS scores. We extend the neural network to also act as an imitation learner that dynamically decides the optimal VM provisioning plan. A transformer based neural model reduces training and inference overheads while our novel two-phase decision making loop facilitates in making informed provisioning decisions. Crucially, we address limitations of prior work by including resource utilization, deployment costs and provisioning overheads to inform the provisioning decisions in our imitation learning framework. Experiments with three public benchmarks demonstrate that CILP gives up to 22% higher resource utilization, 14% higher QoS scores and 44% lower execution costs compared to the current online and offline optimization based state-of-the-art methods.
翻訳日:2023-02-14 19:30:41 公開日:2023-02-11
# 自己蒸留による微分可能なアーキテクチャ探索の改善

Improving Differentiable Architecture Search via Self-Distillation ( http://arxiv.org/abs/2302.05629v1 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Weiping Wang(参考訳) 微分可能アーキテクチャサーチ(DARTS)は、単純だが効率的なニューラルアーキテクチャサーチ(NAS)手法である。 探索段階では、DARTSはアーキテクチャパラメータとネットワークパラメータを協調的に最適化することでスーパーネットを訓練する。 評価段階において、dartはアーキテクチャパラメータに基づいた最適なアーキテクチャを導出する。 しかし、スーパーネットのロスランドスケープはスムーズではないため、スーパーネットと最適アーキテクチャの間の性能ギャップが生じる。 本稿では,前段階におけるスーパーネットの知識伝達に自己蒸留を利用した自己蒸留微分可能なニューラルネットワーク探索(sd-darts)を提案し,現在の段階におけるスーパーネットの訓練を導く。 SD-DARTSは2回の繰り返しの損失差を最小限に抑え、スーパーネットの損失のシャープさを最小化し、スーパーネットと最適アーキテクチャの間の性能ギャップを埋める。 さらに,複数のスーパーネットを教師として選択し,教師のアウトプット確率を最終予測として投票した教師を提案する。 複数の教師の知識は1人の教師よりも豊富であり、投票された教師はスーパーネットの訓練を指導するのに適している。 実データを用いた実験結果から,新しい自己蒸留式NAS法の利点が得られた。

Differentiable Architecture Search (DARTS) is a simple yet efficient Neural Architecture Search (NAS) method. During the search stage, DARTS trains a supernet by jointly optimizing architecture parameters and network parameters. During the evaluation stage, DARTS derives the optimal architecture based on architecture parameters. However, the loss landscape of the supernet is not smooth, and it results in a performance gap between the supernet and the optimal architecture. In the paper, we propose Self-Distillation Differentiable Neural Architecture Search (SD-DARTS) by utilizing self-distillation to transfer knowledge of the supernet in previous steps to guide the training of the supernet in the current steps. SD-DARTS can minimize the loss difference for the two consecutive iterations so that minimize the sharpness of the supernet's loss to bridge the performance gap between the supernet and the optimal architecture. Furthermore, we propose voted teachers, which select multiple previous supernets as teachers and vote teacher output probabilities as the final teacher prediction. The knowledge of several teachers is more abundant than a single teacher, thus, voted teachers can be more suitable to lead the training of the supernet. Experimental results on real datasets illustrate the advantages of our novel self-distillation-based NAS method compared to state-of-the-art alternatives.
翻訳日:2023-02-14 19:30:12 公開日:2023-02-11
# 画像モデル評価のためのXAI基底真理を用いたデータセット生成手法

A novel approach to generate datasets with XAI ground truth to evaluate image models ( http://arxiv.org/abs/2302.05624v1 )

ライセンス: Link先を確認
Miquel Mir\'o-Nicolau, Antoni Jaume-i-Cap\'o, Gabriel Moy\`a-Alcover(参考訳) 人工知能(AI)の利用の増加により、これらのモデルが内部でどのように機能するかを理解することが不可欠である。 これらのニーズは、eXplainable Artificial Intelligence (XAI)と呼ばれる新しい分野の開発につながった。 この分野は、AI決定の原因を理論的に決定できる一連の技術に基づいて構成されます。 XAIに関する未解決の問題のひとつは、説明の質を測定する方法だ。 本研究では,基底真理(GT)を用いたデータセット生成手法を提案する。 これらのデータセットは、アドホックなソリューションを使わずにどれだけ忠実かを測定することができます。 本研究は,gtと実モデル説明を比較した実験を行い,提案手法が正しいことを示す優れた結果を得た。

With the increased usage of artificial intelligence (AI), it is imperative to understand how these models work internally. These needs have led to the development of a new field called eXplainable artificial intelligence (XAI). This field consists of on a set of techniques that allows us to theoretically determine the cause of the AI decisions. One unsolved question about XAI is how to measure the quality of explanations. In this study, we propose a new method to generate datasets with ground truth (GT). These datasets allow us to measure how faithful is a method without ad hoc solutions. We conducted a set of experiments that compared our GT with real model explanations and obtained excellent results confirming that our proposed method is correct.
翻訳日:2023-02-14 19:29:52 公開日:2023-02-11
# 低解像度顔認識における解像度拡張とメトリクス: 単純だが効果的な新しいベースライン

Dive into the Resolution Augmentations and Metrics in Low Resolution Face Recognition: A Plain yet Effective New Baseline ( http://arxiv.org/abs/2302.05621v1 )

ライセンス: Link先を確認
Xu Ling, Yichen Lu, Wenqi Xu, Weihong Deng, Yingjie Zhang, Xingchen Cui, Hongzhi Shi, Dongchao Wen(参考訳) ディープラーニングは顔認識(FR)を大幅に改善したが、低分解能(LR)の処理時に劇的な性能劣化が発生する可能性がある。 これを軽減するために、高分解能(HR)条件下での犠牲を伴う統合された特徴空間に基づくアプローチを提案する。 HRドメインとLRドメイン間の大きなドメインギャップに対処し、両ドメインで最善を尽くすために、まずいくつかの解像度拡張の影響を詳しく調べ、異なる解像度サンプルによって生成されたモデル勾配の観点からLRサンプルの難しさを解析した。 さらに、いくつかの解像度を導入することで、低い解像度の学習に役立つこともわかりました。 これらの結果に基づき,lrサンプルを3つの難易度に分割し,より効果的なマルチレゾリューション拡張を提案する。 そして,分解能が低下するにつれて領域ギャップが急速に増大するので,収差点近傍での発振や小さな距離誤差に対する耐性を抑えるための適切な勾配を提供するLogExp距離関数に基づいて,新しい効果的な計量損失を慎重に設計し,異なる次元の誤差に対するペナルティを動的に調整し,大きな誤差を伴う次元の最適化を可能にする。 これら2つの洞察を組み合わせることで、より広い解像度のイメージでより一般的な知識を学習し、非常にシンプルなフレームワークでバランスの取れた結果を得ることができます。 さらに, LRFRの基盤となる拡張と測定値について検討し, LRFRタスクの新たなベースラインとみなすことが可能となった。 LRFRデータセットの実験:SCface、XQLFW、大規模LRFRデータセット: TinyFaceは我々の手法の有効性を示し、HRFRデータセットの劣化は著しく減少する。

Although deep learning has significantly improved Face Recognition (FR), dramatic performance deterioration may occur when processing Low Resolution (LR) faces. To alleviate this, approaches based on unified feature space are proposed with the sacrifice under High Resolution (HR) circumstances. To deal with the huge domain gap between HR and LR domains and achieve the best on both domains, we first took a closer look at the impacts of several resolution augmentations and then analyzed the difficulty of LR samples from the perspective of the model gradient produced by different resolution samples. Besides, we also find that the introduction of some resolutions could help the learning of lower resolutions. Based on these, we divide the LR samples into three difficulties according to the resolution and propose a more effective Multi-Resolution Augmentation. Then, due to the rapidly increasing domain gap as the resolution decreases, we carefully design a novel and effective metric loss based on a LogExp distance function that provides decent gradients to prevent oscillation near the convergence point or tolerance to small distance errors; it could also dynamically adjust the penalty for errors in different dimensions, allowing for more optimization of dimensions with large errors. Combining these two insights, our model could learn more general knowledge in a wide resolution range of images and balanced results can be achieved by our extremely simple framework. Moreover, the augmentations and metrics are the cornerstones of LRFR, so our method could be considered a new baseline for the LRFR task. Experiments on the LRFR datasets: SCface, XQLFW, and large-scale LRFR dataset: TinyFace demonstrate the effectiveness of our methods, while the degradation on HRFR datasets is significantly reduced.
翻訳日:2023-02-14 19:29:43 公開日:2023-02-11
# オンラインフランクウルフにおける動的レグレットの改善

Improved Dynamic Regret for Online Frank-Wolfe ( http://arxiv.org/abs/2302.05620v1 )

ライセンス: Link先を確認
Yuanyu Wan and Lijun Zhang and Mingli Song(参考訳) 複雑な制約を伴う非定常オンライン問題に対処するために,オンライン凸最適化のための効率的なプロジェクションフリーアルゴリズムであるオンラインフランクウルフ(ofw)の動的後悔について検討する。 オフライン最適化の設定において、関数の滑らかさと制約セットの特定の性質に付随する関数の強い凸性を利用して、FWアルゴリズムの高速収束率を達成することはよく知られている。 しかし、OW の場合、以前の研究は問題の凸性を利用して $O(\sqrt{T}(1+V_T+\sqrt{D_T})$ の動的後悔境界を定めているだけで、$T$ はラウンド数、$V_T$ は関数変分、$D_T$ は勾配変分である。 本稿では,FWの高速収束率をオフライン最適化からオンライン最適化に拡張することにより,OFWの動的後悔境界を改善する。 この拡張の鍵となるテクニックは、行探索ルールでOwのステップサイズを設定することである。 このようにして、まず、ofw の動的後悔境界は滑らかな関数に対して $o(\sqrt{t(1+v_t)})$ に改善できることを示した。 次に、関数が滑らかで強い凸であり、制約集合が強い凸であるときに、より優れた動的後悔値が$o((1+v_t)^{2/3}t^{1/3})$となる。 最後に、制約集合の内部に最小値を持つ滑らかで強い凸関数に対して、OWの動的後悔は$O(1+V_T)$に減少し、さらに$O(\min\{P_T^\ast,S_T^\ast,V_T\}+1)$に拡張できることを示す。

To deal with non-stationary online problems with complex constraints, we investigate the dynamic regret of online Frank-Wolfe (OFW), which is an efficient projection-free algorithm for online convex optimization. It is well-known that in the setting of offline optimization, the smoothness of functions and the strong convexity of functions accompanying specific properties of constraint sets can be utilized to achieve fast convergence rates for the Frank-Wolfe (FW) algorithm. However, for OFW, previous studies only establish a dynamic regret bound of $O(\sqrt{T}(1+V_T+\sqrt{D_T}))$ by utilizing the convexity of problems, where $T$ is the number of rounds, $V_T$ is the function variation, and $D_T$ is the gradient variation. In this paper, we derive improved dynamic regret bounds for OFW by extending the fast convergence rates of FW from offline optimization to online optimization. The key technique for this extension is to set the step size of OFW with a line search rule. In this way, we first show that the dynamic regret bound of OFW can be improved to $O(\sqrt{T(1+V_T)})$ for smooth functions. Second, we achieve a better dynamic regret bound of $O((1+V_T)^{2/3}T^{1/3})$ when functions are smooth and strongly convex, and the constraint set is strongly convex. Finally, for smooth and strongly convex functions with minimizers in the interior of the constraint set, we demonstrate that the dynamic regret of OFW reduces to $O(1+V_T)$, and can be further strengthened to $O(\min\{P_T^\ast,S_T^\ast,V_T\}+1)$ by performing a constant number of FW iterations per round, where $P_T^\ast$ and $S_T^\ast$ denote the path length and squared path length of minimizers, respectively.
翻訳日:2023-02-14 19:29:09 公開日:2023-02-11
# 離散プロンプトのロバスト性評価

Evaluating the Robustness of Discrete Prompts ( http://arxiv.org/abs/2302.05619v1 )

ライセンス: Link先を確認
Yoichi Ishibashi, Danushka Bollegala, Katsuhito Sudoh, Satoshi Nakamura(参考訳) 離散プロンプトは、様々なNLPタスクのための微調整済み言語モデルに使われてきた。 特に、小さなトレーニングインスタンスから離散的なプロンプトを生成する自動メソッドは、優れたパフォーマンスを報告している。 しかし、学習者のプロンプトをよく見ると、手書きのプロンプトでは遭遇しないノイズや反直感的な語彙構造が含まれていることが分かる。 このことは、下流タスクで使われるときに自動的に学習される離散的なプロンプトの堅牢性に関する重要な未調査の疑問を提起する。 本稿では,AutoPromptを用いてアプリケーションに慎重に設計した摂動を適用し,その性能を2つの自然言語推論(NLI)データセットで測定することにより,離散的なプロンプトの頑健さを体系的に研究する。 実験結果から,NLI入力に対する摂動に対して離散的なプロンプトベース法は比較的頑健であるが,シャッフルやプロンプトトークンの削除といった他の種類の摂動に対して非常に敏感であることがわかった。 さらに、異なるNLIデータセットに分散する。 私たちの発見が、堅牢な離散的な素早い学習に将来の成果をもたらすことを期待しています。

Discrete prompts have been used for fine-tuning Pre-trained Language Models for diverse NLP tasks. In particular, automatic methods that generate discrete prompts from a small set of training instances have reported superior performance. However, a closer look at the learnt prompts reveals that they contain noisy and counter-intuitive lexical constructs that would not be encountered in manually-written prompts. This raises an important yet understudied question regarding the robustness of automatically learnt discrete prompts when used in downstream tasks. To address this question, we conduct a systematic study of the robustness of discrete prompts by applying carefully designed perturbations into an application using AutoPrompt and then measure their performance in two Natural Language Inference (NLI) datasets. Our experimental results show that although the discrete prompt-based method remains relatively robust against perturbations to NLI inputs, they are highly sensitive to other types of perturbations such as shuffling and deletion of prompt tokens. Moreover, they generalize poorly across different NLI datasets. We hope our findings will inspire future work on robust discrete prompt learning.
翻訳日:2023-02-14 19:28:22 公開日:2023-02-11
# 3次元医用画像セグメンテーションにおける自己教師あり学習のための解剖的不変性モデリングと意味的アライメント

Anatomical Invariance Modeling and Semantic Alignment for Self-supervised Learning in 3D Medical Image Segmentation ( http://arxiv.org/abs/2302.05615v1 )

ライセンス: Link先を確認
Yankai Jiang, Mingze Sun, Heng Guo, Ke Yan, Le Lu, Minfeng Xu(参考訳) 自己教師付き学習(SSL)は、最近、3D画像分割タスクで有望なパフォーマンスを達成した。 現在の手法のほとんどは、もともと写真や自然画像用に設計された既存のsslパラダイムに従っており、様々な医療画像にまたがる固有の類似解剖学的構造を明示的に、かつ徹底的に利用することはできない。 これは、空間的ミスアライメント情報と異なる解剖学的意味論を含む特徴間の類似性を最大化することによって、学習された深層表現の品質を低下させる可能性がある。 本研究では,識別と生成の目的を巧みに組み合わせることで,解剖的不変性モデリングと意味的アライメントを明確に達成する,自己教師型学習フレームワークAliceを提案する。 alice氏は、不変解剖学的特徴を学ぶために、多様だが一貫性のあるハイレベルなセマンティクスを持つビュー間の類似性を奨励する、新しい対比学習戦略を導入した。 さらに,局所的な画像コンテンツの分布を条件としたグローバルな意味とパッチ間トポロジ情報とを補完する条件付き解剖学的特徴アライメントモジュールを設計し,よりコントラストの高いペアを作成できるようにする。 FLARE 2022とBTCVの2つの公開3次元医用画像セグメンテーションベンチマークに関する大規模な定量的実験は、Aliceの性能上の優位性を実証し、それぞれDice係数の2.11%と1.77%を上回った。

Self-supervised learning (SSL) has recently achieved promising performance for 3D medical image segmentation tasks. Most current methods follow existing SSL paradigm originally designed for photographic or natural images, which cannot explicitly and thoroughly exploit the intrinsic similar anatomical structures across varying medical images. This may in fact degrade the quality of learned deep representations by maximizing the similarity among features containing spatial misalignment information and different anatomical semantics. In this work, we propose a new self-supervised learning framework, namely Alice, that explicitly fulfills Anatomical invariance modeling and semantic alignment via elaborately combining discriminative and generative objectives. Alice introduces a new contrastive learning strategy which encourages the similarity between views that are diversely mined but with consistent high-level semantics, in order to learn invariant anatomical features. Moreover, we design a conditional anatomical feature alignment module to complement corrupted embeddings with globally matched semantics and inter-patch topology information, conditioned by the distribution of local image content, which permits to create better contrastive pairs. Our extensive quantitative experiments on two public 3D medical image segmentation benchmarks of FLARE 2022 and BTCV demonstrate and validate the performance superiority of Alice, surpassing the previous best SSL counterpart methods by 2.11% and 1.77% in Dice coefficients, respectively.
翻訳日:2023-02-14 19:28:03 公開日:2023-02-11
# 強化学習のためのプロトタイプを用いたクロスドメインランダム事前学習

Cross-domain Random Pre-training with Prototypes for Reinforcement Learning ( http://arxiv.org/abs/2302.05614v1 )

ライセンス: Link先を確認
Xin Liu, Yaran Chen, Haoran Li, Boyu Li and Dongbin Zhao(参考訳) タスク非依存のクロスドメイン事前トレーニングは、イメージベース強化学習(RL)において大きな可能性を秘めているが、大きな課題となっている。 本稿では,画像ベースRLのプロトタイプを用いたクロスドメイン自己教師型ランダム事前学習フレームワークCRPTproを提案する。 CRPTproはクロスドメインランダムポリシーを使用して、複数のドメインから多様なデータを簡単かつ迅速にサンプリングし、事前学習効率を向上させる。 さらに,異なる領域にまたがる有効で汎用的なエンコーダを事前学習するために,新しい内在的損失を伴う原型表現学習を提案する。 微調整なしで、クロスドメインエンコーダは、異なるドメインで定義された下流視覚制御RLタスクに効率よく挑戦するために実装できる。 APTやProto-RLといった先行技術と比較して、CRPTproは専門家データ収集のための探索エージェントを余分に訓練することなく、クロスドメインの下流RLタスクのパフォーマンス向上を実現し、事前学習の負担を大幅に軽減する。 DeepMind Control Suite(DMControl)の実験では、CRPTproは11/12のクロスドメインRLタスクにおいてわずか39%の事前トレーニング時間でAPTを著しく上回り、政策学習性能と事前トレーニング効率の両方において最先端のクロスドメイン事前トレーニング方法となった。 完全なコードはhttps://github.com/liuxin0824/CRPTproでリリースされる。

Task-agnostic cross-domain pre-training shows great potential in image-based Reinforcement Learning (RL) but poses a big challenge. In this paper, we propose CRPTpro, a Cross-domain self-supervised Random Pre-Training framework with prototypes for image-based RL. CRPTpro employs cross-domain random policy to easily and quickly sample diverse data from multiple domains, to improve pre-training efficiency. Moreover, prototypical representation learning with a novel intrinsic loss is proposed to pre-train an effective and generic encoder across different domains. Without finetuning, the cross-domain encoder can be implemented for challenging downstream visual-control RL tasks defined in different domains efficiently. Compared with prior arts like APT and Proto-RL, CRPTpro achieves better performance on cross-domain downstream RL tasks without extra training on exploration agents for expert data collection, greatly reducing the burden of pre-training. Experiments on DeepMind Control suite (DMControl) demonstrate that CRPTpro outperforms APT significantly on 11/12 cross-domain RL tasks with only 39% pre-training hours, becoming a state-of-the-art cross-domain pre-training method in both policy learning performance and pre-training efficiency. The complete code will be released at https://github.com/liuxin0824/CRPTpro.
翻訳日:2023-02-14 19:27:34 公開日:2023-02-11
# 効果的な文脈記述によるメタファー検出

Metaphor Detection with Effective Context Denoising ( http://arxiv.org/abs/2302.05611v1 )

ライセンス: Link先を確認
Shun Wang, Yucheng Li, Chenghua Lin, Lo\"ic Barrault, Frank Guerin(参考訳) メタファ検出にターゲット指向のパースツリー構造を導入するRoBERTaベースの新しいモデルRoPPTを提案する。 既存のモデルと比較して、RoPPTは意味論的に関連する情報に焦点を合わせ、いくつかの主要なメタファーデータセットの最先端を達成している。 また,我々のアプローチをいくつかの一般的なデノイジング手法やプルーニング手法と比較し,コンテクストデノイジングにおけるアプローチの有効性を実証した。 私たちのコードとデータセットはhttps://github.com/MajiBear000/RoPPTで確認できます。

We propose a novel RoBERTa-based model, RoPPT, which introduces a target-oriented parse tree structure in metaphor detection. Compared to existing models, RoPPT focuses on semantically relevant information and achieves the state-of-the-art on several main metaphor datasets. We also compare our approach against several popular denoising and pruning methods, demonstrating the effectiveness of our approach in context denoising. Our code and dataset can be found at https://github.com/MajiBear000/RoPPT
翻訳日:2023-02-14 19:27:07 公開日:2023-02-11
# Jaccard Metric Losses: ソフトラベルによるJaccard Indexの最適化

Jaccard Metric Losses: Optimizing the Jaccard Index with Soft Labels ( http://arxiv.org/abs/2302.05666v1 )

ライセンス: Link先を確認
Zifu Wang and Matthew B. Blaschko(参考訳) IoU損失はJaccardインデックスを直接最適化するサロゲートである。 セマンティックセグメンテーションにおいて、IoU損失は、クロスエントロピー損失のような画素単位の損失よりも、ジャカード指数の指標よりも優れた結果を示す。 IoUの最大の損失は、ソフトなジャカードの損失とロバスツ・ソフトマックスの損失である。 しかし、これらの損失は機械学習においてユビキタスなソフトラベルとは相容れない。 本稿では,ソフトjaccardの損失の変種であり,ソフトラベルと互換性のあるjaccardメトリックロス(jmls)を提案する。 JMLでは,ラベルスムース化と知識蒸留という,ソフトラベルの最も一般的な2つのユースケースについて検討した。 様々なアーキテクチャを用いて,3つの意味セグメンテーションデータセット (cityscapes, pascal voc, deepglobe land) におけるクロスエントロピー損失を大幅に改善した。 ソースコードは以下の通りである。 \href{https://github.com/zifuwanggg/JDML}{https://github.com/zifuwanggg/JDML}。

IoU losses are surrogates that directly optimize the Jaccard index. In semantic segmentation, IoU losses are shown to perform better with respect to the Jaccard index measure than pixel-wise losses such as the cross-entropy loss. The most notable IoU losses are the soft Jaccard loss and the Lovasz-Softmax loss. However, these losses are incompatible with soft labels which are ubiquitous in machine learning. In this paper, we propose Jaccard metric losses (JMLs), which are variants of the soft Jaccard loss, and are compatible with soft labels. With JMLs, we study two of the most popular use cases of soft labels: label smoothing and knowledge distillation. With a variety of architectures, our experiments show significant improvements over the cross-entropy loss on three semantic segmentation datasets (Cityscapes, PASCAL VOC and DeepGlobe Land), and our simple approach outperforms state-of-the-art knowledge distillation methods by a large margin. Our source code is available at: \href{https://github.com/zifuwanggg/JDML}{https://github.com/zifuwanggg/JDML}.
翻訳日:2023-02-14 19:21:27 公開日:2023-02-11
# 機械の合理性を探るループにおける専門家の影響

The Impact of Expertise in the Loop for Exploring Machine Rationality ( http://arxiv.org/abs/2302.05665v1 )

ライセンス: Link先を確認
Changkun Ou, Sven Mayer, Andreas Butz(参考訳) ヒューマン・イン・ザ・ループ最適化は、人間の専門知識を活用し、機械最適化を反復的にガイドし、ソリューション空間における最適解を探す。 先行実験研究は主に初心者を対象とし,結果の質と主観的満足度に対する専門知識のレベルの影響を分析した。 テキスト,写真,および3dメッシュ最適化コンテキストにおける研究(n=60)を行った。 初心者は、エキスパートレベルの品質パフォーマンスを達成できるが、高い専門知識を持つ参加者は、満足度を低く保ちながら、より明示的な好みで、より最適化されたイテレーションへと導いた。 対照的に、初心者はより容易に満足し、より速く終了しました。 そこで,計算機が最適結果に達する間,専門家はより多様な結果を求め,観察された行動は基礎となるモデルを改善するためのヒューマン・イン・ザ・ループ・システム・デザイナのパフォーマンス指標として使用できることを明らかにした。 今後の研究は、人為的なループシステムの設計において、ユーザの専門知識が与える影響に注意を喚起する。

Human-in-the-loop optimization utilizes human expertise to guide machine optimizers iteratively and search for an optimal solution in a solution space. While prior empirical studies mainly investigated novices, we analyzed the impact of the levels of expertise on the outcome quality and corresponding subjective satisfaction. We conducted a study (N=60) in text, photo, and 3D mesh optimization contexts. We found that novices can achieve an expert level of quality performance, but participants with higher expertise led to more optimization iteration with more explicit preference while keeping satisfaction low. In contrast, novices were more easily satisfied and terminated faster. Therefore, we identified that experts seek more diverse outcomes while the machine reaches optimal results, and the observed behavior can be used as a performance indicator for human-in-the-loop system designers to improve underlying models. We inform future research to be cautious about the impact of user expertise when designing human-in-the-loop systems.
翻訳日:2023-02-14 19:21:07 公開日:2023-02-11
# 文書情報のローカライゼーションと抽出のためのDocILEベンチマーク

DocILE Benchmark for Document Information Localization and Extraction ( http://arxiv.org/abs/2302.05658v1 )

ライセンス: Link先を確認
\v{S}t\v{e}p\'an \v{S}imsa and Milan \v{S}ulc and Michal U\v{r}i\v{c}\'a\v{r} and Yash Patel and Ahmed Hamdi and Mat\v{e}j Koci\'an and Maty\'a\v{s} Skalick\'y and Ji\v{r}\'i Matas and Antoine Doucet and Micka\"el Coustaty and Dimosthenis Karatzas(参考訳) 本稿では,鍵情報局所化・抽出・ラインアイテム認識のタスクに対して,ビジネス文書の最大のデータセットを用いたDocILEベンチマークを提案する。 6.7kの注釈付きビジネス文書、100kの合成文書、および教師なしの事前訓練のためのラベルなし文書を含む。 データセットは、ドメインとタスク固有の側面の知識で構築され、以下の主要な特徴をもたらす。 i) 55のクラスにおけるアノテーションは、以前に公表されたキー情報抽出データセットの粒度を大きなマージンで上回る。 2 ラインアイテム認識は、テーブル内の項目に鍵情報を割り当てなければならない高度に実践的な情報抽出タスクを表す。 三 文書は、多数のレイアウトからなり、テストセットには、訓練セットによく見られるレイアウトだけでなく、ゼロショットや少数ショットのケースが含まれる。 ベンチマークにはRoBERTa、LayoutLMv3、DETRベースのTable Transformerなど、いくつかのベースラインが含まれている。 これらのベースラインモデルはDocILEベンチマークの両方のタスクに適用され、結果は論文で共有され、将来の作業のクイックスタートポイントを提供する。 データセットとベースラインはhttps://github.com/rossumai/docileで入手できる。

This paper introduces the DocILE benchmark with the largest dataset of business documents for the tasks of Key Information Localization and Extraction and Line Item Recognition. It contains 6.7k annotated business documents, 100k synthetically generated documents, and nearly~1M unlabeled documents for unsupervised pre-training. The dataset has been built with knowledge of domain- and task-specific aspects, resulting in the following key features: (i) annotations in 55 classes, which surpasses the granularity of previously published key information extraction datasets by a large margin; (ii) Line Item Recognition represents a highly practical information extraction task, where key information has to be assigned to items in a table; (iii) documents come from numerous layouts and the test set includes zero- and few-shot cases as well as layouts commonly seen in the training set. The benchmark comes with several baselines, including RoBERTa, LayoutLMv3 and DETR-based Table Transformer. These baseline models were applied to both tasks of the DocILE benchmark, with results shared in this paper, offering a quick starting point for future work. The dataset and baselines are available at https://github.com/rossumai/docile.
翻訳日:2023-02-14 19:20:46 公開日:2023-02-11
# ディレクトグラム: ディスラプティブコミュニティ間の機械学習の違い

Dialectograms: Machine Learning Differences between Discursive Communities ( http://arxiv.org/abs/2302.05657v1 )

ライセンス: Link先を確認
Thyge Enggaard (1), August Lohse (1), Morten Axel Pedersen (1 and 2), Sune Lehmann (1 and 3) ((1) Copenhagen Center for Social Data Science, University of Copenhagen, Denmark, (2) Department of Anthropology, University of Copenhagen, Denmark, (3) DTU Compute, Technical University of Denmark, Denmark)(参考訳) 単語埋め込みは、分散的コミュニティ間の単語使用量の違いを理解するための教師なしの方法を提供する。 最近の論文では、2つ以上のコミュニティで異なる方法で使用される単語の識別に焦点が当てられている。 しかし、単語埋め込みは複雑で高次元の空間であり、違いを識別することに注力することは、その豊かさのほんの一部しか捉えない。 ここでは、単語埋め込みを使って単語がどのように異なる使われ方をマッピングすることで、完全な埋め込み空間の豊かさを活用するための一歩を踏み出します。 具体的には、各コミュニティが焦点単語を使用する特徴的手法を視覚的に探索するための教師なしの方法である方言図の作成について述べる。 これらの弁証法に基づいて, 単語の出現頻度が低かったり多種多種多様な単語を抽出できる既存の尺度の傾向を克服し, 単語の使い分けの度合いを新たに測定した。 我々は,米国の2つの政治サブレディットの談話を調査し,我々の手法が政治家と政治団体の極めて影響のある分極をいかに識別するか,適切な政治行動の評価の相違や,特定の問題に政治介入が全く必要かどうかの意見の相違を示す。

Word embeddings provide an unsupervised way to understand differences in word usage between discursive communities. A number of recent papers have focused on identifying words that are used differently by two or more communities. But word embeddings are complex, high-dimensional spaces and a focus on identifying differences only captures a fraction of their richness. Here, we take a step towards leveraging the richness of the full embedding space, by using word embeddings to map out how words are used differently. Specifically, we describe the construction of dialectograms, an unsupervised way to visually explore the characteristic ways in which each community use a focal word. Based on these dialectograms, we provide a new measure of the degree to which words are used differently that overcomes the tendency for existing measures to pick out low frequent or polysemous words. We apply our methods to explore the discourses of two US political subreddits and show how our methods identify stark affective polarisation of politicians and political entities, differences in the assessment of proper political action as well as disagreement about whether certain issues require political intervention at all.
翻訳日:2023-02-14 19:20:29 公開日:2023-02-11
# SLOTH:階層上の時系列予測のための構造化学習とタスクベース最適化

SLOTH: Structured Learning and Task-based Optimization for Time Series Forecasting on Hierarchies ( http://arxiv.org/abs/2302.05650v1 )

ライセンス: Link先を確認
Fan Zhou, Chen Pan, Lintao Ma, Yu Liu, Shiyu Wang, James Zhang, Xinxin Zhu, Xuanwei Hu, Yunhua Hu, Yangfei Zheng, Lei Lei, Yun Hu(参考訳) 階層構造を持つ多変量時系列予測は、例えば、都市、州、国によって形成される地理的階層の売り上げ予測など、現実世界のアプリケーションで広く使われている。 階層時系列(HTS)予測には2つのサブタスク、すなわち予測と和解が含まれる。 前回の研究では、階層情報は一貫性を維持するための調整ステップにのみ統合されるが、精度向上のための予測ステップには統合されない。 本稿では,階層構造の情報を活用し,予測性能を向上させるための2つの新しい木型特徴統合機構,すなわちトップダウン畳み込みとボトムアップ注意を提案する。 さらに、強い仮定に依存したり、コヒーレントな制約のみにフォーカスする従来の和解手法とは異なり、我々は深いニューラルネットワークを利用して、仮定なしでコヒーレンシーを達成できるだけでなく、より柔軟で現実的な制約でタスクベースの目標、例えば、低い過小評価のペナルティと有意義な意思決定損失を達成し、後続の下流タスクを促進できる。 実世界のデータセットに対する実験により、我々のツリーベースの特徴統合メカニズムは、最先端の手法と比較して階層的予測タスクにおいて優れたパフォーマンスを達成し、我々のニューラルネットワークは、コヒーレンスやタスクベースの制約の下で追加の努力をすることなく、実世界のタスクに効果的に適用できることを示した。

Multivariate time series forecasting with hierarchical structure is widely used in real-world applications, e.g., sales predictions for the geographical hierarchy formed by cities, states, and countries. The hierarchical time series (HTS) forecasting includes two sub-tasks, i.e., forecasting and reconciliation. In the previous works, hierarchical information is only integrated in the reconciliation step to maintain coherency, but not in forecasting step for accuracy improvement. In this paper, we propose two novel tree-based feature integration mechanisms, i.e., top-down convolution and bottom-up attention to leverage the information of the hierarchical structure to improve the forecasting performance. Moreover, unlike most previous reconciliation methods which either rely on strong assumptions or focus on coherent constraints only,we utilize deep neural optimization networks, which not only achieve coherency without any assumptions, but also allow more flexible and realistic constraints to achieve task-based targets, e.g., lower under-estimation penalty and meaningful decision-making loss to facilitate the subsequent downstream tasks. Experiments on real-world datasets demonstrate that our tree-based feature integration mechanism achieves superior performances on hierarchical forecasting tasks compared to the state-of-the-art methods, and our neural optimization networks can be applied to real-world tasks effectively without any additional effort under coherence and task-based constraints
翻訳日:2023-02-14 19:20:09 公開日:2023-02-11
# 光学系におけるフォトンフォノン量子クローニング

Photon-phonon quantum cloning in optomechanical system ( http://arxiv.org/abs/2302.05643v1 )

ライセンス: Link先を確認
Qingxia Mu, Ting Wang, Jiong Cheng, and Wen-Zhao Zhang(参考訳) 量子クローニングは、量子情報と量子コンピューティングにおいて不可欠な操作である。 古典計算における「コピー」演算と同様に、記憶中の固体量子ビットからさらなる処理を行うためのフライングビットのクローニングは、量子情報処理で頻繁に使用される演算である。 本稿では,固体ビットとフライングビット間の高忠実かつ制御可能な量子クローニング手法を提案する。 非閉定理と弱いフォノン-光子相互作用の障害を克服するために, 散逸の存在下での駆動パルスの設計により, 理論的最適限界に閉じた確率的クローニングと決定論的クローニングの両方を行うハイブリッド光機械システムを提案する。 さらに, 入力レーザーパルスを単純に変化させることで, 2つのクローニング法,すなわち確率的および決定論的クローニング法を高精度に切り替えることができる。 これは実験実行可能性のための有望なプラットフォームを提供する。

Quantum cloning is an essential operation in quantum information and quantum computing. Similar to the `copy' operation in classical computing, the cloning of flying bits for further processing from the solid-state quantum bits in storage is an operation frequently used in quantum information processing. Here we propose a high-fidelity and controllable quantum cloning scheme between solid bits and flying bits. In order to overcome the obstacles from the no-cloning theorem and the weak phonon-photon interaction, we introduce a hybrid optomechanical system that performs both the probabilistic cloning and deterministic cloning closed to the theoretical optimal limit with the help of designed driving pulse in the presence of dissipation. In addition, our scheme allows a highly tunable switching between two cloning methods, namely the probabilistic and deterministic cloning, by simply changing the input laser pulse. This provides a promising platform for experimental executability.
翻訳日:2023-02-14 19:19:44 公開日:2023-02-11
# 時間知識グラフのためのメタラーニングに基づく知識外挿

Meta-Learning Based Knowledge Extrapolation for Temporal Knowledge Graph ( http://arxiv.org/abs/2302.05640v1 )

ライセンス: Link先を確認
Zhongwu Chen and Chengjin Xu and Fenglong Su and Zhen Huang and You Dou(参考訳) ここ数年、エンティティや関係の埋め込みを学習することで知識グラフ(KG)を補完するソリューションが注目されている。 時間的KG(TKGs)は、静的トリプルとタイムスタンプを関連付けることで従来の知識グラフ(KGs)を拡張する。 トランスダクティブ・セッティングにおけるKGやTKGと異なり、不完全なTKGにおける常に出現する実体や関係は、未知のコンポーネントで行方不明な事実を予測する需要を生み出す。 従来の時間的知識グラフ埋め込み(TKGE)法は、固定されたコンポーネントセット内で訓練されるため、外挿条件で制限される。 本稿では,既存のtkgからサンプリングされたリンク予測タスクに基づいて学習し,未知の実体と関係を持つ新興tkgでテストを行うメタラーニング型時間知識グラフ外挿(mtkge)モデルを提案する。 具体的には、相対的な位置パターンと時間的シーケンスパターンを関連付けるGNNフレームワークをメタトレーニングする。 学習したパターンの埋め込みは、見えないコンポーネントを埋め込むために転送できる。 2つの異なるTKG外挿データセットの実験結果から、MTKGEは知識グラフ外挿のための既存の最先端モデルと、特に適応されたKGEとTKGEベースラインの両方を一貫して上回ります。

In the last few years, the solution to Knowledge Graph (KG) completion via learning embeddings of entities and relations has attracted a surge of interest. Temporal KGs(TKGs) extend traditional Knowledge Graphs (KGs) by associating static triples with timestamps forming quadruples. Different from KGs and TKGs in the transductive setting, constantly emerging entities and relations in incomplete TKGs create demand to predict missing facts with unseen components, which is the extrapolation setting. Traditional temporal knowledge graph embedding (TKGE) methods are limited in the extrapolation setting since they are trained within a fixed set of components. In this paper, we propose a Meta-Learning based Temporal Knowledge Graph Extrapolation (MTKGE) model, which is trained on link prediction tasks sampled from the existing TKGs and tested in the emerging TKGs with unseen entities and relations. Specifically, we meta-train a GNN framework that captures relative position patterns and temporal sequence patterns between relations. The learned embeddings of patterns can be transferred to embed unseen components. Experimental results on two different TKG extrapolation datasets show that MTKGE consistently outperforms both the existing state-of-the-art models for knowledge graph extrapolation and specifically adapted KGE and TKGE baselines.
翻訳日:2023-02-14 19:19:29 公開日:2023-02-11
# 場理論に基づく相対論的量子情報に向けて

Towards a Field-Theory based Relativistic Quantum Information ( http://arxiv.org/abs/2302.05638v1 )

ライセンス: Link先を確認
Charis Anastopoulos, Bei-Lok Hu and Konstantina Savvidou(参考訳) 本稿では,量子場の不等時相関関数の観点から,相対論的システムにおける量子情報概念の開発プログラムを提案する。 我々は、さらなる発展の基盤となる2つの形式主義を採用している。 一 量子場測定のための量子時間確率法及び量子時間確率法 (ii)因果時間発展のための閉時間経路形式(ctp) 本稿では,QTPの主な概念を提示し,それがCTP形式とどのように関係しているかを示し,経路積分の観点で測定理論の概念を表現できるようにする。 また、このプログラムと非平衡量子場理論の多くの関連性を示す。 詳細は著者による最近の論文(arxiv:2208.03696)で確認できる。

We present our program for the development of quantum informational concepts in relativistic systems in terms of the unequal-time correlation functions of quantum fields. We employ two formalisms that provide the basis for further developments. (i) The Quantum Temporal Probabilities (QTP) Method for quantum field measurements and (ii) the Closed- Time-Path (CTP) formalism for causal time evolutions. We present the main ideas of QTP and show how it relates to the CTP formalism, allowing one to express concepts of measurement theory in terms of path-integrals. We also present many links of our program to non-equilibrium quantum field theories. Details can be found in a recent paper by the authors (arxiv:2208.03696).
翻訳日:2023-02-14 19:19:06 公開日:2023-02-11
# 物体検出のための二重関係知識蒸留

Dual Relation Knowledge Distillation for Object Detection ( http://arxiv.org/abs/2302.05637v1 )

ライセンス: Link先を確認
Zhenliang Ni, Fukui Yang, Shengzhao Wen, Gang Zhang(参考訳) 知識蒸留はモデル圧縮に有効な方法である。 しかし,検出課題に知識蒸留を適用することは依然として難しい課題である。 検出タスクの蒸留性能が劣る2つのキーポイントがある。 ひとつはフォアグラウンドとバックグラウンド機能の深刻な不均衡です。もうひとつは、小さなオブジェクトには十分な機能表現が欠けていることです。 上記の課題を解決するために, 画素ワイドな関係蒸留とインスタンスワイドな関係蒸留を含む, 二重関係知識蒸留(DRKD)と呼ばれる新しい蒸留法を提案し, 画素ワイドな関係蒸留はグラフ空間に画素ワイドな特徴を埋め込み, グラフ畳み込みを用いてグローバルな関係を捉える。 大域的画素関係を蒸留することで、学生検出器は前景と背景特徴の関係を学習でき、特徴不均衡問題を直接蒸留する難しさを避けることができる。 これにより、異なるインスタンスの類似度を計算して関係行列を得る、インスタンス回り関係蒸留が設計される。 より重要なことに、関係フィルタモジュールは価値あるインスタンス関係を強調するように設計されており、提案する二重関係知識蒸留は一般的であり、1段階と2段階の両方の検出器に容易に適用できる。 提案手法では,ResNet50に基づく高速R-CNNを38.4\%から41.6\%mAPに改善し,ResNet50に基づくRetinaNetを37.4%から40.3%mAPに改善した。

Knowledge distillation is an effective method for model compression. However, it is still a challenging topic to apply knowledge distillation to detection tasks. There are two key points resulting poor distillation performance for detection tasks. One is the serious imbalance between foreground and background features, another one is that small object lacks enough feature representation. To solve the above issues, we propose a new distillation method named dual relation knowledge distillation (DRKD), including pixel-wise relation distillation and instance-wise relation distillation.The pixel-wise relation distillation embeds pixel-wise features in the graph space and applies graph convolution to capture the global pixel relation. By distilling the global pixel relation, the student detector can learn the relation between foreground and background features, avoid the difficulty of distilling feature directly for feature imbalance issue.Besides, we find that instance-wise relation supplements valuable knowledge beyond independent features for small objects. Thus, the instance-wise relation distillation is designed, which calculates the similarity of different instances to obtain a relation matrix. More importantly, a relation filter module is designed to highlight valuable instance relations.The proposed dual relation knowledge distillation is general and can be easily applied for both one-stage and two-stage detectors. Our method achieves state-of-the-art performance, which improves Faster R-CNN based on ResNet50 from 38.4\% to 41.6\% mAP and improves RetinaNet based on ResNet50 from 37.4% to 40.3% mAP on COCO 2017.
翻訳日:2023-02-14 19:18:58 公開日:2023-02-11
# 操作レベルプログレッシブ・差別化可能なアーキテクチャ探索

Operation-level Progressive Differentiable Architecture Search ( http://arxiv.org/abs/2302.05632v1 )

ライセンス: Link先を確認
Xunyu Zhu, Jian Li, Yong Liu, Weiping Wang(参考訳) 差別化可能なニューラルネットワーク検索(darts)は、高い検索効率と計算コストの低さから、ニューラルネットワーク検索(nas)メソッドでますます人気が高まっている。 しかし、DARTSの安定性は非常に劣る、特に性能の低下につながる接続アグリゲーションをスキップする。 既存のメソッドではhessian eigenvaluesを使ってスキップ接続のアグリゲーションを緩和しているが、dartはより良いパフォーマンスでアーキテクチャを探索できない。 本稿では,接続アグリゲーションのスキップを回避し,より優れたアーキテクチャを同時に探索するための操作レベルプログレッシブ・差別化ニューラルネットワーク探索(OPP-DARTS)を提案する。 まず,探索段階において探索過程を複数の段階に分割し,各段階の開始時に段階的に候補操作を探索空間に拡大する。 他の操作に対するスキップ接続の固有の不公平な利点をオフにすることで、dartの検索フェーズにおける操作間の不公平な競合を効果的に軽減することができる。 さらに、運用間の競合を比較的公平に保ち、スーパーネットのトレーニング損失を最大化する候補操作セットから操作を選択する。 実験の結果,本手法は効率的かつ効率的であることが判明した。 CIFAR-10における本手法の性能は標準DARTSよりも優れており,本手法の転送性も標準DARTSを上回っている。 さらに,S2,S3,S4の3つの単純な探索空間において,本手法のロバスト性を示すとともに,本手法が標準DARTSよりもロバストであることを示す。 私たちのコードはhttps://github.com/zxunyu/OPP-DARTS.comで利用可能です。

Differentiable Neural Architecture Search (DARTS) is becoming more and more popular among Neural Architecture Search (NAS) methods because of its high search efficiency and low compute cost. However, the stability of DARTS is very inferior, especially skip connections aggregation that leads to performance collapse. Though existing methods leverage Hessian eigenvalues to alleviate skip connections aggregation, they make DARTS unable to explore architectures with better performance. In the paper, we propose operation-level progressive differentiable neural architecture search (OPP-DARTS) to avoid skip connections aggregation and explore better architectures simultaneously. We first divide the search process into several stages during the search phase and increase candidate operations into the search space progressively at the beginning of each stage. It can effectively alleviate the unfair competition between operations during the search phase of DARTS by offsetting the inherent unfair advantage of the skip connection over other operations. Besides, to keep the competition between operations relatively fair and select the operation from the candidate operations set that makes training loss of the supernet largest. The experiment results indicate that our method is effective and efficient. Our method's performance on CIFAR-10 is superior to the architecture found by standard DARTS, and the transferability of our method also surpasses standard DARTS. We further demonstrate the robustness of our method on three simple search spaces, i.e., S2, S3, S4, and the results show us that our method is more robust than standard DARTS. Our code is available at https://github.com/zxunyu/OPP-DARTS.
翻訳日:2023-02-14 19:18:31 公開日:2023-02-11
# HateProof:Hateful Meme Detection Systemsは本当にロバストか?

HateProof: Are Hateful Meme Detection Systems really Robust? ( http://arxiv.org/abs/2302.05703v1 )

ライセンス: Link先を確認
Piush Aggarwal, Pranit Chawla, Mithun Das, Punyajoy Saha, Binny Mathew, Torsten Zesch, Animesh Mukherjee(参考訳) ソーシャルメディアを利用して憎しみを広めることは、ここ数年で著しく増加している。 近年、ミームのようなマルチモーダルなヘイトフルコンテンツはユニモーダルコンテンツよりも比較的トラクションが高い。 さらに、暗黙のコンテンツペイロードが利用できるため、既存のヘイトフルミーム検出システムで検出することがかなり難しい。 本稿では,このようなシステムの外部攻撃に対する脆弱性を分析するためのユースケーススタディを提案する。 モデルに関する知識がほとんどない人間による一様および多様の環境における非常に単純な摂動でさえ、既存の検出モデルを非常に脆弱にすることができる。 経験的には、特定の攻撃に対するマクロF1スコアの最大10%のパフォーマンス低下が顕著である。 改善策として,コントラスト学習によるモデルの堅牢性向上と,対向的なトレーニングベースの手法であるvillaを試みている。 上述の2つのアプローチのアンサンブルを使って、高解像度のデータセットの2つを使って、特定の攻撃に対してパフォーマンスを大々的に取り戻すことができます。 当社は、この重要な問題を敵対的な状況で解決するための第一歩であり、今後このような調査をさらに刺激するものだと考えています。

Exploiting social media to spread hate has tremendously increased over the years. Lately, multi-modal hateful content such as memes has drawn relatively more traction than uni-modal content. Moreover, the availability of implicit content payloads makes them fairly challenging to be detected by existing hateful meme detection systems. In this paper, we present a use case study to analyze such systems' vulnerabilities against external adversarial attacks. We find that even very simple perturbations in uni-modal and multi-modal settings performed by humans with little knowledge about the model can make the existing detection models highly vulnerable. Empirically, we find a noticeable performance drop of as high as 10% in the macro-F1 score for certain attacks. As a remedy, we attempt to boost the model's robustness using contrastive learning as well as an adversarial training-based method - VILLA. Using an ensemble of the above two approaches, in two of our high resolution datasets, we are able to (re)gain back the performance to a large extent for certain attacks. We believe that ours is a first step toward addressing this crucial problem in an adversarial setting and would inspire more such investigations in the future.
翻訳日:2023-02-14 19:12:15 公開日:2023-02-11
# data-scarce病院における医療知識誘導型協調学習による異所間早期敗血症認識

Cross-center Early Sepsis Recognition by Medical Knowledge Guided Collaborative Learning for Data-scarce Hospitals ( http://arxiv.org/abs/2302.05702v1 )

ライセンス: Link先を確認
Ruiqing Ding, Fangjie Rong, Xiao Han, Leye Wang(参考訳) 世界中の医療資源にかなりの地域的不平等がある。 医療機関間での知識共有を通じて、データ収集病院の医療サービスの改善や健康エクイティの促進に最も焦点を絞ったトピックの1つとなっている。 電子カルテ(EMR)には機密情報が含まれているため、プライバシー保護は避けられず、多施設共同作業には不可欠である。 本稿では,ICU患者に共通する疾患である敗血症に対して,この疾患を早期に認識するために,医療知識であるSofaNetを指導する新たなクロスセンター協調学習フレームワークを提案する。 2016年に発表されたSepsis-3ガイドラインは、感染症の疑いとSOFA(Sequential Organ Failure Assessment)の双方を満足させることで、敗血症を診断できると定義している。 この知識に基づいて、 sofanet は異なるシステムの sofa 値を予測するためにマルチチャネル gru 構造を採用しており、これは敗血症認識のためのより良い健康状態表現を生成する補助タスクと見なすことができる。 さらに,クロスセンター協調学習における隠れ空間における特徴分布のアライメントのみを実現し,生データ交換を必要とせず,安全かつ適合した知識伝達を実現する。 MIMIC-IIIとChallengeの2つのオープンな臨床データセットに対する大規模な実験は、病院が限られたEMRしか持たない場合、SofaNetが早期の敗血症認識に有効であることを示した。

There are significant regional inequities in health resources around the world. It has become one of the most focused topics to improve health services for data-scarce hospitals and promote health equity through knowledge sharing among medical institutions. Because electronic medical records (EMRs) contain sensitive personal information, privacy protection is unavoidable and essential for multi-hospital collaboration. In this paper, for a common disease in ICU patients, sepsis, we propose a novel cross-center collaborative learning framework guided by medical knowledge, SofaNet, to achieve early recognition of this disease. The Sepsis-3 guideline, published in 2016, defines that sepsis can be diagnosed by satisfying both suspicion of infection and Sequential Organ Failure Assessment (SOFA) greater than or equal to 2. Based on this knowledge, SofaNet adopts a multi-channel GRU structure to predict SOFA values of different systems, which can be seen as an auxiliary task to generate better health status representations for sepsis recognition. Moreover, we only achieve feature distribution alignment in the hidden space during cross-center collaborative learning, which ensures secure and compliant knowledge transfer without raw data exchange. Extensive experiments on two open clinical datasets, MIMIC-III and Challenge, demonstrate that SofaNet can benefit early sepsis recognition when hospitals only have limited EMRs.
翻訳日:2023-02-14 19:11:55 公開日:2023-02-11
# インコンテキスト学習のための構成例

Compositional Exemplars for In-context Learning ( http://arxiv.org/abs/2302.05698v1 )

ライセンス: Link先を確認
Jiacheng Ye, Zhiyong Wu, Jiangtao Feng, Tao Yu, Lingpeng Kong(参考訳) 大規模な事前訓練された言語モデル(LM)は、パラメータ更新なしでインプット・アウトプット・サンプルからなるプロンプトを通じて、目に見えないタスクを学習するインコンテキスト・ラーニング(ICL)能力を示す。 ICLの性能は、選択したインコンテキストの例の品質に大きく左右される。 しかし、従来の選択法は主に単純なヒューリスティックに基づいているため、準最適性能が得られる。 本研究では,文中の例選択を部分集合選択問題として定式化する。 提案するCEIL(Compositional Exemplars for In-context Learning)は,所与のインプットとインコンテクストの相互作用をモデル化するためにDPP(Determinantal Point Processes)によってインスタンス化され,慎重に設計されたコントラスト学習の目的を通じて最適化され,LMから好みを得る。 我々は、感情分析、パラフローズ検出、自然言語推論、常識推論、オープンドメイン質問応答、コード生成、意味解析を含む7つの異なるnlpタスクから12の分類と生成データセットを検証する。 広汎な実験は、最先端の性能だけでなく、CEILの伝達性や構成性も示しており、効果的で効率的なインコンテキスト学習に新たな光を当てている。 私たちのコードはhttps://github.com/hkunlp/icl-ceilでリリースしています。

Large pretrained language models (LMs) have shown impressive In-Context Learning (ICL) ability, where the model learns to do an unseen task via a prompt consisting of input-output examples as the demonstration, without any parameter updates. The performance of ICL is highly dominated by the quality of the selected in-context examples. However, previous selection methods are mostly based on simple heuristics, leading to sub-optimal performance. In this work, we formulate in-context example selection as a subset selection problem. We propose CEIL(Compositional Exemplars for In-context Learning), which is instantiated by Determinantal Point Processes (DPPs) to model the interaction between the given input and in-context examples, and optimized through a carefully-designed contrastive learning objective to obtain preference from LMs. We validate CEIL on 12 classification and generation datasets from 7 distinct NLP tasks, including sentiment analysis, paraphrase detection, natural language inference, commonsense reasoning, open-domain question answering, code generation, and semantic parsing. Extensive experiments demonstrate not only the state-of-the-art performance but also the transferability and compositionality of CEIL, shedding new light on effective and efficient in-context learning. Our code is released at https://github.com/HKUNLP/icl-ceil.
翻訳日:2023-02-14 19:11:31 公開日:2023-02-11
# U統計量の高次元収束理論とカーネルベーステストへの応用

A High-dimensional Convergence Theorem for U-statistics with Applications to Kernel-based Testing ( http://arxiv.org/abs/2302.05686v1 )

ライセンス: Link先を確認
Kevin H. Huang, Xing Liu, Andrew B. Duncan, Axel Gandy(参考訳) 次数2のU-統計量に対して収束定理を証明し、データ次元$d$はサンプルサイズ$n$でスケールすることができる。 U-統計量の極限分布は、非退化ガウス極限から退化極限への位相遷移を、その縮退性によらず、モーメント比のみに依存する。 驚くべき結果として、高次元の非退化 u-統計量はより大きい分散と非対称分布を持つ非ガウス極限を持つことができる。 我々の境界は有限の n$ と $d$ に対して有効であり、基底関数の個々の固有値とは独立であり、穏やかな仮定の下で次元非依存である。 その結果,高次元性能の研究が困難であった2つのカーネルベース分布試験(mmdとksd)に本理論を適用した。 簡単な経験的設定では、固定しきい値におけるテストパワーが$d$と帯域幅でどのようにスケールするかを正確に予測する。

We prove a convergence theorem for U-statistics of degree two, where the data dimension $d$ is allowed to scale with sample size $n$. We find that the limiting distribution of a U-statistic undergoes a phase transition from the non-degenerate Gaussian limit to the degenerate limit, regardless of its degeneracy and depending only on a moment ratio. A surprising consequence is that a non-degenerate U-statistic in high dimensions can have a non-Gaussian limit with a larger variance and asymmetric distribution. Our bounds are valid for any finite $n$ and $d$, independent of individual eigenvalues of the underlying function, and dimension-independent under a mild assumption. As an application, we apply our theory to two popular kernel-based distribution tests, MMD and KSD, whose high-dimensional performance has been challenging to study. In a simple empirical setting, our results correctly predict how the test power at a fixed threshold scales with $d$ and the bandwidth.
翻訳日:2023-02-14 19:11:04 公開日:2023-02-11
# 原因推定のための系列不特定機器選択

Sequential Underspecified Instrument Selection for Cause-Effect Estimation ( http://arxiv.org/abs/2302.05684v1 )

ライセンス: Link先を確認
Elisabeth Ailer, Jason Hartford, Niki Kilbertus(参考訳) インストゥルメンタル変数(iv)メソッドは、観察されていないコンファウンディングのある設定で因果効果を推定するために使用され、そこでは治療変数を直接実験することはできない。 機器は、処理変数(s)を介して間接的に結果にのみ影響を及ぼす変数である。 IV のほとんどの応用は低次元の治療に焦点をあてており、治療に最低でも多くの器具を必要とする。 この仮定は制限的であり、自然科学では、高次元治療(例えば、遺伝子発現や微生物が健康や病気に与える影響)の因果効果を推し進めるが、限られた数の機器(例えば、薬物や抗生物質)でのみ実験を行うことができる。 このような不特定な問題では、線形の場合でさえ単一の実験では完全な治療効果は特定できない。 測定器のサブスペースへの処理効果の投射を確実に再現できることを示し、異なる機器集合からのそのような部分的推定を一貫して組み合わせる手法を開発した。 次に,各実験でもっとも有意義な手段を反復的に提案するアルゴリズムを用いて,総合的な因果効果に関する情報を最大化する。

Instrumental variable (IV) methods are used to estimate causal effects in settings with unobserved confounding, where we cannot directly experiment on the treatment variable. Instruments are variables which only affect the outcome indirectly via the treatment variable(s). Most IV applications focus on low-dimensional treatments and crucially require at least as many instruments as treatments. This assumption is restrictive: in the natural sciences we often seek to infer causal effects of high-dimensional treatments (e.g., the effect of gene expressions or microbiota on health and disease), but can only run few experiments with a limited number of instruments (e.g., drugs or antibiotics). In such underspecified problems, the full treatment effect is not identifiable in a single experiment even in the linear case. We show that one can still reliably recover the projection of the treatment effect onto the instrumented subspace and develop techniques to consistently combine such partial estimates from different sets of instruments. We then leverage our combined estimators in an algorithm that iteratively proposes the most informative instruments at each round of experimentation to maximize the overall information about the full causal effect.
翻訳日:2023-02-14 19:10:47 公開日:2023-02-11
# Catalyst:大規模生成モデルを用いたタスクプロクラッション防止のためのドメイン拡張インターベンション

CatAlyst: Domain-Extensible Intervention for Preventing Task Procrastination Using Large Generative Models ( http://arxiv.org/abs/2302.05678v1 )

ライセンス: Link先を確認
Riku Arakawa, Hiromu Yakura, Masataka Goto(参考訳) CatAlystは生成モデルを使用して、タスクのアウトプットに直接貢献するのではなく、タスクのエンゲージメントに影響を与えることで、作業の進捗を支援する。 作業の継続を生成し、従来の(事前決定された)フィードバックよりもコンテキストを意識した介入として提示することで、作業の再開を促す。 このプロンプトは、生成した継続が不十分な場合でも、興味を引いたり、再消費のハードルを下げて仕事を置き換えることによって機能するが、近年の人間とAIのコラボレーション研究は、高い精度で行われている。 これによりCatAlystはドメイン固有のモデルチューニングから解放され、様々なタスクに適用できる。 筆者らの研究は,作業者の認知負荷を低減したタスクを迅速に再開する上で,CatAlystの有効性を実証した。 これらの結果から,大規模な生成モデルが公開されているが,各ドメインに不完全であり,労働者のデジタル幸福に寄与する新たな形態の人間とAIのコラボレーションが示唆された。

CatAlyst uses generative models to help workers' progress by influencing their task engagement instead of directly contributing to their task outputs. It prompts distracted workers to resume their tasks by generating a continuation of their work and presenting it as an intervention that is more context-aware than conventional (predetermined) feedback. The prompt can function by drawing their interest and lowering the hurdle for resumption even when the generated continuation is insufficient to substitute their work, while recent human-AI collaboration research aiming at work substitution depends on a stable high accuracy. This frees CatAlyst from domain-specific model-tuning and makes it applicable to various tasks. Our studies involving writing and slide-editing tasks demonstrated CatAlyst's effectiveness in helping workers swiftly resume tasks with a lowered cognitive load. The results suggest a new form of human-AI collaboration where large generative models publicly available but imperfect for each individual domain can contribute to workers' digital well-being.
翻訳日:2023-02-14 19:10:27 公開日:2023-02-11
# 医療連携ネットワークのための表現蒸留による垂直連系知識伝達

Vertical Federated Knowledge Transfer via Representation Distillation for Healthcare Collaboration Networks ( http://arxiv.org/abs/2302.05675v1 )

ライセンス: Link先を確認
Chung-ju Huang and Leye Wang and Xiao Han(参考訳) 医療機関間のコラボレーションは、様々な地域にわたる医療資源の不均衡を著しく軽減することができる。 しかし、患者の高感度プライバシーの保護のため、組織間で診断情報を直接共有することは一般的には許されない。 新たなプライバシ保存機械学習パラダイムとして、フェデレーション学習(fl)は、複数の医療機関間でのデータユーティリティを最大化可能にする。 これらの特徴強化FL技術は垂直FL(VFL)と呼ばれる。 従来のvflは、マルチパートの共有サンプルにのみメリットがあるため、アプリケーションのスコープが強く制限される。 医療関連機関の情報共有能力と革新性を向上し,次世代のオープン医療連携ネットワークを構築するために,新たなクロスホスピタルな表現蒸留コンポーネントをベースとした,垂直統合知識伝達機構(VFedTrans)の統一フレームワークを提案する。 具体的には、フレームワークには3つのステップがあります。 まず、多人数共同特徴と現在の効率的な垂直表現学習手法を協調的にモデル化することにより、共有サンプルのフェデレーション表現を抽出する。 第二に、各病院において、局所表現蒸留モジュールを学習し、共有サンプルの連合表現から知識を伝達し、局所サンプルの表現を豊かにすることができる。 最後に、各病院は蒸留モジュールによって強化されたローカルサンプルの表現を利用して、任意の下流機械学習タスクを増強することができる。 実生活医療データセットに関する実験は,このフレームワークの知識伝達効率を検証する。

Collaboration between healthcare institutions can significantly lessen the imbalance in medical resources across various geographic areas. However, directly sharing diagnostic information between institutions is typically not permitted due to the protection of patients' highly sensitive privacy. As a novel privacy-preserving machine learning paradigm, federated learning (FL) makes it possible to maximize the data utility among multiple medical institutions. These feature-enrichment FL techniques are referred to as vertical FL (VFL). Traditional VFL can only benefit multi-parties' shared samples, which strongly restricts its application scope. In order to improve the information-sharing capability and innovation of various healthcare-related institutions, and then to establish a next-generation open medical collaboration network, we propose a unified framework for vertical federated knowledge transfer mechanism (VFedTrans) based on a novel cross-hospital representation distillation component. Specifically, our framework includes three steps. First, shared samples' federated representations are extracted by collaboratively modeling multi-parties' joint features with current efficient vertical federated representation learning methods. Second, for each hospital, we learn a local-representation-distilled module, which can transfer the knowledge from shared samples' federated representations to enrich local samples' representations. Finally, each hospital can leverage local samples' representations enriched by the distillation module to boost arbitrary downstream machine learning tasks. The experiments on real-life medical datasets verify the knowledge transfer effectiveness of our framework.
翻訳日:2023-02-14 19:10:08 公開日:2023-02-11
# Counter-GAP: 性別不明瞭な名詞による非現実的バイアス評価

Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous Pronouns ( http://arxiv.org/abs/2302.05674v1 )

ライセンス: Link先を確認
Zhongbin Xie, Vid Kocijan, Thomas Lukasiewicz, Oana-Maria Camburu(参考訳) バイアス測定データセットは、言語モデルのバイアス行動の検出やバイアス緩和手法の進捗評価において重要な役割を果たす。 本研究では,従来のデータセットを手作りするか,明確に定義されたバイアスを確実に測定できないかのどちらかで,性別バイアスの評価に焦点をあてる。 これらの欠点を克服するために,対数生成による多様,自然,極小のテキストペアを収集し,4008のインスタンスを1002の4つに分類した注釈付きデータセットであるcounter-gapを構築する新しい手法を提案する。 さらに,カウンターGAPの過去のグループレベルの指標におけるバイアスキャンセル問題を特定し,男女間の不整合の差を利用して4倍のバイアスを測定することを提案する。 その結果,4つの事前学習された言語モデルは,グループ毎に異なる性別群間で矛盾する傾向がみられ,匿名化に基づく手法よりも,名前に基づく反実データ拡張法の方が有効であることが示唆された。

Bias-measuring datasets play a critical role in detecting biased behavior of language models and in evaluating progress of bias mitigation methods. In this work, we focus on evaluating gender bias through coreference resolution, where previous datasets are either hand-crafted or fail to reliably measure an explicitly defined bias. To overcome these shortcomings, we propose a novel method to collect diverse, natural, and minimally distant text pairs via counterfactual generation, and construct Counter-GAP, an annotated dataset consisting of 4008 instances grouped into 1002 quadruples. We further identify a bias cancellation problem in previous group-level metrics on Counter-GAP, and propose to use the difference between inconsistency across genders and within genders to measure bias at a quadruple level. Our results show that four pre-trained language models are significantly more inconsistent across different gender groups than within each group, and that a name-based counterfactual data augmentation method is more effective to mitigate such bias than an anonymization-based method.
翻訳日:2023-02-14 19:09:46 公開日:2023-02-11
# コンマ:無人車両再識別のためのコンターガイドMAE

ConMAE: Contour Guided MAE for Unsupervised Vehicle Re-Identification ( http://arxiv.org/abs/2302.05673v1 )

ライセンス: Link先を確認
Jing Yang, Jianwu Fang, and Hongke Xu(参考訳) 車両再識別は、異なる視点から同一の車両をマッチングすることで、クロスビュー検索タスクである。 道路と車両の協調とインテリジェントな道路制御において重要な役割を担っている。 大規模かつ動的な道路環境において、車両再識別のパラダイムは、大規模な注釈付きデータセットに大きく依存するため、限られたスケーラビリティを示す。 そのため、より強固なクロスシーン一般化能力を持つ教師なし車両の再識別が注目されている。 自己教師付き学習において,Masked Autoencoder (MAE) が優れた性能を示したことを考えると,この研究は,情報的輪郭手がかりを抽出し,クロスビュー相関のために重要な領域をハイライトするContour Guided Masked Autoencoder (ConMAE) を設計した。 ConMAEは、画像ブロックを輪郭画素で保存し、スムーズなテクスチャでランダムにマスキングすることで実装される。 また,教師なし再識別のための擬似ラベルの品質を向上させるため,ラベル軟化戦略を設計,訓練ステップの増加とともにラベルを適応的に更新する。 我々は,VeRi-776とVaviIDデータセットの実験を行い,最先端の無人車両再識別手法との比較により,大幅な性能向上が得られた。 コードはhttps://github.com/2020132075/conmae.comのウェブサイトで入手できる。

Vehicle re-identification is a cross-view search task by matching the same target vehicle from different perspectives. It serves an important role in road-vehicle collaboration and intelligent road control. With the large-scale and dynamic road environment, the paradigm of supervised vehicle re-identification shows limited scalability because of the heavy reliance on large-scale annotated datasets. Therefore, the unsupervised vehicle re-identification with stronger cross-scene generalization ability has attracted more attention. Considering that Masked Autoencoder (MAE) has shown excellent performance in self-supervised learning, this work designs a Contour Guided Masked Autoencoder for Unsupervised Vehicle Re-Identification (ConMAE), which is inspired by extracting the informative contour clue to highlight the key regions for cross-view correlation. ConMAE is implemented by preserving the image blocks with contour pixels and randomly masking the blocks with smooth textures. In addition, to improve the quality of pseudo labels of vehicles for unsupervised re-identification, we design a label softening strategy and adaptively update the label with the increase of training steps. We carry out experiments on VeRi-776 and VehicleID datasets, and a significant performance improvement is obtained by the comparison with the state-of-the-art unsupervised vehicle re-identification methods. The code is available on the website of https://github.com/2020132075/ConMAE.
翻訳日:2023-02-14 19:09:24 公開日:2023-02-11
# 分子偏光子のフェムト秒光物理

Femtosecond Photophysics of Molecular Polaritons ( http://arxiv.org/abs/2302.05670v1 )

ライセンス: Link先を確認
Francesca Fassioli, Kyu Hyung Park, Sarah E. Bard, Gregory D. Scholes(参考訳) 分子ポラリトン(英: molecular polaritons)は、分子が光と強く相互作用するときに形成される光子と分子のハイブリッド状態である。 強いカップリングはエネルギーレベルを調整し、重要なことは、新しい偏光子化学の道を開く分子特性(例えば光反応速度)を変更することができる。 この観点からは, 強結合分子系の集合的側面と, 偏光子形成下での修飾関数の達成に重要な役割を担っている, 系の動的応答との関連性に焦点が当てられているが, 未だよく理解されていない。 超高速時間とスペクトル分解能によってポンププローブ分光法は、ポーラリトン状態から他の分子状態へのエネルギー移動経路を明らかにするのに理想的なツールとなるかについて議論する。 最後に, 分子偏光子系における自由(電子的ではなく)エネルギー構造の解析が, エネルギーの流れの新たな手がかりとなりうること, 強結合がいかに活用されるかを示す。

Molecular polaritons are hybrid states of photonic and molecular character that form when molecules strongly interact with light. Strong coupling tunes energy levels and importantly, can modify molecular properties (e.g. photoreaction rates) opening an avenue for novel polariton chemistry. In this perspective, we focus on the collective aspects of strongly coupled molecular systems and how this pertains to the dynamical response of such systems, which though of key importance for attaining modified function under polariton formation, is still not well understood. We discuss how the ultrafast time and spectral resolution make pump-probe spectroscopy an ideal tool to reveal the energy transfer pathways from polariton states to other molecular states of functional interest. Finally, we illustrate how analyzing the free (rather than electronic) energy structure in molecular polariton systems may provide new clues into how energy flows and thus how strong coupling may be exploited.
翻訳日:2023-02-14 19:09:00 公開日:2023-02-11
# LawGPT 1.0: GPT-3に基づく仮想法的アシスタント

A Brief Report on LawGPT 1.0: A Virtual Legal Assistant Based on GPT-3 ( http://arxiv.org/abs/2302.05729v1 )

ライセンス: Link先を確認
Ha-Thanh Nguyen(参考訳) LawGPT 1.0は、最先端の言語モデルであるGPT-3上に構築された仮想法定アシスタントである。 このシステムは、ユーザーに対して法的支援を行い、法的質問への回答、法的文書の作成、法的アドバイスの提供などのタスクを支援するように設計されている。 本稿では,lawgpt 1.0の概要,そのアーキテクチャ,および一連の法的なベンチマークタスクにおける性能について述べる。 モデルの詳細情報は、非開示契約(NDA)で保護されており、この報告では開示できないことに留意してください。

LawGPT 1.0 is a virtual legal assistant built on the state-of-the-art language model GPT-3, fine-tuned for the legal domain. The system is designed to provide legal assistance to users in a conversational manner, helping them with tasks such as answering legal questions, generating legal documents, and providing legal advice. In this paper, we provide a brief overview of LawGPT 1.0, its architecture, and its performance on a set of legal benchmark tasks. Please note that the detailed information about the model is protected by a non-disclosure agreement (NDA) and cannot be disclosed in this report.
翻訳日:2023-02-14 19:02:17 公開日:2023-02-11
# マルウェア分類のためのシーケンシャル・エンベディング・ベース・アテンテーティブ(SEA)分類器

Sequential Embedding-based Attentive (SEA) classifier for malware classification ( http://arxiv.org/abs/2302.05728v1 )

ライセンス: Link先を確認
Muhammad Ahmed, Anam Qureshi, Jawwad Ahmed Shamsi, Murk Marvi(参考訳) スマートデバイスの急速な成長は、いくつかのセキュリティ脅威を高めた。 最も顕著な脅威の1つはマルウェアとして知られる悪意のあるソフトウェアである。 マルウェアはデバイスを破壊し、ネットワーク全体を崩壊させる能力を持つ。 そのため、破滅的な影響を避けるためには早期発見と緩和が極めて重要である。 本研究では,最先端自然言語処理(NLP)技術を用いたマルウェア検出手法を考案した。 当社の主な焦点は,リソース制約デバイスやリソースフルマシンなど,異種デバイスで使用可能なマルウェア検出のための軽量かつ効果的な分類器を提供することです。 提案モデルでは,それぞれ99.13パーセント,0.04パーセントの精度とログ損失スコアをベンチマークデータセットで検証した。

The tremendous growth in smart devices has uplifted several security threats. One of the most prominent threats is malicious software also known as malware. Malware has the capability of corrupting a device and collapsing an entire network. Therefore, its early detection and mitigation are extremely important to avoid catastrophic effects. In this work, we came up with a solution for malware detection using state-of-the-art natural language processing (NLP) techniques. Our main focus is to provide a lightweight yet effective classifier for malware detection which can be used for heterogeneous devices, be it a resource constraint device or a resourceful machine. Our proposed model is tested on the benchmark data set with an accuracy and log loss score of 99.13 percent and 0.04 respectively.
翻訳日:2023-02-14 19:02:06 公開日:2023-02-11
# 視聴覚アダプタを用いたフレキシブルモダルデセプション検出

Flexible-modal Deception Detection with Audio-Visual Adapter ( http://arxiv.org/abs/2302.05727v1 )

ライセンス: Link先を確認
Zhaoxu Li, Zitong Yu, Nithish Muthuchamy Selvaraj, Xiaobao Guo, Bingquan Shen, Adams Wai-Kin Kong, Alex Kot(参考訳) 人間の行動による詐欺の検出は、カスタムセキュリティやマルチメディアアンチフルートなど、多くの分野において不可欠である。 近年,視聴覚の誤認検出が,単一のモダリティのみを使用するよりも優れた性能で注目を集めている。 しかし、現実世界のマルチモーダル設定では、データの完全性が問題になり得る(例えば、部分的モーダルしか利用できない)。 モダリティの欠如はパフォーマンスの低下につながるかもしれないが、モデルはまだモダリティの欠如の特徴を学習している。 本稿では,2つのモードの時間的特徴を効率的に融合させるための,AVA(Audio-Visual Adapter)を用いたトランスフォーマーベースのフレームワークを提案する。 2つのベンチマークデータセットで行った広範囲な実験により、提案手法は他のマルチモーダル融合法と比較して、フレキシブルモーダル(多重および欠落モーダル)設定下で優れた性能が得られることを示した。

Detecting deception by human behaviors is vital in many fields such as custom security and multimedia anti-fraud. Recently, audio-visual deception detection attracts more attention due to its better performance than using only a single modality. However, in real-world multi-modal settings, the integrity of data can be an issue (e.g., sometimes only partial modalities are available). The missing modality might lead to a decrease in performance, but the model still learns the features of the missed modality. In this paper, to further improve the performance and overcome the missing modality problem, we propose a novel Transformer-based framework with an Audio-Visual Adapter (AVA) to fuse temporal features across two modalities efficiently. Extensive experiments conducted on two benchmark datasets demonstrate that the proposed method can achieve superior performance compared with other multi-modal fusion methods under flexible-modal (multiple and missing modalities) settings.
翻訳日:2023-02-14 19:01:58 公開日:2023-02-11
# 境界量子ストレージモデルにおける強力なプリミティブ

Powerful Primitives in the Bounded Quantum Storage Model ( http://arxiv.org/abs/2302.05724v1 )

ライセンス: Link先を確認
Mohammed Barhoush and Louis Salvail(参考訳) 有界量子記憶モデルは、その量子記憶に関してのみ制限される計算上の非有界敵に対するセキュリティを達成することを目的としている。 本研究は,(1) 対称鍵暗号, メッセージ認証, ワンタイムプログラムについて, 永続的かつ情報論的にセキュアな構成を提供することにより, このモデルの有効性を示す。 これらのスキームは、正直なユーザのために量子メモリを必要としないが、任意に大きなメモリを持つ敵に対してセキュアにすることができる。 (2)プログラムブロードキャスト、非対称鍵暗号化、暗号化トークン、署名、署名トークン。 これらのスキームは、約$e^{\sqrt{m}}$量子メモリを持つ敵に対して安全である。 建設物はすべて、消失と不可避のセキュリティの概念を満足している。

The bounded quantum storage model aims to achieve security against computationally unbounded adversaries that are restricted only with respect to their quantum memories. In this work, we show the power of this model by providing everlasting and information-theoretic secure constructions for the following primitives: (1) Symmetric key encryption, message-authentication and one-time programs. These schemes require no quantum memory for the honest user while they can be made secure against adversaries with arbitrarily large memories. (2) Program broadcast, asymmetric key encryption, encryption tokens, signatures, and signature tokens. These schemes are secure against adversaries with roughly $e^{\sqrt{m}}$ quantum memory where $m$ is the quantum memory required of the honest user. All of the constructions additionally satisfy notions of disappearing and unclonable security.
翻訳日:2023-02-14 19:01:42 公開日:2023-02-11
# NLP性能向上のためのヒューマン・ゲイズフィードバックの合成

Synthesizing Human Gaze Feedback for Improved NLP Performance ( http://arxiv.org/abs/2302.05721v1 )

ライセンス: Link先を確認
Varun Khurana, Yaman Kumar Singla, Nora Hollenstein, Rajesh Kumar, Balaji Krishnamurthy(参考訳) モデルに人間のフィードバックを統合することで、自然言語処理(NLP)モデルの性能を向上させることができる。 フィードバックは明示的(例えば、訓練言語モデルで使用されるランク)または暗黙的(例えば、目追跡の形で人間の認知信号を使用する)でもよい。 視線追跡とNLP研究は、人間の視線パターンから切り離された人間のスキャンパスのような認知過程が、NLPモデルの理解と性能に役立つことを明らかにしている。 しかし,NLPタスクの実際の視線追跡データの収集は,プライバシ侵害問題に伴う高価で正確な機器を必要とするため困難である。 この課題に対処するために,テキスト上で人間のスキャンパスを生成する新しいモデルであるScanTextGANを提案する。 ScanTextGANにより生成されたスキャンパスは、人間の視線パターンにおいて有意な認知信号に近似できることを示す。 6つの異なるデータセットにまたがる4つの一般的なNLPタスクに合成生成されたスキャンパスを概念実証として含み、生成されたスキャンパスで拡張されたモデルが、下流のNLPタスクの性能を向上させることを示す。

Integrating human feedback in models can improve the performance of natural language processing (NLP) models. Feedback can be either explicit (e.g. ranking used in training language models) or implicit (e.g. using human cognitive signals in the form of eyetracking). Prior eye tracking and NLP research reveal that cognitive processes, such as human scanpaths, gleaned from human gaze patterns aid in the understanding and performance of NLP models. However, the collection of real eyetracking data for NLP tasks is challenging due to the requirement of expensive and precise equipment coupled with privacy invasion issues. To address this challenge, we propose ScanTextGAN, a novel model for generating human scanpaths over text. We show that ScanTextGAN-generated scanpaths can approximate meaningful cognitive signals in human gaze patterns. We include synthetically generated scanpaths in four popular NLP tasks spanning six different datasets as proof of concept and show that the models augmented with generated scanpaths improve the performance of all downstream NLP tasks.
翻訳日:2023-02-14 19:01:29 公開日:2023-02-11
# 応用による学習:明示的な知識学習の強化による数学的推論の一般的な枠組み

Learning by Applying: A General Framework for Mathematical Reasoning via Enhancing Explicit Knowledge Learning ( http://arxiv.org/abs/2302.05717v1 )

ライセンス: Link先を確認
Jiayu Liu, Zhenya Huang, Chengxiang Zhai, Qi Liu(参考訳) 数学的推論は汎用人工知能の重要な能力の1つであり、機械は問題解決から数学的論理と知識を習得する必要がある。 しかし、既存のアプローチは、知識が学習され、推論プロセスに適用されるかという点で透明ではない(解釈できない)。 本稿では,既存のモデル(バックボーン)を明示的な知識学習によって原則的に拡張する,LeApフレームワークの適用による一般学習を提案する。 leapでは,問題データから知識を取得する知識エンコーダと,表現推論に知識を適用する知識デコーダを備えた,新しい問題知識表現パラダイムで知識学習を行う。 単語関係や語操作関係を含む学習された数学的知識は、有機的に「学習」と「応用」を橋渡しする明示的な知識グラフを形成する。 さらに,問題解決のために,各バックボーンの問題点理解と記号推論能力を改善するための知識を応用した意味論的拡張モジュールと推論拡張モジュールを設計した。 leapの自律学習機構の優位性を理論的に証明する。 3つの実世界のデータセットの実験では、LeApはすべてのバックボーンのパフォーマンスを改善し、正確な知識を学び、より解釈可能な推論プロセスを達成する。

Mathematical reasoning is one of the crucial abilities of general artificial intelligence, which requires machines to master mathematical logic and knowledge from solving problems. However, existing approaches are not transparent (thus not interpretable) in terms of what knowledge has been learned and applied in the reasoning process. In this paper, we propose a general Learning by Applying (LeAp) framework to enhance existing models (backbones) in a principled way by explicit knowledge learning. In LeAp, we perform knowledge learning in a novel problem-knowledge-expression paradigm, with a Knowledge Encoder to acquire knowledge from problem data and a Knowledge Decoder to apply knowledge for expression reasoning. The learned mathematical knowledge, including word-word relations and word-operator relations, forms an explicit knowledge graph, which bridges the knowledge "learning" and "applying" organically. Moreover, for problem solving, we design a semantics-enhanced module and a reasoning-enhanced module that apply knowledge to improve the problem comprehension and symbol reasoning abilities of any backbone, respectively. We theoretically prove the superiority of LeAp's autonomous learning mechanism. Experiments on three real-world datasets show that LeAp improves all backbones' performances, learns accurate knowledge, and achieves a more interpretable reasoning process.
翻訳日:2023-02-14 19:01:13 公開日:2023-02-11
# Fair Enough:NLPにおけるフェアネス研究の標準化とモデル選択

Fair Enough: Standardizing Evaluation and Model Selection for Fairness Research in NLP ( http://arxiv.org/abs/2302.05711v1 )

ライセンス: Link先を確認
Xudong Han, Timothy Baldwin, Trevor Cohn(参考訳) 現代のNLPシステムは様々なバイアスを示しており、モデル偏見に関する文献が増えている。 しかし、現在の進歩は、複数のバイアスの定義、定量化の手段によって妨げられ、デバイアスアルゴリズムと理論的バイアスの尺度の間の曖昧な関係がしばしば発生する。 本稿は, 公平性と正確性とのトレードオフを伴うモデル選択の実際的問題に対処し, 公平性研究の体系的問題に繋がる2つの重要な貢献を伴い, 現状を明らかにし, 公平性学習の有意義な進展に向けた進路を立案することを目的とする。 それらをまとめて、将来の仕事を形成するためのいくつかの推奨事項を作ります。

Modern NLP systems exhibit a range of biases, which a growing literature on model debiasing attempts to correct. However current progress is hampered by a plurality of definitions of bias, means of quantification, and oftentimes vague relation between debiasing algorithms and theoretical measures of bias. This paper seeks to clarify the current situation and plot a course for meaningful progress in fair learning, with two key contributions: (1) making clear inter-relations among the current gamut of methods, and their relation to fairness theory; and (2) addressing the practical problem of model selection, which involves a trade-off between fairness and accuracy and has led to systemic issues in fairness research. Putting them together, we make several recommendations to help shape future work.
翻訳日:2023-02-14 19:00:51 公開日:2023-02-11
# 非エルミート準結晶の非可換一般化:pt対称性の破れ、局在、絡み合い、位相遷移

Non-Abelian generalization of non-Hermitian quasicrystal: PT-symmetry breaking, localization, entanglement and topological transitions ( http://arxiv.org/abs/2302.05710v1 )

ライセンス: Link先を確認
Longwen Zhou(参考訳) 非エルミート準結晶は、利得と損失または非相互効果によって引き起こされる対称性の破れ、局在化、トポロジカル遷移を伴うユニークな種類の物質を形成する。 本研究では,非エルミート効果と非アーベル準周期ポテンシャルの相互作用により,拡張相,臨界相,局所相間の移動性エッジとリッチな遷移が生じる非エルミート準結晶の非アーベル汎化を導入する。 これらの一般的な特徴は、非エルミート Aubry-Andr\e-Harper モデルの3つの非アーベル多様体を調査することによって示される。 統一的な特徴付けはそのスペクトル、局在、絡み合い、位相特性に与えられる。 その結果,非エルミート準結晶の族に新たなメンバーが加わり,非エルミート系の非アーベル効果によって引き起こされる特異な物理が明らかになった。

Non-Hermitian quasicrystal forms a unique class of matter with symmetry-breaking, localization and topological transitions induced by gain and loss or nonreciprocal effects. In this work, we introduce a non-Abelian generalization of the non-Hermitian quasicrystal, in which the interplay between non-Hermitian effects and non-Abelian quasiperiodic potentials create mobility edges and rich transitions among extended, critical and localized phases. These generic features are demonstrated by investigating three non-Abelian variants of the non-Hermitian Aubry-Andr\'e-Harper model. A unified characterization is given to their spectrum, localization, entanglement and topological properties. Our findings thus add new members to the family of non-Hermitian quasicrystal and uncover unique physics that can be triggered by non-Abelian effects in non-Hermitian systems.
翻訳日:2023-02-14 19:00:37 公開日:2023-02-11
# 境界空間を用いた微分プライバシーと適応データ解析について

On Differential Privacy and Adaptive Data Analysis with Bounded Space ( http://arxiv.org/abs/2302.05707v1 )

ライセンス: Link先を確認
Itai Dinur, Uri Stemmer, David P. Woodruff, Samson Zhou(参考訳) 差分プライバシーと適応データ分析の2つの関連分野の空間複雑性について検討する。 具体的には,(1)標準暗号仮定の下では,プライバシのない空間に比べて,差分プライバシーで効率的に解決できる空間が指数関数的に多く必要となる問題Pが存在することを示す。 私たちの知る限りでは、これはプライベートアルゴリズムと非プライベートアルゴリズムの空間複雑性の最初の分離である。 2)適応データ分析における研究の行は,適応クエリのシーケンスに応答するために必要なサンプル数を理解することに集中している。 従来の下位境界を基礎レベルで再検討し、これらがサンプリングボトルネックではなく、空間ボトルネックの結果であることを示す。 この結果を得るために,我々は,限られた量の鍵漏洩に耐えられるように構築された,複数の鍵を持つ暗号方式を定義し,構築する。

We study the space complexity of the two related fields of differential privacy and adaptive data analysis. Specifically, (1) Under standard cryptographic assumptions, we show that there exists a problem P that requires exponentially more space to be solved efficiently with differential privacy, compared to the space needed without privacy. To the best of our knowledge, this is the first separation between the space complexity of private and non-private algorithms. (2) The line of work on adaptive data analysis focuses on understanding the number of samples needed for answering a sequence of adaptive queries. We revisit previous lower bounds at a foundational level, and show that they are a consequence of a space bottleneck rather than a sampling bottleneck. To obtain our results, we define and construct an encryption scheme with multiple keys that is built to withstand a limited amount of key leakage in a very particular way.
翻訳日:2023-02-14 19:00:21 公開日:2023-02-11
# MTTM:テキストコンテンツモデレーションソフトウェアのためのメタモルフィックテスト

MTTM: Metamorphic Testing for Textual Content Moderation Software ( http://arxiv.org/abs/2302.05706v1 )

ライセンス: Link先を確認
Wenxuan Wang, Jen-tse Huang, Weibin Wu, Jianping Zhang, Yizhan Huang, Shuqing Li, Pinjia He, Michael Lyu(参考訳) TwitterやFacebookといったソーシャルメディアプラットフォームの急速な成長は、人間の社会におけるテキストコミュニケーションとテキストコンテンツ出版に革命をもたらした。 しかし、ヘイトスピーチ、悪意のある広告、ポルノグラフィなどの有害なコンテンツを広めるために利用され、非常にネガティブな影響(例えば、ティーンのメンタルヘルスに有害な影響)をもたらす可能性がある。 研究者や実践者はこの問題に対処するためにテキストコンテンツモデレーションソフトウェアを熱心に開発し、広範囲に展開してきた。 しかし、悪意のあるユーザは、有害なコンテンツの中でほんの数単語だけを変えることで、モデレーションを回避することができる。 さらに、悪質な入力に対する現代のコンテンツモデレーションソフトウェアのパフォーマンスは未検討のままである。 そこで本研究では,テキストコンテンツモデレーションソフトウェアのためのメタモルフィックテストフレームワークであるmttmを提案する。 具体的には,実ユーザから収集した2000のテキストについてパイロット研究を行い,文字,単語,文の3つの摂動レベルにわたる11の変成関係を要約した。 MTTMはこれらのメタモルフィックな関係を有毒なテキストの内容に応用し、テストケースを生成する。 本評価では,mttmを用いて3種類の有害コンテンツに対する3つの商用テキストコンテンツモデレーションソフトウェアと2つの最先端モデレーションアルゴリズムをテストした。 その結果、mttmは、google、baidu、huaweiが提供する商用モデレーションソフトウェアをテストした場合、83.9%、51%、82.5%のエラー検出率(efr)を達成し、アカデミーから最先端アルゴリズムをテストする場合、最大91.2%のefrを得た。 さらに、MTTMが生成したテストケースを利用して、探索したモデルを再トレーニングし、元のテストセットの精度を維持しながら、モデルの堅牢性(0%から5.9% EFR)を大幅に改善します。

The exponential growth of social media platforms such as Twitter and Facebook has revolutionized textual communication and textual content publication in human society. However, they have been increasingly exploited to propagate toxic content, such as hate speech, malicious advertisement, and pornography, which can lead to highly negative impacts (e.g., harmful effects on teen mental health). Researchers and practitioners have been enthusiastically developing and extensively deploying textual content moderation software to address this problem. However, we find that malicious users can evade moderation by changing only a few words in the toxic content. Moreover, modern content moderation software performance against malicious inputs remains underexplored. To this end, we propose MTTM, a Metamorphic Testing framework for Textual content Moderation software. Specifically, we conduct a pilot study on 2,000 text messages collected from real users and summarize eleven metamorphic relations across three perturbation levels: character, word, and sentence. MTTM employs these metamorphic relations on toxic textual contents to generate test cases, which are still toxic yet likely to evade moderation. In our evaluation, we employ MTTM to test three commercial textual content moderation software and two state-of-the-art moderation algorithms against three kinds of toxic content. The results show that MTTM achieves up to 83.9%, 51%, and 82.5% error finding rates (EFR) when testing commercial moderation software provided by Google, Baidu, and Huawei, respectively, and it obtains up to 91.2% EFR when testing the state-of-the-art algorithms from the academy. In addition, we leverage the test cases generated by MTTM to retrain the model we explored, which largely improves model robustness (0% to 5.9% EFR) while maintaining the accuracy on the original test set.
翻訳日:2023-02-14 19:00:08 公開日:2023-02-11
# スクラッチレンズプロテクターから画像アーティファクトを除去する

Removing Image Artifacts From Scratched Lens Protectors ( http://arxiv.org/abs/2302.05746v1 )

ライセンス: Link先を確認
Yufei Wang, Renjie Wan, Wenhan Yang, Bihan Wen, Lap-pui Chau, Alex C. Kot(参考訳) モバイルデバイス用カメラレンズの前にプロテクターを配置して損傷を防止し、特にプラスチック用ではプロテクター自体を誤って傷つけることができる。 アーティファクトはさまざまなパターンに現れており、それらをはっきりと見ることは困難である。 スクラッチされたレンズプロテクターから画像アーティファクトを除去することは、時折フレアアーティファクトと混合アーティファクト内の共起干渉により本質的に困難である。 特定の歪みに対して異なる方法が提案されているが、それら固有の課題を考えることは滅多にない。 本研究では,協調モジュールを2つ備えた統一フレームワークにおける本質的な課題について考察する。 また、トレーニングや評価の目的で、現実世界から新しいデータセットを収集します。 実験の結果,本手法は質的,定量的にベースラインを上回った。 コードとデータセットは受け入れた後にリリースされる。

A protector is placed in front of the camera lens for mobile devices to avoid damage, while the protector itself can be easily scratched accidentally, especially for plastic ones. The artifacts appear in a wide variety of patterns, making it difficult to see through them clearly. Removing image artifacts from the scratched lens protector is inherently challenging due to the occasional flare artifacts and the co-occurring interference within mixed artifacts. Though different methods have been proposed for some specific distortions, they seldom consider such inherent challenges. In our work, we consider the inherent challenges in a unified framework with two cooperative modules, which facilitate the performance boost of each other. We also collect a new dataset from the real world to facilitate training and evaluation purposes. The experimental results demonstrate that our method outperforms the baselines qualitatively and quantitatively. The code and datasets will be released after acceptance.
翻訳日:2023-02-14 18:53:41 公開日:2023-02-11
# ディープラーニングにおける一般化の検証

Verifying Generalization in Deep Learning ( http://arxiv.org/abs/2302.05745v1 )

ライセンス: Link先を確認
Guy Amir, Osher Maayan, Tom Zelazny, Guy Katz and Michael Schapira(参考訳) ディープニューラルネットワーク(dnn)は、ディープラーニングのワークホースであり、多くのアプリケーションドメインにおける最先端の技術を構成する。 しかし、DNNに基づく決定規則は、一般化の貧弱さ、すなわちトレーニング中に遭遇しない入力が不十分であることを示すことが知られている。 この制限は、ミッションクリティカルなタスクや、高い可変性を示す実環境において、ディープラーニングを採用する上で大きな障害となる。 本稿では,新しい入力領域によく適応するDNNに基づく決定ルールを識別するための,検証駆動型手法を提案する。 本手法は,独立に訓練されたDNNが入力に対してどのような決定を下すかによって,入力領域への一般化を定量化する。 DNN検証の力を利用して、我々のアプローチを効率的に効果的に実現できることを示す。 実世界のインターネット混雑制御システムを含む3つの深層強化学習(DRL)ベンチマークに対する検証に基づくアプローチを評価する。 以上の結果から,本手法の有用性,特に勾配法よりも優れていることが判明した。 より広範に、我々の研究は、DNNベースのシステムを野生に展開する際のリスクを軽減するために、新たな形式検証の目標を掲げています。

Deep neural networks (DNNs) are the workhorses of deep learning, which constitutes the state of the art in numerous application domains. However, DNN-based decision rules are notoriously prone to poor generalization, i.e., may prove inadequate on inputs not encountered during training. This limitation poses a significant obstacle to employing deep learning for mission-critical tasks, and also in real-world environments that exhibit high variability. We propose a novel, verification-driven methodology for identifying DNN-based decision rules that generalize well to new input domains. Our approach quantifies generalization to an input domain by the extent to which decisions reached by independently trained DNNs are in agreement for inputs in this domain. We show how, by harnessing the power of DNN verification, our approach can be efficiently and effectively realized. We evaluate our verification-based approach on three deep reinforcement learning (DRL) benchmarks, including a system for real-world Internet congestion control. Our results establish the usefulness of our approach, and, in particular, its superiority over gradient-based methods. More broadly, our work puts forth a novel objective for formal verification, with the potential for mitigating the risks associated with deploying DNN-based systems in the wild.
翻訳日:2023-02-14 18:53:25 公開日:2023-02-11
# マルチモーダル面スプーフィングにおける視覚トランスフォーマーとマスクオートエンコーダの再考

Rethinking Vision Transformer and Masked Autoencoder in Multimodal Face Anti-Spoofing ( http://arxiv.org/abs/2302.05744v1 )

ライセンス: Link先を確認
Zitong Yu, Rizhao Cai, Yawen Cui, Xin Liu, Yongjian Hu, Alex Kot(参考訳) 近年,face anti-spoofing (fas) システムのロバスト性を改善するために視覚トランスフォーマー (vit) を用いたマルチモーダル学習法が提案されている。 しかしながら、バニラ ViT の基本的な性質 (\textit{e.g.}, modality-aware inputs, suitable multimodal pre-training, and efficient finetuning) をマルチモーダル FAS に対して探索する作業は未だ存在しない。 本稿では,vitにおけるrgb,赤外線(ir),奥行きを持つマルチモーダルfasの入力,事前学習,微調整の3つの重要な要因について検討する。 まず、VT入力の点から、局所的な特徴記述子を活用することで、RGBやDepthモダリティではなく、IRモダリティでVTを活用できることが分かる。 次に,VTパラメータの大部分を凍結しながら,局所的なマルチモーダル特徴を効率的に集約する適応型マルチモーダルアダプタ (AMA) を設計した。 最後に、タスク(FAS対ジェネリックオブジェクト分類)とモダリティ(マルチモーダル対アンモダル)のギャップを考慮すると、ImageNet事前学習モデルはマルチモーダルFASタスクに準最適かもしれない。 これらのギャップを埋めるために,多モードFAS自己教師型事前学習のためのモダリティ非対称マスク付きオートエンコーダ (M$^{2}$A$^{2}$E) を提案する。 従来のモダリティ対称オートエンコーダと比較して、提案されたM$^{2}$A$^{2}$Eは、より本質的なタスク認識表現を学習することができ、モダリティ非依存(例えば、unimodal、bimodal、trimodal)の下流設定と互換性がある。 マルチモーダルFASベンチマークで実施したユニモーダル(RGB,Depth,IR)とマルチモーダル(RGB+Depth,RGB+IR,Depth+IR,RGB+Depth+IR)の併用実験により,提案手法の優れた性能を示した。 これらの発見と解決策が、ViTベースのマルチモーダルFASの今後の研究を促進することを願っている。

Recently, vision transformer (ViT) based multimodal learning methods have been proposed to improve the robustness of face anti-spoofing (FAS) systems. However, there are still no works to explore the fundamental natures (\textit{e.g.}, modality-aware inputs, suitable multimodal pre-training, and efficient finetuning) in vanilla ViT for multimodal FAS. In this paper, we investigate three key factors (i.e., inputs, pre-training, and finetuning) in ViT for multimodal FAS with RGB, Infrared (IR), and Depth. First, in terms of the ViT inputs, we find that leveraging local feature descriptors benefits the ViT on IR modality but not RGB or Depth modalities. Second, in observation of the inefficiency on direct finetuning the whole or partial ViT, we design an adaptive multimodal adapter (AMA), which can efficiently aggregate local multimodal features while freezing majority of ViT parameters. Finally, in consideration of the task (FAS vs. generic object classification) and modality (multimodal vs. unimodal) gaps, ImageNet pre-trained models might be sub-optimal for the multimodal FAS task. To bridge these gaps, we propose the modality-asymmetric masked autoencoder (M$^{2}$A$^{2}$E) for multimodal FAS self-supervised pre-training without costly annotated labels. Compared with the previous modality-symmetric autoencoder, the proposed M$^{2}$A$^{2}$E is able to learn more intrinsic task-aware representation and compatible with modality-agnostic (e.g., unimodal, bimodal, and trimodal) downstream settings. Extensive experiments with both unimodal (RGB, Depth, IR) and multimodal (RGB+Depth, RGB+IR, Depth+IR, RGB+Depth+IR) settings conducted on multimodal FAS benchmarks demonstrate the superior performance of the proposed methods. We hope these findings and solutions can facilitate the future research for ViT-based multimodal FAS.
翻訳日:2023-02-14 18:53:04 公開日:2023-02-11
# 距離行列は幾何学的深層学習に十分か?

Is Distance Matrix Enough for Geometric Deep Learning? ( http://arxiv.org/abs/2302.05743v1 )

ライセンス: Link先を確認
Zian Li, Xiyuan Wang, Yinan Huang, Muhan Zhang(参考訳) グラフニューラルネットワーク(GNN)は、分子動力学シミュレーションなど、与えられたグラフの幾何学を含むタスクによく使用される。 グラフの距離行列は完全な幾何学構造情報を含んでいるが、GNNが距離行列からのみこの幾何学を学べるかどうかはまだ研究されていない。 本研究では,MPNNでは区別できない幾何学グラフの族を構成することにより,距離行列からグラフの幾何学を学ぶには,メッセージパッシングニューラルネットワーク(MPNN)が不十分であることを示す。 次に,距離行列に含まれるリッチな幾何学を効果的に活用できる$k$-DisGNNを提案する。 我々は、我々のモデルの高表現力を示し、既存のよく設計された幾何モデルが特別なケースとして$k$-DisGNNsで統一できることを証明する。 最も重要なことは、幾何学的深層学習と従来のグラフ表現学習の関連性を確立することであり、グラフ構造学習用にもともと設計された表現力の高いGNNモデルは、幾何的深層学習にも適用可能であること、そして既存の複雑同変モデルが唯一の解決方法ではないこと、である。 実験結果は我々の理論を検証する。

Graph Neural Networks (GNNs) are often used for tasks involving the geometry of a given graph, such as molecular dynamics simulation. While the distance matrix of a graph contains the complete geometric structure information, whether GNNs can learn this geometry solely from the distance matrix has yet to be studied. In this work, we first demonstrate that Message Passing Neural Networks (MPNNs) are insufficient for learning the geometry of a graph from its distance matrix by constructing families of geometric graphs which cannot be distinguished by MPNNs. We then propose $k$-DisGNNs, which can effectively exploit the rich geometry contained in the distance matrix. We demonstrate the high expressive power of our models and prove that some existing well-designed geometric models can be unified by $k$-DisGNNs as special cases. Most importantly, we establish a connection between geometric deep learning and traditional graph representation learning, showing that those highly expressive GNN models originally designed for graph structure learning can also be applied to geometric deep learning problems with impressive performance, and that existing complex, equivariant models are not the only solution. Experimental results verify our theory.
翻訳日:2023-02-14 18:52:15 公開日:2023-02-11
# UGAE:非指数的ディスカウントのための新しいアプローチ

UGAE: A Novel Approach to Non-exponential Discounting ( http://arxiv.org/abs/2302.05740v1 )

ライセンス: Link先を確認
Ariel Kwiatkowski, Vicky Kalogeiton, Julien Pettr\'e, Marie-Paule Cani(参考訳) 強化学習における割引メカニズムは、未来と現在の報酬の相対的な重要性を決定する。 指数割引は実際には広く使われているが、人間の行動に合わせた非指数割引法は人間のようなエージェントを作るのに望ましい。 しかし、非指数割引法は現代のアクター批判アルゴリズムでは直接適用できない。 この問題に対処するために、任意の割引でGAEの利点値の計算を可能にするUniversal Generalized Advantage Estimation (UGAE)を提案する。 また,指数型ディスカウントと双曲型ディスカウントを連続的に補間するβ重み付きディスカウントを導入し,ディスカウント法を選択する際の柔軟性を高める。 UGAEの有用性を示すために,様々なディスカウント手法の特性の分析を行った。 また, モンテカルロの優位性評価により, UGAEによる非指数割引を訓練したエージェントが, 優れた変種であることを示す。 種々の割引手法や実験の分析を通じて,標準RLベンチマーク上でのモンテカルロベースラインに対するベータ重み付き割引によるUGAEの優れた性能を示す。 UGAEは、標準的な再帰的GAEの代替として、どんな利点ベースのアルゴリズムにも簡単に統合できる。

The discounting mechanism in Reinforcement Learning determines the relative importance of future and present rewards. While exponential discounting is widely used in practice, non-exponential discounting methods that align with human behavior are often desirable for creating human-like agents. However, non-exponential discounting methods cannot be directly applied in modern on-policy actor-critic algorithms. To address this issue, we propose Universal Generalized Advantage Estimation (UGAE), which allows for the computation of GAE advantage values with arbitrary discounting. Additionally, we introduce Beta-weighted discounting, a continuous interpolation between exponential and hyperbolic discounting, to increase flexibility in choosing a discounting method. To showcase the utility of UGAE, we provide an analysis of the properties of various discounting methods. We also show experimentally that agents with non-exponential discounting trained via UGAE outperform variants trained with Monte Carlo advantage estimation. Through analysis of various discounting methods and experiments, we demonstrate the superior performance of UGAE with Beta-weighted discounting over the Monte Carlo baseline on standard RL benchmarks. UGAE is simple and easily integrated into any advantage-based algorithm as a replacement for the standard recursive GAE.
翻訳日:2023-02-14 18:51:53 公開日:2023-02-11
# クロスモーダルファインチューニング:アライン・アンド・リファイン

Cross-Modal Fine-Tuning: Align then Refine ( http://arxiv.org/abs/2302.05738v1 )

ライセンス: Link先を確認
Junhong Shen, Liam Li, Lucio M. Dery, Corey Staten, Mikhail Khodak, Graham Neubig, Ameet Talwalkar(参考訳) 微調整された大規模事前学習モデルによって、視覚やnlpといったよく研究されたモダリティが大幅に進歩した。 しかし、関連する事前学習モデルがないため、他の多くのモダリティでは同様の効果は見られていない。 本研究では,単一大規模事前学習モデルの適用性を多様性に拡張した汎用クロスモーダル微調整フレームワークORCAを提案する。 ORCAは、ターゲット入力が与えられたら、まず埋め込みネットワークを学習し、組み込まれた特徴分布と事前訓練されたモダリティを整合させる。 トレーニング済みのモデルは、モーダリティ間で共有される知識を活用すべく、組み込みデータ上で微調整される。 広範にわたる実験により、ORCAは12のモダリティから60以上のデータセットを含む3つのベンチマークの最先端結果を取得し、手書き設計、AutoML、汎用、タスク固有メソッドよりも優れた性能を示した。 我々は、一連のアブレーション研究によるデータアライメントの重要性を強調し、データ制限体制におけるORCAの有用性を実証する。

Fine-tuning large-scale pretrained models has led to tremendous progress in well-studied modalities such as vision and NLP. However, similar gains have not been observed in many other modalities due to a lack of relevant pretrained models. In this work, we propose ORCA, a general cross-modal fine-tuning framework that extends the applicability of a single large-scale pretrained model to diverse modalities. ORCA adapts to a target task via an align-then-refine workflow: given the target input, ORCA first learns an embedding network that aligns the embedded feature distribution with the pretraining modality. The pretrained model is then fine-tuned on the embedded data to exploit the knowledge shared across modalities. Through extensive experiments, we show that ORCA obtains state-of-the-art results on 3 benchmarks containing over 60 datasets from 12 modalities, outperforming a wide range of hand-designed, AutoML, general-purpose, and task-specific methods. We highlight the importance of data alignment via a series of ablation studies and demonstrate ORCA's utility in data-limited regimes.
翻訳日:2023-02-14 18:51:35 公開日:2023-02-11
# テキスト生成のための再パラメータ化離散拡散モデル

A Reparameterized Discrete Diffusion Model for Text Generation ( http://arxiv.org/abs/2302.05737v1 )

ライセンス: Link先を確認
Lin Zheng and Jianbo Yuan and Lei Yu and Lingpeng Kong(参考訳) 本研究は, 離散拡散確率モデルと自然言語生成への応用に関する研究である。 離散拡散過程からのサンプリングの代替的かつ等価な定式化を導出し、この知見を利用して再パラメータ化された離散拡散モデル群を開発する。 派生したジェネリックフレームワークは非常に柔軟で、離散拡散モデルにおける生成過程の新しい視点を提供し、より効果的なトレーニングとデコード技術を備えている。 本研究では,既存の拡散モデルに対して,テキスト生成能力を評価するための広範な実験を行った。

This work studies discrete diffusion probabilistic models with applications to natural language generation. We derive an alternative yet equivalent formulation of the sampling from discrete diffusion processes and leverage this insight to develop a family of reparameterized discrete diffusion models. The derived generic framework is highly flexible, offers a fresh perspective of the generation process in discrete diffusion models, and features more effective training and decoding techniques. We conduct extensive experiments to evaluate the text generation capability of our model, demonstrating significant improvements over existing diffusion models.
翻訳日:2023-02-14 18:51:13 公開日:2023-02-11
# ゼロショット分類のためのダイバージェンスに基づくドメイン転送可能性

Divergence-Based Domain Transferability for Zero-Shot Classification ( http://arxiv.org/abs/2302.05735v1 )

ライセンス: Link先を確認
Alexander Pugantsov, Richard McCreadie(参考訳) 訓練済みのニューラル言語モデルから学習されたパターンを移行することで、さまざまな言語ベースのタスクにおける効率が大幅に向上すると同時に、中間タスクがターゲットタスクと十分に関連している場合、中間タスクのチューニングにより、さらなるパフォーマンス上のメリットが期待できる。 しかし、関連するタスクの特定方法はオープンな問題であり、効果的なタスクの組み合わせをブルートフォースで探すのは非常に高価である。 したがって、選択的な微調整によって、トレーニング例なしでタスクの有効性と効率を向上させることができるのか? 本稿では,あるタスクペアを用いたチューニングが,他のタスクペアによるチューニングよりもパフォーマンス上のメリットを示すかどうかを推定する手段として,ドメイン表現間のばらつきを近似する統計測度について検討する。 この推定は、メリットを提供しそうにないペアを排除することで、テストが必要なタスクペアの数を減らすために使用することができる。 58以上のタスクと6600以上のタスクペアの組み合わせを実験することにより、統計的測定によって効果的なタスクペアを識別でき、その結果、エンドツーエンドのランタイムを最大40%削減できることを示す。

Transferring learned patterns from pretrained neural language models has been shown to significantly improve effectiveness across a variety of language-based tasks, meanwhile further tuning on intermediate tasks has been demonstrated to provide additional performance benefits, provided the intermediate task is sufficiently related to the target task. However, how to identify related tasks is an open problem, and brute-force searching effective task combinations is prohibitively expensive. Hence, the question arises, are we able to improve the effectiveness and efficiency of tasks with no training examples through selective fine-tuning? In this paper, we explore statistical measures that approximate the divergence between domain representations as a means to estimate whether tuning using one task pair will exhibit performance benefits over tuning another. This estimation can then be used to reduce the number of task pairs that need to be tested by eliminating pairs that are unlikely to provide benefits. Through experimentation over 58 tasks and over 6,600 task pair combinations, we demonstrate that statistical measures can distinguish effective task pairs, and the resulting estimates can reduce end-to-end runtime by up to 40%.
翻訳日:2023-02-14 18:51:04 公開日:2023-02-11
# LLMの爆発的プログラム動作:標準セキュリティ攻撃によるデュアルユース

Exploiting Programmatic Behavior of LLMs: Dual-Use Through Standard Security Attacks ( http://arxiv.org/abs/2302.05733v1 )

ライセンス: Link先を確認
Daniel Kang, Xuechen Li, Ion Stoica, Carlos Guestrin, Matei Zaharia, Tatsunori Hashimoto(参考訳) 命令追従型大規模言語モデル(LLM)の最近の進歩は、様々なNLPタスクにおいて劇的な改善をもたらした。 残念ながら、同じ改良された能力は、これらのモデルの悪意ある目的のためにデュアルユースのリスクを増幅する。 命令追従機能がコンピュータセキュリティの標準的な攻撃を可能にするため、デュアルユースを防ぐのは難しい。 これらの命令追従 LLM の能力は、悪意あるアクターによる二重利用に強い経済的インセンティブをもたらす。 特に、命令をフォローするllmは、ヘイトスピーチや詐欺など、ターゲットとする悪意のあるコンテンツを生成でき、llm apiベンダによって実装された内部防御を回避できることを示す。 我々の分析によると、このコンテンツは経済的に、コスト的に、人的努力だけで生成できる。 その結果,LSMはより高度な敵や攻撃を惹きつけるようになり,これらの攻撃に対処するには新たな対策が必要である可能性が示唆された。

Recent advances in instruction-following large language models (LLMs) have led to dramatic improvements in a range of NLP tasks. Unfortunately, we find that the same improved capabilities amplify the dual-use risks for malicious purposes of these models. Dual-use is difficult to prevent as instruction-following capabilities now enable standard attacks from computer security. The capabilities of these instruction-following LLMs provide strong economic incentives for dual-use by malicious actors. In particular, we show that instruction-following LLMs can produce targeted malicious content, including hate speech and scams, bypassing in-the-wild defenses implemented by LLM API vendors. Our analysis shows that this content can be generated economically and at cost likely lower than with human effort alone. Together, our findings suggest that LLMs will increasingly attract more sophisticated adversaries and attacks, and addressing these attacks may require new approaches to mitigations.
翻訳日:2023-02-14 18:50:45 公開日:2023-02-11
# 量子球面モデルにおける絡み合い--レビュー

Entanglement in the Quantum Spherical Model -- a Review ( http://arxiv.org/abs/2302.05732v1 )

ライセンス: Link先を確認
Sascha Wald, Raul Arias, Vincenzo Alba(参考訳) 量子球面モデル(qsm)における絡み合いに関する最近の結果について概観する。 焦点は、数学的詳細ではなく、物理的な結果に当てはまる。 具体的には,量子臨界点や古典臨界点,磁気秩序相の存在下で,絡み合いエントロピーや対数ネガティビティなどの絡み合いに関連した数量の研究を行った。 ショートだけでなく、長距離QSMについても検討する。 QSMの絡み合い特性の研究は、モデルが任意の次元のガウス系に写像可能であるため実現可能である。 この事実にもかかわらず、qsmは非平均場臨界、長距離相互作用の影響、有限温度ゆらぎと真の量子力学との相互作用など、幅広い物理シナリオを調査する理想的な理論実験室である。

We review some recent results on entanglement in the Quantum Spherical Model (QSM). The focus lays on the physical results rather than the mathematical details. Specifically, we study several entanglement-related quantities, such asentanglement entropies, and logarithmic negativity, in the presence of quantum and classical critical points, and in magnetically ordered phases. We consider both the short as well as the long-range QSM. The study of entanglement properties of the QSM is feasible because the model is mappable to a Gaussian system in any dimension. Despite this fact the QSM is an ideal theoretical laboratory to investigate a wide variety of physical scenarios, such as non mean field criticality, the effect of long-range interactions, the interplay between finite-temperature fluctuations and genuine quantum ones.
翻訳日:2023-02-14 18:50:27 公開日:2023-02-11
# 確率的超越:ニューラルネットワークにおける自由エネルギーの予測的測定

Stochastic Surprisal: An inferential measurement of Free Energy in Neural Networks ( http://arxiv.org/abs/2302.05776v1 )

ライセンス: Link先を確認
Mohit Prabhushankar and Ghassan AlRegib(参考訳) 本稿では,教師付きニューラルネットワークにおける推論中の動作を可能にするフレームワークを推測し,検証する。 教師付きニューラルネットワークは、任意のタスクにおけるパフォーマンスメトリックを最大化する目的で構築される。 これは、訓練中に自由エネルギーとその関連する前提を減少させることによって行われる。 しかし、教師付きネットワークのボトムアップ推論特性は受動的プロセスであり、ノイズに悪影響を及ぼす。 本稿では,生成と識別の両面で,教師付きニューラルネットワークの詳細な背景を提供し,自由エネルギー原理の観点からそれらの機能について議論する。 次に、推論中にアクションを導入するためのフレームワークを提供します。 本稿では,ネットワーク,入力,および可能な動作の関数である確率推定と呼ばれる新しい測定手法を提案する。 この動作は、ニューラルネットワークが学習した出力のいずれかであり、それによって測定に確率性を与える。 確率的超越性は, 雑音下での画質評価と認識の2つの応用で検証される。 ノイズ特性は頑健な認識のために無視されるが,画像品質スコアを推定するために解析される。 2つのアプリケーション、3つのデータセット、および12のネットワーク上のプラグインに確率的超越を適用する。 総じて、すべての指標の中で統計的に有意な増加をもたらす。 予測ミスマッチや帰納的推論など,認知心理学の他の領域における確率的先入観の影響について論じる。

This paper conjectures and validates a framework that allows for action during inference in supervised neural networks. Supervised neural networks are constructed with the objective to maximize their performance metric in any given task. This is done by reducing free energy and its associated surprisal during training. However, the bottom-up inference nature of supervised networks is a passive process that renders them fallible to noise. In this paper, we provide a thorough background of supervised neural networks, both generative and discriminative, and discuss their functionality from the perspective of free energy principle. We then provide a framework for introducing action during inference. We introduce a new measurement called stochastic surprisal that is a function of the network, the input, and any possible action. This action can be any one of the outputs that the neural network has learnt, thereby lending stochasticity to the measurement. Stochastic surprisal is validated on two applications: Image Quality Assessment and Recognition under noisy conditions. We show that, while noise characteristics are ignored to make robust recognition, they are analyzed to estimate image quality scores. We apply stochastic surprisal on two applications, three datasets, and as a plug-in on twelve networks. In all, it provides a statistically significant increase among all measures. We conclude by discussing the implications of the proposed stochastic surprisal in other areas of cognitive psychology including expectancy-mismatch and abductive reasoning.
翻訳日:2023-02-14 18:44:53 公開日:2023-02-11
# 超伝導研究のための汎用ミリケルビンハイブリッド冷却プラットフォーム

Versatile Millikelvin Hybrid Cooling Platform for Superconductivity Research ( http://arxiv.org/abs/2302.05766v1 )

ライセンス: Link先を確認
Jacob Franklin, Joshua Bedard, and Ilya Sochnikov(参考訳) 閉サイクル$He^{3}-He^{4}$希釈クライオスタットはヘリウム不足の時代における量子科学における選択の基盤となった。 しかし、多くの実験では、パルス冷凍機によって誘導される機械的振動は、電子的ノイズと機械的ノイズの両方で反射される大きな欠点を示す。 そこで我々は,冷凍機や液体ヘリウム電池で稼働する市販のクローズドサイクルシステムを自動化した,ハイブリッド希釈式クライオスタットプラットフォームを提案する。 ハイブリッド希釈冷凍機に走査型SQUID顕微鏡を実装した。 本稿では,ハイブリッドシステムの設計と,その動作が磁気イメージングにおける振動アーチファクトをいかに排除するかを示す。

Closed cycle $He^{3}-He^{4}$ dilution cryostats became the platform of choice in quantum sciences in the era of helium shortage. However, in many experiments, the mechanical vibrations induced by the pulsed cryocoolers present a significant drawback reflected both in electronic and mechanical noises. Here, we present a hybrid dilution cryostat platform; we have automated a commercial closed-cycle system to operate on a cryocooler or on a liquid helium battery. We implemented a scanning SQUID microscope in the hybrid dilution refrigerator. In this work we show the design of the hybrid setup and how its operation eliminates vibration artefacts in magnetic imaging.
翻訳日:2023-02-14 18:44:17 公開日:2023-02-11
# オンライン協調フィルタリングにおける規則保証

Regret Guarantees for Adversarial Online Collaborative Filtering ( http://arxiv.org/abs/2302.05765v1 )

ライセンス: Link先を確認
Stephen Pasteris, Fabio Vitale, Mark Herbster, Claudio Gentile(参考訳) 本研究では,オンライン・コラボレーション・フィルタリングの課題について検討し,ユーザがオンライン・スタイルでコンテンツを配信する必要があること,ユーザが同じコンテンツアイテムを1回以上推薦できないこと,等について考察する。 本研究では,ユーザの嗜好行列上の二クラスタリング仮定の下で機能する完全適応型アルゴリズムの設計と解析を行い,このアルゴリズムがユーザの順序,項目の空間,および選好行列の二クラスタリングパラメータに関する事前知識に偏りなく,最適な後悔の保証を示すことを示す。 さらに、選好行列が逆向きに摂動した場合のシナリオに対処するアルゴリズムのより堅牢なバージョンを提案する。 次に,二クラスター構造から選好行列が摂動する量に応じて,そのスケールを後悔する保証を与える。 我々の知る限り、これらはオンライン共同フィルタリングにおける最初の成果であり、このレベルの一般化と適応性は、反復的制約下で維持される。

We investigate the problem of online collaborative filtering under no-repetition constraints, whereby users need to be served content in an online fashion and a given user cannot be recommended the same content item more than once. We design and analyze a fully adaptive algorithm that works under biclustering assumptions on the user-item preference matrix, and show that this algorithm exhibits an optimal regret guarantee, while being oblivious to any prior knowledge about the sequence of users, the universe of items, as well as the biclustering parameters of the preference matrix. We further propose a more robust version of the algorithm which addresses the scenario when the preference matrix is adversarially perturbed. We then give regret guarantees that scale with the amount by which the preference matrix is perturbed from a biclustered structure. To our knowledge, these are the first results on online collaborative filtering that hold at this level of generality and adaptivity under no-repetition constraints.
翻訳日:2023-02-14 18:44:03 公開日:2023-02-11
# 人間とロボットのコラボレーションアプリケーションのための学習データと深層学習によるマルチユーザ行動認識に向けて

Towards Multi-User Activity Recognition through Facilitated Training Data and Deep Learning for Human-Robot Collaboration Applications ( http://arxiv.org/abs/2302.05763v1 )

ライセンス: Link先を確認
Francesco Semeraro, Jon Carberry and Angelo Cangelosi(参考訳) HRI(Human-robot Interaction)研究は、ロボットが複数の人間のユーザと同時に対話するマルチパーティシナリオに、段階的に対処している。 逆に、人間ロボットコラボレーション(HRC)の研究はまだ初期段階にある。 このようなコラボレーションを扱うために機械学習技術を使用するには、典型的なHRCセットアップよりも生成しにくいデータが必要である。 本研究は,非Dydic HRCアプリケーションにおける並列タスクの設計について概説する。 また,これらの概念に基づいて,単一対象に関するデータを収集し,それらを後処理でマージすることで,マルチユーザ活動に関するデータ収集を行う方法を提案し,ペア設定の録音に係わる労力を削減する。 このステートメントを検証するために、被験者1人の活動の3d骨格のポーズを収集し、ペアでマージした。 その後、データポイントを用いて長期記憶ネットワーク(LSTM)と時空間グラフ畳み込みネットワーク(STGCN)からなる変動オートエンコーダ(VAE)を個別にトレーニングし、両者の協調活動を認識する。 その結果,この方法で収集したデータをHRC設定のペア化に利用し,同じ設定で記録されたユーザのグループに関するデータと比較することで,これらのデータの生成に関わる技術的困難を軽減できることがわかった。

Human-robot interaction (HRI) research is progressively addressing multi-party scenarios, where a robot interacts with more than one human user at the same time. Conversely, research is still at an early stage for human-robot collaboration (HRC). The use of machine learning techniques to handle such type of collaboration requires data that are less feasible to produce than in a typical HRC setup. This work outlines concepts of design of concurrent tasks for non-dyadic HRC applications. Based upon these concepts, this study also proposes an alternative way of gathering data regarding multiuser activity, by collecting data related to single subjects and merging them in post-processing, to reduce the effort involved in producing recordings of pair settings. To validate this statement, 3D skeleton poses of activity of single subjects were collected and merged in pairs. After this, the datapoints were used to separately train a long short-term memory (LSTM) network and a variational autoencoder (VAE) composed of spatio-temporal graph convolutional networks (STGCN) to recognise the joint activities of the pairs of people. The results showed that it is possible to make use of data collected in this way for pair HRC settings and get similar performances compared to using data regarding groups of users recorded under the same settings, relieving from the technical difficulties involved in producing these data.
翻訳日:2023-02-14 18:43:40 公開日:2023-02-11
# オンライン広告コスト予測のための解釈可能なディープラーニング:競争入札の展望から

Interpretable Deep Learning for Forecasting Online Advertising Costs: Insights from the Competitive Bidding Landscape ( http://arxiv.org/abs/2302.05762v1 )

ライセンス: Link先を確認
Fynn Oldenburg, Qiwei Han, Maximilian Kaiser(参考訳) 広告主がデジタル広告に予算をシフトするにつれ、広告コストの予測はマーケティングキャンペーンの収益を最適化するための予算計画作成に不可欠である。 本稿では,オンライン広告市場における日平均クリックコスト(CPC)を予測するために,様々な時系列予測手法を用いた総合的研究を行う。 広告コストの予測は、時系列クラスタリングによって特定された競合のCPC開発からの共変量を用いた多変量モデルの恩恵を受けることを示す。 さらに,特徴の重要度と時間的注目度を解析し,結果の解釈を行う。 最後に、当社のアプローチは、個々の広告主が収集したデータに基づいて構築するモデルよりも、いくつかの利点があることを示します。

As advertisers increasingly shift their budgets toward digital advertising, forecasting advertising costs is essential for making budget plans to optimize marketing campaign returns. In this paper, we perform a comprehensive study using a variety of time-series forecasting methods to predict daily average cost-per-click (CPC) in the online advertising market. We show that forecasting advertising costs would benefit from multivariate models using covariates from competitors' CPC development identified through time-series clustering. We further interpret the results by analyzing feature importance and temporal attention. Finally, we show that our approach has several advantages over models that individual advertisers might build based solely on their collected data.
翻訳日:2023-02-14 18:43:18 公開日:2023-02-11
# 分布ランダム林の信頼性と不確実性評価

Confidence and Uncertainty Assessment for Distributional Random Forests ( http://arxiv.org/abs/2302.05761v1 )

ライセンス: Link先を確認
Jeffrey N\"af, Corinne Emmenegger, Peter B\"uhlmann, Nicolai Meinshausen(参考訳) distributional random forest (drf) は、多変量条件分布を推定するために最近導入されたランダムフォレストアルゴリズムである。 一般的な推定手順のため、条件平均処理効果、条件量子量、条件相関など、幅広い対象を推定することができる。 しかし、DRF予測の一貫性と収束率についてのみ結果が得られている。 我々は,drfの漸近分布を特徴付け,そのブートストラップ近似を開発した。 これにより、標準誤差を定量化するための推論ツールと、漸近的カバレッジ保証を有する信頼領域の構築を導出できる。 シミュレーション研究では,低次元対象推定理論と2つの個体群間の分布差の検証を経験的に検証した。

The Distributional Random Forest (DRF) is a recently introduced Random Forest algorithm to estimate multivariate conditional distributions. Due to its general estimation procedure, it can be employed to estimate a wide range of targets such as conditional average treatment effects, conditional quantiles, and conditional correlations. However, only results about the consistency and convergence rate of the DRF prediction are available so far. We characterize the asymptotic distribution of DRF and develop a bootstrap approximation of it. This allows us to derive inferential tools for quantifying standard errors and the construction of confidence regions that have asymptotic coverage guarantees. In simulation studies, we empirically validate the developed theory for inference of low-dimensional targets and for testing distributional differences between two populations.
翻訳日:2023-02-14 18:43:05 公開日:2023-02-11
# 音韻による手話認識の改善

Improving Sign Recognition with Phonology ( http://arxiv.org/abs/2302.05759v1 )

ライセンス: Link先を確認
Lee Kezar, Jesse Thomason, Zed Sevcikova Sehyr(参考訳) 我々は、ASL(American Sign Language)音声学の研究から得られた知見を用いて、独立手話認識(ISLR)のためのモデルを訓練する。 我々の重要な洞察は、手話音声学を考慮しない既存の作品よりも正確なISLRを実現するために、手話生成における音韻学の役割を明確に認識することである。 我々は,手形などの音韻特性だけでなく,手形などの音韻特性も予測するために,手形を生成するシグナーのポーズ推定を行うISLRモデルを訓練する。 これらの補助予測は、WLASLベンチマークの符号認識精度を9%近く向上させ、基礎となる予測モデルアーキテクチャに関係なくISLRを一貫して改善した。 この研究は、署名言語領域における言語研究を加速し、聴覚障害者と聴覚障害者のコミュニケーション障壁を減らす可能性がある。

We use insights from research on American Sign Language (ASL) phonology to train models for isolated sign language recognition (ISLR), a step towards automatic sign language understanding. Our key insight is to explicitly recognize the role of phonology in sign production to achieve more accurate ISLR than existing work which does not consider sign language phonology. We train ISLR models that take in pose estimations of a signer producing a single sign to predict not only the sign but additionally its phonological characteristics, such as the handshape. These auxiliary predictions lead to a nearly 9% absolute gain in sign recognition accuracy on the WLASL benchmark, with consistent improvements in ISLR regardless of the underlying prediction model architecture. This work has the potential to accelerate linguistic research in the domain of signed languages and reduce communication barriers between deaf and hearing people.
翻訳日:2023-02-14 18:42:54 公開日:2023-02-11
# ビューメーカネットワークを用いたマルチスペクトル自己監督学習

Multispectral Self-Supervised Learning with Viewmaker Networks ( http://arxiv.org/abs/2302.05757v1 )

ライセンス: Link先を確認
Jasmine Bayrooti, Noah Goodman, Alex Tamkin(参考訳) 対照的な学習法は、データポイントの類似の ‘`views'' を識別する訓練モデルによって、様々なドメインやモダリティに適用されている。 しかし、専門的な科学的モダリティは、各科学機器の良質な見方が複雑で時間を要するため、このパラダイムに挑戦する。 本稿では,様々なリモートセンシングデータセットにコントラスト学習アプローチを適用することに焦点を当てる。 最近提案されたビュー作成手法であるViewmaker Networkは、ドメイン知識や試行錯誤を伴わずに、この環境でビューを生成することを約束している。 下流の分類タスクで評価した場合,ビューメーカは4つのマルチスペクトルイメージング問題にそれぞれ異なるフォーマットで適用し,コントラスト学習のためのトリミング法とリフレクション法より優れることを示した。 このことは、ドメインに依存しない手法が対照的な学習を現実世界の科学領域に拡張する上で有効であることを示す。 ソースコードはhttps://github.com/jbayrooti/divmakerにある。

Contrastive learning methods have been applied to a range of domains and modalities by training models to identify similar ``views'' of data points. However, specialized scientific modalities pose a challenge for this paradigm, as identifying good views for each scientific instrument is complex and time-intensive. In this paper, we focus on applying contrastive learning approaches to a variety of remote sensing datasets. We show that Viewmaker networks, a recently proposed method for generating views, are promising for producing views in this setting without requiring extensive domain knowledge and trial and error. We apply Viewmaker to four multispectral imaging problems, each with a different format, finding that Viewmaker can outperform cropping- and reflection-based methods for contrastive learning in every case when evaluated on downstream classification tasks. This provides additional evidence that domain-agnostic methods can empower contrastive learning to scale to real-world scientific domains. Open source code can be found at https://github.com/jbayrooti/divmaker.
翻訳日:2023-02-14 18:42:39 公開日:2023-02-11
# DaliID:識別モデルに対する歪み適応型学習不変性

DaliID: Distortion-Adaptive Learned Invariance for Identification Models ( http://arxiv.org/abs/2302.05753v1 )

ライセンス: Link先を確認
Wes Robbins, Gabriel Bertocco, Terrance E. Boult(参考訳) 制約のないシナリオでは、顔の認識と人物の再識別は、動きのぼやけ、大気の乱流、アップサンプリングアーティファクトなどの歪みにさらされる。 これらのシナリオにおけるロバスト性を改善するため,我々は同定のための歪み適応学習不変性(daliid)と呼ばれる手法を提案する。 画像の画質を劣化させる歪み増強は、文献で示されたよりも高い精度で有効に活用できると我々は主張する。 適応的な重み付けスケジュールにより、訓練中の重度レベルにおいて新たな歪み増強が適用される。 このトレーニング戦略は、歪みに対する特徴レベルの不変性を高め、制約のないシナリオへのドメインシフトを減らす。 推論では、並列モデルから特徴量重み付けされた融合を使用して、画像の範囲にまたがる堅牢性を維持します。 daliidモデルは、ijb-s、tinyface、deepchange、msmt17を含む7つのベンチマークデータセットで、顔認識と人物再識別のための最先端(sota)を実現する。 また、750メートル以上の距離で再収集した評価データを提供し、さらに実際の遠方顔画像上で検証する。

In unconstrained scenarios, face recognition and person re-identification are subject to distortions such as motion blur, atmospheric turbulence, or upsampling artifacts. To improve robustness in these scenarios, we propose a methodology called Distortion-Adaptive Learned Invariance for Identification (DaliID) models. We contend that distortion augmentations, which degrade image quality, can be successfully leveraged to a greater degree than has been shown in the literature. Aided by an adaptive weighting schedule, a novel distortion augmentation is applied at severe levels during training. This training strategy increases feature-level invariance to distortions and decreases domain shift to unconstrained scenarios. At inference, we use a magnitude-weighted fusion of features from parallel models to retain robustness across the range of images. DaliID models achieve state-of-the-art (SOTA) for both face recognition and person re-identification on seven benchmark datasets, including IJB-S, TinyFace, DeepChange, and MSMT17. Additionally, we provide recaptured evaluation data at a distance of 750+ meters and further validate on real long-distance face imagery.
翻訳日:2023-02-14 18:42:19 公開日:2023-02-11
# 2型糖尿病におけるリスク予測モデルの文脈的説明による臨床評価

Informing clinical assessment by contextualizing post-hoc explanations of risk prediction models in type-2 diabetes ( http://arxiv.org/abs/2302.05752v1 )

ライセンス: Link先を確認
Shruthi Chari, Prasant Acharya, Daniel M. Gruen, Olivia Zhang, Elif K. Eyigoz, Mohamed Ghalwash, Oshani Seneviratne, Fernando Suarez Saiz, Pablo Meyer, Prithwish Chakraborty, Deborah L. McGuinness(参考訳) 医療専門家は、実践者がシステム推論を彼らの使用状況に結びつけるための文脈説明によって支援された場合、より信頼された人工知能(AI)システムを使用することができる。 しかしながら、モデルの使用と理解を改善することの重要性は、広く研究されていない。 そこで我々は,合併症リスク予測シナリオを考察し,患者の臨床状況,合併症リスクに関するAI予測,その予測を支援するアルゴリズム的説明に注目した。 臨床医の典型的疑問に答えるために,医療ガイドラインからそのような次元の関連情報を抽出する方法を検討する。 我々はこれを質問応答(QA)タスクとして識別し、リスク予測モデル推論に関する文脈を提示し、その受容性を評価する。 最後に、データコホーティング、aiリスクモデリング、ポストホックモデル説明を含むエンドツーエンドのaiパイプラインを構築し、異なるコンテキスト次元とデータソースからの洞察を組み合わせたビジュアルダッシュボードをプロトタイプ化し、慢性腎臓病のリスクの要因(一般的な2型糖尿病)を予測・識別する。 これらのステップはすべて、専門家の医療パネルによるダッシュボード結果の最終評価を含む、医療専門家と共同で実施された。 LLM,特にBERTおよびSciBERTは,臨床利用を支援するためのいくつかの関連説明を抽出するために容易に展開可能であることを示す。 文脈的説明の付加価値を理解するため、専門家パネルは、関連する臨床領域における実行可能な洞察について、これらを評価した。 本論文は,実世界における臨床応用事例における文脈説明の有効性と有用性を明らかにする最初のエンドツーエンド分析の1つである。

Medical experts may use Artificial Intelligence (AI) systems with greater trust if these are supported by contextual explanations that let the practitioner connect system inferences to their context of use. However, their importance in improving model usage and understanding has not been extensively studied. Hence, we consider a comorbidity risk prediction scenario and focus on contexts regarding the patients clinical state, AI predictions about their risk of complications, and algorithmic explanations supporting the predictions. We explore how relevant information for such dimensions can be extracted from Medical guidelines to answer typical questions from clinical practitioners. We identify this as a question answering (QA) task and employ several state-of-the-art LLMs to present contexts around risk prediction model inferences and evaluate their acceptability. Finally, we study the benefits of contextual explanations by building an end-to-end AI pipeline including data cohorting, AI risk modeling, post-hoc model explanations, and prototyped a visual dashboard to present the combined insights from different context dimensions and data sources, while predicting and identifying the drivers of risk of Chronic Kidney Disease - a common type-2 diabetes comorbidity. All of these steps were performed in engagement with medical experts, including a final evaluation of the dashboard results by an expert medical panel. We show that LLMs, in particular BERT and SciBERT, can be readily deployed to extract some relevant explanations to support clinical usage. To understand the value-add of the contextual explanations, the expert panel evaluated these regarding actionable insights in the relevant clinical setting. Overall, our paper is one of the first end-to-end analyses identifying the feasibility and benefits of contextual explanations in a real-world clinical use case.
翻訳日:2023-02-14 18:41:59 公開日:2023-02-11
# 一般活性化を伴う深部平衡モデルの大域収束速度

Global Convergence Rate of Deep Equilibrium Models with General Activations ( http://arxiv.org/abs/2302.05797v1 )

ライセンス: Link先を確認
Lan V. Truong(参考訳) 最近の論文では、LingらはReLU活性化による過度パラメータ化されたDeep Equilibrium Model (DEQ)を調査し、勾配勾配が二次損失関数の線形収束速度で大域最適解に収束することを証明した。 本稿では、第一導関数と第二導関数を持つ任意の一般活性化を持つdeqsに対して、この事実が依然として成り立つことを示す。 新しいアクティベーション関数は一般に非線形であるため、一般人口グラム行列を設計し、エルミート多項式展開による2重アクティベーションの新しい形式を開発する。

In a recent paper, Ling et al. investigated the over-parametrized Deep Equilibrium Model (DEQ) with ReLU activation and proved that the gradient descent converges to a globally optimal solution at a linear convergence rate for the quadratic loss function. In this paper, we show that this fact still holds for DEQs with any general activation which has bounded first and second derivatives. Since the new activation function is generally non-linear, a general population Gram matrix is designed, and a new form of dual activation with Hermite polynomial expansion is developed.
翻訳日:2023-02-14 18:34:50 公開日:2023-02-11
# 変異に基づくニューラルテキスト検出器の逆攻撃

Mutation-Based Adversarial Attacks on Neural Text Detectors ( http://arxiv.org/abs/2302.05794v1 )

ライセンス: Link先を確認
Gongbo Liang, Jesus Guerrero, Izzat Alsmadi(参考訳) ニューラルテキスト検出器は、人間のテキストとニューラル(機械生成)を区別する特徴を決定することを目的としている。 このような検出に挑戦するために、敵攻撃は生成されたテキストの統計的特性を変えることができ、検出タスクをますます難しくする。 ソフトウェア開発およびテストにおける突然変異解析の進歩に触発され,本論文では,逆数サンプルを生成するための文字・単語ベースの突然変異演算子を提案する。 これはホワイトボックスの敵攻撃に該当する。 このような攻撃では、攻撃者は原文にアクセスし、原文に基づいて突然変異インスタンスを作成する。 究極の目標は、機械学習モデルと分類器を混同し、予測精度を下げることである。

Neural text detectors aim to decide the characteristics that distinguish neural (machine-generated) from human texts. To challenge such detectors, adversarial attacks can alter the statistical characteristics of the generated text, making the detection task more and more difficult. Inspired by the advances of mutation analysis in software development and testing, in this paper, we propose character- and word-based mutation operators for generating adversarial samples to attack state-of-the-art natural text detectors. This falls under white-box adversarial attacks. In such attacks, attackers have access to the original text and create mutation instances based on this original text. The ultimate goal is to confuse machine learning models and classifiers and decrease their prediction accuracy.
翻訳日:2023-02-14 18:34:37 公開日:2023-02-11
# 分位流を伴う分布型グフローネット

Distributional GFlowNets with Quantile Flows ( http://arxiv.org/abs/2302.05793v1 )

ライセンス: Link先を確認
Dinghuai Zhang, Ling Pan, Ricky T. Q. Chen, Aaron Courville, Yoshua Bengio(参考訳) Generative Flow Networks (GFlowNets) は、エージェントが一連の意思決定ステップを通じて複雑な組合せ構造を生成する確率的ポリシーを学ぶ確率的サンプルの新たなファミリーである。 強化学習にインスパイアされたものの、現在のGFlowNetフレームワークの適用性は比較的限られており、報酬関数の確率性は扱えない。 本研究では,GFlowNetの分散パラダイムを採用し,各フロー関数を分散化し,学習中により情報的な学習信号を提供する。 各エッジフローを分位関数を通じてパラメータ化することにより,提案するgflownet学習アルゴリズムは,リスク不確実性を持つシナリオを扱う上で不可欠な,リスクに敏感なポリシを学習することができる。 さらに, 従来の手法と比較して, 決定論的報酬のある設定においても, 従来の手法と比較して, 分布的アプローチが大幅に改善できることが判明した。

Generative Flow Networks (GFlowNets) are a new family of probabilistic samplers where an agent learns a stochastic policy for generating complex combinatorial structure through a series of decision-making steps. Despite being inspired from reinforcement learning, the current GFlowNet framework is relatively limited in its applicability and cannot handle stochasticity in the reward function. In this work, we adopt a distributional paradigm for GFlowNets, turning each flow function into a distribution, thus providing more informative learning signals during training. By parameterizing each edge flow through their quantile functions, our proposed \textit{quantile matching} GFlowNet learning algorithm is able to learn a risk-sensitive policy, an essential component for handling scenarios with risk uncertainty. Moreover, we find that the distributional approach can achieve substantial improvement on existing benchmarks compared to prior methods due to our enhanced training algorithm, even in settings with deterministic rewards.
翻訳日:2023-02-14 18:34:24 公開日:2023-02-11
# 次元低減とMARS

Dimension Reduction and MARS ( http://arxiv.org/abs/2302.05790v1 )

ライセンス: Link先を確認
Degui Li, Yu Liu, Yingcun Xia(参考訳) 多変量適応回帰スプライン(MARS)は、非パラメトリック多変量回帰の一般的な推定方法の1つである。 しかし、MARSは境界スプラインに基づいてコヴァリエートの相互作用を組み込むため、境界スプラインの積を使わなければならないため、相互作用の順序が高ければ管理不能な基底関数の数が増加し、推定効率が低下する。 本稿では,十分次元削減を実現する共変数の線形結合を用いてMARSの性能を向上させる。 MARSの特殊基底関数は回帰関数の勾配の計算を容易にし、勾配の外部積の固有解析により線形結合の推定を行う。 いくつかの技術的条件下では,提案手法の漸近理論が確立されている。 シミュレーションと経験的応用の両方を含む数値的研究は、回帰推定と予測においてMARSや他の一般的な非パラメトリック法よりも次元の減少と改善に有効であることを示す。

The multivariate adaptive regression spline (MARS) is one of the popular estimation methods for nonparametric multivariate regressions. However, as MARS is based on marginal splines, to incorporate interactions of covariates, products of the marginal splines must be used, which leads to an unmanageable number of basis functions when the order of interaction is high and results in low estimation efficiency. In this paper, we improve the performance of MARS by using linear combinations of the covariates which achieve sufficient dimension reduction. The special basis functions of MARS facilitate calculation of gradients of the regression function, and estimation of the linear combinations is obtained via eigen-analysis of the outer-product of the gradients. Under some technical conditions, the asymptotic theory is established for the proposed estimation method. Numerical studies including both simulation and empirical applications show its effectiveness in dimension reduction and improvement over MARS and other commonly-used nonparametric methods in regression estimation and prediction.
翻訳日:2023-02-14 18:34:08 公開日:2023-02-11
# フェアネスを考慮したマルチビュークラスタリング

Fairness-aware Multi-view Clustering ( http://arxiv.org/abs/2302.05788v1 )

ライセンス: Link先を確認
Lecheng Zheng, Yada Zhu, Jingrui He(参考訳) ビッグデータの時代、私たちはしばしば、データの均一性とラベル情報の欠如という課題に直面しています。 金融分野(例えば不正検出)では、不均質なデータは、数値データ(例えば、合計負債や年収)だけでなく、テキストや画像(例えば、財務諸表や請求書画像)を含むことができる。 同時に、予測モデルを構築するためにラベル情報(例えば不正取引)が欠落している可能性がある。 これらの課題に対処するため、最先端のマルチビュークラスタリング手法が数多く提案され、優れた性能を達成している。 しかし、これらの手法は概して公平性を考慮せず、人種や性別などのセンシティブな情報を用いて偏見のある結果を生成する傾向にある。 そこで本稿では,fairmvcと呼ばれるフェアネス対応マルチビュークラスタリング手法を提案する。 グループフェアネス制約を各クラスタのソフトメンバーシップ割り当てに組み込んで、各クラスタ内の異なるグループの割合がデータセット全体とほぼ同一であることを保証する。 一方,コントラスト学習と非コントラスト学習という概念を採用し,データ不足やノイズのある複雑なシナリオにおいて異種データを扱うための新しい正規化器を提案する。 実世界のデータセットにおける実験結果は,提案フレームワークの有効性と効率を示す。 また,様々なシナリオにおいて提案した正則化器の相対性能について考察する。

In the era of big data, we are often facing the challenge of data heterogeneity and the lack of label information simultaneously. In the financial domain (e.g., fraud detection), the heterogeneous data may include not only numerical data (e.g., total debt and yearly income), but also text and images (e.g., financial statement and invoice images). At the same time, the label information (e.g., fraud transactions) may be missing for building predictive models. To address these challenges, many state-of-the-art multi-view clustering methods have been proposed and achieved outstanding performance. However, these methods typically do not take into consideration the fairness aspect and are likely to generate biased results using sensitive information such as race and gender. Therefore, in this paper, we propose a fairness-aware multi-view clustering method named FairMVC. It incorporates the group fairness constraint into the soft membership assignment for each cluster to ensure that the fraction of different groups in each cluster is approximately identical to the entire data set. Meanwhile, we adopt the idea of both contrastive learning and non-contrastive learning and propose novel regularizers to handle heterogeneous data in complex scenarios with missing data or noisy features. Experimental results on real-world data sets demonstrate the effectiveness and efficiency of the proposed framework. We also derive insights regarding the relative performance of the proposed regularizers in various scenarios.
翻訳日:2023-02-14 18:33:52 公開日:2023-02-11
# 密度推定・データ合成・変分推定のための微分プライベート正規化フローと電子健康記録への応用

Differentially Private Normalizing Flows for Density Estimation, Data Synthesis, and Variational Inference with Application to Electronic Health Records ( http://arxiv.org/abs/2302.05787v1 )

ライセンス: Link先を確認
Bingyue Su, Yu Wang, Daniele E. Schiavazzi and Fang Liu(参考訳) 電子健康記録(EHR)は、個々の患者に関する機密医療情報を含んでおり、下流の学習や推論タスクのためのEHRデータの共有や公開に重大な制限を課している。 我々は, 差分プライバシ(DP)保証付きデータセットの確率密度を推定するために, 深部生成モデルのファミリーである正規化フロー(NF)を用いて, プライバシ保存合成データを生成する。 本手法を肺高血圧症患者を含むehrデータセットに適用する。 物理モデルを用いて,高血圧状態の予測とパラメータの変動後分布の精度を比較することで,合成データの学習と推論の有用性を評価する。 さらに、非線形モデルからのシミュレーションデータセットを用いて、プライバシ保存合成データに基づく変動推論(VI)の結果と、元の非プライベートデータセットが与えられた場合のDP保証により、VIのNFを直接民営化するプライバシー保護VIとを比較した。 その結果,nfを用いた差動プライベート密度推定によって生成された合成データは,適切なプライバシコストで有用性が得られることが示唆された。 また,自由エネルギー境界損失に基づく微分プライベートnfから得られたviは相関構造が著しく変化した変分近似を生じさせる可能性を示し,二つの分布間の相異性指標に基づく損失定式化が改善することを示した。

Electronic health records (EHR) often contain sensitive medical information about individual patients, posing significant limitations to sharing or releasing EHR data for downstream learning and inferential tasks. We use normalizing flows (NF), a family of deep generative models, to estimate the probability density of a dataset with differential privacy (DP) guarantees, from which privacy-preserving synthetic data are generated. We apply the technique to an EHR dataset containing patients with pulmonary hypertension. We assess the learning and inferential utility of the synthetic data by comparing the accuracy in the prediction of the hypertension status and variational posterior distribution of the parameters of a physics-based model. In addition, we use a simulated dataset from a nonlinear model to compare the results from variational inference (VI) based on privacy-preserving synthetic data, and privacy-preserving VI obtained from directly privatizing NFs for VI with DP guarantees given the original non-private dataset. The results suggest that synthetic data generated through differentially private density estimation with NF can yield good utility at a reasonable privacy cost. We also show that VI obtained from differentially private NF based on the free energy bound loss may produce variational approximations with significantly altered correlation structure, and loss formulations based on alternative dissimilarity metrics between two distributions might provide improved results.
翻訳日:2023-02-14 18:33:30 公開日:2023-02-11
# ConCerNet: 自動保存法発見と信頼できる動的システム予測のためのコントラスト学習ベースのフレームワーク

ConCerNet: A Contrastive Learning Based Framework for Automated Conservation Law Discovery and Trustworthy Dynamical System Prediction ( http://arxiv.org/abs/2302.05783v1 )

ライセンス: Link先を確認
Wang Zhang, Tsui-Wei Weng, Subhro Das, Alexandre Megretski, Luca Daniel, Lam M. Nguyen(参考訳) ディープ・ニューラル・ネットワーク(dnn)は力学系をモデル化する能力が非常に高いが、保存則などの物理学上の制約に従わない。 本稿では,DNNに基づく動的モデリングの信頼性を向上させるために,ConCerNetという新しい学習フレームワークを提案する。 ConCerNetは2つのステップから構成される。 一 軌跡観察に沿ったシステム不変量(すなわち保存特性)を自動的に把握するための対照的な学習方法 (ii)学習力学モデルが学習不変量を保存することを保証するための神経投射層。 理論的には、学習した潜在表現と未知系の不変関数との関数関係を証明している。 実験の結果,提案手法は座標誤差と保存量の両方において,ベースラインニューラルネットワークよりも高い性能を示すことがわかった。 ニューラルネットワークに基づくパラメータ化と事前知識に依存しないので、オートエンコーダを利用することで、我々の手法は複雑で大規模に動的に拡張できる。

Deep neural networks (DNN) have shown great capacity of modeling a dynamical system; nevertheless, they usually do not obey physics constraints such as conservation laws. This paper proposes a new learning framework named ConCerNet to improve the trustworthiness of the DNN based dynamics modeling to endow the invariant properties. ConCerNet consists of two steps: (i) a contrastive learning method to automatically capture the system invariants (i.e. conservation properties) along the trajectory observations; (ii) a neural projection layer to guarantee that the learned dynamics models preserve the learned invariants. We theoretically prove the functional relationship between the learned latent representation and the unknown system invariant function. Experiments show that our method consistently outperforms the baseline neural networks in both coordinate error and conservation metrics by a large margin. With neural network based parameterization and no dependence on prior knowledge, our method can be extended to complex and large-scale dynamics by leveraging an autoencoder.
翻訳日:2023-02-14 18:33:03 公開日:2023-02-11
# 財政難における自治体の予測--専門知識の強化による機械学習アプローチ

Predicting municipalities in financial distress: a machine learning approach enhanced by domain expertise ( http://arxiv.org/abs/2302.05780v1 )

ライセンス: Link先を確認
Dario Piermarini, Antonio M. Sudoso, Veronica Piccialli(参考訳) 民間企業の倒産に匹敵する自治体の財政難は、コミュニティの健全性に深刻な影響を及ぼす。 そのため、できるだけ早く赤字を検出することが不可欠である。 市町村の財政難の予測は、市町村の財政状況に影響を及ぼす幅広い要因を理解することを含む複雑な作業である。 本稿では,イタリアの自治体における財政難予測のための機械学習モデルの評価を行う。 会計学の専門家は、自治体の財務実績を評価するための専門知識と経験を持ち、財務指標や一般指標を用いて評価を行う。 これらの指標を特徴抽出プロセスに組み込むことで、予測モデルが自治体の財政健全性に関連する幅広い情報を考慮していることを保証することができる。 本研究の結果は、機械学習モデルと会計専門家の知識を組み合わせることで、地方自治体の金融危機の早期発見に役立てることができ、その地域社会のより良い結果をもたらすことが示唆された。

Financial distress of municipalities, although comparable to bankruptcy of private companies, has a far more serious impact on the well-being of communities. For this reason, it is essential to detect deficits as soon as possible. Predicting financial distress in municipalities can be a complex task, as it involves understanding a wide range of factors that can affect a municipality's financial health. In this paper, we evaluate machine learning models to predict financial distress in Italian municipalities. Accounting judiciary experts have specialized knowledge and experience in evaluating the financial performance of municipalities, and they use a range of financial and general indicators to make their assessments. By incorporating these indicators in the feature extraction process, we can ensure that the predictive model is taking into account a wide range of information that is relevant to the financial health of municipalities. The results of this study indicate that using machine learning models in combination with the knowledge of accounting judiciary experts can aid in the early detection of financial distress in municipalities, leading to better outcomes for the communities they serve.
翻訳日:2023-02-14 18:32:48 公開日:2023-02-11
# 微調整のためのタスクヘッドの用意方法

How to prepare your task head for finetuning ( http://arxiv.org/abs/2302.05779v1 )

ライセンス: Link先を確認
Yi Ren, Shangmin Guo, Wonho Bae, Danica J. Sutherland(参考訳) ディープラーニングでは、事前訓練されたネットワークから微調整による下流タスクへの情報転送には多くの利点がある。 タスクヘッドの選択は、事前訓練されたタスクと下流タスクが通常異なるため、微調整において重要な役割を果たす。 ファインタニングには様々な設計があるが、これらのアルゴリズムがいつ、なぜ機能するのかが完全に理解されている。 タスクヘッドの選択が特徴適応をどのように制御し、従って下流のパフォーマンスに影響を及ぼすかを分析する。 適応の学習力学を分解することにより、重要な側面は微調整の開始時の訓練精度と損失であり、特徴の適応に利用可能な「エネルギー」を決定する。 我々は,この初期エネルギーの変化が微調整後の特徴に与える影響の顕著な傾向を明らかにした。 具体的には、エネルギーが増加するにつれて、結果として得られる特徴と元の特徴の間のユークリッドと余弦距離が増加し、ドット積(および結果として生じる特徴のノルム)が最初に増加し、減少する。 これに触発されて、下流のパフォーマンスを改善するための実践的な原則をいくつか提供します。 この傾向を超並列線形設定で解析的に証明し, 異なる実験環境に適用可能であることを検証した。

In deep learning, transferring information from a pretrained network to a downstream task by finetuning has many benefits. The choice of task head plays an important role in fine-tuning, as the pretrained and downstream tasks are usually different. Although there exist many different designs for finetuning, a full understanding of when and why these algorithms work has been elusive. We analyze how the choice of task head controls feature adaptation and hence influences the downstream performance. By decomposing the learning dynamics of adaptation, we find that the key aspect is the training accuracy and loss at the beginning of finetuning, which determines the "energy" available for the feature's adaptation. We identify a significant trend in the effect of changes in this initial energy on the resulting features after fine-tuning. Specifically, as the energy increases, the Euclidean and cosine distances between the resulting and original features increase, while their dot products (and the resulting features' norm) first increase and then decrease. Inspired by this, we give several practical principles that lead to better downstream performance. We analytically prove this trend in an overparamterized linear setting and verify its applicability to different experimental settings.
翻訳日:2023-02-14 18:32:32 公開日:2023-02-11
# Magic Moments: John Bell氏とのコラボレーション

Magic Moments: A Collaboration with John Bell ( http://arxiv.org/abs/2302.05777v1 )

ライセンス: Link先を確認
R. A. Bertlmann(参考訳) ジョン・s・ベル(john s. bell)といっしょに過ごした時間、コラボレーションと友情の雰囲気を印象づけたい。 重クォーク-反クォーク境界状態の性質を計算するため、量子場理論に対する非相対論的近似の方法について簡単に検討する。

I want to give an impression of the time I spent together with John S. Bell, of the atmosphere of our collaboration and friendship. I briefly review our work, the methods of nonrelativistic approximations to quantum field theory for calculating the properties of heavy quark-antiquark bound states.
翻訳日:2023-02-14 18:32:14 公開日:2023-02-11
# シナプス・ストリッピング:刈り取りが死んだ神経細胞を生き返らせる方法

Synaptic Stripping: How Pruning Can Bring Dead Neurons Back To Life ( http://arxiv.org/abs/2302.05818v1 )

ライセンス: Link先を確認
Tim Whitaker, Darrell Whitley(参考訳) Rectified Linear Units (ReLU)は、ディープニューラルネットワークにおけるアクティベーション関数のデフォルト選択である。 優れた経験的性能を示すが、ReLUの活性化は致命的な神経細胞の障害を負う可能性がある。 これらの場合、ニューロンに供給される重みは、全ての入力に対してニューロンがゼロを出力する状態へと押し込まれる。 したがって、全ての入力に対して勾配はゼロであり、ニューロンに供給される重みは更新できない。 ニューロンは直接のバック伝播から回復できず、それらのパラメータがこれ以上最適化されなくなるため、モデル容量は減少する。 同じ名前の神経学的プロセスに触発されて、この死んだニューロンの問題に対処する手段としてシナプス切断を導入する。 トレーニング中に問題のある接続を自動的に取り除くことで、デッドニューロンを再生し、モデルの容量とパラメトリック利用を大幅に改善することができる。 シナプスストリッピングは実装が容易であり、そこから得られる高密度ネットワークよりも効率の良いスパースネットワークが得られる。 ネットワーク幅と深さの関数としてこれらのダイナミクスを調べるため、いくつかのアブレーション研究を行い、様々なベンチマークデータセット上で視覚トランスフォーマーを用いたシナプスストリップの探索を行った。

Rectified Linear Units (ReLU) are the default choice for activation functions in deep neural networks. While they demonstrate excellent empirical performance, ReLU activations can fall victim to the dead neuron problem. In these cases, the weights feeding into a neuron end up being pushed into a state where the neuron outputs zero for all inputs. Consequently, the gradient is also zero for all inputs, which means that the weights which feed into the neuron cannot update. The neuron is not able to recover from direct back propagation and model capacity is reduced as those parameters can no longer be further optimized. Inspired by a neurological process of the same name, we introduce Synaptic Stripping as a means to combat this dead neuron problem. By automatically removing problematic connections during training, we can regenerate dead neurons and significantly improve model capacity and parametric utilization. Synaptic Stripping is easy to implement and results in sparse networks that are more efficient than the dense networks they are derived from. We conduct several ablation studies to investigate these dynamics as a function of network width and depth and we conduct an exploration of Synaptic Stripping with Vision Transformers on a variety of benchmark datasets.
翻訳日:2023-02-14 18:25:41 公開日:2023-02-11
# 大規模言語モデルによるレベル生成

Level Generation Through Large Language Models ( http://arxiv.org/abs/2302.05817v1 )

ライセンス: Link先を確認
Graham Todd, Sam Earle, Muhammad Umair Nasir, Michael Cerny Green, Julian Togelius(参考訳) 大規模な言語モデル(llm)は強力なツールであり、自然言語のトレーニングを活用してストーリーを書き、コードを生成し、質問に答えることができる。 しかし、彼らは機能的なビデオゲームレベルを生成できるだろうか? 複雑な機能的制約と1次元以上の空間的関係を持つゲームレベルは、LLMがトレーニング中に一般的に見るデータの種類とは大きく異なる。 ゲームレベルのデータセットも難しいため、これらのデータ格納モデルの能力に課税される可能性がある。 我々は,ゲーム sokoban のレベルを生成するための llms の使用について検討し,llm が実際に実現可能であり,その性能はデータセットサイズとともに劇的に向上することを確認した。 また,LLMレベルジェネレータの制御に関する予備実験を行い,今後の課題について検討する。

Large Language Models (LLMs) are powerful tools, capable of leveraging their training on natural language to write stories, generate code, and answer questions. But can they generate functional video game levels? Game levels, with their complex functional constraints and spatial relationships in more than one dimension, are very different from the kinds of data an LLM typically sees during training. Datasets of game levels are also hard to come by, potentially taxing the abilities of these data-hungry models. We investigate the use of LLMs to generate levels for the game Sokoban, finding that LLMs are indeed capable of doing so, and that their performance scales dramatically with dataset size. We also perform preliminary experiments on controlling LLM level generators and discuss promising areas for future work.
翻訳日:2023-02-14 18:25:22 公開日:2023-02-11
# グローバル収束保証を伴う確率的最適制御問題に対するポリシー勾配フレームワーク

A Policy Gradient Framework for Stochastic Optimal Control Problems with Global Convergence Guarantee ( http://arxiv.org/abs/2302.05816v1 )

ライセンス: Link先を確認
Mo Zhou, Jianfeng Lu(参考訳) 本研究では,連続時間における確率的最適制御問題と,それを解決するための政策勾配法について考察する。 特に, 政策勾配の連続時間限界として, 制御のための勾配流れを考察した。 勾配流のグローバル収束を証明し、一定の正則性仮定の下で収束率を確立する。 解析における主な新規性は局所最適制御関数の概念であり、反復体の局所最適性を比較するために導入された。

In this work, we consider the stochastic optimal control problem in continuous time and a policy gradient method to solve it. In particular, we study the gradient flow for the control, viewed as a continuous time limit of the policy gradient. We prove the global convergence of the gradient flow and establish a convergence rate under some regularity assumptions. The main novelty in the analysis is the notion of local optimal control function, which is introduced to compare the local optimality of the iterate.
翻訳日:2023-02-14 18:25:10 公開日:2023-02-11
# シリコンにおける放射誘起原子障害の量子エミッタ形成ダイナミクスと探索

Quantum emitter formation dynamics and probing of radiation induced atomic disorder in silicon ( http://arxiv.org/abs/2302.05814v1 )

ライセンス: Link先を確認
Wei Liu and Vsevolod Ivanov and Kaushalya Jhuria and Qing Ji and Arun Persaud and Walid Redjem and Jacopo Simoni and Yertay Zhiyenbayev and Boubacar Kante and Javier Garcia Lopez and Liang Z. Tan and Thomas Schenkel(参考訳) シリコンの近赤外線色中心は、オンチップ集積量子エミッタ、光アクセス量子メモリ、センシングの候補となる。 我々は、一連のMeVプロトンフラックス条件に対して、シリコン中のアンサンブルG色中心形成ダイナミクスと放射誘起原子障害にアクセスする。 光ルミネッセンスの結果、G中心は連続波プロトン照射よりもパルスプロトン照射によりより効率的に形成されることが明らかとなった。 ナノ秒内の過渡的励起と動的アニールにより、g中心の形成と非放射的欠陥の蓄積の比率を最適化できる。 G中心は、中程度のパルスプロトンフルエンスによって生成されると0.1nmの狭い線幅を保ち、一方、パルスプロトンフルエンスの増加とともに線幅は著しく広がる。 これは重なり合う衝突カスケードによる空白/間欠的クラスタリングを意味する。 一連の照射条件下でのG中心特性の追跡は、損傷の蓄積を検知するための補足的な分析方法として、原子障害の感度の高い探査を可能にする。 電子構造計算を${\it ab}$$${\it initio}$で支援することで、g中心付近に空洞とシリコン間質を導入することで、原子障害によって引き起こされる不均質な広化についての洞察を与える。 空孔は引張ひずみを引き起こし、G中心に対する位置に依存するため、G中心放出の赤方偏移または青方偏移をもたらす。 一方、Si中間体は圧縮ひずみを生じ、単調な赤方偏移をもたらす。 高フラックスと波長可変イオンパルスは、放射線誘起欠陥の基本的なダイナミクスの探求と、量子情報処理のための欠陥工学と量子ビット合成の方法を可能にする。

Near infrared color centers in silicon are emerging candidates for on-chip integrated quantum emitters, optical access quantum memories and sensing. We access ensemble G color center formation dynamics and radiation-induced atomic disorder in silicon for a series of MeV proton flux conditions. Photoluminescence results reveal that the G-centers are formed more efficiently by pulsed proton irradiation than continuous wave proton irradiation. The enhanced transient excitations and dynamic annealing within nanoseconds allows optimizing the ratio of G-center formation to nonradiative defect accumulation. The G-centers preserve narrow linewidths of about 0.1 nm when they are generated by moderate pulsed proton fluences, while the linewidth broadens significantly as the pulsed proton fluence increases. This implies vacancy/interstitial clustering by overlapping collision cascades. Tracking G-center properties for a series of irradiation conditions enables sensitive probing of atomic disorder, serving as a complimentary analytical method for sensing damage accumulation. Aided by ${\it ab}$ ${\it initio}$ electronic structure calculations, we provide insight into the atomic disorder-induced inhomogeneous broadening by introducing vacancies and silicon interstitials in the vicinity of a G-center. A vacancy leads to a tensile strain and can result in either a redshift or blueshift of the G-center emission, depending on its position relative to the G-center. Meanwhile, Si interstitials lead to compressive strain, which results in a monotonic redshift. High flux and tunable ion pulses enable the exploration of fundamental dynamics of radiation-induced defects as well as methods for defect engineering and qubit synthesis for quantum information processing.
翻訳日:2023-02-14 18:25:02 公開日:2023-02-11
# イントロスペクティブ・セルフプレイによる精度グループロバストネスフロンティアのプッシュ

Pushing the Accuracy-Group Robustness Frontier with Introspective Self-play ( http://arxiv.org/abs/2302.05807v1 )

ライセンス: Link先を確認
Jeremiah Zhe Liu, Krishnamurthy Dj Dvijotham, Jihyeon Lee, Quan Yuan, Martin Strobel, Balaji Lakshminarayanan, Deepak Ramachandran(参考訳) 標準経験的リスク最小化(ERM)トレーニングは、特に長い尾のトレーニングデータに不均衡なグループ分布が存在する場合、平均では正確だが、人口サブグループでは性能の低いディープニューラルネットワーク(DNN)モデルを生成することができる。 したがって、DNNモデルの精度群ロバスト性トレードオフフロンティア(すなわち、平均精度を犠牲にすることなく最悪のグループ精度を改善すること)を改善するアプローチが重要である。 不確実性に基づくアクティブラーニング(al)は、低表現のサブグループを優先的にサンプリングし、よりバランスのとれたトレーニングデータセットを作成することで、フロンティアを改善する可能性がある。 しかしながら、現代のdnnから推定される不確実性の品質は、スプリアス相関とデータセットバイアスの存在下で低下する傾向にあり、サンプルテールグループに対するalの有効性を損なう。 本研究では,データセットバイアス下でのディープニューラルネットワークの不確実性評価を改善するための単純なアプローチであるイントロスペクティブ・セルフプレイ(ISP)を提案し,ラベルに加えて各データポイントのバイアスを予測するためにモデルを必要とする補助的イントロスペクティブタスクを追加する。 ISPはモデル表現のバイアス認識と結果の不確実性評価を確実に改善することを示す。 実世界の2つの表と言語タスクにおいて、ISPはALモデルのトレーニングのための単純な"プラグイン"として機能し、テールグループサンプリング率と一般的なALメソッドの最終的な正確性トレードオフフロンティアの両方を一貫して改善する。

Standard empirical risk minimization (ERM) training can produce deep neural network (DNN) models that are accurate on average but under-perform in under-represented population subgroups, especially when there are imbalanced group distributions in the long-tailed training data. Therefore, approaches that improve the accuracy-group robustness trade-off frontier of a DNN model (i.e. improving worst-group accuracy without sacrificing average accuracy, or vice versa) is of crucial importance. Uncertainty-based active learning (AL) can potentially improve the frontier by preferentially sampling underrepresented subgroups to create a more balanced training dataset. However, the quality of uncertainty estimates from modern DNNs tend to degrade in the presence of spurious correlations and dataset bias, compromising the effectiveness of AL for sampling tail groups. In this work, we propose Introspective Self-play (ISP), a simple approach to improve the uncertainty estimation of a deep neural network under dataset bias, by adding an auxiliary introspection task requiring a model to predict the bias for each data point in addition to the label. We show that ISP provably improves the bias-awareness of the model representation and the resulting uncertainty estimates. On two real-world tabular and language tasks, ISP serves as a simple "plug-in" for AL model training, consistently improving both the tail-group sampling rate and the final accuracy-fairness trade-off frontier of popular AL methods.
翻訳日:2023-02-14 18:24:33 公開日:2023-02-11
# TPE-Net:レールパス提案生成のためのトラックポイント抽出とアソシエーションネットワーク

TPE-Net: Track Point Extraction and Association Network for Rail Path Proposal Generation ( http://arxiv.org/abs/2302.05803v1 )

ライセンス: Link先を確認
Jungwon Kang, Mohammadjavad Ghorbanalivakili, Gunho Sohn, David Beach, and Veronica Marin(参考訳) 自律列車の重要な特徴の1つは、サードパーティの物体との衝突リスクを最小化することである。 リスクを見積もるために、制御システムは、特に合併または分岐するレール内で、列車が移動可能な全ての鉄道ルートの位相情報を識別する必要がある。 このようにして、列車は経路に関する潜在的な障害の状況を把握し、時間的に決定することができる。 多数の研究が、要素のインスタンスを考慮せずに、前方の画像全体から全ての線路を抽出した。 それでも、画像ベースの手法では、3dデータ上の鉄道形状の事前知識をハードコードし、左側のレールを関連付けて鉄道路線インスタンスを生成する方法もある。 しかし,tpe-netと呼ばれる完全畳み込みエンコーダ・デコーダアーキテクチャにより,各線路インスタンスの左レール画素を抽出・関連付けるレールパス抽出パイプラインを提案する。 TPE-Netの2つの異なる回帰枝は、各路線の中央点の位置を、対応する左右の画素と共に回帰するために提案されている。 抽出されたレールピクセルは空間的にクラスタ化され、すべての列車経路(エゴパス)のトポロジー情報を生成し、非エゴパス経路を破棄する。 挑戦的な公開ベンチマークの実験結果は、それぞれ0.9207と0.8721の真正画素平均精度とリコールを1秒あたり12フレーム程度で示した。 評価結果はSOTAよりは高くないが,提案した回帰パイプラインは,一度画像を見て対応を抽出する上で顕著に機能する。 カメラパラメータや3Dデータ、幾何学的制約に依存することなく、強力な鉄道経路仮説を生成する。

One essential feature of an autonomous train is minimizing collision risks with third-party objects. To estimate the risk, the control system must identify topological information of all the rail routes ahead on which the train can possibly move, especially within merging or diverging rails. This way, the train can figure out the status of potential obstacles with respect to its route and hence, make a timely decision. Numerous studies have successfully extracted all rail tracks as a whole within forward-looking images without considering element instances. Still, some image-based methods have employed hard-coded prior knowledge of railway geometry on 3D data to associate left-right rails and generate rail route instances. However, we propose a rail path extraction pipeline in which left-right rail pixels of each rail route instance are extracted and associated through a fully convolutional encoder-decoder architecture called TPE-Net. Two different regression branches for TPE-Net are proposed to regress the locations of center points of each rail route, along with their corresponding left-right pixels. Extracted rail pixels are then spatially clustered to generate topological information of all the possible train routes (ego-paths), discarding non-ego-path ones. Experimental results on a challenging, publicly released benchmark show true-positive-pixel level average precision and recall of 0.9207 and 0.8721, respectively, at about 12 frames per second. Even though our evaluation results are not higher than the SOTA, the proposed regression pipeline performs remarkably in extracting the correspondences by looking once at the image. It generates strong rail route hypotheses without reliance on camera parameters, 3D data, and geometrical constraints.
翻訳日:2023-02-14 18:24:04 公開日:2023-02-11
# ランダムテンソル理論による直交テンソルデフレの最適化

Optimizing Orthogonalized Tensor Deflation via Random Tensor Theory ( http://arxiv.org/abs/2302.05798v1 )

ライセンス: Link先を確認
Mohamed El Amine Seddik, Mohammed Mahfoud, Merouane Debbah(参考訳) 本稿では、ランダムノイズテンソルやいわゆるスパイクテンソルモデルから相関成分を持つ低ランク信号テンソルを復元する問題に取り組む。 基底成分が直交する場合には、次数 1 の近似からなるテンソルデフレレーションを用いて効率的に回復することができるが、非直交成分はテンソルデフレ機構を変化させて効率のよい回復を防止することができる。 本稿では,最近開発されたランダムテンソルツールを用いて,次数3および階数2のスパイクテンソル上で行うパラメータ化デフレ手順の漸近解析を導出することにより,非直交の場合を正確に扱う。 この解析に基づき、デフレ機構に導入されたパラメータを最適化することにより、効率的なテンソルデフレ化アルゴリズムが提案され、解析されたテンソルモデルの構成により最適であることが証明された。 同じ考え方はより一般的な低ランクテンソルモデル(例えば、より高いランクと順序)にまで拡張され、より効率的なテンソル手法となり、機械学習などに大きな影響を及ぼす。

This paper tackles the problem of recovering a low-rank signal tensor with possibly correlated components from a random noisy tensor, or so-called spiked tensor model. When the underlying components are orthogonal, they can be recovered efficiently using tensor deflation which consists of successive rank-one approximations, while non-orthogonal components may alter the tensor deflation mechanism, thereby preventing efficient recovery. Relying on recently developed random tensor tools, this paper deals precisely with the non-orthogonal case by deriving an asymptotic analysis of a parameterized deflation procedure performed on an order-three and rank-two spiked tensor. Based on this analysis, an efficient tensor deflation algorithm is proposed by optimizing the parameter introduced in the deflation mechanism, which in turn is proven to be optimal by construction for the studied tensor model. The same ideas could be extended to more general low-rank tensor models, e.g., higher ranks and orders, leading to more efficient tensor methods with a broader impact on machine learning and beyond.
翻訳日:2023-02-14 18:23:37 公開日:2023-02-11